关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者771人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

对话张明霞:闪光的她,有趣的灵魂表里如一

网易汽车 浏览 12003

微软OneDrive AI人脸识别功能引争议:每年仅允许用户关闭三次

IT之家 浏览 966

曝古二家人被骚扰!90多岁外婆被人找上门,难怪放录音重锤王家卫

萌神木木 浏览 686

美军在加勒比地区袭击船只致6人死亡 包括两名特多公民

环球网资讯 浏览 921

网友晒贾玲杨紫错位图 仿佛贾玲坐在杨紫腿上

网易娱乐 浏览 26440

舞台交给年轻人,詹姆斯仅出战上半场,10中4得到8分4板3助

懂球帝 浏览 12500

开启新赛季,迈阿密国际全队启程前往萨尔瓦多参加首场热身赛

懂球帝 浏览 12502

美媒为联盟防守球员分档:文班独1档 AD3档 詹杜10档 库里未入榜

颜小白的篮球梦 浏览 1587

2023年十大烂剧 王志文一人占俩?

盖饭人物 浏览 16939

张丹峰洪欣离婚后续:儿子改母姓 洪欣露面状态好

叶公子 浏览 18626

星光730灵犀动力获中汽中心高品质混动认证等奖项

网易汽车 浏览 702

NBA全明星首发名单公布,哈登与利拉德无缘东西部首发

趣看热点 浏览 25364

年轻人愿为颜值买单,全新一代传祺GS8并不想靠外观圈钱

车市红点 浏览 20085

从对手到盟友,刘强东王兴联手要“联吴抗曹”?

BT财经 浏览 814

奥迪A8L和雷克萨斯LS或无后续全尺寸轿车接班!

凡兮说 浏览 696

巴勒斯坦新男模出道 被Bella Hadid认干弟弟

下水道男孩 浏览 16704

里程碑,克莱三分9中4得到24分,生涯三分命中数升至历史第九

懂球帝 浏览 12932

滴滴代驾在全国240城落地“伴夜食堂”

网易科技报道 浏览 12943

泽连斯基为与俄方和谈开条件:先恢复1991年边界

每日经济新闻 浏览 15360

男子身穿"醋瓶子"跑马拉松成全场"显眼包" 本人回应

极目新闻 浏览 22440

美否决全球最大光伏电站之一 特朗普曾称全球变暖是骗局

澎湃新闻 浏览 1061
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1