关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者786人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

伊周周六热推:电视剧《繁花》、综艺《最强大脑11》......

伊周潮流 浏览 13454

小伙提醒醉酒房客小声点遭踹门闯入殴打 警方认定互殴

上游新闻 浏览 76536

91岁台湾男星跌倒头部血流如注!患前列腺癌暴瘦40斤坐轮椅现身

娱乐白名单 浏览 10480

发投入同比“八连增”,贝壳Q3财报研发投入增长13.2%

市值Observation 浏览 625

郭晶晶指挥全家滑雪孩子像奶奶 78岁霍震霆成跟班

扒圈818 浏览 12712

成功冲乙,厦门壹零贰陆主帅:厦门是一座有足球底蕴的城市

懂球帝 浏览 1035

麻生太郎叫嚣:虽遭中国方面各种指责 但这样恰到好处

环球网资讯 浏览 30457

五粮液能“平替”茅台?

虎嗅APP 浏览 17128

山东济宁一商家芒果礼盒藏试卷、课本 商家回应

极目新闻 浏览 1478

拜登访基辅期间 俄试射“萨尔马特”洲际弹道导弹

环球网资讯 浏览 19085

俄外交部召见摩尔多瓦驻俄大使表示抗议

界面新闻 浏览 12565

王传福的眼泪为谁而流

经济观察报 浏览 14724

分析师:苹果需要收购迪士尼,才能让MR头显获得成功

财联社 浏览 16776

2.9T V6插混 全新一代奥迪RS 6谍照曝光

车质网 浏览 1470

美国没有就其无人机在黑海上空坠毁向俄寻求道歉

环球网资讯 浏览 19480

甘肃地震亲历者:亲戚里有老人小孩去世 有人放弃逃跑

潇湘晨报 浏览 74153

俄国防部:乌军大规模进攻又被击退 北约坦克被摧毁

环球网资讯 浏览 16629

港星郭晋安近照曝光,开店卖保健品身家已过亿?

Lu路先森 浏览 16308

女子信男子是"神仙"陪睡数月为老公治病 还让他住进家

汉史趣闻 浏览 63037

达拉博纳:本以为托纳利会成为米兰旗帜,马尔蒂尼永远不会卖他

直播吧 浏览 15463

达芙妮们,都想成为南极电商

斑马消费 浏览 14447
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1