关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者2653人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

市价不到两百的护眼灯校园采购价却达七八百 媒体调查

澎湃新闻 浏览 21115

传祺向往S9正式上市,22.99万起就能入手

车扯 浏览 3548

64岁关之琳现身南京眼镜店,与老板娘喝下午茶

涵豆说娱 浏览 2921

委内瑞拉下令搜捕美国侵略支持者

澎湃新闻 浏览 1778

特朗普证实美国不会向加沙地带派遣地面部队

新京报 浏览 2667

终结5连败!鲍威尔24分热火力克篮网 热巴8+17小波特28分

醉卧浮生 浏览 1954

降入20万价格区间 曝廉价版特斯拉即将国产

车质网 浏览 2851

有消息称“美军战机系被友军误击”

南方都市报 浏览 900

1499元飞天茅台上线“秒空”,茅台金融属性退潮是伪命题吗?

郭施亮 浏览 1812

"鸡排哥"在座谈会上发言 被指"讲出了6亿项目的气魄"

扬子晚报 浏览 39306

《侍神令》亏了6.1亿,沉寂4年,陈坤新片又来了,票房仅3.7万

靠谱电影君 浏览 2695

女子毕业24年后起诉母校多收4000元学费 要求退一赔十

大风新闻 浏览 19637

陶虹与朋友相聚,17岁女儿五官与神态似徐峥

黔乡小姊妹 浏览 2025

双向奔赴!澳优乳业再度携手江南大学 为营养健康行业发展注入创新动能

中国商报 浏览 2807

科学家开发“神经蠕虫”,实现颅内电极游走模式

DeepTech深科技 浏览 3623

男子花3万多网购2400克银条空欢喜 付款次日店铺清空

红星新闻 浏览 16809

长沙女子双节返程 发现母亲在大米里藏了1000元现金

潇湘晨报 浏览 3921

AI里的明争暗斗:马斯克的甜言蜜语,和我们20%的胜率

一点财经 浏览 1437

乌克兰一地遭俄军无人机密集袭击 基辅实施紧急停电

每日经济新闻 浏览 1645

50+姐姐冬季穿搭别“作妖”,4个法则穿得简约高级,时髦极了

静儿时尚达人 浏览 2105

搭载VLA大模型 魏牌全新蓝山智能进阶版年内上市

网易汽车 浏览 2142
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1