关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者2576人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

网络安全AI说丨警惕U盘里的“不速之客”

海外网 浏览 3073

马斯克:比尔盖茨最好尽快平掉特斯拉空头头寸

鞭牛士 浏览 2240

山东99-75宁波3喜1忧!高诗岩陈林坚太关键,王证神射,2外出隐患

篮球资讯达人 浏览 1565

预售13-15万元 北京现代EO羿欧将于10月29日上市

网易汽车 浏览 2809

辽宁U18男足点球5-4战胜山东U18男足,夺得全运会冠军

懂球帝 浏览 2553

平台终端双落地,河南移动数智赋能低空经济产业园

大象新闻 浏览 3235

35岁男子回乡"崖下洞居" 创业失败家里没房欠银行35万

封面新闻 浏览 15076

律所主任疑"借款"9亿失联 客户有上百人最年长者88岁

界面新闻 浏览 6106

广发证券:本轮港股春季躁动会缺席吗?

智通财经 浏览 2093

猛龙7人上双四杀老鹰:巴恩斯18+8+10 杰伦13+14+7+6失误

醉卧浮生 浏览 1794

微信不敢加的功能,腾讯把它塞进了这个新App里。

差评XPIN 浏览 1575

芬兰总统谈俄乌停火:美国“有利可图”

上观新闻 浏览 2192

马斯克的「移动客厅」又火了:20人座无方向盘,每公里才3毛钱

机器之心Pro 浏览 1987

微博视界大会:杨幂丰满有料,白鹿珠圆玉润,迟蓬赢麻了

娱乐圈笔娱君 浏览 2568

斯坦福MLE-Smith:自动生成机器学习竞赛题目

科技行者 浏览 2579

小米“巨省电”,为何又是一波大争议?

正经社 浏览 2649

正式官宣!31岁何猷君再传喜讯 让霍启刚刮目相看

漫婷侃娱乐 浏览 1498

低价"银行直供房"激增 有房产价格低于市价25%

第一财经资讯 浏览 6935

销量、价格双双坍塌,二线豪华品牌,已经被国产新能源“挤垮”了

小李车评李建红 浏览 2166

达成停火22天内 仅有商定数量24%的卡车进入加沙

上观新闻 浏览 2501

雷军“悔棋”背后,存储市场的涨价潮也是窗口期

北京商报 浏览 2694
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1