关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者599人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

打破传统的宝马K 1200

摩托车杂志 浏览 12438

千禾味业董事及高管计划减持合计48.41万股股份

红星资本局 浏览 10796

年内上市/纯电和增程可选 阿维塔07实车谍照曝光

网易汽车 浏览 11215

众生相!库里14中2场下捂脑袋,追梦克莱愣神,科尔眼神绝望

天涯沦落人 浏览 12633

在都市里种下一颗自然的种子 欧拉5设计解析

网易汽车 浏览 1472

黄一鸣才真清醒,大四怀孕不做“首富太太”

柠檬有娱乐 浏览 51

中方回应是否放松稀土出口管制

财联社 浏览 10073

这是一个跨越二十四年的纪实长镜头

幕味儿 浏览 617

全智贤与《暴风圈》剧方仍未发文道歉

韩小娱 浏览 1585

持续低迷难挽惨败,库里出战前三节,13投仅4中得到15分6助攻

懂球帝 浏览 12679

TA:从进攻核心到压迫发起点,梅西角色延伸提升球队上限

懂球帝 浏览 174

台媒:台开始召集女性后备军人受训

参考消息 浏览 18691

中印“建立非军事区”“激怒印度官员”?

环球军事时报 浏览 26518

拉总:诺坎普改叫梅西球场?不合适

体坛周报 浏览 178

12月的奇迹,是“白”给的!

时尚COSMO 浏览 26

智己汽车被“幼稚的”软件bug绊了一跤

市界 浏览 12883

美媒评历史巨星:乔丹独一档 詹姆斯贾巴尔第二档 科比库里第六档

醉卧浮生的体育世界 浏览 19570

当选对阵巴黎全场最佳,诺伊尔社媒庆祝胜利:团队

懂球帝 浏览 699

咋回事?突然大跌3400点!最新研判

中国基金报 浏览 16543

西方援乌地面装备为何水土不服?

环球网资讯 浏览 14370

彻底对标苹果?小米17 Air要来,可iPhone Air都凉了

雷科技 浏览 792
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1