关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者2575人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中印边境士兵交换糖果 中使馆:展现双方善意

环球网资讯 浏览 2765

吊打内娱的阴湿女王,回来了

独立鱼 浏览 2701

湖人126-114勇士,库詹东缺阵,里夫斯21分伤退,波杰23+5+8

懂球帝 浏览 2822

委内瑞拉外长称已接待美驻委临时代办

国际在线 浏览 1462

中国女选手参加"世界扇耳光大赛" 被对手扇成"猪头"

中国新闻周刊 浏览 7185

宋慧乔怎么不会老啊?

时尚COSMO 浏览 1870

过渡期临近,银行业首席合规官纷纷“就位”

21金融圈 浏览 1718

潮汕三兄弟造“电驴”,9个月狂揽148亿

雷达财经 浏览 1447

郭宇欣拿下央媒微短剧,短剧演员的“编制”来了?

徐帮阳 浏览 1788

国足出战FIFA系列赛!媒体人热议:托国际足联福,别一直闭门造车

奥拜尔 浏览 1770

青创人才说 | 柒色莲生物汪会兵:当好iPSC细胞疗域“铺路人”

上观新闻 浏览 2275

清华团队提出药物相互作用预测方法,预测准确率提升近三成

DeepTech深科技 浏览 3543

新能源汽车的轮胎,为啥那么贵?

小李车评李建红 浏览 2668

男子在养生馆按摩后猝死次日才被发现 家属索赔140万

红星新闻 浏览 3885

瞄准"比黄金更令人垂涎"的锑资源 阿拉斯加州掀采矿热

澎湃新闻 浏览 6830

冬天就要和金靖一样穿得暖呼呼的

时尚COSMO 浏览 2235

人类遗忘的难题解法,被GPT-5重新找出来了

量子位 浏览 2854

Slack CEO 加盟 OpenAI,担任公司首席营收官

经济观察网 浏览 2076

许传智被查:在中纪委工作超30年 曾任宁夏纪委书记

界面新闻 浏览 7647

美国再退66个"群" 外交部回应

界面新闻 浏览 12131

加斯佩里尼:意甲争冠?我知道有一些实力更强的球队

懂球帝 浏览 2042
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1