关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者595人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

季后赛里谁才是篮网真老大?篮网三巨头的实力

趣看热点 浏览 25505

华为回应出售手机业务传闻:假消息,仍将加大手机业务的投入

Tech星球 浏览 19205

新疆生产建设兵团原副司令员焦小平被逮捕

北京日报客户端-长安街知事 浏览 85598

普京酝酿的“重大行动”,会给中国带来机遇?

浏览 22998

东体:广州队下赛季前景仍不明朗,原俱乐部负责人高寒已回球队

直播吧 浏览 12571

冬天要有的鞋子!显高!显腿长!还显瘦!

Yuki女人故事 浏览 615

不出意料,湖人队以101-106输给了开拓者,排名掉至第七

趣看热点 浏览 25222

中国潜艇部队为何又同时发布最强常规潜艇?

浏览 11167

被安排与都美竹同场观影!秦牛正威发声开撕表不满

萌神木木 浏览 14257

国盛投资受让1.07亿股股权 复旦微电大股东拟变更

证券时报 浏览 528

会化妆的女生都很“假”!

Yuki女人故事 浏览 888

曾经一文不值的锂矿石火了 郴州村民:一晚能搞一两万

海报新闻 浏览 124100

美国政府宣布美英就药品定价达成原则性协议

华尔街见闻官方 浏览 232

开年不足20天,蔚来极氪特斯拉等至少8个新能源车品牌官宣促销

澎湃新闻 浏览 12439

卢浮宫抢劫案两嫌疑人均30多岁 一人试图登机离境被抓

极目新闻 浏览 5766

宗馥莉,抛弃娃哈哈?

豹变 浏览 1631

赏叶季人生照片拍摄指南.PDF

时尚COSMO 浏览 657

全国政协会议议程来了

新华视点 浏览 26239

辽宁3任公安厅长共受贿超12亿 王大伟:那时疯了一样

澎湃新闻 浏览 74594

年末无风险收益逐渐在提升,明年市场流动性或有变

Wind万得 浏览 12808

2024年,我们还需要 “时尚警察”吗?

风度mensuno 浏览 13084
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1