关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11133人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

高德地图董事长俞永福:聚合模式的终局,一定是一体化出行服务

钛媒体APP 浏览 19003

清华大学推出RLinf-VLA:让机器人在虚拟世界中自学成才的新框架

科技行者 浏览 623

大连“智”造金属螺钉骨植入材料将上市

半岛晨报 浏览 1629

双十二惊现多名盗版范冰冰直播恰饭,带货能力惊人

趣看热点 浏览 27587

加密货币行业迎来“分水岭时刻”:SEC首次批准比特币现货ETF

财联社 浏览 12552

王家卫持续被扒

萌神木木 浏览 678

拒15亿,Andrew Tulloch重返Meta,Thinking Machines Lab痛失联创

机器之心Pro 浏览 974

中哈联合育种 助力哈萨克斯坦马铃薯增收

新华社 浏览 10969

日本首次向海外部署F35战机

央视军事 浏览 14376

越涨越买,奢侈品巨头赚翻

环球网产经 浏览 19113

美股周四股指全线下跌,苹果跌超2%,英伟达微涨0.10%

网易科技报道 浏览 14349

日本核污水排海,上海部分中高端日料店“地震”?

澎湃新闻 浏览 14853

牛弹琴:巴基斯坦最近让人刮目相看 美国出现重大转向

北京日报客户端 浏览 33116

林心如曝霍建华消费观

科学发掘 浏览 691

阿森纳欧冠100胜分布:对西班牙球队16胜最多,对德法各11胜

懂球帝 浏览 804

理想汽车:2月新开门店8家,理想L7即将开启交付

界面新闻 浏览 18892

汽车“换道超车”,伪命题or真理?

汽车公社 浏览 557

坑惨!史上最大投资欺诈案,让汇丰三季度少赚78亿

财通社 浏览 744

宫斗剧来了?流潋紫《德妃传》成顶级大饼

影视剧综艺小能手 浏览 19045

下面哪一种“姿势”是你的入睡姿势呢?

Yuki女人故事 浏览 11045

杜兰特推翻字母哥,哈登力挽狂澜助篮网掀翻东部第一

趣看热点 浏览 25224
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1