关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11136人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

汪小菲又有新恋情?被拍与美女挽手逛街亲密无间

阳光八卦君 浏览 18347

3月11日外媒科学网站摘要:室温超导欺诈丑闻曝光

网易科技报道 浏览 11177

测Manus 1.5:丝滑,超预期,Manus独特上下文工程的一次关键展示

硅星人 浏览 969

这谁能想到!能伸手“救”日产汽车一把的,会是比亚迪

小李车评李建红 浏览 769

今年秋冬的皮裙流行“剪一刀”,怎么搭都好看!

LinkFashion 浏览 783

比亚迪2022年年度股东大会:王传福谈了行业竞争、产能、车险和智能驾驶

界面新闻 浏览 16836

周华健回潮汕探亲祭祖

阿纂看事 浏览 176

5轮首球,维拉在赛季开始427分钟才收获首球,英超历史第三晚

直播吧 浏览 1531

巴菲特变了吗,说好的“买入并持有”呢?

大摩财经 浏览 19075

浙江大学StaMo实现静态图像生成机器人动作

科技行者 浏览 589

在靠近加沙的边境附近 埃及建起近5米高的高墙

环球时报新闻 浏览 79309

关于成吉思汗谋略及军事才能的论文资料

趣看热点 浏览 26328

美媒探访内蒙古:中国AI的一张“王牌”,藏在这里

观察者网 浏览 31

翟欣欣涉敲诈勒索被逮捕 律师详解为何6年后才被立案

每日经济新闻 浏览 90975

她们说这才是秋天最实用的单品!6种穿法都帮大家总结好了

黎贝卡的异想世界 浏览 712

动力系统升级 新款方程豹豹5谍照曝光

车质网 浏览 1660

普京首访俄"最难抵达"地区 离美国阿拉斯加州仅55英里

红星新闻 浏览 75140

广厦23分负青岛 许钟豪首秀8+10费尔德三分6中1

网易体育 浏览 26505

美媒:“第一视角”功能无人机频现俄乌战场

国际在线 浏览 14675

路易斯:感到很失望,明年我不知道还会不会在这里

懂球帝 浏览 742

NBA战报:勇士124-120篮网,托马斯空砍41分

懂球帝 浏览 12837
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1