关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11140人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

全新一代丰田Hilux将于11月10日正式发布

车质网 浏览 631

林志颖成了小鹏的代言人,特斯拉“躺枪”

凤凰WEEKLY财经 浏览 16374

地区战争风险加剧 哥伦比亚总统重批美国“侵略拉美”

环球网资讯 浏览 1016

"富豪"承诺月嫂月薪1万5却1年只发5500 还向她借85万

极目新闻 浏览 3296

“小黑靴”今年冬天又火了!这4组搭配照着搭就很时髦

LinkFashion 浏览 702

法国暴力骚乱已持续三晚 马克龙将缩短欧盟峰会行程

环球网资讯 浏览 91584

仝卓表弟获救了!照片曝光头发已被剃光,从求助到救出不到24小时

萌神木木 浏览 339

路易斯-迪亚斯导致阿什拉夫受伤,摩洛哥记者:你是个罪犯

懂球帝 浏览 704

一句话,干掉586亿

深蓝财经 浏览 1579

极氪 001 汽车官宣降价 3 万-3.7 万元,送 7kW 智能家充套餐

IT之家 浏览 14191

王家卫繁花有黑幕!?

八卦疯叔 浏览 1604

秘鲁发现37米猫形地画,比纳斯卡巨画还要古老

趣看热点 浏览 26304

《狂飙》高启盛4换女友,新女友颜值不输前任董璇

缘木不求娱 浏览 13615

问界“失去”华为70天

市界 浏览 16626

GPT-6要「活」了?MIT新作曝光,AI「自进化」不远了

新智元 浏览 942

三亚旅游局回应李湘退租事件,李湘地域黑声明引来官方入场

趣看热点 浏览 207235

郑州水淹车"美容变身" 二手车黑色产业链浮出水面

证券日报 浏览 20456

央视中秋宋佳大气唐嫣美艳,侯佩岑主持功底深,谢娜受邀另有原因

不八卦会死星人 浏览 981

全系标配激光雷达 东风奕派eπ007+预售14.99万起

网易汽车 浏览 711

汉武帝刘彻是纯种的汉人吗?西汉第五位皇帝刘彻简历简介

趣看热点 浏览 26032

媒体:美国曾用F-15击落自家MQ-9"死神"无人机

极目新闻 浏览 19261
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1