关闭广告

ICML2024高分！魔改注意力，让小模型能打两倍大的模型

量子位11140人阅读

彩云科技团队投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力，让小模型能打两倍大的模型！

ICML 2024高分论文，彩云科技团队构建DCFormer框架，替换Transformer核心组件多头注意力模块（MHA），提出可动态组合的多头注意力（DCMHA）。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定，让它们可以根据输入动态组合，从根本上提升了模型的表达能力。

可以近似理解为，原来每层有固定的H个注意力头，现在用几乎同样的参数量和算力，可按需动态组合出多至HxH个注意力头。

DCMHA即插即用，可在任何Transformer架构中替换MHA，得到通用、高效和可扩展的新架构DCFormer。

阅读全文

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

全新一代丰田Hilux将于11月10日正式发布

车质网浏览 631

林志颖成了小鹏的代言人，特斯拉“躺枪”

凤凰WEEKLY财经浏览 16374

地区战争风险加剧哥伦比亚总统重批美国“侵略拉美”

环球网资讯浏览 1016

＂富豪＂承诺月嫂月薪1万5却1年只发5500 还向她借85万

极目新闻浏览 3296

“小黑靴”今年冬天又火了！这4组搭配照着搭就很时髦

LinkFashion 浏览 702

法国暴力骚乱已持续三晚马克龙将缩短欧盟峰会行程

环球网资讯浏览 91584

仝卓表弟获救了！照片曝光头发已被剃光，从求助到救出不到24小时

萌神木木浏览 339

路易斯-迪亚斯导致阿什拉夫受伤，摩洛哥记者：你是个罪犯

懂球帝浏览 704

一句话，干掉586亿

深蓝财经浏览 1579

极氪 001 汽车官宣降价 3 万-3.7 万元，送 7kW 智能家充套餐

IT之家浏览 14191

王家卫繁花有黑幕！？

八卦疯叔浏览 1604

秘鲁发现37米猫形地画，比纳斯卡巨画还要古老

趣看热点浏览 26304

《狂飙》高启盛4换女友，新女友颜值不输前任董璇

缘木不求娱浏览 13615

问界“失去”华为70天

市界浏览 16626

GPT-6要「活」了？MIT新作曝光，AI「自进化」不远了

新智元浏览 942

三亚旅游局回应李湘退租事件，李湘地域黑声明引来官方入场

趣看热点浏览 207235

郑州水淹车＂美容变身＂二手车黑色产业链浮出水面

证券日报浏览 20456

央视中秋宋佳大气唐嫣美艳，侯佩岑主持功底深，谢娜受邀另有原因

不八卦会死星人浏览 981

全系标配激光雷达东风奕派eπ007+预售14.99万起

网易汽车浏览 711

汉武帝刘彻是纯种的汉人吗？西汉第五位皇帝刘彻简历简介

趣看热点浏览 26032

媒体：美国曾用F-15击落自家MQ-9＂死神＂无人机

极目新闻浏览 19261

ICML2024高分！魔改注意力，让小模型能打两倍大的模型

华春莹晒最新...

买提江：虽没...

实探安世半导...

加里-麦卡利...

理想i6“涨...

辽宁擒福建止...

伊姐周六热推：电视剧《暗河传》；电视剧《天地剑心》......

加入快车道！来无锡“太湖杯”一同奔跑

俄国防部称缴获2辆德制＂豹2A6＂坦克媒体：普京笑了

全新一代丰田Hilux将于11月10日正式发布

林志颖成了小鹏的代言人，特斯拉“躺枪”

地区战争风险加剧哥伦比亚总统重批美国“侵略拉美”

＂富豪＂承诺月嫂月薪1万5却1年只发5500 还向她借85万

“小黑靴”今年冬天又火了！这4组搭配照着搭就很时髦

法国暴力骚乱已持续三晚马克龙将缩短欧盟峰会行程

仝卓表弟获救了！照片曝光头发已被剃光，从求助到救出不到24小时

路易斯-迪亚斯导致阿什拉夫受伤，摩洛哥记者：你是个罪犯

一句话，干掉586亿

极氪 001 汽车官宣降价 3 万-3.7 万元，送 7kW 智能家充套餐

王家卫繁花有黑幕！？

秘鲁发现37米猫形地画，比纳斯卡巨画还要古老

《狂飙》高启盛4换女友，新女友颜值不输前任董璇

问界“失去”华为70天

GPT-6要「活」了？MIT新作曝光，AI「自进化」不远了

三亚旅游局回应李湘退租事件，李湘地域黑声明引来官方入场

郑州水淹车＂美容变身＂二手车黑色产业链浮出水面

央视中秋宋佳大气唐嫣美艳，侯佩岑主持功底深，谢娜受邀另有原因

全系标配激光雷达东风奕派eπ007+预售14.99万起

汉武帝刘彻是纯种的汉人吗？西汉第五位皇帝刘彻简历简介

媒体：美国曾用F-15击落自家MQ-9＂死神＂无人机

ICML2024高分！魔改注意力，让小模型能打两倍大的模型

华春莹晒最新...

买提江：虽没...

实探安世半导...

加里-麦卡利...

理想i6“涨...

辽宁擒福建止...

伊姐周六热推：电视剧《暗河传》；电视剧《天地剑心》......

加入快车道！来无锡“太湖杯”一同奔跑

俄国防部称缴获2辆德制＂豹2A6＂坦克 媒体：普京笑了

全新一代丰田Hilux将于11月10日正式发布

林志颖成了小鹏的代言人，特斯拉“躺枪”

地区战争风险加剧 哥伦比亚总统重批美国“侵略拉美”

＂富豪＂承诺月嫂月薪1万5却1年只发5500 还向她借85万

“小黑靴”今年冬天又火了！这4组搭配照着搭就很时髦

法国暴力骚乱已持续三晚 马克龙将缩短欧盟峰会行程

仝卓表弟获救了！照片曝光头发已被剃光，从求助到救出不到24小时

路易斯-迪亚斯导致阿什拉夫受伤，摩洛哥记者：你是个罪犯

一句话，干掉586亿

极氪 001 汽车官宣降价 3 万-3.7 万元，送 7kW 智能家充套餐

王家卫繁花有黑幕！？

秘鲁发现37米猫形地画，比纳斯卡巨画还要古老

《狂飙》高启盛4换女友，新女友颜值不输前任董璇

问界“失去”华为70天

GPT-6要「活」了？MIT新作曝光，AI「自进化」不远了

三亚旅游局回应李湘退租事件，李湘地域黑声明引来官方入场

郑州水淹车＂美容变身＂ 二手车黑色产业链浮出水面

央视中秋宋佳大气唐嫣美艳，侯佩岑主持功底深，谢娜受邀另有原因

全系标配激光雷达 东风奕派eπ007+预售14.99万起

汉武帝刘彻是纯种的汉人吗？西汉第五位皇帝刘彻简历简介

媒体：美国曾用F-15击落自家MQ-9＂死神＂无人机

俄国防部称缴获2辆德制＂豹2A6＂坦克媒体：普京笑了

地区战争风险加剧哥伦比亚总统重批美国“侵略拉美”

法国暴力骚乱已持续三晚马克龙将缩短欧盟峰会行程

郑州水淹车＂美容变身＂二手车黑色产业链浮出水面

全系标配激光雷达东风奕派eπ007+预售14.99万起