关闭广告

Transformer开山论文惊天"翻车"?图与代码不一致,神秘bug看傻了

新智元14649人阅读


新智元报道

编辑:编辑部

【新智元导读】图与代码不一致的论文,很「常见」,不过提出了Transformer的开山鼻祖论文,竟然也出现了同样的错误?

今天,AI圈被一个惊天「翻车」刷屏了。

谷歌大脑的NLP奠基之作、提出Transformer架构的开山鼻祖级论文 《Attention Is All Your Need》 中的图,被网友扒出与代码并不一致。


论文地址:https://arxiv.org/abs/1706.03762

自2017年问世以来,Transformer已经成为AI领域的基石王者。就连大红大紫的ChatGPT真正的幕后大佬也是它。

2019年,谷歌还专门为它申请了专利。


归宗溯源,现在各类层出不穷的GPT(Generative Pre-trained Transformer),都起源于这篇17年的论文。

据Google Scholar,截止目前,这篇奠基之作已有7万多次的引用。


所以,ChatGPT的奠基石都不稳了?

作为「开山鼻祖」的论文,结构图竟是错的?

Lightning AI创始人、机器学习研究者Sebastian Raschka发现,这篇论文中Transformer的图是错误的。


图中被圈出的地方,LayerNorms是在注意力和全连接层之后。在残差块之间放置层归一化,会导致输出层附近参数的预期梯度很大。

而且,这也与代码 不一致。



代码地址:https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f1477bafb884748f08197c9cf1b10a4dd78e

不过有网友指出,Noam shazeer在几周后对代码进行了纠正。



随后,Sebastian称,在论文Layer Normalization in the Transformer Architecture中,Pre-LN表现得更好,可以解决梯度问题。


这是很多或者大多数架构在实践中所采用的,但它可能导致表征崩溃。

如果层归一化在注意力和全连接层之前被放置在残差连接之中,就会实现更好的梯度。


Sebastian提出,虽然关于使用Post-LN或Pre-LN的讨论仍在进行中,但也有一篇新论文提议把二者结合起来。



论文地址:https://arxiv.org/abs/2304.14802

在这种双残差Tranformer中,表征崩溃和梯度消失的问题都得到了解决。


网友热议

针对论文中的疑点,有网友指出:中间不是已经有了PreLN和PostLN了吗?

Sebastian回答说,自己也觉得有点奇怪。或许2nd LN指的是最后一个输出层,而不是每个transformer块,但他对此也不确定。


有网友表示:「我们经常遇到与代码或结果不匹配的论文。大多数就是出于错误,但有时也会让人很奇怪。而这篇论文已经流传甚久了,为什么这种问题此前从没被人提出过,这真的很奇怪。」


Sebastian表示,公平地讲,最原始的代码是和图片一致的,但他们在2017年修改了代码版本,却没有更新图片。所以,这很令人困惑。


有网友表示,已经有论文在NormFormer中展示了一个不太复杂的架构,而他的团队最近也证实了他们的结果。而ResiDual论文没有在任何地方提到NormFormer,这让人很惊讶。


同时,评论区不断出现网友证实:Transformers中使用的LN,与CNN中使用的方式并不同。



所以,论文真的存在漏洞,还是乌龙事件?

让我们静观后续。

参考资料:

https://twitter.com/rasbt/status/1655575611979489282

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

Stein:在鲍威尔和独行侠续约之前 火箭曾对签下他很感兴趣

直播吧 浏览 13625

美国一架F-35坠毁 飞行员弹射逃生被送医

环球网 浏览 7205

超短裙彩丝袜夸张造作 日本泡沫时代潮流回归

二代饭桶 浏览 15312

谣言热榜 | 六月朋友圈十大谣言新鲜出炉

中国基金报 浏览 6839

王诗龄放假回国,长腿穿搭女团风

会白话的涛 浏览 15323

卷生卷死的韩国人,已经开始卷脖围了

她刊 浏览 9333

台湾新北市长侯友宜:我反对“台独”

澎湃新闻 浏览 92368

小S晒全家福为18岁长女庆生,与老公同框零互动,长女将赴美留学

娱絮 浏览 8838

深圳一业主刚买完房楼盘就降价 不到一个星期差价40万

澎湃新闻 浏览 53693

VR 交互升级:Quest 3应用现支持手势和控制器混合操作

IT之家 浏览 8390

想花钱的欲望到达next level(白日梦版)

YOKA网 浏览 6875

40+女人穿衣不要太花哨!学会这些高级感搭配,美得无可挑剔

静儿时尚达人 浏览 9181

耶伦抨击特朗普对华政策让美国"更加脆弱和孤立"

环球网资讯 浏览 9090

男篮G2大胜香港东方!3人上双,周琦因低迷缺席,范子铭连续上双

篮球资讯达人 浏览 14589

吴奇隆牵刘诗诗街头甜蜜约会 霸气护妻超Man

网易娱乐 浏览 22730

中国女子赴美见男网友失联 女儿担心其遇到"可怕的事"

新民周刊 浏览 65716

张译拍电影《悬崖之上》时,拍完电击酷刑后,他口吐白沫问张艺谋

趣看热点 浏览 23213

美国机密文件泄密嫌疑人被捕 仍掌握300张文件照片

环球网资讯 浏览 14992

30.78万元起!领克新09EM-P实力几何?

汽车投诉网 浏览 8568

美团的“长期有耐心”,并非毫无代价

虎嗅APP 浏览 12575

高位推票左江科技,给予“买入”评级:华安证券研报是否违规?

面包财经 浏览 9061
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1