图与代码不一致的论文,很「常见」,不过提出了 Transformer 的开山鼻祖论文,竟然也出现了同样的错误?
今天,AI 圈被一个惊天「翻车」刷屏了。
谷歌大脑的 NLP 奠基之作、提出 Transformer 架构的开山鼻祖级论文 《Attention Is All Your Need》 中的图,被网友扒出与代码并不一致。
(资料图片)
自 2017 年问世以来,Transformer 已经成为 AI 领域的基石王者。就连大红大紫的 ChatGPT 真正的幕后大佬也是它。
2019 年,谷歌还专门为它申请了专利。
归宗溯源,现在各类层出不穷的 GPT(Generative Pre-trained Transformer),都起源于这篇 17 年的论文。
据 Google Scholar,截止目前,这篇奠基之作已有 7 万多次的引用。
所以,ChatGPT 的奠基石都不稳了?
作为「开山鼻祖」的论文,结构图竟是错的?
Lightning AI 创始人、机器学习研究者 Sebastian Raschka 发现,这篇论文中 Transformer 的图是错误的。
图中被圈出的地方,LayerNorms 是在注意力和全连接层之后。在残差块之间放置层归一化,会导致输出层附近参数的预期梯度很大。
而且,这也与代码不一致。
不过有网友指出,Noam shazeer 在几周后对代码进行了纠正。
随后,Sebastian 称,在论文 Layer Normalization in the Transformer Architecture 中,Pre-LN 表现得更好,可以解决梯度问题。
这是很多或者大多数架构在实践中所采用的,但它可能导致表征崩溃。
如果层归一化在注意力和全连接层之前被放置在残差连接之中,就会实现更好的梯度。
Sebastian 提出,虽然关于使用 Post-LN 或 Pre-LN 的讨论仍在进行中,但也有一篇新论文提议把二者结合起来。
在这种双残差 Tranformer 中,表征崩溃和梯度消失的问题都得到了解决。
网友热议
针对论文中的疑点,有网友指出:中间不是已经有了 PreLN 和 PostLN 了吗?
Sebastian 回答说,自己也觉得有点奇怪。或许 2nd LN 指的是最后一个输出层,而不是每个 transformer 块,但他对此也不确定。
有网友表示:「我们经常遇到与代码或结果不匹配的论文。大多数就是出于错误,但有时也会让人很奇怪。而这篇论文已经流传甚久了,为什么这种问题此前从没被人提出过,这真的很奇怪。」
Sebastian 表示,公平地讲,最原始的代码是和图片一致的,但他们在 2017 年修改了代码版本,却没有更新图片。所以,这很令人困惑。
有网友表示,已经有论文在 NormFormer 中展示了一个不太复杂的架构,而他的团队最近也证实了他们的结果。而 ResiDual 论文没有在任何地方提到 NormFormer,这让人很惊讶。
同时,评论区不断出现网友证实:Transformers 中使用的 LN,与 CNN 中使用的方式并不同。
所以,论文真的存在漏洞,还是乌龙事件?
让我们静观后续。
参考资料:
https://twitter.com/rasbt/status/1655575611979489282
本文来自微信公众号:新智元 (ID:AI_era)
标签:
-
Transformer开山论文惊天「翻车」,图与代码不一致,_焦点热文
图与代码不一致的论文,很「常见」,不过提出了Transformer的开山鼻祖论文,竟然也出现了同样的错误?今天,AI
-
观酒周报|酒鬼酒解释Q1业绩受费改影响;五粮液:渠道库存量属正常水平;“五一”烟酒销售额同增15%
观酒周报|酒鬼酒解释Q1业绩受费改影响;五粮液:渠道库存量属正常水平;“五一”烟酒销售额同增15%,郎酒,
-
茂盛桥6,8号民居_关于茂盛桥6,8号民居的简介 天天即时看
音频解说1、茂盛桥6,8号民居位于茂盛桥6、8号,建于清代,坐北朝南,前后两进,占地面积168平方米,建筑面积148
-
埋怨是试图让对方承担责任的方式|全球热文
韩明丽 文读者来信:我和老公是大学同学,像这种自由恋爱的婚姻,感情基础都是有的吧,也没有什么太大的矛
-
环球报道:世界地贫日‖@备孕夫妻:这种贫血很可怕 筛查记得做
华声在线5月9日讯(通讯员张佳秀)5月8日,是第30个世界地贫日,长沙市第四医院血液肿瘤科主任、主任医师邹立
-
小满时节畅享自然之美,斯巴鲁森林人就是最适合你的SUV-当前通讯
名家有云:“最是小满胜万全”,小满是一年中难得的适合自驾的时节。麦穗开始变得饱满,雨水开始增多,万物
-
全球观天下!电脑怎么看ip地址快捷键_电脑怎么看ip地址
1、下面以WIN7系统为例子,采用文字加图片相结合的方法,讲解如何查看电脑的IP:点击开始键。2、找到控制面
-
康斯特:目前已与天津大学、河北大学、北京航空航天大学、中国石油大学、上海工程技术大学、河北石油职业技术大学等十余所高校-全球即时看
同花顺金融研究中心5月10日讯,有投资者向康斯特提问,董秘,您好!2022年11月教育部会同五部门印发了《职
-
中国船厂建造!NOV获Havfram第2艘自升式风电安装船合同_全球聚焦
近日,NOV公司和中集来福士签署了一份新合同,将为挪威海上风电服务公司Havfram提供第2艘GustoMSCNG-20000X
-
野地现无名女尸 山西警方发协查通告:中等身材 牙齿有缺失|全球快播
5月8日,山西省怀仁市公安局发布一则寻找尸源的协查通告。通告称,5月6日,怀仁市公安局接群众报案,在怀仁
-
全球实时:氧化铝期货上市渐行渐近 上期所就相关规则征求意见
证券时报记者沈宁5月9日,上海期货交易所(下称“上期所”)在官网发布公告,就氧化铝期货合约及相关业务规
-
【全球独家】“高拟真数字大熊猫”研发启动
9日,国家林业和草原局与腾讯签署战略合作协议。国家林业和草原局相关负责人介绍,双方将联合中国大熊猫保
-
天天讯息:美国白宫官员:美国总统拜登不久后将发表关于债务上限会议的讲话。
美国白宫官员:美国总统拜登不久后将发表关于债务上限会议的讲话
-
因内部分歧,欧盟近期或无法就新一轮对俄制裁达一致_天天速讯
美国政治新闻网站8日援引欧盟部分官员和外交官的话报道称,欧盟因为内部分歧,近期无法就新一轮对俄制
-
超高清视频板块5月9日跌0.7%,艾比森领跌,主力资金净流出3.16亿元
5月9日超高清视频板块较上一交易日下跌0 7%,艾比森领跌。当日上证指数报收于3357 67,下跌1 1%。深证成指
-
关于诚信的诗有哪些_关于诚信的诗|天天动态
1、一句一过脑,切莫糊涂言。2、守诺知人品,诚信不囫囵。3、不想后果行,日后必吃亏。4、承诺三思后,日久
-
全球播报:集美儿童公园预约及入园规则有变
集美儿童公园预约及入园规则有新变化划重点!划重点!入园须带下单身份证实体不支持分批入园1张身份证最多
-
世界快资讯:思必驰IPO被否,经营能力可持续性遭质疑
5月9日,据上交所,思必驰科技股份有限公司(以下简称“思必驰”)(首发):不待合发行条件、上市条件或信
-
梅西未来扑朔迷离!法媒称沙特土豪5亿年薪达成协议,罗马诺辟谣 每日热点
《队报》在报道中表示,梅西团队已经口头接受了利雅得新月队的报价,但是还没有签署正式合同,下赛季他将会
-
曹崧_对于曹崧简单介绍 焦点速读
1、曹崧。2、号倚园。3、清湖南清泉县(今衡南县)人。文章到此就分享结束,希望对大家有所帮助。
-
课堂精练七年级上数学答案北师大版 课堂精练七年级上数学答案 头条焦点
今天来聊聊关于课堂精练七年级上数学答案北师大版,课堂精练七年级上数学答案的文章,现在就为大家来简单介
-
全球观天下!2023仙境海岸海阳马拉松项目+比赛路线 海阳马拉松2021时间表
2023仙境海岸•海阳马拉松即将开跑,竞赛项目及各赛事的比赛路线信息汇总,详见正文。
-
精选!医疗保险要交多少年才能享受待遇 职工医疗保险住院报销比例是多少
一般来说,职工医疗保险的缴费期限随性别不同,男性需要累计缴费年限达到30周年,女性需要累计缴费年限达到
-
最高奖3000元!洛阳面向全网征集科普短视频
记者9日从有关部门获悉,2023洛阳全民科普短视频大赛将于本月23日启动并面向全网征集作品,获奖者最高将获
-
农行纸黄金USD5月9日开盘价2028.85 昨收价2028.65
北京时间16:42,农行纸黄金USD报2027 29美元 盎司,跌0 07%;农行纸黄金RMB报451 41元 克,涨0 14%。
-
关于家庭教育的名言_教育的名言 世界资讯
1、“师也者,教之以事而喻诸德也。2、”——《礼记》2、先生不应该专教书,他的责任是教人做人;学生不应
-
环球速读:lol隐藏分多少算正常
LOL白金5的正常隐藏分是1400左右。青铜5-1分别对应的是1200,1230,1270,1310,1350 白银5-
-
白云机场:子公司与北京沃捷签署广告媒体经营项目合同
36氪获悉,白云机场公告称,全资子公司二号航管公司和北京沃捷签署二号航站楼及GTC广告媒体经营项目合同。
-
赞!晋安这项工作,连续三年全市第一!-全球快播
2020年以来,晋安区共实施捐赠款物援助5432多万元,2021年筹资工作在全省县(市)区排名第三,2020—2022年
-
瑞典央行副行长布雷曼:如果通胀在高水平上变得稳固,我将毫不犹豫地继续逐步加息,延长加息路径所显示的时间,并/或恢复超过0.25个百分点的加息幅度
瑞典央行副行长布雷曼:如果通胀在高水平上变得稳固,我将毫不犹豫地继续逐步加息,延长加息路径所显示的时