AI“黑箱”被打开？谷歌找到大模型能力涌现机制

新智元报道

编辑：桃子

【资料图】

【新智元导读】大模型涌现能力如何理解？谷歌的最新论文研究了语言模型中的上下文学习，是如何受到语义先验和输入-标签映射影响。

前段时间，OpenAI整出了神操作，竟让GPT-4去解释GPT-2的行为。

对于大型语言模型展现出的涌现能力，其具体的运作方式，就像一个黑箱，无人知晓。

众所周知，语言模型近来取得巨大的进步，部分原因是它们可以通过上下文学习（ICL）来执行任务。

上下文学习是一种过程，模型在对未见过的评估样本执行任务之前，会先接收几个输入-标签对的范例。

在谷歌最新发表的论文中，研究人员研究了语义先验，以及输入-标签映射在ICL中如何相互作用。

论文地址：https://arxiv.org/pdf/2303.03846.pdf

特别是，语言模型在上下文学习能力，如何随着参数规模而改变。

论文一作Jerry Wei表示，大型语言模型（GPT-3.5、PaLM）可以遵循上下文中的范例，即使标签被翻转或在语义上不相关。这种能力在小型语言模型中是不存在的。

网友表示，这对模型新的涌现能力很有见解。

AI「黑箱」怎么破？

一般来说，模型能够在上下文中学习，有以下2个因素:

一种是使用预先训练的语义先验知识来预测标签，同时遵循上下文范例的格式。

比如，见到以「积极情绪」和「消极情绪」作为标签的影评例子，并用先验知识进行情感分析。

另一种是从提供的范例中，学习ICL中的输入-标签映射。比如，找到正面评价映射到一个标签，而负面评价映射到另一个标签的模式。

最新研究的目标就是为了了解这两个因素在上下文中如何作用。

因此，在论文中，研究者调查了两个设置来进行研究：翻转标签ICL，语义无关标签的ICL (SUL-ICL)。

翻转标签ICL和语义无关标签ICL（SUL-ICL）在情感分析任务中的概述

在翻转标签ICL中，上下文范例的标签被翻转，强制模型覆盖语义先验，以遵循上下文范例。

在SUL-ICL中，使用与任务无语义关系的标签，意味着模型必须学习输入标签映射才能执行任务，因为它们不再依赖于自然语言标签的语义。

研究者发现，覆盖先验知识是模型规模能力，就像在上下文中学习与语义无关的标签的能力一样。

此外，指令调优加强了先验知识的使用，而不是增加了学习输入-标签映射的能力。

实验过程

对于实验数据，研究者在七个广泛使用的NLP任务上展开实验，包括情感分析，主观/客观分类，问题分类，重复问题识别，蕴涵识别，金融情绪分析和仇恨语音检测。

此外，研究人员还对五种语言模型进行了测试：PalM、Flan-PalM、GPT-3、DirectGPT和Codex。

翻转标签

在这个实验中，上下文示例的标签被翻转，这意味着先验知识和输入-标签映射不一致。比如，包含积极情绪的句子被标记为「消极情绪」，从而研究模型是否可以覆盖其先验知识。

在此设置中，能够覆盖先验知识，并在上下文中学习输入-标签映射的模型性能会下降，因为真实评估标签没有被翻转。

研究者还发现当没有标签被翻转时，参数规模较大的模型比较小的模型，拥更好的性能。

但是，当翻转越来越多的标签，小型模型的性能保持相对平稳，但大型模型的性能大幅下降，远低于随机猜测。

比如，code-davinci-002的性能从90%下降到22.5%。

这些结果表明，当输入标签映射相互矛盾时，大模型可以覆盖预训练的先验知识。

小型模型无法做到这一点，这使得这种能力成为模型规模的涌现现象。

语义无关的标签

在这个实验中，研究人员用语义无关的标签替换原来标签。

比如，在情感分析中，用「foo/bar」代替「消极/积极」，这意味着模型只能通过学习输入-标签映射来执行 ICL。

如果一个模型主要依赖于ICL的先验知识，那么在这种替换之后，它的性能应该会下降，因为它将不再能够使用标签的语义意义来进行预测。

另一方面，可以在上下文中学习输入-标签映射的模型，将能够学习这些语义不相关的映射，其性能不会出现大幅的下降。

事实上，使用语义无关的标签会导致小型模型的性能大幅下降。

这表明较小的模型主要依赖于它们在上下文中的语义先验，而不是从提供的输入标签映射中学习。

另一方面，当标签的语义特性被移除时，大型模型具有在上下文中学习输入标签映射的能力。

此外，研究人员还发现，包含更多的上下文范例对大型模型的性能改善，比对小型模型的性能改善更大。

显然，大型模型比小型模型更善于从上下文范例中学习。

指令调优模型如何？

当前，指令调优是提高模型性能比较流行的一种方法。

然而，由于该过程使用自然语言标签，一个悬而未决的问题是，它是否提高了学习输入-标签映射的能力，或者它是否加强了识别和应用语义先验知识的能力。

这两者都将导致标准上下文任务性能的提高。

研究人员继续通过与前面相同的两个设置来研究这个问题，只是这一次将重点放在比较标准语言模型（特别是 PaLM）和它们的指令调优变体（Flan-PaLM）上。

首先，当使用语义不相关的标签时，Flan-PalM比PalM性能更好。

这种效应在小型模型中非常显著，因为Flan-PalM-8B的性能比PaLM-8B高9.6% ，几乎赶上了PaLM-62B。

这种趋势表明，指令调优加强了学习输入标签映射的能力，但这并不是令人惊讶的发现。

更有趣的是，研究者还发现Flan-PalM在遵循翻转标签上比PalM更差，这意味着指令调优模型无法覆盖它们的先验知识。

在100%翻转标签的情况下，Flan-PaLM模型无法做到随机猜测，但是在相同的设置下，没有进行指令调优的PaLM模型可以达到31%的准确率

这些结果表明，指令调优必须增加模型在语义先验可用时的依赖程度。

结合前面的研究结果，研究者得出结论：虽然指令调优提高了学习输入-标签映射的能力，但它更强化了语义先验知识的使用。

谷歌这篇论文强调了语言模型的ICL行为如何根据其参数而改变，并且更大的语言模型具有将输入映射到许多类型的标签的涌现能力。

这是一种推理形式，其中输入-标签映射可以潜在地学习任意符号。

未来，更进一步的研究可以帮助人们去了解为什么这些现象会与模型参数相关。

参考资料：

https://ai.googleblog.com/2023/05/larger-language-models-do-in-context.html

AI“黑箱”被打开？谷歌找到大模型能力涌现机制

长三角财经媒体采访团走进特来电：在“电时代”引领发展潮头

考研调剂指的是什么 考研调剂是什么意思|报资讯

全球快看：当叶罗丽主角被“拟兽化”，思思变俏皮猫娘，冰公主成了白狐仙女

企业内训的重要性-形象的重要性

全球报道:兰州科技活动周花式开启 “硬核”展示有料有趣

国风国韵飘香江

临潼区气象台发布暴雨黄色预警【Ⅲ级/较重】【2023-05-21】

电脑怎么拼接音乐_怎么拼接音乐

定向丛

总裁文虐短_总裁小说虐肉 世界聚焦

微速讯：为什么会有雾霾(雾霾天气形成的原因)

速读：江西师范大学迎来院士校长

猪年窗花剪纸图案大全图片_猪年窗花剪纸图案大全-快看点

家常土豆炖牛腩的做法 家常土豆炖牛腩的做法窍门

让群众少跑腿！市北车管分所主动上门开展电动自行车登记挂牌服务 环球百事通

【世界聚看点】为亚运喝彩！象山上演“520全城热恋”

每日快讯!有“潍”｜培优做强先进制造业 为“更好潍坊”赋能添彩

全球观天下！西安交通大学城市学院快递站咋取

靠谱的借款平台前五名，看看这几个平台

大年初一有高铁吗(年初一高铁开吗)

全国职业院校技能大赛江苏省遴选赛举行

海口市举办2023年乡村排球联赛

平顶山市湛河区教体局 党建引领新“食”尚 纪检监督办“食”事 天天新动态

B站试水付费专属视频 新变现模式能否激活UP主“发电”热情

【天天播资讯】证券日报：理性看待理财回暖与债牛相互催化

趸交分红型保险可靠吗（分红型保险是什么意思）

世界热讯:崔康熙重建泰山队！6球射手回归，夏窗换2外援，引进全北现代旧部

马斯克：将亲自审阅钴供应链审计报告 确保没有童工 观速讯

《雍正王朝》中老八先后被佟国维和老十四算计，为何还要保他们？

新资讯：接受德兴市第八轮金融机构安全评估检查工作

全球热头条丨大众SPIN密码是什么意思 一汽大众spin码什么意思

环球热议:有线电视的宽带网速怎么样_有线电视宽带怎么样

娄底经开区电力科技谷为入园企业“充电赋能”

焦点日报：沉寂十余年的鼓楼 终遇爆发级变革力

图森未来自动驾驶业务“变道”

北京到长沙机票价格查询_北京到长沙机票

八村塁半场7中7砍17分，湖人53-48领先掘金

兰屿茄十二星瓢虫 十二星瓢虫-每日快播

瑶海区多彩活动铺就学生成长底色

中国旅游日|文旅行业复苏强劲 年轻游客塑造当代旅游新气象 关注

当前时讯：魔都“打工人”如何转换心情？他们选择不停向上攀登，感受运动的激情 | 十分上海·潮动夜生活

曲美家居：公司的家装产品未参加2023年华夏家博会

通讯！启德医药核心偶联技术授权合作再传捷报

0-2落后！詹姆斯：这不是打NCAA 先赢4场的球队才算赢

今日热门!达拉特旗气象台发布大风蓝色预警【IV级/一般】【2023-05-19】

世界热门:今年裤子流行“穿紧不穿宽”，优化比例不说还显瘦，潮人都爱了

通城县烟草专卖局 开展“一日店员”助销服务

检修设备“多面手”

世界观焦点：松岭雪村，一座远离尘世喧嚣的世外桃源

当在文言文中的意思和用法_当在文言文中的意思

今日精选：三国志战略版甄姬使用攻略 三国志战略版甄姬怎么玩

产业基金接连出台，多地抢滩“空天信息”赛道

小学抒情古诗有哪些 小学借物抒情的诗句

今年以来最大规模人民币创投募资诞生

JDG击败T1，K皇终于崛起，塔下自信强杀Faker，微微一笑很开心

品牌共鸣与品牌价值链（什么是品牌共鸣模型）

迪马济奥：AC米兰有意切尔西中场奇克，已经开始与球员进行接触 世界热消息

行政机关拒绝履行判决书如何处理？ 天天新消息

环球热点！校园安全手抄报一年级_校园安全手抄报

否认复婚！66岁港星自曝享受单身，离婚后靠4亿赡养费变身女强人|要闻速递

据德国西部地区联赛球队明斯特普鲁士的公告，沙尔克...-重点聚焦

新资讯：针铁矿是什么颜色_针铁矿

国家信访局办信六处党支部赴永外街道交流座谈

热点！2023江西高考一分一段表 文理科成绩排名

联环药业(600513.SH)2022年度拟每股派0.15元 5月26日除权除息

2023云南高考一分一段表 文理科成绩排名-环球观察

【环球时快讯】微软收购动视暴雪的交易僵局让投机者有利可图

火影中那些昙花一现的忍术，可以无敌的忍术为何却都被强制下线？

天天要闻：V观财报｜泰达股份年报被追问：是否存流动性风险？

智洋创新（688191）：该股换手率大于8%（05-18）

怎么制作ppt用什么软件_怎么制作ppt

如何查询汽车是否符合国6b排放标准？

焦点热文：湖南发布2023年一季度重点用能工业企业能源消耗情况

怎么用面包机做蛋糕的方法|焦点速讯

一公司领导批评员工“下班就走”遭回怼，第二天“光速”开除员工-全球热消息

世界热头条丨粤电力Ａ：5月17日融资买入4797.84万元，融资融券余额1.3亿元

“奋斗有我，就在吉林”宣讲团走进高校

资深法医回应巴厘岛命案自杀疑问是什么情况

家财险谋求更贴近民生

考研调剂指的是什么考研调剂是什么意思|报资讯

总裁文虐短_总裁小说虐肉世界聚焦

家常土豆炖牛腩的做法家常土豆炖牛腩的做法窍门

让群众少跑腿！市北车管分所主动上门开展电动自行车登记挂牌服务环球百事通

每日快讯!有“潍”｜培优做强先进制造业为“更好潍坊”赋能添彩

平顶山市湛河区教体局党建引领新“食”尚纪检监督办“食”事天天新动态

B站试水付费专属视频新变现模式能否激活UP主“发电”热情

马斯克：将亲自审阅钴供应链审计报告确保没有童工观速讯

全球热头条丨大众SPIN密码是什么意思一汽大众spin码什么意思

焦点日报：沉寂十余年的鼓楼终遇爆发级变革力

兰屿茄十二星瓢虫十二星瓢虫-每日快播

中国旅游日|文旅行业复苏强劲年轻游客塑造当代旅游新气象关注

通城县烟草专卖局开展“一日店员”助销服务

今日精选：三国志战略版甄姬使用攻略三国志战略版甄姬怎么玩

小学抒情古诗有哪些小学借物抒情的诗句

迪马济奥：AC米兰有意切尔西中场奇克，已经开始与球员进行接触世界热消息

行政机关拒绝履行判决书如何处理？天天新消息

热点！2023江西高考一分一段表文理科成绩排名

2023云南高考一分一段表文理科成绩排名-环球观察

天天资讯：广州今年以来雨量偏少五成即将进入“龙舟水”天气

消息称LG新能源正在开发4695电池或意在调整4680电池高度推进量产进度新动态

世界短讯！校企合作培养婴幼儿专业托育人才每年可辐射2万人次

这些日系品牌快凉了？你不知道它们曾经有多牛？世界观速讯

【世界时快讯】辽篮或筹办夺冠巡游或将在沈阳当地进行

2023西藏高考志愿填报样本模板志愿表怎么填

瞄准“双碳”目标　实现绿色变革

环球快讯:瞧我这个人作文600字初一瞧我这个人

武威公安重拳打击各类经济犯罪每日看点

终南阴岭秀的全诗终南阴岭秀

新国展二期6月下旬钢结构全面封顶环球新视野

东关新村棚户区改造进展咨询天天播报

阿里纳斯：我曾建议布兰德别聘请里弗斯他会毁了76人&本西会走-环球热消息

“董明珠接班人”又上热搜：孟羽童离职因接私活被格力开除世界速读

世界观速讯丨40余组亲子家庭体验白海豚救护、放归厦门举行中华白海豚保护宣传日系列活动

小辽说天气丨热力再升级，雨水又光顾天天时讯

万凯新材（301216）：5月15日北向资金增持5.14万股天天视点

【环球快播报】47岁顶级程序员陈皓因心梗离世曾担任饿了么CTO

【天天新视野】二代大狗Hi4等哈弗2023年产品规划曝光

意志之力饰品哪个boss掉落意志之力哪个boss掉-天天看热讯

外汇局：4月外商来华直接投资保持净流入外资连续两个月净买入境内证券全球快报

北控球员邹雨宸更新社媒晒训练视频：准备特训 LA见简讯

法治教育校园普法知识润童心观速讯