论文浅尝 | 大语言模型在in-context learning中的不同表现

news2024/11/26 12:16:00

9e2fe3a9ad7e9ec0bfb3c883d074cdba.png

笔记整理:毕祯,浙江大学博士,研究方向为知识图谱、自然语言处理

链接:https://arxiv.org/pdf/2303.03846.pd

本文是谷歌等机构最新发表的论文,旨在研究大模型上下文学习的能力。这篇论文研究了语言模型中的上下文学习是如何受到语义先验和输入-标签映射的影响。作者研究了两种不同的设置,并在各种模型(包括GPT-3, InstructGPT,Codex,PaLM和Flan-PaLM)上进行了实验。实验发现,对于小型语言模型来说,语义先验对于ICL的影响更大,而对于大型语言模型来说,即使有更强的语义先验,也可以通过反转标签或学习无关联标签的方式进行学习任务。此外,作者还发现通过指令学习可以增强语义先验和输入-标签映射的能力。

总体介绍

7d4648461160870ea6114948d1ad4b88.png

图1

本文展示了三种不同的上下文学习方式:常规上下文学习、反转标签的上下文学习以及不相关标签的上下文学习。在反转标签的上下文学习中,模型需要覆盖原有的语义先验,才能根据输入的示例执行任务。而在不相关标签的上下文学习中,标签与任务语义不相关,因此模型必须学习输入与标签之间的映射,才能执行任务,无法再依赖自然语言标签的语义信息。具体来说,三种不同的上下文学习方式如下:

(1)在常规上下文学习中,语义先验和输入-标签映射都能够使模型成功地进行上下文学习。

(2)在反转标签的上下文学习中,示例中的所有标签都被反转,这意味着语义先验知识和输入-标签映射不一致。评估集中的标签保持不变,因此对于二元分类任务,在此设置中表现优于50%的准确性意味着模型无法覆盖语义先验,而表现低于50%的准确性意味着模型能够学习输入-标签映射并覆盖语义先验。

(3)在不相关标签的上下文学习(SUL-ICL)中,标签与任务语义不相关(例如,在情感分析中,论文使用“foo/bar”代替“negative/positive”)。由于标签与任务语义不相关,模型必须学习输入与标签之间的映射来执行任务,无法再依赖自然语言标签的语义信息。

讨论分析

94cf3b9d50ca4a05aa5ff054721d0882.png

本文在多种模型上进行了实验,涵盖了不同大小、训练数据和指令学习(GPT-3、InstructGPT、Codex、PaLM、Flan-PaLM),以分析语义先验和输入-标签映射之间的相互作用,并特别关注结果如何随着模型规模的变化而变化。作者在七个被广泛应用于自然语言处理研究的任务上进行了实验。

d60aba6e0e7547694522685fb20fd75b.png

图2

如图2所示,当面对翻转的标签时,大型模型具备通过覆盖先验语义来学习输入-标签映射的能力,而小型模型无法翻转预测,只会稍微降低性能。需要注意的是,评估示例的真实标签不会翻转。因此,如果模型学会跟随翻转的标签,则其准确性应在超过50%的标签翻转时低于50%。

c40a1e88535bfed09acd83dd9bcf415f.png

图3

894657c747c4002667dee39e1bdce0cd.png

图4

如图3所示,小型模型对语义先验的依赖程度比大型模型更高,因为当使用语义不相关的目标代替自然语言目标时,小型模型的性能下降比大型模型更多。同时在图4的SUL-ICL设置中,较大的模型比较小的模型更受益于额外的示例。

d1614c0b84e35ddfd7824d234d644b9c.png

图5

如图5所示,在SUL-ICL环境中,某些任务是随着模型规模的增加而出现的,只有足够大的模型才能成功执行这些任务。

a3ba1d390d4e644a3e64daf78217a788.png

图6

如图6所示,PaLM和Flan-PaLM模型在所有数据集上平均性能与上下文范例数量的关系。可以看到在SUL-ICL环境中,Flan-PaLM的表现比PaLM更好,这种效果在小型模型中最为显著,因为Flan-PaLM-8B的表现优于PaLM-8B 9.6%,几乎赶上了PaLM-62B。这种趋势表明,指令学习可以增强学习输入-标签映射的能力。

c409020c157be0c25b03c8da0d609a9a.png

图7

在图7中,论文展示了每个PaLM和Flan-PaLM模型相对于标签翻转比例的性能。与仅使用预训练的模型相比,指令学习的模型更不擅长翻转预测。即使在100%标签翻转的情况下,Flan-PaLM模型也无法超越随机猜测的程度来覆盖它们的语义。而标准的PaLM模型则可以在呈现100%翻转标签时,将准确率降至31%。这些结果表明,指令学习要么增加了模型在有语义先验条件下的依赖程度,要么为模型提供了更多的语义先验,因为指令学习的模型在面对翻转标签时更不擅长翻转其自然语言目标。结合图6的结果,指令学习可以改善模型学习输入-标签映射的能力,但它同时增强了语义先验的使用。

总结

本文研究了语言模型在预训练过程中所学习的先验知识和输入标签映射的上下文学习能力。研究发现,大型语言模型可以学习覆盖语义先验,这种能力与模型规模有关。为了消除标签的语义意义,作者提出了一种实验设置,即语义无关标签上下文学习(SUL-ICL),并发现这种上下文学习能力也与模型规模有关。此外,研究还分析了经过指令学习的语言模型,并发现指令学习可以提高学习输入-标签映射的能力,但同时也强化了语义先验。最后,研究还分析了语言模型在高维线性分类任务上的表现,并发现这种表现能力也与模型规模有关。总之,这些结果表明,语言模型的上下文学习行为会随着模型规模的不同而改变,而大型语言模型具有将输入映射到多种类型标签的能力,这是一种真正的符号推理形式。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

932f122764a5c958a40f9a3eb943b37a.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/429258.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数影周报:现代汽车发生数据泄露事件;淘宝天猫集团完成组织调整

本周看点:现代汽车发生数据泄露事件;微软会议应用Teams 新功能可禁用/启用脏话过滤器;欧洲隐私监管机构创建ChatGPT工作组;淘宝天猫集团完成组织调整;阿里巴巴再向Lazada投资3.529亿美元...... 数据安全那些事 现代汽车…

C语言数据结构-队列的知识总结归纳

队列的知识总结归纳一.队列的基本概念二.循环队列的顺序存储常见的基本操作以及详细图解1.队列的顺序存储结构类型定义2.初始化队列初始化队列示意图3.判断队空4.判断队列是否满的三种方法图示5.入队或进队入队的示意图6出队或退队出队的图示三. 队列的链式存储结构四. 链式队列…

AutoGPT自主人工智能用法和使用案例

介绍 AutoGPT是什么:自主人工智能,不需要人为的干预,自己完成思考和决策【比如最近比较热门的用AutoGPT创业,做项目–>就是比较消耗token】 AI 自己上网、自己使用第三方工具、自己思考、自己操作你的电脑【就是操作你的电脑…

缺省函数,函数重载,引用简单介绍的补充说明

TIPS 命名空间域的作用实际上相当于把部分变量的名称给他隔离起来,这样的话就可以减少变量名的冲突。命名空间是对全局域当中的这些变量啊,函数啊,类型啊进行一个封装与隔离,可以防止你和我之间的冲突,也可以防止与库…

leetcode:各位相加(数学办法详解)

前言:内容包括:题目,代码实现,大致思路 目录 题目: 代码实现: 大致思路: 题目: 给定一个非负整数 num,反复将各个位上的数字相加,直到结果为一位数。返回…

【云原生Docker】11-Docker镜像仓库

【云原生|Docker】11-Docker Registry(官方仓库) 文章目录【云原生|Docker】11-Docker Registry(官方仓库)前言docker registry简介操作示例hyper/docker-registry-web前言 ​ 前面我们所有的docker操作,使用的镜像都是在docker官方的镜像仓库下载,当然这…

总结825

学习目标: 4月(复习完高数18讲内容,背诵21篇短文,熟词僻义300词基础词) 今日复习: 手绘高数第11讲思维导图,回顾线性代数第一讲 学习内容: 第12讲二重积分视频,纠正11讲…

手势控制的机器人手臂

将向你展示如何构建机械手臂并使用手势和计算机视觉来控制它。下面有一个在开发阶段的机械手臂的演示视频。展示开发中的手臂的演示视频:https://youtu.be/KwiwetZGv0s如图所示,该过程首先用摄像头捕捉我的手及其标志。通过跟踪特定的界标,例…

300到400的蓝牙耳机有哪些推荐?2023年值得入手的性价比蓝牙耳机

今年依旧是真无线蓝牙耳机快速发展的一年,市面上都有着各式各样的蓝牙耳机,一时间难以辨认哪些款式更适合自己,今天给大家介绍的是300元左右的蓝牙耳机,那这个价位的耳机到底怎么样呢?其实,300左右的蓝牙耳…

Qt 窗口置顶

文章目录一、前言二、示例代码三、补充说明四、窗口透明五、参考一、前言 我们使用QT进行界面开发时,可能会遇到需要将窗口置顶的情况。最常见的就是,需要制作一个悬浮工具栏,悬浮菜单,甚至是悬浮的画板。这就意味这我们需要将这个…

Javascript40行代码实现基础MVC原理。

参考文章 M数据层 V视图 C控制器 先来一个dom结构&#xff0c;一个p标签&#xff0c;用来展示输入的内容&#xff0c;一个input标签&#xff0c;用来输入内容⬇️ <p id"mvcp"></p> <input id"mvc"></input>创建Model类&#x…

第二部分——长难句——第一章——并列句

conjunction(and,but,if,when(while)) 想把两个句子&#xff08;多件事&#xff09;连在一块&#xff0c;就必须加上连词。 所以长难句到底是啥&#xff1f; 所以长难句&#xff08;直白表达&#xff0c;并不是语法表述&#xff09;就是几个简单句多家上几个连接词就齐活了&am…

一文读懂Profibus/Profinet/Ethernet的区别

Ethernet(以太网络)是大家很熟悉的一种网络了&#xff0c;由Xerox公司创建并由Xerox、Intel和DEC公司联合开发的基带局域网规范&#xff0c;是当今现有局域网采用的最通用的通信协议标准&#xff0c;包括标准的以太网&#xff08;10Mbit/s)、快速以太网&#xff08;100Mbit/s&a…

Python 自动化测试框架环境怎么搭建?这篇文章给你讲的明明白白

目录 Python 自动化测试框架环境搭建 第一步&#xff1a;安装 Python 第二步&#xff1a;安装 PyCharm 第三步&#xff1a;安装 Selenium WebDriver 第四步&#xff1a;安装浏览器驱动 第五步&#xff1a;创建测试用例 第六步&#xff1a;集成持续集成平台 总结 Python …

人工智能中的顶级期刊

本文描述了获取人工智能顶级期刊列表的方法&#xff0c;方便读者通过阅读顶级期刊中的论文跟踪人工智能前沿。同时&#xff0c;本文还介绍了获取人工智能顶级期刊投稿信息的方法&#xff0c;帮助读者提高论文的录用率。 1. 顶级期刊列表的获取方法 要查找某个领域的顶级期刊有…

RocketMQ 消费者Rebalance 解析——图解、源码级解析

&#x1f34a; Java学习&#xff1a;Java从入门到精通总结 &#x1f34a; 深入浅出RocketMQ设计思想&#xff1a;深入浅出RocketMQ设计思想 &#x1f34a; 绝对不一样的职场干货&#xff1a;大厂最佳实践经验指南 &#x1f4c6; 最近更新&#xff1a;2023年4月15日 &#x…

gRPC 四种RPC类型异同

gRPC定义了如下四种RPC&#xff0c;刚开始接触的时候&#xff0c;感觉挺奇怪的&#xff0c;RPC不就是接口调用吗&#xff0c;区分这么多干啥&#xff1f;难道实现原理不一样&#xff1f;未读源码之前&#xff0c;还想着有啥神秘的地方&#xff0c;看完源码之后&#xff0c;才发…

Guns社区医疗项目

又是一年毕业季&#xff0c;计算机专业大四的同学们要接受毕业设计的考验啦。又有多少同学为了毕业设计而愁眉苦脸&#xff0c;心力憔悴。考虑到这些&#xff0c;这里为同学们分享一个适合你们毕业设计的作品以及详细介绍&#xff0c;让正在焦头烂额的同学们有所启发&#xff0…

MPC的560x系列的运行模式的介绍

一、模式简介 1、运行模式 一共11种模式&#xff0c;分别为RESET、DRUN、SAFE、TEST、RUN0、RUN1、RUN2、RUN3、HALT、STOP、STANDBY。其中RESET、DRUN、SAFE、TEST是系统工作模式&#xff0c;用户不用个特别关系&#xff0c;而后面几种是用于经常使用到的工作模式。 RESET&a…

ASP.NET Core - 依赖注入(二)

2&#xff0c;NET Core 依赖注入的基本用法 话接上篇&#xff0c;这一章介绍 .NET Core 框架自带的轻量级 Ioc 容器下服务使用的一些知识点&#xff0c;大家可以先看看上一篇文章 [ASP.NET Core - 依赖注入(一)] 2.3 服务解析 通过 IServiceCollection 注册了服务之后&#xf…