陈丹琦团队最新力作:上下文学习在上下文“学到”了什么?

news2024/10/5 16:26:11

e98a7018f52f0fe5c12c7b941ffcd7fd.png

深度学习自然语言处理 原创
作者 | 鸽鸽

这段时间in-context learning真的很火,陈丹琦组最新的两篇文章都是ICL相关,今天我们拜读其中一篇:丹琦的硕士生、纽约大学准博士生Jane Pan的ACL小短文。

大佬的学生会做出怎样的科研示范呢?我们来瞧一瞧!有利于揭秘ICL的内部工作机制嗷~

a13903c1a15f10b0fbb30c0676f218c2.png
最底下这篇哦

论文:What In-Context Learning "Learns" In-Context: Disentangling Task Recognition and Task Learning
地址:https://arxiv.org/abs/2305.09731
代码:https://github.com/ princeton-nlp/WhatICLLearns
录取:Findings of ACL 2023

众所周知,上下文学习第一次在GPT-3的论文Language Models are Few-Shot Learners中提出,这种超能力意味着大模型能够仅从上下文中的例子“学习”执行任务而不进行任何参数更新。那么,上下文学习究竟在上下文“学到”了什么?

这个问题尚无定论,一派研究假设预训练期间LLMs就已经隐含地学习了下游应用所需的任务,而上下文演示只是提供信息、使模型识别所需任务而已。另一派则表示,Transformer-based模型可以执行隐式梯度下降以更新“内部模型”,并且上下文学习与显式微调之间具有相似性!这个脑洞有点神奇了!作者提供了相关研究,大家可以去论文的参考文献看看。

根据这两派的观点,这篇文章把ICL分解为任务识别(TR)和任务学习(TL)两个方面,观察ICL背后到底发生了什么。

先来一波严谨的定义

我们先理解下TR和TL这两个概念的定义。以下描述有点啰嗦,也可以不看,用一句话概括就是:

TR通过演示(demonstrations)来识别任务并应用预训练的先验知识,TL学习预训练中没有的新知识;TR不受输入-标签映射的影响,但TL要求提供正确的映射!

ICL的数学定义

LLM将输入-标签对演示 和测试输入  作为条件来预测标签 , 由演示 (demonstrations) 引出一个映射.

任务识别(TR)

任务识别(task recognition)表示模型仅通过观察输入分布 和标签分布 , 而不是提供 对的情况下,识别映射的能力。在不依赖于配对信息的情况下,LLM会将其预训练的先验信息应用于识别到的,即使提供错误的输入-标签映射。

看起来很抽象,我们举个例子。即使没有以明确的方式通过正确标签的演示来学习任务,甚至给出类似于“这部电影很棒,情感是负面的”的错误演示,模型在电影评论的情感分类这个任务上依然能表现良好,因为这个任务在预训练中很常见、很容易识别。

任务学习(TL)

任务学习(TL)指从演示(demonstrations)中学习新的输入-标签映射的能力。与TR不同,TL允许模型学习新的映射,因此正确的输入标签对至关重要。

难点是如何分解TR和TL

接下来看看作者如何分解这两种机制,搞定它这篇论文就get啦!

假设这两种机制在不同条件下发生,很显然,只识别不学习(TR)比学习新映射(TL)更容易。TR可以在小规模上发生,但只有TL会随着模型规模和演示次数的增加而显著改进。

那么如何将TR和TL分开观察呢?

作者巧妙地使用了标签空间操作来分离TR和TL,包括三种不同的设置:

  • GOLD:使用自然提示和黄金的输入-标签对的标准ICL设置。这种设置同时反映TR和TL。

  • RANDOM:使用与GOLD相同的自然提示,从标签空间中均匀随机采样演示标签这种设置只反映TR机制。

  • ABSTRACT:使用最小提示(提供没有任务信息的提示)和没有明确语义含义的字符(例如数字、字母和随机符号)作为每个类的标签,不泄漏任何任务特定的信息这种设置只反映TL机制。

fbf623ece5822e23db897df6c7418c47.png
图:在三种设置中进行实验:随机(顶部)、摘要(中间)和黄金(底部)

作者在4种类型的16个分类数据集上进行实验,包括情感分析、毒性检测、自然语言推理/复述检测和主题/立场分类等分类任务;使用三个最先进的LLM系列,包括GPT 3,LLaMA和OPT.

结果如何呢

总体趋势上,GOLD在所有模型族和演示数量方面始终表现最好,这是因为GOLD设置为模型提供了所有信息;RANDOM曲线不会随着模型大小或演示数量而增加,保持基本平稳;在模型尺寸较小或演示数量较少时(K = 8),RANDOM和GOLD之间差距非常微小。也就是说,从上下文示例中识别任务(TR)并不会随着模型大小或示例数量的增加而急剧扩展。

相比之下,任务学习(TL)受规模的影响,并且随着更多演示而进一步改善。ABSTRACT曲线的斜率随着模型大小和演示数量的增加而越来越陡峭;对于小模型或小的演示数量,ABSTRACT表现大致相同,且大多数情况下表现不如RANDOM,但ABSTRACT在最大模型和演示数量时表现明显优于RANDOM、甚至能匹配GOLD的表现。

049a20b365a044393df7ebacb80e3a41.png
图:GPT-3(左)、LLaMA(中)和OPT(右)16个数据集的平均精度

并且任务难度会影响任务学习的趋势,对于情感分析这类的简单任务,ABSTRACT随着规模和示例数量的增加呈更好的趋势;而自然语言推理(NLI)这类复杂任务的ABSTRACT曲线更平缓,表明模型更依赖于自然提示和预训练先验来解决这些任务。

总结

这篇论文独创地将ICL分成任务识别和任务学习这两种机制,并且证明两者发生的条件不同。小模型就有较好的任务识别的能力,但是大模型独具任务学习的新兴能力、并且可以利用更多演示来提高性能。

果然,学习能力还是要在大模型中涌现!


进NLP群—>加入NLP交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/553421.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

单位、家庭建筑物电气、电子设备防雷举措

前 言 在现实的学习、工作、生活中,有时会面对自然灾害、重特大事故、环境公害及人为破坏等突发事件,为了控制事故的发展,就不得不需要事先制定应急预案。那要怎么制定科学的应急预案呢﹖下面是小编为大家整理的单位、住宅建筑物、电子电气防…

Flink有状态计算的状态容错

状态容错 State Fault Tolerance 首先来说一说状态容错。Flink 支持有状态的计算,可以把数据流的结果一直维持在内存(或 disk)中,比如累加一个点击数,如果某一时刻计算程序挂掉了,如何保证下次重启的时候&…

VM600 IOCN 输入/输出接口卡

用于CPUM卡的VM600 IOCN输入/输出卡 CPUM卡的输入/输出(接口)卡一个主以太网连接器(8P8C (RJ45)),用于与VM600 MPSx软件和/或Modbus TCP和/或PROFINET通信进行通信一个辅助以太网连接器(8P8C (RJ45)),用于冗余Modbus TCP通信一个主要串行连接器(6P6C (R…

LightningChart JS 4.0.x Crack

Lightning-fast, interactive & responsive 2D & 3D JavaScript charts. Next Generation, World’s Fastest JS Charts Getting Started with LightningChart JS There’s multiple ways to get started with our JS charting library. You can install the package…

CMake Practice 学习笔记二---子目录、安装

让前面的Hello World更像一个工程: 为工程添加一个子目录src,用来放置工程源代码;添加一个子目录doc,用来反之这个工程的文档hello.txt;在工程目录添加文本文件COPYRIGHT,README;在工程目录添加…

Linux常见指令(3)

Linux常见指令 ⑶ date指令引入描述用法例子时间时间戳 cal指令描述用法例子 find指令描述用法例子补充which指令whereis指令 grep指令描述用法例子grep 对文件的操作grep 对目录的操作 补充 打包压缩 和 解压解包zip && unzip描述用法例子对文件的操作对目录的操作 ta…

苹果手机没有备份怎么恢复数据?数据恢复,轻松解决!

案例:苹果手机没有进行过iTunes和iCloud备份,手机还原后数据都被抹掉了,还能恢复数据吗? 【求问各位大神,我几天前把苹果手机的数据还原了,也没有提前进行过数据的备份。现在想起来之前微信上有一些重要的…

uniapp使用uView框架,后端传16位数以上时出现精度缺失的情况

1、使用 json-bigint,失败 2、使用 config 里的 getTask,失败 3、修改 dataType,成功 原因: 通过ajax请求回来的数据在response和preview两种状态显示的是不同的。response中的看到的数据格式其实是字符串(ajax请求…

GPT-4 国内使用指南 保姆教程

gpt持续火爆,然鹅国内很多朋友还说不会使用,因此有必要科普一篇文章! app.educlub.icu很多朋友因为各种限制无法开通#ChatGPT Plus,而申请OpenAI的GPT-4 API也要慢慢排队(我的也还没下来)。于是在这里我搜…

3 个令人惊艳的 ChatGPT 项目,开源了!

过去一周,AI 界又发生了天翻地覆的变化,其中,最广为人知的,应该是 OpenAI 正式上线 ChatGPT iOS 客户端,让所有人都可以更方便的在手机上与 ChatGPT 聊天。 此外,Stable Diffusion 母公司 Stability AI 也…

智能文档处理黑科技,拥抱更高效的数字世界

目录 0 写在前面1 为何要关注智慧文档?2 图像弯曲矫正3 手写板反光擦除4 版面元素检测5 文档篡改检测总结 0 写在前面 近期,中国图象图形学学会文档图像分析与识别专业委员会与上海合合信息科技有限公司联合打造了《文档图像智能分析与处理》高峰论坛。…

OpenCloudOS开源Linux操作系统详解

OpenCloudOS是什么?OpenCloudOS是Linux哪个版本?OpenCloudOS是哪个国家的?OpenCloudOS是一个国产操作系统开源社区,OpenCloudOS的基础库和用户态组件完全与CentOS 8兼容,腾讯云百科分享OpenCloudOS Linux操作系统详细介…

基于MATLAB的无人机遥感数据预处理与农林植被性状估算实践技术

为了将人工智能方法引入农业生产领域。首先在种植、养护等生产作业环节,逐步摆脱人力依赖;在施肥灌溉环节构建智慧节能系统;在产量预测和商品定价生产管理环节提高效能。这些智慧农业迫切需要实现的目标,首先要解决的问题就是多源…

第三十六章 状态管理工具与总结

Redux 是一个渐进式的状态管理库,它不仅仅是一个库,同时也是一个框架。它提供了一组用于构建复杂应用程序的工具和库,其中包括一些浏览器插件。 在 Chrome 和 Firefox 浏览器上,已经存在一些 Redux 的浏览器插件,例如 …

「技术分享」汽车检测移动机器人应用,科聪赋能智能数字化检测!

2021年汽车无钥匙进入系统市场价值16亿美元,预计到 2027 年将达到 26.8 亿美元,在预测期内的复合年增长率超过10%。这一光明的市场前景,推动相关供应商推出复杂的集成电子系统。但过去,汽车制造环节在智能化、数字化和过程成本等方…

企业数字化转型到底该怎么做?

企业数字化转型涉及实施技术和利用数字工具来增强业务流程、改善客户体验和推动创新。主要包括: 愿景和战略:首先明确定义数字化转型目标。确定数字技术可以对企业的业务产生最重大影响的领域,例如运营效率、客户参与度或产品开发。 评估当前…

【Java EE】Spring Cloud Gateway

Spring Cloud Gateway 添加Spring Cloud Gateway术语表工作流程网关的作用路由负载均衡统一处理跨域发布控制流量染色统一接口保护统一业务处理统一鉴权访问控制统一日志统一文档 网关的分类实现网关开启日志断言过滤器 参考文档 https://springdoc.cn/spring-cloud-gateway/ …

BetaFlight Mark4之“妖怪”声音之二

BetaFlight Mark4之“妖怪”声音之二 1. 源由2. 回顾3. 分析4. 优化5. 数据6. 综述7. 参考资料8. 附录 1. 源由 在BetaFlight Mark4之“妖怪”声音大致做了如下测试: 滤波参数调整 (怀疑滤波参数问题,导致振动传入系统,进而桨叶转速变化产生异响)整机螺…

系统学习大模型的20篇论文

【引子】“脚踏实地,仰望星空”, 知其然还要知其所以然。读论文是一条重要的途径,这一篇文章https://magazine.sebastianraschka.com/p/understanding-large-language-models非常值得借鉴,不敢私藏,编译成文。 大型语言…

Vue-生命周期

Vue实例有一个完整的生命周期,也就是说从开始创建、初始化数据、编译模板、挂在DOM、渲染-更新-渲染、卸载等一系列过程,我们成为Vue 实例的生命周期,钩子就是在某个阶段给你一个做某些处理的机会。 注册周期钩子​ 举例来说,mo…