人工智能论文GPT-3(2):2020.5 Language Models are Few-Shot Learners;微调;少样本Few-Shot (FS)

news2025/1/13 13:12:25

2 方法Approach

我们的基本预训练方法,包括模型、数据和训练,与GPT-2中描述的过程相似,只是模型规模、数据集规模和多样性,以及训练时长有所扩大,相对简单直接。

我们使用的上下文学习也与GPT-2相似,但在这项工作中,我们系统地探索了不同上下文学习设置。

因此,我们首先明确定义并对比我们将评估GPT-3的不同设置,或者原则上可以评估GPT-3的设置。

这些设置可以被看作是一个谱系,它们依赖任务特定数据的程度各不相同。具体来说,我们可以在这个谱系上至少识别出四个点(如图2.1所示):

微调Fine-Tuning (FT)

微调(FT)是近年来最常见的方法,涉及在针对所需任务的监督数据集上训练,以更新预训练模型的权重。通常使用数千到数十万个带标签的示例。

微调的主要优势是在许多基准测试上表现出色。

主要缺点是每个任务都需要一个新的大型数据集,可能导致分布外泛化性能不佳[MPL19],以及可能利用训练数据的虚假特征[GSL+18, NK19],

这可能导致与人类性能的比较不公平。在这项工作中,我们没有对GPT-3进行微调,因为我们的重点是任务无关的性能,但原则上可以对GPT-3进行微调,这是未来工作的一个有前景的方向。

少样本Few-Shot (FS)

在本工作中,我们将使用“少样本(FS)”这一术语来指代这样一种设置:在推理时,模型接收到任务的几个演示作为条件输入[RWC+19],但不允许进行权重更新。

如图2.1所示,对于典型的数据集,一个示例包括一个上下文和一个期望的完成内容(例如一个英文句子和对应的法文翻译),少样本学习的工作方式是通过提供K个上下文和完成内容的示例,然后提供一个最终的上下文示例,模型需要提供对应的完成内容。我们通常将K设置在10到100的范围内,因为这么多示例可以适应模型的上下文窗口(nctx = 2048)。

少样本学习的主要优势是大大减少了对任务特定数据的需求,并降低了从大而狭窄的微调数据集中学习过于狭窄分布的可能性。

主要缺点是,这种方法的结果到目前为止比最先进的微调模型差得多。此外,仍然需要少量的任务特定数据。正如名称所示,这里描述的用于语言模型的少样本学习与机器学习(ML)中其他上下文中使用的少样本学习[HYC01, VBL+16]有关——两者都涉及基于广泛的任务分布进行学习(在这种情况下隐含在预训练数据中),然后迅速适应新任务。

一样本One-Shot (1S)

一样本(1S)与少样本相同,只是除了自然语言的任务描述外,只允许一个演示,如图1所示。将一样本与少样本和零样本(下面将介绍)区分开来的原因是,它最符合人类接收任务指令的方式。例如,当要求人类工作者在人工服务(如Mechanical Turk)上生成数据集时,通常会给出一个任务演示。相比之下,如果不提供示例,有时很难传达任务的内容或格式。

零样本Zero-Shot (0S)

零样本(0S)与一样本相同,只是不允许提供任何演示,模型仅接收描述任务的自然语言指令。这种方法提供了最大的便利性和潜在的鲁棒性,避免了虚假关联(除非它们在大规模预训练语料库中广泛出现),但同时也是最具挑战性的设置。在某些情况下,没有先前的示例,人类可能难以理解任务的格式,因此这种设置在某些情况下“过于困难”。例如,如果有人被要求“制作一份200米短跑世界纪录表”,这个请求可能是模糊的,因为可能不清楚表格的确切格式或应包含哪些内容(即使经过仔细澄清,也很难准确理解所需的内容)。然而,至少在某些情况下,零样本与人类执行任务的方式最为接近——例如,在图2.1中的翻译示例中,人类可能仅根据文本指令就知道该怎么做。

图2.1展示了使用英语到法语翻译示例的四种方法。在本文中,我们主要关注零样本、一样本和少样本,目的是将它们作为不同的问题设置进行比较,而不是作为相互竞争的替代方案,这些设置提供了在特定基准上的性能和样本效率之间的不同权衡。我们尤其强调少样本的结果,因为其中许多结果仅略逊于最先进的微调模型。然而,最终,一样本,有时甚至零样本,似乎是与人类性能最公平的比较,也是未来工作的重要目标。

以下2.1至2.3节分别详细介绍了我们的模型、训练数据和训练过程。2.4节讨论了如何进行少样本、一样本和零样本评估的细节。

Ankie的评论:

GPT-3论文标题明确指出:“Language Models are Few-Shot Learners”,这揭示了GPT-3模型采用了少样本(few-shot)学习模式,而非传统的微调模式。GPT-3致力于实现通用人工智能的目标,因此它选择了少样本模式进行推理,而不是仅仅通过微调来应试。在少样本模式下,模型接收任务的几个演示作为条件输入,但不进行权重更新,从而保持其通用性和灵活性。

然而,少样本模式也存在一些局限性。相比于微调模式,它在应对特定任务时的应试能力可能稍逊一筹。这是因为微调模式允许模型针对特定任务进行更深入的学习和适应,而少样本模式则更注重模型的泛化能力。尽管如此,GPT-3通过采用少样本学习模式,展现出了强大的推理和生成能力,为通用人工智能的实现迈出了重要的一步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1609230.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Web程序设计-实验03 JavaScript语言基础

题目 【实验主题】 素数问题求解。计算(判断) 1~100中哪些是素数、哪些是合数。 素数也称为质数,是只能被1及其自身整除的自然数。与素数相对应的是合数,合数可以被分解为若干个素数的乘积,这些素数称为这个合数的质…

即席查询笔记

文章目录 一、Kylin4.x1、Kylin概述1.1 定义1.2 Kylin 架构1.3 Kylin 特点1.4 Kylin4.0 升级 2、Kylin 环境搭建2.1 简介2.2 Spark 安装和部署2.3 Kylin 安装和部署2.4 Kylin 启动环境准备2.5 Kylin 启动和关闭 3、快速入门3.1 数据准备3.2 Kylin项目创建入门3.3 Hive 和 Kylin…

Qt Debug模式下应用程序输出界面乱码【已解决】

Qt Debug模式下应用程序输出乱码 一、问题描述二、解决方法三、相关测试 一、问题描述 源码为utf-8编码. Qt Creator在Debug模式下运行程序,下方应用程序输出界面显示乱码. 但正常运行无乱码: 二、解决方法 尝试修改文件编码、执行编码无果… 可参考…

架构师系列-搜索引擎ElasticSearch(十)- 索引别名及重建

索引别名 别名,有点类似数据库的视图,别名一般都会和一些过滤条件相结合,可以做到即使是同一个索引上,让不同人看到不同的数据。 别名的作用 在开发中,一般随着业务需求的迭代,较老的业务逻辑就要面临更新…

小型燃气站3D可视化:打造安全高效的燃气新时代

随着科技的不断进步,越来越多的行业开始融入3D可视化技术,燃气行业也不例外。 小型燃气站作为城市燃气供应的重要节点,其安全性和运行效率至关重要。传统的燃气站管理方式往往依赖于人工巡检和纸质记录,这种方式不仅效率低下&…

JVM 讲解 (主要类加载其以及流程和机制(双亲委派))

JVM有什么用? 说白了,就是我们编写 Java 代码,编译 Java 代码,目的不是让它在 Linux、Windows 或者 MacOS 上跑,而是在 JVM 上跑。(保证只要有JVM这个东西,就可以跨平台使用Java) 可以把JVM想象…

事务的传播行为介绍和事务失效

常用的就下图介绍的这两种,REQUIRED 支持当前事务,如果不存在,就新建一个,EQUIRES_NEW 如果有事务存在,挂起当前事务,创建一个新的事务 同一个service中必须用代理对象调用,否则失效

ADOP 万兆电口光模块:SFP+转RJ45端口解决方案

🌵在数据中心的接入层中,大多数服务器网卡(NIC)和存储设备都采用10GBASE-T RJ45端口,而与之相连的TOR(机架顶部)交换机通常配备SFP端口,且二者无法直接相连。为了解决该问题&#xf…

软考高级架构师:项目配置管理中产品配置例题

题目 项目配置管理中,产品配置是指一个产品在其生命周期各个阶段所产生的各种形 式和各种版本的文档、计算机程序、部件及数据的集合。该集合中的每一个元素 称为该产品配置中的 一个配置项, ( )不属于产品组成部分工作成果的配置项。 A需求文档 B设计文…

Redis中的事务(二)

事务 事务的实现 执行事务 当一个处于事务状态的客户端向服务器发送EXEC命令时,这个EXEC命令将立即被服务器执行,服务器会遍历这个客户端的事务队列,执行队列中保存的所有命令,最后将执行命令所得的结果全部返回给客户端。 例…

3、MYSQL-一条sql如何在MYSQL中执行的

MySQL的内部组件结构 大体来说,MySQL 可以分为 Server 层和存储引擎层两部分。 Server层 主要包括连接器、查询缓存、分析器、优化器、执行器等,涵盖 MySQL 的大多数核心服务功能,以及所有的内置函数(如日期、时间、数学和加密函…

MIMO(多天线)通信的四种译码算法

目录 一. 介绍 二. 极大似然译码 三. 破零译码算法 四. 最小均方误差算法 五. 球形译码 一. 介绍 发射天线数记为Mt,接收天线数记为Mr。由此发射信号x为向量: 接受信号y为向量: 信道H为矩阵: 利用n代表噪声向量,…

【若依前后端分离】温湿度仪表盘

示例&#xff1a; 代码&#xff1a; TemperatureAndHumidity.vue组件 //温湿度仪表盘 <template><div><!-- 在这里放置你的图表组件 --><div ref"echarts" style"width: 100%; height: 400px;"></div></div> </t…

【C++干货基地】面向对象核心概念 const成员函数 | 初始化列表 | explicit关键字 | 取地址重载

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 引入 哈喽各位铁汁们好啊&#xff0c;我是博主鸽芷咕《C干货基地》是由我的襄阳家乡零食基地有感而发&#xff0c;不知道各位的…

数据结构PT1——线性表/链表

1&#xff1a;顺序存储实现(数组实现) Data&#xff1a; a1 a2 .....ai ai1 .... an .... typedef struct LNode *List; //指向LNode的指针&#xff0c;这是typedef的&#xff0c;你可以随时声明&#xff0c;而不加typedef只是创建一个 struct LNode{ //结构体成员ElementT…

Sentinel 流控注解使用

大概原理&#xff1a;通过反射解析注解 SentinelResource信息完成调用&#xff0c;处理方法&#xff0c;类似AOP编程 处理方法的返回类型要保持一致&#xff0c;参数和顺序保持一致&#xff0c; 可以在参数列表最后加 com.alibaba.csp.sentinel.slots.block.BlockException; …

【leetcode面试经典150题】62. K 个一组翻转链表(C++)

【leetcode面试经典150题】专栏系列将为准备暑期实习生以及秋招的同学们提高在面试时的经典面试算法题的思路和想法。本专栏将以一题多解和精简算法思路为主&#xff0c;题解使用C语言。&#xff08;若有使用其他语言的同学也可了解题解思路&#xff0c;本质上语法内容一致&…

OpenHarmony音视频—opus

简介 Opus是一种用于在互联网上进行交互式语音和音频传输的编解码器。它可以从低比特率窄带语音扩展到非常高的高品质立体声音乐。 下载安装 直接在OpenHarmony-SIG仓中搜索opus并下载。 使用说明 以OpenHarmony 3.1 Beta的rk3568版本为例 将下载的opus库代码存在以下路径&a…

视觉slam14讲-大纲-持续更新

视觉slam入门太难 数学理论编程知识计算机视觉知识 缺一不可&#xff0c;大家一起加油

ACL的基本配置

已经启用&#xff52;&#xff49;&#xff50;实现了全网可达。 这时我们要拒绝R1与R4的路由通信&#xff0c;做标准ACL过滤关注源IP需要尽量靠近目标。则在R4的物理接口G0/0/1的&#xff49;&#xff4e;接口上做&#xff0c;不能在R4的环回接口上做&#xff0c;因为ACL列表…