大模型论文:Language Models are Few-Shot Learners(GPT3)

news2025/4/15 9:47:00

大模型论文:Language Models are Few-Shot Learners(GPT3)

文章地址:https://proceedings.neurips.cc/paper_files/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf

一、摘要

我们证明了,扩大语言模型的规模在任务无关的 few-shot 学习任务中极大提升了表现,有时甚至能与此前最先进的微调方法相竞争。具体来说,我们训练了 GPT-3,这是一种具有 1750 亿参数的自回归语言模型,其参数数量是此前任何非稀疏语言模型的 10 倍。我们在 few-shot 设置中对其性能进行了测试。

对于所有任务,GPT-3 都是在没有任何梯度更新或微调的情况下使用的,其任务和 few-shot 示例完全通过文本交互的方式输入给模型。在许多自然语言处理(NLP)数据集上(包括翻译、问答和完形填空任务),GPT-3 都取得了出色的表现。

我们也指出了一些数据集,在这些数据集上 GPT-3 的 few-shot 学习仍然存在困难,以及某些 GPT-3 在大规模网络语料训练中面临方法学问题的数据集。

二、背景

  • 自然语言处理(NLP)已经从学习任务特定的表示形式和设计任务特定架构,转向使用任务无关的预训练和任务无关的模型架构。比如GPT1还需要属于特定于任务的半监督模型,使用无标签语料数据预训练,对于特定任务,使用带标签数据进行微调。而GPT-2开始打破了这一限制,提出了统一的任务无关预训练模型。它在更大规模的无监督文本数据上进行训练,仅通过“语言建模”这一单一目标函数,学习通用的语言表示。在下游任务中,GPT-2不再依赖任务特定的模型结构,而是直接通过“少量示例”(few-shot learning)或“零样本学习”(zero-shot learning)进行泛化,表现出令人惊讶的迁移能力

  • 本文提出的GPT3(1750亿参数)将这一趋势进一步加强。GPT-3拥有1750亿个参数,是当时最大规模的预训练语言模型。它不再需要显式微调,而是依赖“提示工程” (prompt engineering)来完成各类任务。这种方式不依赖具体任务的模型参数调整,只需将任务以自然语言描述的方式嵌入输入中,模型即可根据上下文进行推理和生成答案,极大地提升了语言模型的通用性与可扩展性

  • 本文的实验显示,GPT-3 即使不进行任何微调,只靠上下文提示,也能在特定任务上达到甚至超过当前最先进模型

  • 本文还训练了一系列较小模型(从 1.25 亿参数到 130 亿参数),用于与 GPT-3(1750 亿)在 Zero-/One-/Few-shot 设置下进行对比。然后发现一个明显趋势:随着模型容量的提升,Zero-/One-/Few-shot 表现之间的差距逐渐缩小,表明较大模型在“元学习能力”上更强,能够更好地通过上下文示例学习并完成新任务

三、方法

1、方法概述

2、Model and Architectures 模型架构

  • 本文使用了 GPT-2 相同的模型架构,包括修改后的初始化、归一化方式、可逆的 token 编码方案。不同之处在于本文采用了稀疏注意力机制(dense + 局部带状 sparse 模式),并训练了 8 种不同规模的模型,从 1.25 亿参数到 1750 亿,最大模型即为 GPT-3。 这种规模范围可以检验“扩展规律”(scaling laws)是否成立。

  • GPT-3 与 GPT-2 架构基本一致,但增加了参数数量和引入稀疏注意机制以优化大规模训练;

  • 通过训练不同规模的模型来观察性能与规模的关系(验证“模型越大越强”是否成立)。

3、 Training Dataset 训练数据集

为了构建训练集,本文从 CommonCrawl 下载并过滤了一部分数据:

  1. 根据多个高质量语料相似度进行筛选;
  2. 跨数据集与文档级别去重以减少重复、避免泄露验证集内容;
  3. 引入多个高质量语料库以增强多样性,包括 WebText、Books1、Books2、Wikipedia 等。

训练数据质量直接影响模型泛化能力:

  • 不仅靠大,更要干净、多样、有信息密度
  • 使用类似于“去毒+筛选+补充”的方式构建数据管道,以保证有效性和泛化性。

4、Training Process 训练过程

作者发现越大的模型可以使用越大的 batch size,但需要更小的学习率。本文使用梯度噪声大小控制学习率,并采用 V100 GPU + 高带宽集群 + 模型并行(层内、层间)训练大模型,避免内存溢出。

  • 大模型训练不仅需要更大计算资源,也需更复杂的策略(如学习率调节、模型并行);
  • 充分优化硬件利用率、降低通信成本,是训练 GPT-3 成功的幕后关键。

5、Evaluation 评估方法

  • 对于 Few-shot 学习,本文从每个任务的训练集中随机抽取 K 个示例作为输入(有换行分隔),再让模型预测目标。对于没有训练集的任务(如 LAMBADA, StoryCloze),本文从开发集中抽样。

  • Zero-shot 设置下,本文提供自然语言任务描述而不是示例;某些任务会根据不同需求调整格式。

  • 自由生成任务中使用 beam search,beam 宽度为 4,惩罚因子 α = 0.6。

  • 最终结果基于公开测试集给出,某些任务测试集太大,GPT-3 无法完全加载,因此本文提供开发集表现。

  • 总结

    • Few-shot 评估方式与“真实交互场景”更接近:模型看到的示例仅存在于上下文中;
    • Zero-shot 检测模型推理能力,而不是学习能力;
    • 使用 beam search 表明注重生成质量。
  • 下图展示了模型大小与上下文示例数量对 GPT-3 表现的影响:

    在这里插入图片描述

  • GPT3可以不依赖传统微调,仅通过上下文示例就能高效执行任务。GPT-3 的 Few-shot 表现可媲美甚至超越精调后的 BERT 系列模型,展示了“预训练 + In-context Learning”范式的巨大潜力

四、实验结果(具体数据看论文)

1、语言建模、完形填空和文本补全(Language Modeling, Cloze, and Completion Tasks)

本文测试了 GPT-3 在传统语言建模任务及相关任务上的表现。

  • PTB(Penn Tree Bank) 数据集上计算 zero-shot 的困惑度(perplexity),结果比之前 SOTA 模型高出 15 分(代表更优)。
  • 由于 Wikipedia 和 one-billion word 数据集可能与训练集重合,我们没有在这些数据集上汇报结果。

LAMBADA 数据集 要求模型预测一段话的最后一个词:

  • GPT-3 zero-shot 成绩相比 SOTA 提升 8%;
  • Few-shot 设置下采用填空格式(如:Alice was friends with Bob. Alice went to visit her friend, _____.Bob),GPT-3 提升超过 18%。
总结:
  • GPT-3 在传统语言建模任务上远超以往表现;
  • 填空格式提升表现的核心在于:鼓励模型以最简形式“精确输出”(如只补 1 个词);
  • LAMBADA 的强表现显示 GPT-3 在理解上下文的长期依赖性上表现优越。

2、问答任务(Question Answering)

本文测试 GPT-3 在不同 QA 数据集上的表现,包括开放领域问答(无需上下文材料):

  • TriviaQA:GPT-3 的 zero-shot 表现比微调 T5-11B 高出 14.2%,比引导式 span 预测还高 3.8%;One-shot 设置下再提升 3.7%,接近目前 SOTA 系统(但未使用检索机制)。
  • Natural Questions (NQ):GPT-3 低于微调的 T5-11B+SSM,原因可能是其测试的是对维基百科知识的微粒度掌握。
  • ARC 科学题库:在 Challenge 子集(困难题)上 GPT-3 超过微调 RoBERTa;在 Easy 子集上稍优于 RoBERTa。
  • CoQA(对话式阅读理解):GPT-3 Few-shot 比 BERT 微调模型高出 3%,但仍落后人类和符号混合系统。
总结:
  • GPT-3 zero-shot 就能击败大多数微调模型,这意味着其已拥有庞大“事实记忆”
  • 但在需要微粒度文档知识提取的任务(如 NQ),GPT-3 表现略差;
  • GPT-3 表现优于 RoBERTa 说明其理解推理能力更强,但仍受限于上下文记忆长度和结构化知识建模能力。

3、翻译任务(Translation)

GPT-3 的训练语料主要来自 Common Crawl(网络文本),93% 为英文,7% 为非英文。

  • GPT-3 的训练语言分布未进行语言对控制,不同于传统 NMT 系统的双语回译训练。
  • One-/Few-shot 设置使用少量对齐示例。

结果:

  • Zero-shot GPT-3 明显弱于 NMT 系统
  • One-shot 提升 7 BLEUFew-shot 再提升 4 BLEU,整体接近传统方法;
  • 英译结果明显优于反方向(En → Ro 方向最差,比最优系统差 10 BLEU);
  • Few-shot GPT-3 在 Fr-En 和 De-En 上超越可找到的最强基线;
  • 在 Ro-En 上接近基于 60.8 万标注样本和回译的 SOTA。
总结:
  • GPT-3 没有用并行语料训练,所以翻译任务中属于“非对称输入”,zero-shot 很难。
  • 但仅用极少量示例就能赶上传统训练方法,说明 GPT-3 拥有强大的跨语言泛化能力。

4、SuperGLUE 综合评测

  • SuperGLUE 是 NLP 高难度基准测试集,本文采用 Few-shot(每个任务随机抽取 32 个样本)。
  • Sweep 不同的示例数(K),观察得分随上下文长度与模型大小提升。

各子任务表现如下:

任务表现概况
COPA / ReCoRDOne-shot/Few-shot 接近 SOTA,仅略低于 T5-11B 微调模型
WSC / BoolQ / MultiRC / RTE表现与 BERT-Large 微调接近
CBFew-shot 可达 75.6%
WiC表现明显不足,接近随机(尝试多种提示词无效)
RTE / CB与 WiC 类似,处理两个句子比较类任务效果差
  • GPT-3 的 Few-shot 表现超越 BERT-Large 的任务达 8 个,在其中两个任务中接近 T5-11B 微调 SOTA。

5、综合解读:

  • 表现亮点:推理类(如 COPA)与语言理解类任务表现出色;
  • 劣势任务:涉及两句比较(如 WiC、RTE),Few-shot 提示难以触发有效推理;
  • 这暗示 GPT-3 在“结构化比较”“语义对齐”方面仍待提升。
能力类型GPT-3 表现总结
语言建模超越历史 SOTA,填空格式显著提升表现
完形填空 / ClozeZero-shot 和 Few-shot 表现大幅优于以往
问答任务Zero-shot 表现直接超过 T5-11B 微调模型,Few-shot 更强
翻译任务英语方向表现佳,反方向稍差;Few-shot 能接近甚至超过强基线
SuperGLUE 综合多任务接近甚至超过 BERT-Large 微调水平;对比类任务仍是短板

五、GPT1、GPT2和GPT3对比

  • 下表是三个模型的简单对比
GPT-1GPT-2GPT-3
发布年份201820192020
参数规模1.17 亿15 亿1750 亿
层数(Transformer)12 层48 层96 层
隐藏层维度768160012288
训练语料规模5GB(BooksCorpus)40GB(WebText)570GB+(多源融合)
数据来源图书高质量网页文本网页、书籍、百科等
任务能力需微调支持少量泛化支持零样本/小样本学习
文本生成质量一般流畅自然接近人类水准
  • 三个模型的迭代更多的是大力出奇迹,加参数加数据

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2334285.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一周学会Pandas2 Python数据处理与分析-Pandas2数据导出

锋哥原创的Pandas2 Python数据处理与分析 视频教程: 2025版 Pandas2 Python数据处理与分析 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili 任何原始格式的数据载入DataFrame后,都可以使用类似 DataFrame.to_csv()的方法输出到相应格式的文件或者…

深入解析栈式虚拟机与反向波兰表示法

1.1 什么是虚拟机? 虚拟机(Virtual Machine, VM)是一种软件实现的计算机系统,提供与物理计算机相类似的环境,但在软件层面运行。虚拟机的存在简化了跨平台兼容性、资源管理以及安全隔离等问题。 1.2 栈式虚拟机的架构…

学习MySQL的第八天

海到无边天作岸 山登绝顶我为峰 一、数据库的创建、修改与删除 1.1 引言 在经过前面七天对于MySQL基本知识的学习之后,现在我们从基本的语句命令开始进入综合性的语句的编写来实现特定的需求,从这里开始需要我们有一个宏观的思想&…

AI识别与雾炮联动:工地尘雾治理新途径

利用视觉分析的AI识别用于设备联动雾炮方案 背景 在建筑工地场景中,人工操作、机械作业以及环境因素常常导致局部出现大量尘雾。传统监管方式存在诸多弊端,如效率低、资源分散、监控功能单一、人力效率低等,难以完美适配现代工程需求。例如…

GD32F303-IAP的过程和实验

使用的芯片为GD32F303VC 什么是IAP呢?有个博主写的很清楚;就是远程升级; 【单片机开发】单片机的烧录方式详解(ICP、IAP、ISP)_isp烧录-CSDN博客 我们需要写一个boot 和APP 通过 boot对APP的程序进行更新&#xf…

众趣科技助力商家“以真示人”,让消费场景更真实透明

在当今的消费环境中,消费者权益保护问题日益凸显。无论是网购商品与实物不符、预定酒店民宿与图文描述差异大,还是游览景区遭遇“照骗”,这些问题不仅让消费者在消费和决策过程中倍感困扰,也让商家面临信任危机。 消费者在享受便…

spark core编程之行动算子、累加器、广播变量

一、RDD 行动算子 reduce:聚集 RDD 所有元素,先聚合分区内数据,再聚合分区间数据。 collect:在驱动程序中以数组形式返回数据集所有元素。 foreach:分布式遍历 RDD 元素并调用指定函数。 count:返回 RDD…

提高课:数据结构之树状数组

1&#xff0c;楼兰图腾 #include<iostream> #include<cstring> #include<cstdio> #include<algorithm>using namespace std;typedef long long LL;const int N 200010;int n; int a[N]; int tr[N]; int Greater[N], lower[N];int lowbit(int x) {ret…

基于javaweb的SpringBoot新闻视频发布推荐评论系统(源码+部署文档)

技术范围&#xff1a;SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容&#xff1a;免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文…

机器学习之PCA主成分分析详解

文章目录 引言一、PCA的概念二、PCA的基本数学原理2.1 内积与投影2.2 基2.3 基变换2.4 关键问题及优化目标2.5 方差2.6 协方差2.7 协方差矩阵2.8 协方差矩阵对角化 三、PCA执行步骤总结四、PCA计算实例五、PCA参数解释六、代码实现七、PCA的优缺点八、总结 引言 在机器学习领域…

回溯——固定套路 | 面试算法12道

目录 输出二叉树所有路径 路径总和问题 组合总和问题 分割回文串 子集问题 排列问题 字母大小写全排列 单词搜索 复原IP地址 电话号码问题 括号生成问题 给我一种感觉是回溯需要画图思考是否需要剪枝。 元素个数n相当于树的宽度&#xff08;横向&#xff09;&#x…

Maven和MyBatis学习总结

目录 Maven 1.Maven的概念&#xff1a; 2.在具体的使用中意义&#xff1a; 3.与传统项目引入jar包做对比&#xff1a; 传统方式&#xff1a; 在maven项目当中&#xff1a; 4.在创建maven项目后&#xff0c;想要自定义一些maven配置 5.maven项目的结构 6.maven指令的生…

AndroidTV 当贝播放器-v1.5.2-官方简洁无广告版

AndroidTV 当贝播放器 链接&#xff1a;https://pan.xunlei.com/s/VONXRf0g3cT0ECVt6GEsoODFA1?pwds4qv# AndroidTV 当贝播放器-v1.5.2-官方简洁无广告版

Python生成exe

其中的 -w 参数是 PyInstaller 用于窗口模式&#xff08;Windowed mode&#xff09;&#xff0c;它会关闭命令行窗口的输出&#xff0c;这通常用于 图形界面程序&#xff08;GUI&#xff09;&#xff0c;比如使用 PyQt6, Tkinter, PySide6 等。 所以&#xff1a; 如果你在没有…

MySql 自我总结

目录 1. 数据库约束 1.1约束类型 2. 表的设计 2.1 一对一 2.2 一对多 2.3 多对多 3. 新增 4. 查询 4.1 聚合查询 4.2 GROUP BY 4.3 HAVING 4.4 联合查询 4.5 内连接 4.5.1 内连接的核心概念 4.5.2 内连接的语法 4.5.3 ON 与 WHERE 的区别 4.6 自连接 4.6.1 定…

uni-app app 安卓和ios防截屏

首先可参考文档 uni.setUserCaptureScreen 这里需要在项目中引入这个插件 uni-usercapturescreen - DCloud 插件市场 否则会报错,在需要防止截屏录屏的页面中,加入 uni.setUserCaptureScreen({enable: false,success() {console.log(全局截屏录屏功能已禁用);},fail(err)…

【Go】windows下的Go安装与配置,并运行第一个Go程序

【Go】windows下的Go安装与配置&#xff0c;并运行第一个Go程序 安装环境&#xff1a;windows10 64位 安装版本&#xff1a;go1.16 windows/amd64 一、安装配置步骤 1.到官方网址下载安装包 https://golang.google.cn/dl/ 默认情况下 .msi 文件会安装在 c:\Go 目录下。可自行配…

vue3腾讯云直播 前端拉流(前端页面展示直播)

1、引入文件&#xff0c;在index.html <link href"https://tcsdk.com/player/tcplayer/release/v5.3.2/tcplayer.min.css" rel"stylesheet" /><!--播放器脚本文件--><script src"https://tcsdk.com/player/tcplayer/release/v5.3.2/t…

【MYSQL从入门到精通】数据库基础操作、数据类型

目录 一些基础操作语句 创建库名 选择要操作的数据库 删除数据库 磁盘中删除文件的原理 数据库安全的各种措置 查看MYSQL的帮助 数值类型 字符串类型 日期类型 一些基础操作语句 1.使用客户端工具连接数据库服务器&#xff1a;mysql -uroot -p 2.查看所有数据库&am…

论文阅读笔记——Multi-Token Attention

MTA 论文 在 Transformer 中计算注意力权重时&#xff0c;仅依赖单个 Q 和 K 的相似度&#xff0c;无法有效捕捉多标记组合信息。&#xff08;对于 A、B 两个词&#xff0c;单标记注意力需要分别计算两个词的注意力分数&#xff0c;再通过后处理定位共同出现的位置或通过多层隐…