【论文精读】 GPT,GPT-2,GPT-3:大力出奇迹

news2025/2/24 20:31:15

系列文章目录

【论文精读】Transformer:Attention Is All You Need
【论文精读】BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding

文章目录

  • 系列文章目录
  • 一、前言
  • 二、GPT
    • (一)文章概览
    • (二)模型细节
      • 1、在没有标号的数据集上进行预训练
      • 2、怎么做微调
      • 3、特定于任务的输入转换
    • (三)实验
  • 三、GPT-2
    • (一)文章概览
    • (二)GPT-2与GPT的不同之处
    • (三)实验
  • 四、GPT-3
    • (一)文章概览
    • (二)方法
      • 1、普通的NLP模型如BERT和GPT-1:微调-预训练方法
      • 2、GPT3的方法: in-context Learning
    • (三)GPT-3模型和架构
    • (四)数据集


论文地址:

  • GPT:Improving Language Understanding by Generative Pre-Training
  • GPT-2:Language Models are Unsupervised Multitask Learners
  • GPT-3:Language Models are Few-Shot Learners

一、前言

  • 2017/06 Transformer
  • 2018/06 GPT
    • GPT的核心技术是把Transformer的解码器拿出来,在没有标号的大量的文本数据集上训练一个语言模型来获得一个预训练模型,然后在子任务上进行微调得到每一个任务所需要的分类器。
  • 2018/10 BERT
    • BERT的思想是把Transformer的编码器拿出来,收集了一个更大的数据集用于做预训练。
    • BERT提到了两个模型:BERT-Base和BERT-Large,BERT-Base的模型大小与GPT一致,结果显示Bert的性能要好于GPT。BERT-Large比BERT-Base更大,因此性能也更优。
  • 2019/02 GPT-2
    • 收集了一个更大的数据集,训练了一个比BERT-Large更大的模型,继续GPT的路线,使用Transformer的解码器,发掘语言模型的能力,并且发现非常适合做zero-shot任务,但是模型性能不够惊艳。
  • 2020/05 GPT-3
    • 数据和模型相较于GPT-2大了一百倍,模型性能也得到提升。

GPT系列的模型更复杂,要求更高,很难复现;transformer解决机器翻译,一个序列到另外一个序列;Bert想把计算机视觉成熟的先训练一个预训练的模型然后再做微调出子任务的方法搬到NLP上做好,提升技术的效果。在同样模型大小,比如是一个亿级别模型大小时候,Bert的性能要好于GPT。所以后来的文章更愿意用bert文章,因为更容易找到足够的机器把模型跑起来。

二、GPT

(一)文章概览

GPT:使用通用的预训练来提升语言的理解能力(Improving Language Understanding by Generative Pre-Training)

研究背景: 自然语言理解包括各种不同的任务,例如文本蕴涵、问题回答、语义相似性评估和文档分类。尽管大型未标记文本语料库非常丰富,但用于学习这些特定任务的标记数据却很少,这使得经过区分训练的模型难以充分执行。

作者的方案: 在各种没有标号的数据集(文本语料库)上训练一个预训练语言模型,然后在有标号的数据集上针对每个特定任务训练微调模型。

使用未标记文本中单词级信息的困难:

  • 不知道使用哪种类型的优化目标,可能有语言建模、机器翻译和话语连贯性等等,但是没有一个优化目标在不同任务上都比较好;
  • 不知道怎么样把这些学习到的表示传递到下游任务去,因为nlp领域的子任务差异性还是挺大的。

相关工作:

  • NLP 的半监督学习
  • 无监督预训练
  • 辅助训练目标(使用多个训练目标)

(二)模型细节

1、在没有标号的数据集上进行预训练

给定一个无监督的标记语料库 U = { u 1 , . . . , u n } U = \{u_1,..., u_n\} U={u1,...,un} u i u_i ui表示每个词, U U U表示没有标号的整个文本,是有顺序的),模型使用标准语言建模目标来最大化以下似然函数:

  • (每次拿k个连续的词预测下一个词出现的概率,模型记作 Θ \Theta Θ
  • Θ \Theta Θ是参数
  • k k k是超参数,表示窗口大小
    在这里插入图片描述

模型:Transformer的解码器

Transformer的编码器可以看到整个序列的所有元素,解码器只能看到当前元素及之前的元素。

U = ( u − k , . . . , u − 1 ) U = (u_{-k},..., u_{-1}) U=(uk,...,u1)是token的上下文向量, n n n是层数, W e W_e We是token的embedding矩阵, W p W_p Wp是位置embedding矩阵。
在这里插入图片描述

与BERT的区别: BERT 用的不是标准的语言模型,而是一个带掩码的语言模型,在预测一个被 mask 的词时,既能看到前面的,也能看到后面的,所以使用 Transformer encoder。但是使用编码器还是解码器不是GPT与BERT主要的区别,他们的主要区别在于目标函数的选取,预测未来比完形填空更难,GPT 的目标函数更难。

2、怎么做微调

微调任务里的数据集是有标号的:

  • 假设一个标记数据集 C,其中每个实例由一系列输入标记 x 1 , . . . , x m x_1,...,x_m x1,...,xm,以及标签 y y y组成。
  • 输入通过我们预先训练的模型,来获得最终 Transformer 块的激活 h l m h^m_l hlm ,然后将其输入到带有参数 W y W_y Wy的线性输出层中以预测 y:

在这里插入图片描述
对应的目标函数为:在这里插入图片描述
将语言建模作为微调的辅助目标有助于(a)改进监督模型的泛化,(b)加速收敛。因此,最终的目标为:
在这里插入图片描述

3、特定于任务的输入转换

将模型用于特定的任务(四个典型任务),其中 start,delim,extract 分别是 开始符,分隔符,抽取符,都是一些特殊的标记

  • Classification(分类)
    • 多分类
    • 根据一段话或者一个文本得到对应的标号
    • 【开始符,文本,抽取符】
  • Entailment(蕴涵)
    • 三分类问题(支持,反对,不支持也不反对)
    • 根据一段话,提出一个假设,判断这句话有没有蕴含假设的内容
    • 【开始符,前提,分隔符,假设,抽取符】
  • Similarity(相似)
    • 二分类问题
    • 判断两段文字是不是相似。相似是对称的(a和b相似,b和a也相似),但是实验的时候会将文本设定先后顺序,因此需要构造两个序列。
    • 【开始符,文本1,分隔符,文本2,抽取符】【开始符,文本2,分隔符,文本1,抽取符】
  • Multiple Choice(多选)
    • 给n个答案,让模型选择认为正确的答案。
    • 做法是,如果有n个答案,就构造n个序列。每个序列都得到一个分数,最后用 softmax 得到正确答案的置信度。

在这里插入图片描述图中的Transformer 就是第一部中训练好的模型,可以看到,做下游任务时都不需要改变模型结构。

(三)实验

训练数据集:BooksCorpus 数据集,包含7000篇没有被发表的书
模型大小:12 层 Transformer decoder,每一层的维度是 768

  • Bert-base 用了 12 层 Transformer encoder,每一层维度也是 768。Bert-base 就是用于与GPT 来对比。
  • Bert-large 用了 24层,每一层维度是 1024,大小是 Bert-base 三倍。可以做这么大是因为它用了更大的数据集(BooksCorpus 800M words + English Wikipedia 2500M words)。

三、GPT-2

(一)文章概览

GPT-2:语言模型是无监督的多任务学习器(Language Models are Unsupervised Multitask Learners)

  • 数据集:WebText,有百万级别的文本。
  • 模型大小:最大的 GPT-2 模型有 1.5B 参数。

研究背景:
主流任务都是在一个任务上收集一个数据集,然后来训练。这是因为,当前模型的泛化性都不是很好。Bert和GPT提出后,主流是在大的数据集上进行预训练,然后对子任务再 fine-tune。这仍然有两个问题:

  • 在子任务上还是需要重新训练模型
  • 需要针对子任务收集数据集
    这导致,模型在扩展到新任务时开销是比较大的。

作者的方案:
GPT-2 还是做语言模型,但是在扩展到下游任务时,会有 zero-shot 的设定,不需要再重新训练模型。因此训练好之后在任何任务上都能用。

zero-shot:在做到下游任务时,不需要下游任务的任何标注的信息,也不需要重新训练模型。

(二)GPT-2与GPT的不同之处

GPT中,在微调的时候引入了开始符,间隔符等特殊符号,这些是模型在预训练时候没有见到过的(微调的时候会进行学习)。但是GPT-2 做的是 zero-shot,模型在做下游任务时不能进行微调,因此不能引入这些特殊符号,否则模型就会很困惑,输入的形式应该更像自然语言,和之前相似。

这就引入了 prompt(McCann et al 2018年提出),让一些自然语言,来充当一些符号的作用。

  • 比如翻译任务,可以写成一个序列:translate to french, english text, french text。这里又有明显的起始,分隔,又是正常的自然语言
  • 阅读理解任务,可以写成:answer the question, document, question, answer 是同样的道理

这个方法为什么行得通:

  • 模型足够强大,能够理解提示符
  • 在文本里面,这样的话可能也很常见

(三)实验

数据: Common Crawl是一个网页抓取项目,抓取网页供大家下载。但是信噪比低,有些网页可能就是垃圾网页。使用了 Reddit(算是一些已经过滤好的网页),最后得到4500万个链接,最终的数据集有800w文本,40GB。

一共设计了四个模型:
在这里插入图片描述
实验效果: 在一些任务上还不错,一些任务上差一些。但是随着模型大小的增加,效果还在变好。在这里插入图片描述

四、GPT-3

GPT-3:语言模型是Few-Shot学习器(Language Models are Few-Shot Learners)

  • GPT:预训练之后在子任务上采取部分样本进行微调
  • GPT-2:子任务上不提供任何相关的样本,直接使用预训练的模型在子任务上进行预测
  • GPT-3:Few-Shot——子任务上提供少量样本

(一)文章概览

稀疏模型:权重可以有很多 0

  • GPT-3的参数量有 175 billion(1750亿),比以往的非稀疏语言模型大十几倍。
  • GPT-3在做子任务时不需要进行任何梯度更新或微调(模型很大如果还梯度更新计算难度会太大)
  • 在所有的 NLP 任务上都取得了很好的成绩,而且能生成一些新闻的文章(人类很难区分是不是机器写的)
    在这里插入图片描述

(二)方法

  • Meta-Learning:训练一个很大的模型,泛化性还不错
  • in-context Learning:在后面的时候即使告诉我一些训练样本,也不更新我的模型参数

1、普通的NLP模型如BERT和GPT-1:微调-预训练方法

对于普通的NLP模型如BERT和GPT-1,模型的使用方法是:

  • 对成熟的NLP模型进行有监督的预训练。
  • 根据特定的下游任务(文本分类、问答等)对当前NLP添加MLP。
  • 根据特性下游任务的数据集对整个模型进行微调。

在这里插入图片描述

2、GPT3的方法: in-context Learning

GPT-3想要做的就是拿掉微调部分,直接解决下游任务。
在这里插入图片描述
类比人类做题过程,会看到题型说明,可能还会有一些有答案的例题,然后需要解出剩下的试题。GPT系列想要做的就是类似的事情。

  • zero-shot零样本学习:不允许演示,并且仅向模型提供自然语言的指令;
  • one-shot 单样本学习:只允许一个演示;
  • few-shot 少样本学习或情境学习(in-context learning):允许尽可能多的演示填充模型的上下文窗口(典型为10-100)。

在这里插入图片描述

(三)GPT-3模型和架构

  • GPT-2对GPT的变化:GPT2修改了GPT的初始化、预归一化和可逆标记化
  • GPT-3对GPT-2的变化:Sparse Transformer

训练了 8 种不同大小的模型,范围从 1.25 亿个参数到 1750 亿个参数三个数量级,最后一个是我们称为 GPT-3 的模型。
在这里插入图片描述

(四)数据集

作者在Common Crawl 数据集(包含近万亿个单词)上采取了 3 个步骤来提高数据集的平均质量:

  • 根据与一系列高质量参考语料库的相似性下载并过滤 CommonCrawl 的版本;
  • 在文档级别执行模糊重复数据删除(lsh算法),在数据集内部和数据集之间,以防止冗余并保持保留的验证集的完整性,作为过度拟合的准确度量;
  • 在训练组合中添加了已知的高质量参考语料库,以增强 CommonCrawl 并提高其多样性。

最终的数据集如下:
在这里插入图片描述

参考:
GPT,GPT-2,GPT-3 论文精读【论文精读】
【论文阅读】GPT系列论文详解

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1585885.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

19c数据库/dev/shm/过小导致pga内存不够

pga_aggregate_limit已经设置了120G,alert还是报内存不够 查询select * from v$pgastat,发现MGA占了80G内存 查看/dev/shm: 发现设置了7G,操作系统是512G,正常情况下/dev/shm应该是操作系统的一半,修改为250G后数据库…

小米温度计接入HA后,手机米家app里温度计就看不到温度数值了

环境: 小米温度计 HA OS Core 2023.12.1 Supervisor 2024.04.0 Operating System 11.1 问题描述: 小米温度计接入HA后,手机米家app里和HA里面温度计就看不到温度数值了 解决方案: 1.前往米家APP,解绑温度计和本地…

如何本地部署Splunk Enterprise数据管理平台并实现异地远程使用

文章目录 前言1. 搭建Splunk Enterprise2. windows 安装 cpolar3. 创建Splunk Enterprise公网访问地址4. 远程访问Splunk Enterprise服务5. 固定远程地址 前言 本文主要介绍如何简单几步,结合cpolar内网穿透工具实现随时随地在任意浏览器,远程访问在本地…

C语言洛谷题目分享(8)入门和Lake Counting S

1.前言 大家好啊,今天继续为大家分享俩道洛谷dfs的题目,希望能对大家有所帮助。 2.俩道题目 1.入门(P1683) 1.题目描述 不是任何人都可以进入桃花岛的,黄药师最讨厌像郭靖一样呆头呆脑的人。所以,他在…

智慧城市3D实景线上漫游视频提升大家的兴趣

在数字技术的驱动下,我们推出了全新的样板房3D全景漫游体验,为客户带来前所未有的看房之旅。无论您身处何地,无论何时,只需轻点鼠标或触摸屏幕,即可轻松跨越地域和时间的限制,自由探索每一处精致细节。 我们…

抖音小店无货源爆发期过了吗?现在还能做吗?

大家好,我是电商花花。 抖音小店爆发期过了吗? 我并不觉得,反而抖音小店的流量越来越大了,今年抖音小店日活跃用户已经突破到了9亿,有更大的市场和流量了,且现在做店越来越多了,再加上平台的支…

浅谈网络安全威胁与防御策略

企业网络安全威胁概述 外部威胁:来自网络安全威胁,比如DDOS攻击,病毒,sql注入,木马,蠕虫,等网络入侵,网络扫描,垃圾邮件,钓鱼邮件,针对web的攻击…

C++11 设计模式0. 设计模式的基本概念,设计模式的准则,如何学习设计模式,24种设计模式的分为3大类

一 设计模式的基本概念: 模式:指事物的标准样式 或者 理解成 针对特定问题的可重用解决方案。 设计模式,是在特定问题发生时的可重用解决方案。 设计模式一般用于大型项目中。 大型项目中,设计模式保证所设计的模块之间代码的灵…

【opencv】示例-falsecolor.cpp 使用OpenCV函数动态地对图像应用不同的色彩映射

该代码是一个使用OpenCV库实现的C程序,主要用来展示如何通过applyColorMap函数将色彩映射应用到一个灰度图像上,并提供一个滑动条来实时改变色彩映射的效果。此外,该程序还可以绘制包含不同形状的灰度图像,用作applyColorMap函数的…

NX/UG二次开发—CAM—一些外挂刀路选择方案对比

在做一刀轨编辑工具时,大家希望实现类似NX刀轨编辑中选择刀路的功能,以下我罗列了几种目前外挂里使用的几种方式,自己也做了一些对比: 涉及一些运算时间,参考电脑配置(内存32G,CPUi9-12950HX) 1、刀路转成…

idea链接gitlab的token到期

报错 HTTP Request Request GET http://36.46.143.158:6060/api/v4/version failed wit

乡村振兴多元共治,共绘乡村新蓝图:政府引领、企业助力、村民参与

乡村振兴是一项复杂而艰巨的任务,需要从多个角度进行考虑。以下是从不同身份出发对乡村振兴建设的思考: 1、政府领导的角度: 政府是乡村振兴的主要推动者和组织者。在制定和实施乡村振兴战略时,政府需要注重规划引领,科…

PHP7垃圾回收算法

前提 本文为了梳理PHP GC工作流程,所以从引用计数、部分标记清除算法做引子,然后介绍PHP GC工作流程,最后介绍性能更高的GC算法 引用计数 概述 引用计数算法中引入了一个概念计数器。计数器代表对象被引用的次数 基本原理 为了记录一个对象有没有被…

微信公众号第三方平台-公众号扫码授权接入代运营

文章目录 接入目的效果展示技术积累如何成为服务商如何搭建第三方后端服务传统模式V云服务模式如何完成商家授权授权逻辑介绍 环境准备注册开发者平台-个人类型 传统模式后端代码接收公众号个人三方平台的票据根据票据获取三方平台访问令牌根据访问令牌获取预授权码通过预授权码…

如何本地搭建开源导航页配置服务Dashy并发布到公网分享好友使用

文章目录 简介1. 安装Dashy2. 安装cpolar3.配置公网访问地址4. 固定域名访问 正文开始前给大家推荐个网站,前些天发现了一个巨牛的 人工智能学习网站, 通俗易懂,风趣幽默,忍不住分享一下给大家。[点击跳转到网站] 简介 Dashy 是…

嵌入式网线连接——笔记本电脑设置

一、需求 我们调试很多设备经常需要用到网线去调试,当然主流是USB,和网线。 二、笔记本电脑端设备 有网口的,非常方便,如果没有网口,则需要用到USB转网口 连接指示灯: 绿色:灯亮表示连接正常…

蓝桥杯(填空题)

十四届 B组 日期统计(暴力枚举) 数据 5 6 8 6 9 1 6 1 2 4 9 1 9 8 2 3 6 4 7 7 5 9 5 0 3 8 7 5 8 1 5 8 6 1 8 3 0 3 7 9 2 7 0 5 8 8 5 7 0 9 9 1 9 4 4 6 8 6 3 3 8 5 1 6 3 4 6 7 0 7 8 2 7 6 8 9 5 6 5 6 1 4 0 1 0 0 9 4 8 0 9 1 2 8 5 0 2 5 3…

一篇文章了解php7和php8新特性

PHP7新特性 ?? 运算符 php7以前用三目判断变量是否存在或是否为空 $a isset($_GET[a]) ? $_GET[a] : 1;php7新增null 合并运算符??快捷判断 $a $_GET[a] ?? 1;函数返回值类型声明 用:返回值类型的形式定义函数的返回值类型 <?phpdeclare(strict_types1); fun…

git配置多SSH

目的&#xff1a; 一台电脑可以让github、gitee等账号同时存在&#xff0c;让不同账号配置不同的密钥 第一步&#xff1a;创建不同平台的SSH公钥 执行命令&#xff1a; ssh-keygen -t rsa -C "对应仓库邮箱地址" -f ~/.ssh/id_rsa.github 如果执行上面的命令&…

Windows部署ChatGLM3步骤

一、环境要求 硬件 内存&#xff1a;> 16GB 显存: > 13GB&#xff08;4080 16GB&#xff09; 软件 python 版本推荐3.10 - 3.11 transformers 库版本推荐为 4.36.2 torch 推荐使用 2.0 及以上的版本&#xff0c;以获得最佳的推理性能 二、部署步骤 1、新建pytho…