GPT 和 BERT 系列论文阅读总结

news2025/1/23 6:21:53

文章目录

  • 1. GPT
    • 1.1 GPT的目的和任务
    • 1.2 GPT的实现
      • 1.2.1 Unsupervised pre-training
      • 1.2.2 Supervised fine-tuning
      • 1.2.3 特定任务的输入格式
  • 2. BERT
    • 2.1 BERT的目的和任务
    • 2.2 BERT的实现
      • 2.2.1 Masked Language Model
      • 2.2.2 Next Sentence Prediction (NSP)
  • 3. GPT-2
    • 3.1 初见 prompt
    • 3.2 模型结构
  • 4. GPT-3
  • 5. GPT-4

NLP领域中著名论文的时间关系:

  • 2017.06,Transformer,Google
  • 2018.06,GPT,OpenAI
  • 2018.10,BERT,Google
  • 2019.02,GPT-2,OpenAI
  • 2020.05,GPT-3,OpenAI
  • 2024.03,GPT-4,OpenAI

1. GPT

paper: Improving Language Understanding by Generative Pre-Training 《通过生成式预训练提高语言理解能力》

1.1 GPT的目的和任务

NLP中有很多任务,例如文本问答、语义相似性评估和文档分类。尽管存在大量丰富的无标注的文本语料库(unlabeled text),但用于训练上述特定任务的标记数据很少,这使得训练这些模型非常困难。(很好理解,没有高质量的标注数据当然不可能训练出好的模型,那有没有可能利用unlabeled text解决这个问题呢?)

如何解决这个NLP领域的大问题呢?GPT的思路是:

先在大量丰富的 unlabeled text 语料库上预训练(Pre-Training)一个语言模型,然后被其他特定的NLP任务进行针对性的微调(fine-tuning)

其实先 Pre-Training 再 fine-tuning 的思路在计算机视觉领域早就出现了,因为有 ImageNet 这样的大规模数据集,但是NLP的文本标注更困难,且文本包含的信息比图像少,可能需要 10 倍于 ImageNet 规模的数据集才能实现预训练,所以用标记数据 Pre-Training 语言模型是非常困难的。

1.2 GPT的实现

使用 unlabeled text 进行预训练的困难:

  • 不能确定哪个优化目标函数能够适用于所有的下游子任务,毕竟NLP诸多任务的目标函数都是不同的。
  • 如何有效地将预训练模型学到的文本表示传递到下游子任务中,因为NLP诸多任务差别比较大,没有统一的有效的文本表示。

GPT使用 Transformer 模型,其实现流程是 two-stage 的:

  • 第一步:在无标注数据上训练语言模型的初始参数。
  • 第二部:使用相应的有标注数据微调这些参数以适应目标任务。

1.2.1 Unsupervised pre-training

首先回顾一下 Transformer 的 Encoder 和 Decoder 的区别:

  • Encoder 的 Attention 计算第 i 个元素的特征编码时,可以看到整个序列中的所有元素。
  • Decoder 使用的是 Mask Attention,计算第 i 个元素的特征编码时,只能看到第 i 个元素之前的序列中的 i-1 个元素。

GPT 的预训练使用的是 Transformer 的 Decoder 模型,包括 12 个 blocks,每层维度为 768,训练集 BooksCorpus 包含 7000 多本各种领域的未出版的书籍。GPT 的预训练其实是自监督训练。因为 GPT是一个标准的语言模型,其预测第 i 个单词时只知道前面 i-1 个单词,不知道后面的单词,所以必须使用 Decoder-only 模型。其目标函数为:

在这里插入图片描述
其中 U= { U 1 , . . . U n } \{U_1,...U_n\} {U1,...Un} 为单词的 token 序列,k 为上下文长度(context window)

这里补充一下语言建模的两种方法:

  • 自回归语言建模(auto regressive):Transformer Decoder-only 模型,前向(左到右)预测 或者 反向(右到左)预测,在预测第 i 个词时只能看到前面 i-1 个词或后面 n-i 个词。显然 GPT 就是一种前向自回归语言建模。
  • 自编码语言建模(auto encoder):Transformer Encoder-only 模型,同时利用了前向和反向预测的优势,在预测时同时读入两个方向的序列,预测第 i 个词时可以同时看到前面 i-1 个词和后面 n-i 个词。因此自编码语言模型天生就是双向的,能获得更好的结果。BERT 就是一种自编码语言建模,是一种完形填空的形式(cloze)。

关于 BERT 和 两种语言建模方法可以参考博客 【理论篇】是时候彻底弄懂BERT模型了 自编码语言建模的优势(知道过去和未来预测现在显然是一个比较简单的任务)决定了 BERT 的效果比 GPT 更好。但自回归语言建模的价值天花板更高,因为通过过去预测现在和未来是一件更难更有价值的事情。所以 OpenAI 不断扩大模型,最终做出了 GPT3 这样影响全球的模型。

1.2.2 Supervised fine-tuning

使用 L 1 ( U ) L_1(U) L1(U) 作为损失函数训练 GPT 模型后,使用有监督的数据集 C C C 进行 fine-tuning, C C C 数据集包含一个 input tokens 序列 { x 1 , . . . x m } \{x^1,...x^m\} {x1,...xm} 和该训练的 label( y y y)。将 input tokens 输入到预训练模型中获得最后一个 transformer block 的输出 h l m h_l^m hlm,然后将 h l m h_l^m hlm 送到一个额外的参数为 W y W_y Wy 的全连接层中预测 y y y

在这里插入图片描述
全连接层的目的是将 h l m h_l^m hlm 的维度映射到 y y y 的维度(比如十分类任务全连接层的输出维度是10),其参数 W y W_y Wy 是随机初始化的。

Supervised fine-tuning 目标函数为:

在这里插入图片描述
此外作者发现如果将语言模型的目标函数 L 1 ( U ) L_1(U) L1(U) 也作为 fine-tuning 的目标函数会带来两个好处:

  • 提高有监督模型的泛化能力
  • 加速收敛

所以作者将 fine-tuning 的目标函数改为了 L 3 ( C ) = L 2 ( C ) + λ L 1 ( C ) L_3(C)=L_2(C)+\lambda L_1(C) L3(C)=L2(C)+λL1(C)

在 fine-tuning 过程中需要引入的额外参数是 W y W_y Wy 和分隔符(delimiter)的 token embedding

1.2.3 特定任务的输入格式

以往的 fine-tuning 方法往往需要根据特定任务修改预训练模型的网络结构,GPT 为了规避这种弊端,将多种文本连接成一个长序列输入到 Transformer Decoder 中,这种模式化的方法避免了在 fine-tuning 时修改网络结构,这是 GPT 论文的核心创新点之一。

GPT论文中列举了四种下游任务,包括文本分类(N分类)、文本蕴含关系判断(三分类)、文本相似性判断(二分类)、多选题(输入N个答案的置信度)。

在这里插入图片描述

2. BERT

paper: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 《用于自然语言理解的深度双向Transformer》

2.1 BERT的目的和任务

BERT 是一个双向 Transformer 的预训练模型,其主要灵感来源于两个工作的结合:

  • ELMo:双向 LSTM,用于下游任务时需要对模型架构进行调整,但是 BERT 只需要修改输出层即可。
  • GPT:单向 Transformer,用于下游任务时也只需要修改输出层即可。

BERT 使用 masked language model(MLM)实现了类似于 cloze task(完形填空)的任务。

2.2 BERT的实现

BERT 的模型是 Transformer Encoder-only 结构,包括两种规模:

  • BERT base:12 个 blocks,特征维度为 768,head 数为 12,参数量 110M(为了对标GPT)
  • BERT large:24 个 blocks,特征维度为 1024,head 数为 16,参数量 340M(为了刷榜)

BERT 实验初步证明了在 NLP 中,模型和数据量越来越大的时候,效果会更好。

关于 BERT 的细节部分可以参考博客 【理论篇】是时候彻底弄懂BERT模型了

2.2.1 Masked Language Model

为了训练深度双向表示,只需随机屏蔽一定比例的输入 token,然后预测这些被屏蔽的 token;这就是 Masked Language Model,其实就是一种 cloze task(完形填空)。实验中,论文将 WordPiece分词器 生成的词元的 15% 随机 mask,具体方式是是将需要 mask 的词随机替换为一个特殊标记 [MASK]。如输入序列长度为1000,则需要随机预测 150 个词。

上述方法是有一些问题的,在训练 BERT 的时候有 15% 的 [MASK] 标记,但在 fine-tuning 时是没有 [MASK] 标记的,二者的数据不对齐。为了将数据对齐,在训练时需要 mask 的 15% 的词元中,将 80% 的词元替换为 [MASK],10%的词元替换为其他随机单词,10%的词元不做改变。

通过这个实验能看出来,BERT 所谓的“双向”其实是因为 Transformer Encoder 本来就具备双向的能力,并不是 BERT 做了什么结构上的改进,其“双向”能力是通过 cloze task 训练出来的。

2.2.2 Next Sentence Prediction (NSP)

下一句预测 (NSP) 是另一个用于训练BERT模型的任务。NSP是二分类任务,在此任务中,我们输入两个句子两个BERT,然后BERT需要判断第二个句子是否为第一个句子的下一句。

3. GPT-2

paper: Language Models are Unsupervised Multitask Learner 《无监督的多任务学习器》

先看一下故事背景:在使用GPT和BERT时需要 finu-tuning 才能应用于下游任务,并且 finu-tuning 需要使用与任务相匹配的有标签的数据集进行训练,所以其实也没有那么方便,这个根本原因是 GPT和BERT模型的泛化能力一般。

GPT-2 主打的是 zero-shot,做下游任务时候不需要使用数据集训练模型,以达到训练一个模型在任何任务中都能用的目的。

注:多任务学习是指使用多种数据集训练模型(可能需要修改或增加损失函数),使得一个模型适用于多种任务。

3.1 初见 prompt

没错,就是那个 prompt,大模型提示词,在这里第一次出现了!

GPT 和 BERT 微调的时候,输入的文本是需要加各种分隔符的,这会导致预训练的数据和微调的数据格式不同。但是GPT-2 想要实现 zero-shot ,肯定要保证预训练的数据和微调的数据格式是相同的。

以往微调单个任务的目标是学习条件分布 p ( o u t p u t ∣ i n p u t ) p(output|input) p(outputinput),但一个通用模型应该能够执行许多不同的任务,甚至对于相同的输入,它应该不仅以输入为条件,而且以要执行的任务为条件;因此通用模型的目标是学习 p ( o u t p u t ∣ i n p u t , t a s k ) p(output|input,task) p(outputinput,task)。因此 GPT-2 采用了一种灵活的方式,可以将 task、input 和 output 都写完自然语言的形式。比两个例子:

  • 机器翻译训练任务可以写出序列(translate to french, english text, french text)
  • 阅读理解训练任务可以写成序列(answer the question, document, question, answer)

在此后的论文中,“translate to french” 和 “answer the question” 称为 prompt

3.2 模型结构

GPT-2使用了 800 万个文档(共 40GB)进行训练,模型结构依然是 Transformer 的 Decoder 结构,自回归建模方式。GPT-2不同的模型规格如下,最大 1.5B(15亿)参数:

在这里插入图片描述

GPT-2只是对模型做了几个地方的调整,这些调整更多的是被当作训练时的trick(比如防止多层 block 导致的梯度问题),并不是创新点。

4. GPT-3

paper: Language Models are Few-Shot Learners

GPT-3 包含 175B(1750亿)参数,对于所有的任务,GPT-3都是在没有任何梯度更新或微调的情况下执行的,因为微调需要计算梯度,如此大的模型计算梯度是非常困难的。

那么 GPT-3 如何实现 Few-Shot 且不更新梯度呢?可以分成三步进行理解(以英语翻译法语为例):

  1. Zero-shot:GPT-2的模式,只输入 (task, input),输出法语 output
    在这里插入图片描述
  2. One-shot:除了输入 (task, input),还在给模型提供 input 之前告诉模型一个 英语翻译为法语的示例,即输入 (task, example, input),输出法语 output

在这里插入图片描述
那么为何可以在只提供一个 example 且不更新模型梯度的情况下使模式输出正确的法语翻译呢?

答曰:增加 example 的目的是增加输入的序列长度,使模型在前向推理过程中,通过 Attention 机制处理比较长的序列信息,并从中抽取有用信息, 这就是上下文学习。

  1. Few-shot:对 One-shot 的拓展,使输入序列更长,有用信息更多。但更长的序列不一定有用,因为模型不一定能处理特别长的序列,这就是上下文长度限制。
    在这里插入图片描述

5. GPT-4

GPT-4 技术报告:GPT-4 Technical Report

GPT-4 是一个多模态大模型,可以接受图像和文本的输入,输出为文本形式。

GPT-4 的技术报告几乎没有提及任何技术细节,全文在展示结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1965535.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HCL实验2:VLAN

目的:让PC_3和PC_5处于vlan1, PC_4和PC_6处于vlan2 SW1的配置命令: vlan 2 port GigabitEthernet 1/0/2 quit int g1/0/3 port link-type trunk port trunk permit vlan all quit SW2的配置命令: vlan 2 port GigabitEthernet 1/0/2 quit int g1/0/3 p…

黑马Java零基础视频教程精华部分_8_学生管理系统

系列文章目录 文章目录 系列文章目录一、业务分析二、结合业务流程图编写代码1、Student.java代码:2、StudentSystem.java代码:3、标号(‌label)‌ 三、学生管理系统升级版 一、业务分析 需求文档如图所示: 根据需求…

在线招投标系统在线编辑Word且兼容微软Office和金山WPS

随着信息技术的不断发展,电子政务已经非常普及,电子招投标行业市场规模不断扩大,电子招投标不仅可以减少繁琐的人工操作,提高工作效率,还能保证公开透明的招标流程,制作招标文件过程中,由于微软…

pikachu:XXE

判断是否有xxe漏洞&#xff0c;如果返回了 xxe 就是有 <?xml version "1.0"?> <!DOCTYPE a [<!ENTITY b "xxe">]><c>&b;</c> 读取敏感文件 <?xml version "1.0"?> <!DOCTYPE ANY [ <!ENT…

Hbuilder x 解决打开内置终端或者控制台空白

文章目录 目录 文章目录 流程 小结 概要教程技术细节小结 概要 解决方式有3种 问题展示&#xff0c;如图所示&#xff1a; 其实忽略了一个本身的问题&#xff0c;小问题。打开控制终端没有显示可能是你还没有点击 以上细节没有问题还是没有解决的话&#xff0c;请根据二种方式…

Express基于Node.js基础知识【2】全面总结 推荐

最近在用基于node.js平台的web应用开发做项目&#xff0c;梳理了下关于Express框架的相关知识&#xff0c;方便自己以后查看&#xff0c;希望也能帮助证字啊学习express相关知识的同学&#xff0c;欢迎大家参考&#xff0c;有问题评论区留言&#xff0c;谢谢。 Node.js下载安装…

Java答题系统练习模拟考试系统小程序源码

&#x1f31f;【提分神器】答题系统练习&#xff0c;模拟考试新体验&#x1f4da; &#x1f680;【开篇引入&#xff1a;解锁高效学习新方式】&#x1f680; Hey小伙伴们&#xff0c;是不是每次临近考试都紧张得手心冒汗&#xff0c;生怕知识点掌握不牢固&#xff1f;别怕&am…

【C语言】C语言期末突击/考研--选择、循环语句

目录 一、知识点 1、关系表达式与逻辑表达式 2、if-else语句 3、while循环 4、for循环 5、continue语句 6、break语句 二、练习题 解析&#xff1a; 一、知识点 1、关系表达式与逻辑表达式 我们控制程序执行逻辑运算需要选择和循环结构&#xff0c;那么我们首先来讲选…

24年保研暑假:编程细节和方法(1.二分查找 2.快速幂 3.领接矩阵 4.有序集合的范围查找 5.查找容器内最大最小值 6.含边界位置遍历方案)

文章目录 1.二分查找mid防溢出2.快速幂扩展3.vector实现领接矩阵4.有序集合的范围查找5.查找容器内最大最小值6.含边界位置遍历方案 1.二分查找mid防溢出 我们通常写二分求mid&#xff0c;一般这样写&#xff1a; int mid (right - left >> 1) left;原因在于两个正整…

安装Ubuntu系统+深度学习服务器配置+多用户操作+远程

安装Ubuntu系统深度学习服务器配置多用户操作 安装Ubuntu系统深度学习服务器配置多用户操作 嗨&#xff0c;我是射手座的程序媛&#xff0c;期待和大家更多的交流与学习&#xff0c;欢迎添加3512724768。 安装Ubuntu系统 下载你想要安装的系统的镜像文件&#xff08;我选择的…

算法板子:DFS的应用——八皇后

对角线的推算&#xff0c;如下图&#xff1a; 代码中的数组解释&#xff1a; place[i]代表第i行皇后放在哪一列; 比如place[0]1代表第0行皇后放在第1列col[i]代表第i列有没有放皇后; 比如col[0]false代表第0列没有放皇后dg[i]代表第i条对角线有没有放皇后; 比如dg[0]false代表第…

[SPON IP]网络对讲广播系统的命令执行漏洞实验

产品简介 世邦通信 SPON IP网络对讲广播系统采用领先的IPAudio技术,将音频信号以数据包形式在局域网和广域网上进行传送,是一套纯数字传输系统。 ----------------------------------- 漏洞描述 世邦通信 SPON IP网络对讲广播系统 ping.php 存在任意命令执行漏洞&#xff0c;攻…

邮件发送失败rdns报错问题排查解决的策略?

邮件服务中RDNS配置不当导致发送失败&#xff0c;怎样调整设置&#xff1f; 邮件发送失败是一个常见的问题&#xff0c;尤其是当涉及到rdns报错时&#xff0c;这一问题变得尤为复杂。AokSend将详细探讨邮件发送失败的常见原因&#xff0c;并提供有效的排查和解决策略。 邮件发…

【MySQL】事务 【上】{事务的版本支持 事务提交方式 实验结论 用户问题 如何理解隔离性 隔离级别 查看与设置隔离性 四种隔离级别的场景 }

文章目录 1.引入事务事务的版本支持事务提交方式实验结论用户问题 2.隔离性如何理解隔离性隔离级别查看与设置隔离性 4.四种隔离级别的场景读未提交读已提交可重复读串行化 1.引入事务 当客户端A检查还有一张票时&#xff0c;将票卖掉&#xff0c;还没有执行更新数据库的时候&a…

CS61C | lecture6

Lecture 6 主流 ISA Register 汇编语言没有变量。它用寄存器来存储值。 寄存器是固定大小的小内存(32 位或者 64 位)。可以进行读取和写入&#xff0c;但是有数量限制&#xff0c;它们很快并且耗电少。 Registers vs. Memory What if more variables than registers? 如果…

Linux系统将Mint 便签源码打包成deb包并进行安装

网上有提供Ubuntu安装Mint便签的命令&#xff0c;此处不再赘述。而是通过Github Mint便签的说明书&#xff0c;对Mint便签的源码打包成deb包并进行安装。作为练习&#xff0c;方便以后对其他源码进行打包安装。 一、Mint Sticky的介绍 Sticky是一款适用于Linux桌面的笔记应用…

任何值得发表的学术论文,一定要具备一些基础的特性

1. 科学价值&#xff1a;论文的心脏 首先&#xff0c;你的论文需要有“心”——科学价值。这意味着你的研究要么发现了新大陆&#xff0c;要么采用了新方法&#xff0c;要么提供了新视角&#xff0c;或者至少突破了现有局限。记住&#xff0c;你的论文要给科学界带来新的血液&…

预览 txt,ppt,图片,word 等

1.引入查看的封装的组件 <template><div><div class"well" ref"output"></div></div> </template><script>import { getExtend, readBuffer, render } from ./util;/*** 支持嵌入式显示&#xff0c;基于postMes…

谢希仁计算机网络第八版期末复习简答(2)

网络层 路由转发分组&#xff08;简答&#xff09;※ 一个网络中的主机A向另一个网络中的主机B发送数据&#xff0c;首先A将数据包发送给自己的默认网关路由器。路由器收到数据包之后&#xff0c;查看数据包头部&#xff0c;解析目的IP地址依次查询路由表&#xff0c;根据最长…

基于Deap遗传算法在全量可转债上做因子挖掘(附python代码及全量因子数据)

原创文章第604篇&#xff0c;专注“AI量化投资、世界运行的规律、个人成长与财富自由"。 在4.x的时候&#xff0c;咱们分享过deap遗传算法挖掘因子的代码和数据&#xff0c;今天我们来升级到5.x中。 源码发布Quantlab4.2&#xff0c;Deap因子挖掘|gplearn做不到的咱们也…