GPT 和 BERT 系列论文阅读总结

文章目录

1. GPT
- 1.1 GPT的目的和任务
- 1.2 GPT的实现
- - 1.2.1 Unsupervised pre-training
  - 1.2.2 Supervised fine-tuning
  - 1.2.3 特定任务的输入格式
2. BERT
- 2.1 BERT的目的和任务
- 2.2 BERT的实现
- - 2.2.1 Masked Language Model
  - 2.2.2 Next Sentence Prediction (NSP)
3. GPT-2
- 3.1 初见 prompt
- 3.2 模型结构
4. GPT-3
5. GPT-4

NLP领域中著名论文的时间关系：

2017.06，Transformer，Google
2018.06，GPT，OpenAI
2018.10，BERT，Google
2019.02，GPT-2，OpenAI
2020.05，GPT-3，OpenAI
2024.03，GPT-4，OpenAI

1. GPT

paper: Improving Language Understanding by Generative Pre-Training 《通过生成式预训练提高语言理解能力》

1.1 GPT的目的和任务

NLP中有很多任务，例如文本问答、语义相似性评估和文档分类。尽管存在大量丰富的无标注的文本语料库（unlabeled text），但用于训练上述特定任务的标记数据很少，这使得训练这些模型非常困难。（很好理解，没有高质量的标注数据当然不可能训练出好的模型，那有没有可能利用unlabeled text解决这个问题呢？）

如何解决这个NLP领域的大问题呢？GPT的思路是：

先在大量丰富的 unlabeled text 语料库上预训练（Pre-Training）一个语言模型，然后被其他特定的NLP任务进行针对性的微调（fine-tuning）

其实先 Pre-Training 再 fine-tuning 的思路在计算机视觉领域早就出现了，因为有 ImageNet 这样的大规模数据集，但是NLP的文本标注更困难，且文本包含的信息比图像少，可能需要 10 倍于 ImageNet 规模的数据集才能实现预训练，所以用标记数据 Pre-Training 语言模型是非常困难的。

1.2 GPT的实现

使用 unlabeled text 进行预训练的困难：

不能确定哪个优化目标函数能够适用于所有的下游子任务，毕竟NLP诸多任务的目标函数都是不同的。
如何有效地将预训练模型学到的文本表示传递到下游子任务中，因为NLP诸多任务差别比较大，没有统一的有效的文本表示。

GPT使用 Transformer 模型，其实现流程是 two-stage 的：

第一步：在无标注数据上训练语言模型的初始参数。
第二部：使用相应的有标注数据微调这些参数以适应目标任务。

1.2.1 Unsupervised pre-training

首先回顾一下 Transformer 的 Encoder 和 Decoder 的区别：

Encoder 的 Attention 计算第 i 个元素的特征编码时，可以看到整个序列中的所有元素。
Decoder 使用的是 Mask Attention，计算第 i 个元素的特征编码时，只能看到第 i 个元素之前的序列中的 i-1 个元素。

GPT 的预训练使用的是 Transformer 的 Decoder 模型，包括 12 个 blocks，每层维度为 768，训练集 BooksCorpus 包含 7000 多本各种领域的未出版的书籍。GPT 的预训练其实是自监督训练。因为 GPT是一个标准的语言模型，其预测第 i 个单词时只知道前面 i-1 个单词，不知道后面的单词，所以必须使用 Decoder-only 模型。其目标函数为：

在这里插入图片描述
其中 U= ${U_1,...U_n\}$ 为单词的 token 序列，k 为上下文长度（context window）

这里补充一下语言建模的两种方法：

自回归语言建模（auto regressive）：Transformer Decoder-only 模型，前向(左到右)预测或者反向(右到左)预测，在预测第 i 个词时只能看到前面 i-1 个词或后面 n-i 个词。显然 GPT 就是一种前向自回归语言建模。
自编码语言建模（auto encoder）：Transformer Encoder-only 模型，同时利用了前向和反向预测的优势，在预测时同时读入两个方向的序列，预测第 i 个词时可以同时看到前面 i-1 个词和后面 n-i 个词。因此自编码语言模型天生就是双向的，能获得更好的结果。BERT 就是一种自编码语言建模，是一种完形填空的形式（cloze）。

关于 BERT 和两种语言建模方法可以参考博客【理论篇】是时候彻底弄懂BERT模型了自编码语言建模的优势（知道过去和未来预测现在显然是一个比较简单的任务）决定了 BERT 的效果比 GPT 更好。但自回归语言建模的价值天花板更高，因为通过过去预测现在和未来是一件更难更有价值的事情。所以 OpenAI 不断扩大模型，最终做出了 GPT3 这样影响全球的模型。

1.2.2 Supervised fine-tuning

使用 $L_1(U)$ 作为损失函数训练 GPT 模型后，使用有监督的数据集 $C$ 进行 fine-tuning， $C$ 数据集包含一个 input tokens 序列 ${x^1,...x^m\}$ 和该训练的 label（ $y$ ）。将 input tokens 输入到预训练模型中获得最后一个 transformer block 的输出 $h_l^m$ ，然后将 $h_l^m$ 送到一个额外的参数为 $W_y$ 的全连接层中预测 $y$ ：

在这里插入图片描述
全连接层的目的是将 $h_l^m$ 的维度映射到 $y$ 的维度（比如十分类任务全连接层的输出维度是10），其参数 $W_y$ 是随机初始化的。

Supervised fine-tuning 目标函数为：

在这里插入图片描述
此外作者发现如果将语言模型的目标函数 $L_1(U)$ 也作为 fine-tuning 的目标函数会带来两个好处：

提高有监督模型的泛化能力
加速收敛

所以作者将 fine-tuning 的目标函数改为了 $L_3(C)=L_2(C)+\lambda L_1(C)$

在 fine-tuning 过程中需要引入的额外参数是 $W_y$ 和分隔符（delimiter）的 token embedding

1.2.3 特定任务的输入格式

以往的 fine-tuning 方法往往需要根据特定任务修改预训练模型的网络结构，GPT 为了规避这种弊端，将多种文本连接成一个长序列输入到 Transformer Decoder 中，这种模式化的方法避免了在 fine-tuning 时修改网络结构，这是 GPT 论文的核心创新点之一。

GPT论文中列举了四种下游任务，包括文本分类（N分类）、文本蕴含关系判断（三分类）、文本相似性判断（二分类）、多选题（输入N个答案的置信度）。

在这里插入图片描述

2. BERT

paper: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 《用于自然语言理解的深度双向Transformer》

2.1 BERT的目的和任务

BERT 是一个双向 Transformer 的预训练模型，其主要灵感来源于两个工作的结合：

ELMo：双向 LSTM，用于下游任务时需要对模型架构进行调整，但是 BERT 只需要修改输出层即可。
GPT：单向 Transformer，用于下游任务时也只需要修改输出层即可。

BERT 使用 masked language model（MLM）实现了类似于 cloze task（完形填空）的任务。

2.2 BERT的实现

BERT 的模型是 Transformer Encoder-only 结构，包括两种规模：

BERT base：12 个 blocks，特征维度为 768，head 数为 12，参数量 110M（为了对标GPT）
BERT large：24 个 blocks，特征维度为 1024，head 数为 16，参数量 340M（为了刷榜）

BERT 实验初步证明了在 NLP 中，模型和数据量越来越大的时候，效果会更好。

关于 BERT 的细节部分可以参考博客【理论篇】是时候彻底弄懂BERT模型了

2.2.1 Masked Language Model

为了训练深度双向表示，只需随机屏蔽一定比例的输入 token，然后预测这些被屏蔽的 token；这就是 Masked Language Model，其实就是一种 cloze task（完形填空）。实验中，论文将 WordPiece分词器生成的词元的 15% 随机 mask，具体方式是是将需要 mask 的词随机替换为一个特殊标记 [MASK]。如输入序列长度为1000，则需要随机预测 150 个词。

上述方法是有一些问题的，在训练 BERT 的时候有 15% 的 [MASK] 标记，但在 fine-tuning 时是没有 [MASK] 标记的，二者的数据不对齐。为了将数据对齐，在训练时需要 mask 的 15% 的词元中，将 80% 的词元替换为 [MASK]，10%的词元替换为其他随机单词，10%的词元不做改变。

通过这个实验能看出来，BERT 所谓的“双向”其实是因为 Transformer Encoder 本来就具备双向的能力，并不是 BERT 做了什么结构上的改进，其“双向”能力是通过 cloze task 训练出来的。

2.2.2 Next Sentence Prediction (NSP)

下一句预测 (NSP) 是另一个用于训练BERT模型的任务。NSP是二分类任务，在此任务中，我们输入两个句子两个BERT，然后BERT需要判断第二个句子是否为第一个句子的下一句。

3. GPT-2

paper: Language Models are Unsupervised Multitask Learner 《无监督的多任务学习器》

先看一下故事背景：在使用GPT和BERT时需要 finu-tuning 才能应用于下游任务，并且 finu-tuning 需要使用与任务相匹配的有标签的数据集进行训练，所以其实也没有那么方便，这个根本原因是 GPT和BERT模型的泛化能力一般。

GPT-2 主打的是 zero-shot，做下游任务时候不需要使用数据集训练模型，以达到训练一个模型在任何任务中都能用的目的。

注：多任务学习是指使用多种数据集训练模型（可能需要修改或增加损失函数），使得一个模型适用于多种任务。

3.1 初见 prompt

没错，就是那个 prompt，大模型提示词，在这里第一次出现了！

GPT 和 BERT 微调的时候，输入的文本是需要加各种分隔符的，这会导致预训练的数据和微调的数据格式不同。但是GPT-2 想要实现 zero-shot ，肯定要保证预训练的数据和微调的数据格式是相同的。

以往微调单个任务的目标是学习条件分布 $p (o u tp u t ∣ in p u t)$ ，但一个通用模型应该能够执行许多不同的任务，甚至对于相同的输入，它应该不仅以输入为条件，而且以要执行的任务为条件；因此通用模型的目标是学习 $p (o u tp u t ∣ in p u t, t a s k)$ 。因此 GPT-2 采用了一种灵活的方式，可以将 task、input 和 output 都写完自然语言的形式。比两个例子：