文章目录
- 1. GPT
- 1.1 GPT的目的和任务
- 1.2 GPT的实现
- 1.2.1 Unsupervised pre-training
- 1.2.2 Supervised fine-tuning
- 1.2.3 特定任务的输入格式
- 2. BERT
- 2.1 BERT的目的和任务
- 2.2 BERT的实现
- 2.2.1 Masked Language Model
- 2.2.2 Next Sentence Prediction (NSP)
- 3. GPT-2
- 3.1 初见 prompt
- 3.2 模型结构
- 4. GPT-3
- 5. GPT-4
NLP领域中著名论文的时间关系:
- 2017.06,Transformer,Google
- 2018.06,GPT,OpenAI
- 2018.10,BERT,Google
- 2019.02,GPT-2,OpenAI
- 2020.05,GPT-3,OpenAI
- 2024.03,GPT-4,OpenAI
1. GPT
paper: Improving Language Understanding by Generative Pre-Training 《通过生成式预训练提高语言理解能力》
1.1 GPT的目的和任务
NLP中有很多任务,例如文本问答、语义相似性评估和文档分类。尽管存在大量丰富的无标注的文本语料库(unlabeled text),但用于训练上述特定任务的标记数据很少,这使得训练这些模型非常困难。(很好理解,没有高质量的标注数据当然不可能训练出好的模型,那有没有可能利用unlabeled text解决这个问题呢?)
如何解决这个NLP领域的大问题呢?GPT的思路是:
先在大量丰富的 unlabeled text 语料库上预训练(Pre-Training)一个语言模型,然后被其他特定的NLP任务进行针对性的微调(fine-tuning)
其实先 Pre-Training 再 fine-tuning 的思路在计算机视觉领域早就出现了,因为有 ImageNet 这样的大规模数据集,但是NLP的文本标注更困难,且文本包含的信息比图像少,可能需要 10 倍于 ImageNet 规模的数据集才能实现预训练,所以用标记数据 Pre-Training 语言模型是非常困难的。
1.2 GPT的实现
使用 unlabeled text 进行预训练的困难:
- 不能确定哪个优化目标函数能够适用于所有的下游子任务,毕竟NLP诸多任务的目标函数都是不同的。
- 如何有效地将预训练模型学到的文本表示传递到下游子任务中,因为NLP诸多任务差别比较大,没有统一的有效的文本表示。
GPT使用 Transformer 模型,其实现流程是 two-stage 的:
- 第一步:在无标注数据上训练语言模型的初始参数。
- 第二部:使用相应的有标注数据微调这些参数以适应目标任务。
1.2.1 Unsupervised pre-training
首先回顾一下 Transformer 的 Encoder 和 Decoder 的区别:
- Encoder 的 Attention 计算第 i 个元素的特征编码时,可以看到整个序列中的所有元素。
- Decoder 使用的是 Mask Attention,计算第 i 个元素的特征编码时,只能看到第 i 个元素之前的序列中的 i-1 个元素。
GPT 的预训练使用的是 Transformer 的 Decoder 模型,包括 12 个 blocks,每层维度为 768,训练集 BooksCorpus 包含 7000 多本各种领域的未出版的书籍。GPT 的预训练其实是自监督训练。因为 GPT是一个标准的语言模型,其预测第 i 个单词时只知道前面 i-1 个单词,不知道后面的单词,所以必须使用 Decoder-only 模型。其目标函数为:
其中 U=
{
U
1
,
.
.
.
U
n
}
\{U_1,...U_n\}
{U1,...Un} 为单词的 token 序列,k 为上下文长度(context window)
这里补充一下语言建模的两种方法:
- 自回归语言建模(auto regressive):Transformer Decoder-only 模型,前向(左到右)预测 或者 反向(右到左)预测,在预测第 i 个词时只能看到前面 i-1 个词或后面 n-i 个词。显然 GPT 就是一种前向自回归语言建模。
- 自编码语言建模(auto encoder):Transformer Encoder-only 模型,同时利用了前向和反向预测的优势,在预测时同时读入两个方向的序列,预测第 i 个词时可以同时看到前面 i-1 个词和后面 n-i 个词。因此自编码语言模型天生就是双向的,能获得更好的结果。BERT 就是一种自编码语言建模,是一种完形填空的形式(cloze)。
关于 BERT 和 两种语言建模方法可以参考博客 【理论篇】是时候彻底弄懂BERT模型了 自编码语言建模的优势(知道过去和未来预测现在显然是一个比较简单的任务)决定了 BERT 的效果比 GPT 更好。但自回归语言建模的价值天花板更高,因为通过过去预测现在和未来是一件更难更有价值的事情。所以 OpenAI 不断扩大模型,最终做出了 GPT3 这样影响全球的模型。
1.2.2 Supervised fine-tuning
使用 L 1 ( U ) L_1(U) L1(U) 作为损失函数训练 GPT 模型后,使用有监督的数据集 C C C 进行 fine-tuning, C C C 数据集包含一个 input tokens 序列 { x 1 , . . . x m } \{x^1,...x^m\} {x1,...xm} 和该训练的 label( y y y)。将 input tokens 输入到预训练模型中获得最后一个 transformer block 的输出 h l m h_l^m hlm,然后将 h l m h_l^m hlm 送到一个额外的参数为 W y W_y Wy 的全连接层中预测 y y y:
全连接层的目的是将
h
l
m
h_l^m
hlm 的维度映射到
y
y
y 的维度(比如十分类任务全连接层的输出维度是10),其参数
W
y
W_y
Wy 是随机初始化的。
Supervised fine-tuning 目标函数为:
此外作者发现如果将语言模型的目标函数
L
1
(
U
)
L_1(U)
L1(U) 也作为 fine-tuning 的目标函数会带来两个好处:
- 提高有监督模型的泛化能力
- 加速收敛
所以作者将 fine-tuning 的目标函数改为了 L 3 ( C ) = L 2 ( C ) + λ L 1 ( C ) L_3(C)=L_2(C)+\lambda L_1(C) L3(C)=L2(C)+λL1(C)
在 fine-tuning 过程中需要引入的额外参数是 W y W_y Wy 和分隔符(delimiter)的 token embedding
1.2.3 特定任务的输入格式
以往的 fine-tuning 方法往往需要根据特定任务修改预训练模型的网络结构,GPT 为了规避这种弊端,将多种文本连接成一个长序列输入到 Transformer Decoder 中,这种模式化的方法避免了在 fine-tuning 时修改网络结构,这是 GPT 论文的核心创新点之一。
GPT论文中列举了四种下游任务,包括文本分类(N分类)、文本蕴含关系判断(三分类)、文本相似性判断(二分类)、多选题(输入N个答案的置信度)。
2. BERT
paper: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 《用于自然语言理解的深度双向Transformer》
2.1 BERT的目的和任务
BERT 是一个双向 Transformer 的预训练模型,其主要灵感来源于两个工作的结合:
- ELMo:双向 LSTM,用于下游任务时需要对模型架构进行调整,但是 BERT 只需要修改输出层即可。
- GPT:单向 Transformer,用于下游任务时也只需要修改输出层即可。
BERT 使用 masked language model(MLM)实现了类似于 cloze task(完形填空)的任务。
2.2 BERT的实现
BERT 的模型是 Transformer Encoder-only 结构,包括两种规模:
- BERT base:12 个 blocks,特征维度为 768,head 数为 12,参数量 110M(为了对标GPT)
- BERT large:24 个 blocks,特征维度为 1024,head 数为 16,参数量 340M(为了刷榜)
BERT 实验初步证明了在 NLP 中,模型和数据量越来越大的时候,效果会更好。
关于 BERT 的细节部分可以参考博客 【理论篇】是时候彻底弄懂BERT模型了
2.2.1 Masked Language Model
为了训练深度双向表示,只需随机屏蔽一定比例的输入 token,然后预测这些被屏蔽的 token;这就是 Masked Language Model,其实就是一种 cloze task(完形填空)。实验中,论文将 WordPiece分词器 生成的词元的 15% 随机 mask,具体方式是是将需要 mask 的词随机替换为一个特殊标记 [MASK]。如输入序列长度为1000,则需要随机预测 150 个词。
上述方法是有一些问题的,在训练 BERT 的时候有 15% 的 [MASK] 标记,但在 fine-tuning 时是没有 [MASK] 标记的,二者的数据不对齐。为了将数据对齐,在训练时需要 mask 的 15% 的词元中,将 80% 的词元替换为 [MASK],10%的词元替换为其他随机单词,10%的词元不做改变。
通过这个实验能看出来,BERT 所谓的“双向”其实是因为 Transformer Encoder 本来就具备双向的能力,并不是 BERT 做了什么结构上的改进,其“双向”能力是通过 cloze task 训练出来的。
2.2.2 Next Sentence Prediction (NSP)
下一句预测 (NSP) 是另一个用于训练BERT模型的任务。NSP是二分类任务,在此任务中,我们输入两个句子两个BERT,然后BERT需要判断第二个句子是否为第一个句子的下一句。
3. GPT-2
paper: Language Models are Unsupervised Multitask Learner 《无监督的多任务学习器》
先看一下故事背景:在使用GPT和BERT时需要 finu-tuning 才能应用于下游任务,并且 finu-tuning 需要使用与任务相匹配的有标签的数据集进行训练,所以其实也没有那么方便,这个根本原因是 GPT和BERT模型的泛化能力一般。
GPT-2 主打的是 zero-shot,做下游任务时候不需要使用数据集训练模型,以达到训练一个模型在任何任务中都能用的目的。
注:多任务学习是指使用多种数据集训练模型(可能需要修改或增加损失函数),使得一个模型适用于多种任务。
3.1 初见 prompt
没错,就是那个 prompt,大模型提示词,在这里第一次出现了!
GPT 和 BERT 微调的时候,输入的文本是需要加各种分隔符的,这会导致预训练的数据和微调的数据格式不同。但是GPT-2 想要实现 zero-shot ,肯定要保证预训练的数据和微调的数据格式是相同的。
以往微调单个任务的目标是学习条件分布 p ( o u t p u t ∣ i n p u t ) p(output|input) p(output∣input),但一个通用模型应该能够执行许多不同的任务,甚至对于相同的输入,它应该不仅以输入为条件,而且以要执行的任务为条件;因此通用模型的目标是学习 p ( o u t p u t ∣ i n p u t , t a s k ) p(output|input,task) p(output∣input,task)。因此 GPT-2 采用了一种灵活的方式,可以将 task、input 和 output 都写完自然语言的形式。比两个例子:
- 机器翻译训练任务可以写出序列(translate to french, english text, french text)
- 阅读理解训练任务可以写成序列(answer the question, document, question, answer)
在此后的论文中,“translate to french” 和 “answer the question” 称为 prompt
3.2 模型结构
GPT-2使用了 800 万个文档(共 40GB)进行训练,模型结构依然是 Transformer 的 Decoder 结构,自回归建模方式。GPT-2不同的模型规格如下,最大 1.5B(15亿)参数:
GPT-2只是对模型做了几个地方的调整,这些调整更多的是被当作训练时的trick(比如防止多层 block 导致的梯度问题),并不是创新点。
4. GPT-3
paper: Language Models are Few-Shot Learners
GPT-3 包含 175B(1750亿)参数,对于所有的任务,GPT-3都是在没有任何梯度更新或微调的情况下执行的,因为微调需要计算梯度,如此大的模型计算梯度是非常困难的。
那么 GPT-3 如何实现 Few-Shot 且不更新梯度呢?可以分成三步进行理解(以英语翻译法语为例):
- Zero-shot:GPT-2的模式,只输入 (task, input),输出法语 output
- One-shot:除了输入 (task, input),还在给模型提供 input 之前告诉模型一个 英语翻译为法语的示例,即输入 (task, example, input),输出法语 output
那么为何可以在只提供一个 example 且不更新模型梯度的情况下使模式输出正确的法语翻译呢?
答曰:增加 example 的目的是增加输入的序列长度,使模型在前向推理过程中,通过 Attention 机制处理比较长的序列信息,并从中抽取有用信息, 这就是上下文学习。
- Few-shot:对 One-shot 的拓展,使输入序列更长,有用信息更多。但更长的序列不一定有用,因为模型不一定能处理特别长的序列,这就是上下文长度限制。
5. GPT-4
GPT-4 技术报告:GPT-4 Technical Report
GPT-4 是一个多模态大模型,可以接受图像和文本的输入,输出为文本形式。
GPT-4 的技术报告几乎没有提及任何技术细节,全文在展示结果。