GPT与BERT模型

news2026/3/18 22:28:00

NLP任务的核心逻辑是“猜概率”的游戏。BERT和GPT都是基于预训练语言模型的思想，通过大量语料训练得到语言模型。两种模型都是基于Transformer模型。

Bert 类似于Transformer的Encoder部分，GPT类似于Transformer的Decoder部分。两者最明显的在结构上的差异为Multi-Head-Attention和Masked Multi-Head-Attention。

BERT：双向预训练语言模型+fine-tuning（微调）

BERT是基于Transformer网络架构和预训练语言模型提出的。在不同语言任务上达到最先进的水平，展示了预训练语言模型对于自然语言理解任务的巨大潜力。

BERT属于AE模型(自编码)，不会进行精确估计，但可从mask的输入中重建原始数据的能力，AE模型通常用于内容理解任务，利用双向上下文信息，对原始输入进行重建。缩小了双向信息 gap，提高模型性能。BERT在预训练期间使用的[MASK]符号，在微调阶段的真实数据中并不存在，这会导致预训练-微调的差异。由于预测的token在输入中被mask，导致BERT无法像AR模型那样使用乘积方式对联合概率进行建模。在BERT假设中，给定unmask的token时，待预测的token彼此之间相互独立，这个假设过于简单化了，在自然语言中，high-order和long-range依赖是非常普遍的。

BERT分为预训练和微调两部分，预训练是BERT模型的基础部分，使用大量的文本来训练语言模型。预训练时BERT模型会学习语言知识，如词汇、语法、句子结构等，预训练是为了让BERT模型有足够的语言能力处理不同的自然语言任务；微调过程是在预训练模型的基础上，使用少量标注数据调整模型参数。

BERT更适用于自然语言理解任务：

问答系统：在问答系统中用来理解问题并生成答案。

句子相似度比较：比较两个句子之间的相似程度。

文本分类：对文本进行分类。

情感分析：对文本进行情感分析。

命名实体识别：识别文本中的命名实体。

Bert 使用填空的方式完成预训练，随机盖住一些输入的文字，被mask的部分是随机决定的。

第一种方法，用一个特殊的符号替换句子中的一个词， MASK 标记来表示特殊符号，作为一个新字，这个字完全是一个新词，它不在字典里，代表mask了原文。另外一种方法是随机把某一个字换成另一个字。两种方法方法随机使用，BERT 训练时，向BERT输入一个句子，先随机决定哪一部分的汉字被mask，mask后输入一个序列，把BERT的相应输出看作是另一个序列，在输入序列中寻找mask部分的相应输出，这个向量通过一个Linear transform，输入向量将与一个矩阵相乘，在做softmax，输出一个分布，一个很长的向量，包含要处理的每个汉字，每个字对应一个分数。mask的字符类似标签，用one-hot vector 表示这个字符，使输出和one-hot vector之间的交叉熵损失最小。BERT 是预测被MASK的内容，在训练中，在BERT后添加一个线性模型一起训练，预测被MNASK的字符。

GPT：自回归预训练语言模型+Prompting（指示/提示）

起源于对传统预训练语言模型(ELMO\ULMFit)的改进和升级，采用Transformer架构，使用预训练+微调的方式实现语言理解和生成。GPT预训练数据来源于网络文本数据。模型学习了基本的语言知识和结构，再在特定任务上微调，模型根据特定任务的需要来学习相关的知识。

GPT是AR模型(自回归)，从左往右学习的模型。AR模型从time steps中学习，将上一步结果作为回归模型的输入，预测下一个time step的值。AR模型通常用于生成式任务，在长文本的生成能力很强，比如自然语言生成(NLG)领域的任务：摘要、翻译或抽象问答。

AR模型学习 time steps 的内在联系，预测下一个time step的值。如果两个变量朝着同一方向变化，比如同时增加或减少，则是正相关的；若变量朝着相反的方向变化，比如一个增加另一个减少，则是负相关的。这种相关性（正相关 or 负相关）越高，过去预测未来的可能性就越大；在深度学习训练过程中，对应的模型权重也就越高。这种相关性是在过去time steps中，变量与其自身之间的相关性，故称为自相关性，如果每个变量与输出变量几乎没有相关性，则无法预测。

AR语言模型的优缺点：