LLM：BERT or BART 之BERT

news2025/4/5 18:48:21

文章目录

前言
一、BERT
- 1. Decoder-only
- 2. Encoder-only
- 3. Use of Bidirectional Context
- 4. Masked Language Model (MLM)
- 5. Next Sentence Prediction (NSP)
- 6. Fine-tune
- - 1、情感分析
  - 2、句对分析
  - 3、命名实体识别（NER）
- 7. BERT总结
总结

前言

NLP选手对这两个应该很熟，最近因为多模态的发展，作为cv选手还是很有必要了解一下这两个模型。这两个模型也算是LLM的先驱了。

本文将对BERT做一个基本的介绍
paper：https://arxiv.org/pdf/1810.04805
github：https://github.com/google-research/bert

一、BERT

BERT (Bidirectional Encoder Representations from Transformers) 是一个 Encoder-only 模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT主要有以下4个特征：
请添加图片描述

有必要说明一下 Encoder-only 和 decoder-only 架构的区别。OpenAI首次在2018年创造了decoder-only的GPT应用于NLG。随后Google发布了encoder-only的BERT应用于NLU。下面简单介绍一下两种模型的gap

1. Decoder-only

Goal: 根据输入序列预测一个新的输出序列

Transformer中的 decoder block 负责基于编码器提供的输入生成输出序列。decoder-only 是通过完全省略encoder并将多个解码器堆叠在一个模型中来构建的。这些模型接受prompt作为输入，并通过每次预测一个最可能的token来生成响应。因此，只有解码器的模型在NLG任务中表现出色，例如：会话聊天机器人、机器翻译和代码生成。

2. Encoder-only

Goal: 对输入序列的word进行预测

encoder block负责接受输入序列，并为每个token创建丰富的数字向量表示。encoder-only模型省略了解码器，并将多个Transformer encoder堆叠在一起以生成单个模型。模型不接受prompt，而是接受用于进行预测的输入序列（例如，预测序列中缺失的单词）。encoder-only模型缺少用于生成新词的decoder，因此不能像使用GPT那样用于聊天。相反，encoder-only模型最常用于NLU任务，例如：命名实体识别（NER）和情感分析。

(从技术上讲，使用BERT生成文本是可能的，但这不是该结构的目的，并且结果在任何方面都无法与仅解码器模型相媲美。)

请添加图片描述

3. Use of Bidirectional Context

作为一种语言模型，BERT预测了在观察到先前单词的情况下观察到某些单词的概率。所有语言模型都共享这个基本方面。然而，正是对这些概率的利用赋予了模型特定于任务的行为。例如，GPT被训练来预测序列中下一个最可能的单词。也就是说，模型预测下一个单词，前提是前面的单词已经被观察到。其他模型可能在情感分析上进行训练，使用诸如积极或消极等文本标签来预测输入序列的情感。对文本进行任何有意义的预测都需要理解周围的上下文，特别是在NLU任务中。BERT通过它的一个关键属性：bidirectionality来确保良好的理解。

bidirectionality（双向性）是BERT最核心的属性，是其在NLU任务中的高性能的关键。

双向性表示输入序列中的每个单词都可以从前面和后面的单词中获得上下文。简单来说，我们说注意机制可以关注每个单词的前后标记。BERT只对输入序列中的单词进行预测，而不像GPT那样生成新的序列。因此，当BERT在输入序列中预测一个单词时，它可以结合周围所有单词的上下文线索。这提供了两个方向的context，帮助BERT做出更明智的预测。

请添加图片描述
举个具体例子：考虑一个文本序列“今天打算去公园散步，然后去游乐园。”

在单向编码中，每个词或标记的编码仅依赖于其之前的词或标记。因此，在编码“散步”这个词时，模型只会考虑在它之前的词。
在双向编码中，每个词或标记的编码都会同时考虑其前后的词或标记。因此，在编码“散步”这个词时，模型会同时考虑所有词，从而更全面地理解整个句子的语义。

4. Masked Language Model (MLM)

Masked Language Model，是BERT预训练的一个重要部分。此阶段，模型的任务是预测输入句子中被**随机遮蔽（masked）**掉的部分单词。

输入文本处理：首先，对于输入的句子，随机选择句子中15%的单词进行遮蔽。对于每个被选中的单词，有80%的概率直接用[MASK]标记替换，10%的概率用随机的一个单词替换（这有助于模型学习理解上下文的重要性，而不仅仅是依赖于[MASK]标记），剩下的10%则保持不变（这有助于模型在微调阶段更好地处理未遮蔽的单词）。
模型预测：模型的目标是根据上下文预测这些被遮蔽单词的原始值。这种机制促使BERT能够深入理解文本中的语义关系。

举个例子：I love you
1）80%的时候是[MASK]。如，I love [MASK]
2）10%的时候是随机的其他token。如，I love her
3）10%的时候是原来的token。

5. Next Sentence Prediction (NSP)

Next Sentence Prediction，即下一句预测，是BERT预训练的另一个重要部分，旨在提高模型对句子间关系的理解能力。

句子对生成：在预训练时，模型不仅接收单个句子作为输入，还接收句子对。这些句子对可能是连续的（即真实的下一句），也可能是随机组合的（即非连续的）。
模型预测：对于每个句子对，模型需要预测第二个句子是否是第一个句子的真实下一句。这是一个简单的二分类任务，输出是一个[0, 1]范围内的值，表示第二个句子是第一个句子真实下一句的概率。

PS：在BERT的后续版本中，Next Sentence Prediction（NSP）任务被废弃了。因为研究人员发现这个任务对下游任务的性能提升有限。

6. Fine-tune

预训练完成后，BERT 模型可以通过微调（Fine-Tuning）应用于各种下游任务，如文本分类、命名实体识别、问答等。微调过程中，模型的权重会被更新以适应特定任务。下面举几个例子：

1、情感分析

分类一句话是正面情感或负面情感

输入
[CLS] 这部电影非常精彩！

2、句对分析

判别两句话的关系

输入是一个固定长度的序列，由两部分组成：
CLS 标记：句子开头的特殊标记，用于句子级任务（如文本分类）。
SEP 标记：用于分隔两个句子，或者标记句子结束。例如：
输入句子：“我喜欢看电影。” 和 “最近上映的电影真不错。”
转化为：
[CLS] 我喜欢看电影。 [SEP] 最近上映的电影真不错。 [SEP]