一文探索预训练的奥秘

news2026/2/13 3:41:37

2022年下半年开始，涌现出一大批大模型的应用，其中比较出圈的当属AI作画与ChatGPT，刷爆了各类社交平台，其让人惊艳的效果，让AI以一个鲜明的姿态**，站到了广大民众面前，让不懂AI的人也能直观地体会到AI的强大**。大模型即大规模预训练模型，本文就和大家聊一聊预训练模型的起源与发展。

前言

在这里插入图片描述
近年来，由于预训练模型（Pretrained Models， PTMs）的蓬勃发展，“预训练（pretrain）+微调（finetune）”成为了AI模型开发领域的标准范式。预训练模型的作用可想而知，它极大推进了AI的落地，让AI模型的开发从手工作坊模式走向工厂模式，快速适应AI市场的定制化需求。但它绝非一个空降神器，预训练的研究最早起源于迁移学习。迁移学习的核心思想，即运用已有的知识来学习新的知识，通俗来说就是将一个预训练的模型被重新用在另一个任务中。早期的预训练模型主要基于有标签数据，预训练模型的第一个浪潮发生在CV领域，得益于ImageNet[1]数据集中所富含的强大的视觉信息，其包含了上百万张上千种类别的图片，覆盖了日常生活中的各种物体，在ImageNet上预训练的模型（比如ResNet50）广泛应用于图像领域的各个下游任务，均取得了卓越的进展。而在NLP领域，由于下游任务的多样性以及数据标注的复杂性，导致无法获得一个像ImageNet这样大规模的有标签数据，所以NLP领域尝试使用自监督学习的方法来获取预训练模型，自监督学习的主要思想就是利用文本间的内在联系为监督信号。通过自我监督学习，可以利用大量未标记的文本数据来捕获通用的语言知识。早期NLP领域的NLP模型主要是词嵌入（word embedding）的研究，比如word2Vec[2]，Glove[3]等，它们至今在各种NLP任务中仍发挥着重要的作用。2017年出现的Transformer结构[4]，给NLP领域预训练模型的发展带来了绝大的突破。Transformer的成功，也诱使CV领域加入了自监督预训练模型的赛道。如今，自监督预训练已经成为当前人工智能研究的重点，几乎所有的最新的 PTM都是采用类Transformer结构与自监督学习的方法，接下来介绍比较有代表性的自监督预训练语言模型。

词嵌入研究： word2vec Glove

Transformer结构

CV领域加入自监督训练模型的赛道。

在这里插入图片描述

模型结构

PTM成功的关键是自监督学习和Transformer。本节从占主导地位的神经架构 Transformer 开始。然后介绍两个具有里程碑意义的基于 Transformer 的 **PTM，GPT[6]和BERT[**7]。所有后续的PTMs基本都是这两个模型的变体。

PTM、GPT、BERT

Transformer

$T r an s f or m er$ 是一种序列到序列的结构，由编码器和解码器组成，说起 $t r an s f or m er$ 就不得不提去注意力机制，这里主要总结下transformer存在的三种注意力机制:

Self-attention：存在于encoder中的注意力层中，使用前一层的输出作为Q，K，V。给定一个词，自注意力计算其与输入序列中的所有单词的注意力得分，来表示其他单词对给定词汇特征表示的贡献程度。

Mask-attention：存在于decoder阶段，通过掩膜的手段，控制注意力得分的计算过程仅当前词汇左侧的词参与。因为decoder是一个从左到右逐词生成的过程。

Cross-attention：同样是存在于decoder阶段，使用前一层的输出作为Q，同时使用encoder的输出作为K，V。交叉注意力机制的主要作用在于生成词过程中能够利用其输入序列的信息，这在诸如机器翻译和文本摘要的seq2seq任务中尤为重要。

在这里插入图片描述

GPT

GPT是第一个在transformer结构上应用自监督学习目标的 $PTM$ ,
其不仅使用transformer的decoder作为基础结构，由于采用自监督学习，所以删去了cross-attention层，GPT是一个标准的自回归语言模型，它的学习目标是，根据上文预测下一个词，因此也往往更适合自然适合自然语言生成任务。
在这里插入图片描述

BERT

BERT是基于双向 Transformer 结构构建，仅使用了Transformer的encoder结构。这里的双向主要是通过它的预训练目标实现的，BERT设计了一个 masked language modeling (MLM) 预训练任务，根据上下文来预测masked词汇。“双向”即体现在，在进行注意力计算时，BERT会同时考虑被遮蔽词左右的词对其的影响。BERT是一种自编码语言模型，更适合自然语言理解任务

后起之秀

在GPT和BERT之后，出现了很多基于它们的变体，图5中罗列了目前预训练模型家族的主要成员。一部分工作致力于改进模型架构并探索新的预训练任务；一部分工作致力于探索数据的丰富性，比如多语言和多模态PTMs；还有一部分工作致力于探索更多参数的模型以及PTM计算效率的优化。

在这里插入图片描述

预训练任务

预训练模型的主要目标是：如何利用未标注的语料来获取通用知识，以及快速迁移到各种下游任务中，预训练任务即学习目标的设计至关重要。前文也提到了GPT和BERT的预训练任务Autoregressive language modeling和masked language modeling，它们也分别是自回归语言模型和自编码语言模型无法替代的预训练任务，后续的一些PTMs中探索的新的预训练任务均是在此基础上追加的。下表中总结了目前一些常见的预训练任务。对于单资源数据输入（单语言纯文本），往往从挖掘文本间词汇、句子、篇章的内在联系设计新的预训练任务；对于多资源数据输入，比如多语言和多模态的预训练模型，往往会从如何构建不同语言和不同模态的统一的特征表示来考虑设计新的预训练任务

在这里插入图片描述