大语言模型的微调方法_大语言模型六种微调方法

引言

自2018年BERT发布以来，“预训练+微调”成为语言模型的通用范式。以ChatGPT为代表的大语言模型针对不同任务构造Prompt来训练，本质上仍然是预训练与微调的使用范式。千亿规模的参数微调需要大量算力，即使提供了预训练的基座模型，一般的研究机构也很难对其进行全量微调（即对所有参数进行微调）。为了应对这个问题，相关学者提出了PEFT（Parameter-Efficient Fine-Tuning，高效参数微调）技术，本文将总结并介绍几种常见的PEFT技术。

Adapter Tuning

Adapter Tuning[1]是一种经典的PEFT技术，在2019年由谷歌的研究人员提出，也由此拉开了PEFT研究的序幕。

研究人员发现在面对下游任务微调BERT时，如果进行全量微调，效率较低，而如果固定预训练模型的大部份参数，只对为下游任务添加的几层参数进行微调时，效果较差。

因此，他们设计了Adapter结构（下图右），并将其集成在Transformer中（下图左）。在微调阶段，只对Adapter中的参数进行调整，固定所有其他参数。

Adapter模块包含一个down-project层（即将高维特征映射为低维特征）、非线性层和up-project层（即将低维特征映射回高维特征）。同时包含skip-connection结构，与残差类似。

Adapter的效果如下图所示，其能够在只增加并训练BERT-large的3.6%的参数的情况下，在GLUE基准达到80.0的总分（BERT-large全量微调的得分为80.4）

Prefix Tuning与Prompt Tuning

2021年，斯坦福大学的研究人员提出了Prefix Tuning[2]。该方法的主要做法是在输入 token 之前构造一段与任务相关的前缀token（即Prefix），在训练时只更新Prefix部份参数，固定模型中其他参数，如下图所示。

直接更新Prefix会导致训练过程不稳定，因此研究人员在Prefix前加上一个MLP结构，将一个含有较少参数的矩阵P’转化为Prefix，训练时更新P’与MLP的参数，在训练完成后删除这些参数，只保留并存储不同任务的Prefix，而模型其他参数由不同任务共享。

下图是将表格转化为文本的任务中，在不同训练数据量上Prefix tuning与全量微调的对比。可以看到在使用20%-80%数据量时，Prefix tuning的效果要好于全量微调。

这种方法与现在常用的Prompt类似，但是是由模型自动对Prompt进行隐式编码，而不是人为构造显式的Prompt。

2021年，谷歌的研究团队也提出了Prompt Tuning方法[3]。与现在我们所熟知的Prompt不同，这个方法可以看作是另一种Prefix Tuning，在输入层加入prompt token并与原输入拼接，并没有额外加入MLP，如下图所示。

作者对T5模型进行了实验，并且发现随着预训练模型参数量增大，Prompt tuning的效果会越来越接近全量微调，如下图所示。

LoRA

Adapter Tuning与Prefix Tuning各有一定优势，但也有一定的缺点。Adapter Tuning中添加的adapter模块会带来额外的计算量，而Prefix Tuning的前缀长度会影响到下游任务可输入的序列长度，且有一定优化问题，其性能随参数规模变化情况并不一定是单调递增的。

LoRA[4]被发表在ICLR 2022上，它的核心思想是通过低秩分解来表示模型的权重更新，并且只更新分解矩阵部分的参数。

为了便于理解，首先附上原论文的LoRA示意图，如下图所示。

图中，左侧蓝色矩形表示预训练权重矩阵，右侧表示其参数更新过程的低秩分解，先通过矩阵A将特征映射到低维（r一般为2/4/8/16），再通过矩阵B映射回原维度。训练时固定预训练矩阵，只更新A与B，再将预训练矩阵与A、B合并（BA的维度与W相同）。

LoRA假设模型的权重更新在微调过程中具有较低的“内在秩（intrinsic rank）”，对预训练的权重矩阵，用低秩分解来表示其更新：

将A初始化为均值为0的正态分布，B初始化为0，在训练过程中只训练A、B，固定预训练权重。

这种方法的优势在于：（1）只需更新A、B矩阵并与预训练权重合并，没有引入额外的结构导致推理延时；（2）大大降低显存消耗；（3）可灵活定制，即可对模型的任意一部份权重矩阵应用LoRA。

下图为WikiSQL数据集上GPT-3 175B的验证准确率与可训练参数量的关系，可以看到LoRA在相同可训练参数规模下表现比其他PEFT方法更好。

另外，论文作者也在18M的参数预算（如果使用FP16精度，大约35MB空间）下，将LoRA应用在GPT-3 175B中Transformer的不同注意力权重矩阵上并对比实验，如下表所示。

可以发现，将所有参数放入Wq或Wk会导致性能显著降低，同时调整Wq、Wv会产生更好的结果，这表明即秩较低，也能在更多矩阵中捕获更多信息。因此，在相同显存约束的情况下，采用更多权重矩阵、更小的维度结果可能会更好。

小结

本文介绍了Adapter Tuning、Prefix Tuning、Prompt Tuning、LoRA几种主要的PEFT方法，这些方法可以总结为以下几种思路：

1、在模型中增加少量参数，与原模型串行；

2、在输入层增加少量参数，并行输入模型；

3、在模型中的特定矩阵利用低秩分解增加少量参数矩阵，与原矩阵并行。

在大模型时代，对于一般的研究机构而言，要想在少量GPU上部署大模型，对PEFT的研究必不可少。目前HuggingFace已开源其PEFT库（https://huggingface.co/docs/peft/index），Prefix Tuning、LoRA等PEFT算法都可以通过它来调用，这将一定程度降低大模型的训练门槛，增加我们对大模型的研究效率。

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：