一文读懂「Fine-tuning」微调

一、什么是微调？

1. 什么是微调？

微调是指在预训练模型（Pre-trained model）的基础上，针对特定任务或数据领域，对部分或全部模型参数进行进一步的训练和调整（Fine Tune）。预训练模型通常是在大规模数据集上训练得到的，具有一定的通用性和泛化能力。微调的目标是在较小的目标数据集上，通过有限的训练数据，使模型更好地适应特定任务，从而提高模型在该任务上的性能。
在这里插入图片描述

2. 为什么微调？

预训练模型用了大量数据做训练，已经具备了提取浅层基础特征和深层抽象特征的能力。

卷积神经网络的核心是：

（1）浅层卷积层提取基础特征，比如边缘，轮廓等基础特征。
（2）深层卷积层提取抽象特征，比如整个脸型。
（3）全连接层根据特征组合进行评分分类。

在这里插入图片描述

对于图片来说，我们CNN的前几层学习到的都是低级的特征，比如，点、线、面，这些低级的特征对于任何图片来说都是可以抽象出来的，所以我们将他作为通用数据，只微调这些低级特征组合起来的高级特征即可，例如，这些点、线、面，组成的是园还是椭圆，还是正方形，这些代表的含义是我们需要后面训练出来的。

普通预训练模型用了大型数据集做训练，已经具备了提取浅层基础特征和深层抽象特征的能力。

想要完成一个新的任务，不做微调的情况：

（1）从头开始训练，需要大量的数据，计算时间和计算资源。
（2）存在模型不收敛，参数不够优化，准确率低，模型泛化能力低，容易过拟合等风险。

使用微调后：

（1）可以有效避免了上述可能存在的问题。

3. 什么情况下使用？

1）使用的数据集和预训练模型的数据集相似，如果不太相似，比如你用的预训练的参数是自然景物的图片，你却要做人脸的识别，效果可能就没有那么好了，因为人脸的特征和自然景物的特征提取是不同的，所以相应的参数训练后也是不同的。
2）自己搭建或者使用的CNN模型正确率太低。
3）数据集相似，但数据集数量太少。
4）计算资源太少。

4. 如何使用？

4.1 步骤

微调由以下4步构成：

在源数据集上预训练一个神经网络模型，即源模型。
创建一个新的神经网络模型，即目标模型。它复制了源模型上除了输出层外的所有模型设计及其参数。我们假设这些模型参数包含了源数据集上学习到的知识，且这些知识同样适用于目标数据集。我们还假设源模型的输出层与源数据集的标签紧密相关，因此在目标模型中不予采用。
为目标模型添加一个输出大小为目标数据集类别个数的输出层，并随机初始化该层的模型参数。
在目标数据集上训练目标模型。我们将从头训练输出层，而其余层的参数都是基于源模型的参数微调得到的。
当目标数据集远小于源数据集时，微调有助于提升模型的泛化能力。

4.2 不同数据集下使用微调

数据量少，但数据相似度非常高：在这种情况下，我们所做的只是修改最后几层或最终的softmax图层的输出类别。
数据量少，数据相似度低：在这种情况下，我们可以冻结预训练模型的初始层（比如k层），并再次训练剩余的（n-k）层。由于新数据集的相似度较低，因此根据新数据集对较高层进行重新训练具有重要意义。
数据量大，数据相似度低：在这种情况下，由于我们有一个大的数据集，我们的神经网络训练将会很有效。但是，由于我们的数据与用于训练我们的预训练模型的数据相比有很大不同。使用预训练模型进行的预测不会有效。因此，最好根据你的数据从头开始训练神经网络（Training from scatch）。
数据量大，数据相似度高：理想情况。在这种情况下，预训练模型应该是最有效的。使用模型的最好方法是保留模型的体系结构和模型的初始权重，使用在预先训练的模型中的权重来重新训练该模型。

4.3 微调指导事项

通常的做法是截断预先训练好的网络的最后一层（softmax层），并用与我们自己的问题相关的新的softmax层替换它。例如，ImageNet上预先训练好的网络带有1000个类别的softmax图层。如果我们的任务是对10个类别的分类，则网络的新softmax层将由10个类别组成，而不是1000个类别。然后，我们在网络上运行预先训练的权重。确保执行交叉验证，以便网络能够很好地推广。
使用较小的学习率来训练网络。由于我们预计预先训练的权重相对于随机初始化的权重已经相当不错，我们不想过快地扭曲它们太多。通常的做法是使初始学习率比用于从头开始训练（Training from scratch）的初始学习率小10倍。
如果数据集数量过少，我们进来只训练最后一层，如果数据集数量中等，冻结预训练网络的前几层的权重也是一种常见做法。这是因为前几个图层捕捉了与我们的新问题相关的通用特征，如曲线和边。我们希望保持这些权重不变。相反，我们会让网络专注于学习后续深层中特定于数据集的特征。

二、微调分类

2.1 全参数微调（Full Fine-Tuning，FFT）

以BERT模型为代表的“预训练语言模型 + 下游任务微调”训练模式成为了自然语言处理研究和应用的新范式。此处的下游任务微调是基于模型全量参数进行微调。

以 ChatGPT 为代表的预训练语言模型（PLM）规模变得越来越大，在消费级硬件上进行全量微调（Full Fine-Tuning）变得不可行。此外，为每个下游任务单独存储和部署微调模型变得非常昂贵，因为微调模型与原始预训练模型的大小相同。

此外，模型全量微调还会损失多样性，存在灾难性遗忘的问题。

因此，如何高效的进行模型微调就成了业界研究的重点，这也为参数高效微调技术的快速发展带来了研究空间。

2.2 参数高效微调（Parameter-Efficient Fine-Tuning，PEFT）

参数高效微调是指微调少量或额外的模型参数，固定大部分预训练模型（LLM）参数，从而大大降低了计算和存储成本，同时，也能实现与全量参数微调相当的性能。参数高效微调方法甚至在某些情况下比全量微调效果更好，可以更好地泛化到域外场景。
在这里插入图片描述

PEFT 方法可以分为三类，不同的方法对模型的不同部分进行下游任务的适配：

Prefix/Prompt-Tuning：在模型的输入或隐层添加 k 个额外可训练的前缀 tokens（这些前缀是连续的伪 tokens，不对应真实的 tokens），只训练这些前缀参数；
Adapter-Tuning：将较小的神经网络层或模块插入预训练模型的每一层，这些新插入的神经模块称为 adapter（适配器），下游任务微调时也只训练这些适配器参数；
LoRA：通过学习小参数的低秩矩阵来近似模型权重矩阵 W 的参数更新，训练时只优化低秩矩阵参数。

常见的参数高效微调技术有BitFit、Prefix Tuning、Prompt Tuning、P-Tuning、Adapter Tuning、LoRA等，有机会再一一研究。

增加额外参数，如：Prefix Tuning、Prompt Tuning、Adapter Tuning及其变体。
选取一部分参数更新，如：BitFit。
引入重参数化，如：LoRA、AdaLoRA、QLoRA。
混合高效微调，如：MAM Adapter、UniPELT。

以下是部分简单总结：

BitFit
对微调机制的一种积极探索，也很简单，通过仅调整bias效果就能有不错的效果，但没有具体阐述原理，就是通过猜测加实验得到的结果。同时，作者提出一个观点：微调的过程不是让模型适应另外的数据分布，而是让模型更好的应用出本身的表征能力。

特点：训练参数量极小（约0.1%）。在大部分任务上效果会差于LoRA、Adapter等方法。

Prefix Tuning
在每一个Transformer层都带上一些virtual token作为前缀，以适应不同的任务。

特点：前缀Token会占用序列长度，有一定的额外计算开销。 Prefix Tuning的线性插值是比较复杂的。

Prompt Tuning
该方法可以看着是Prefix Tuning的简化版本，针对不同的任务，仅在输入层引入virtual token形式的软提示（soft prompt）。

特点：相对于Prefix Tuning，参与训练的参数量和改变的参数量更小，更节省显存。对一些简单的NLU
任务还不错，但对硬序列标记任务（即序列标注）表现欠佳。

P-Tuning
将Prompt转换为可以学习的Embedding层，并用MLP+LSTM的方式来对Prompt Embedding进行一层处理。相比Prefix Tuning，仅在输入层加入的可微的virtual token；另外，virtual token的位置也不一定是前缀，插入的位置是可选的。

特点：引入一个prompt encoder（由一个双向的LSTM+两层MLP组成）来建模virtual token的相互依赖会收敛更快，效果更好。

P-Tuning v2
该方法在每一个Transformer层都加入了prompt token作为输入，引入多任务学习，针对不同任务采用不同的提示长度。并且回归传统的分类标签范式，而不是映射器。

特点：

解决了Prompt Tuning无法在小模型上有效提升的问题。移除了对模型效果改进较小的重参数化的编码器（如：Prefix Tuning中的MLP、P-Tuning中的LSTM）。对于一些复杂的硬序列标记任务（即序列标注）取得了不错的效果。

Adapter Tuning
该方法设计了Adapter结构，并将其嵌入Transformer的结构里面，针对每一个Transformer层，增加了两个Adapter结构，在训练时，固定住原来预训练模型的参数不变，只对新增的Adapter结构和Layer Norm 层进行微调。

特点：

通过在Transformer层中嵌入Adapter结构，在推理时会额外增加推理时长。

AdapterFusion
一种融合多任务信息的Adapter的变体，在 Adapter 的基础上进行优化，通过将学习过程分为两阶段来提升下游任务表现。
AdapterDrop
该方法在不影响任务性能的情况下，对Adapter动态高效的移除，尽可能的减少模型的参数量，提高模型在反向传播（训练）和正向传播（推理）时的效率。

特点：通过从较低的 Transformer 层删除可变数量的Adaper来提升推理速度。
当对多个任务执行推理时，动态地减少了运行时的计算开销，并在很大程度上保持了任务性能。

LoRA
该方法通过低秩分解来模拟参数的改变量，从而以极小的参数量来实现大模型的间接训练。

特点：将BA加到W上可以消除推理延迟。可以通过可插拔的形式切换到不同的任务。设计的比较好，简单且效果好。

AdaLoRA
对LoRA的一种改进，它根据重要性评分动态分配参数预算给权重矩阵，将关键的增量矩阵分配高秩以捕捉更精细和任务特定的信息，而将较不重要的矩阵的秩降低，以防止过拟合并节省计算预算。
QLoRA
使用一种新颖的高精度技术将预训练模型量化为 4 bit，然后添加一小组可学习的低秩适配器权重，这些权重通过量化权重的反向传播梯度进行微调。