大模型微调数据配比策略
How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition
https://arxiv.org/pdf/2310.05492
一、背景:
大模型是无监督的多任务学习器,其强大的泛化能力可以同时理解并执行多种任务,比如做算术、写代码、通用问答。为了实现大模型的通用性,在预训练和后训练两个阶段都会使用大量的复合数据。
二、动机:
复合数据的构成比例和规模是如何影响大模型最终的泛化能力和指令遵从能力?有没有更好的数据配比策略来提高大模型的效果?
三、思路:DMT(Dual-stage Mixed Fine-tuning)
作者提出了一种新的数据配比策略——双阶段混合微调,这个策略组合了多任务学习和序列学习,并做了一些优化。
1)在第一阶段,使用数学和代码两个垂直领域的数据混合微调基座模型,得到模型A;
2)在第二阶段,使用部分数学、代码数据,并叠加全量的通用问答数据混合微调模型A,得到模型B;
3)模型B即为最终的对话模型。
四、实践结论
1)【数据规模的影响】在数学推理和代码编写任务上,扩大训练数据量可以明显提高模型效果;但是在通用问答任务上,当训练数据量达到某个阈值后,扩大训练数据量对提高模型效果的作用不明显;
2)【单一数据源vs混合数据源】数据总量比较小时,在数学推理、代码编写、通用问答三个任务上,混合数据源的效果优于单一数据源;当数据总量比较大时,单一数据源的效果要优于混合数据源;
3)【数据配比的影响】只有当异源数据在格式和内容上差异非常大时,数据配比几乎不产生负面影响,否则会降低两个任务上的效果;
4)【数据配比策略】DMT的效果要优于目前其他方案。