自我指导：提升语言模型自我生成指令的能力

人工智能咨询培训老师叶梓转载标明出处

传统的语言模型，尤其是经过指令微调的大型模型，虽然在零样本（zero-shot）任务泛化上表现出色，但它们高度依赖于人类编写的指令数据。这些数据往往数量有限、多样性不足，且缺乏创造性，限制了模型的泛化能力。为了解决这一问题，由华盛顿大学、德黑兰理工大学、亚利桑那州立大学、约翰霍普金斯大学以及艾伦人工智能研究所的研究人员联合提出了一种名为“SELF-INSTRUCT”的框架，旨在通过自举（bootstrapping）的方式，利用预训练语言模型自身的生成能力，提升其遵循指令的能力。

论文链接：https://arxiv.org/pdf/2212.10560

项目链接：https://github.com/yizhongw/self-instruct

方法

SELF-INSTRUCT方法是一种自动化流程，用于生成任务指令、过滤数据，并对语言模型进行微调，以提高其遵循指令的能力。旨在生成包含一组指令的数据集，每个指令定义了一个自然语言中的任务。每个任务包含至少一个输入输出实例。例如，指令“写一篇关于学校安全的作文”可以直接作为任务指令，也可以将其分解为“写一篇关于以下主题的作文”和实例输入“学校安全”。

图 2 显示整个过程从一个小的种子任务集开始，这些任务构成了任务池。然后从任务池中随机抽取任务，用作提示（prompt）来引导现成的语言模型（LM）生成新的指令和相应的实例。接下来，通过过滤掉质量较低或相似的生成内容，将剩余的有效任务添加回初始的任务库中。这些经过筛选的数据随后可以用于对语言模型本身进行指令调优，以使其更好地遵循指令。图中展示的任务是由 GPT3 生成的。这个过程是一个迭代的自举算法，通过这种方式，可以不断扩大任务集并提高模型遵循新指令的能力。自动化指令数据生成流程包含四个主要步骤：

生成任务指令：SELF-INSTRUCT从一组种子人类编写的指令开始，通过自举的方式生成新指令。初始任务池包含175个任务，每个任务包含一条指令和一个实例。
确定任务类型：为了区分分类任务和非分类任务，使用少量种子任务中的指令来提示语言模型进行判断。
实例生成：根据指令和任务类型，独立生成每个指令的实例。对于分类任务，采用输出优先方法（Output-first Approach），首先生成可能的类别标签，然后根据每个类别标签生成输入。对于非分类任务，采用输入优先方法（Input-first Approach），首先生成输入字段，然后产生相应的输出。
过滤和后处理：为了确保多样性，只有当新指令与现有指令的ROUGE-L相似度小于0.7时，才将其添加到任务池中。同时，排除包含特定关键词（如“图像”、“图片”、“图表”）的指令，因为这些通常无法由语言模型处理。

在生成了大规模指令数据后，研究者使用这些数据对原始语言模型进行微调。通过将指令和实例输入串联起来作为提示，并训练模型以标准监督学习的方式生成实例输出。

表1描述了通过将 SELF-INSTRUCT 应用于 GPT3 生成的数据的基本统计信息，包括指令数量、分类指令数量、非分类指令数量、实例数量、平均指令长度、平均非空输入长度和平均输出长度。研究者使用了伯克利神经解析器（Berkeley Neural Parser）来分析指令中的动词-名词结构，并提取了最常见的动词和直接宾语。这些分析结果展示了指令的多样性。

为了评估生成数据的质量，作者随机抽取了200个指令，并请专家注释员对每个实例的正确性进行了评估。评估结果显示，大多数生成的指令是有意义的，尽管有些生成的实例可能包含噪声，但它们仍然在正确的格式或部分正确，这对训练模型遵循指令提供了有用的指导。图3为生成指令中最常见的 20 个动词（内圈）和它们的前 4 个直接宾语（外圈）。这些指令虽然多样，但只占所有生成指令的 14%。

想要掌握如何将大模型的力量发挥到极致吗？叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。9月22日晚，实战专家1小时讲解让您轻松上手，学习如何使用 Llama Factory 微调模型。

加助理微信提供直播链接：amliy007，29.9元即可参加线上直播分享，叶老师亲自指导，互动沟通，全面掌握Llama Factory，关注享粉丝福利，限时免费CSDN听直播后的录播讲解。

LLaMA Factory 支持多种预训练模型和微调算法。它提供灵活的运算精度和优化算法选择，以及丰富的实验监控工具。开源特性和社区支持使其易于使用，适合各类用户快速提升模型性能。

实验

研究者使用生成的指令数据对GPT3模型本身进行了指令调整。这个过程通过OpenAI的微调API完成，使用了各种模板将指令和输入串联起来，并训练模型生成输出。微调使用了默认的超参数设置，除了将提示损失权重设置为0，并训练了2个周期。通过这种方式微调后的模型被命名为GPT3SELF-INST。

研究者评估了以下基线模型：

现成的语言模型：T5-LM和GPT3作为未经额外微调的基线模型。
公开可用的指令调整模型：T0和T𝑘-INSTRUCT，这两个模型基于T5进行了指令调整，并且公开可用。
指令调整的GPT3模型：InstructGPT，由OpenAI基于GPT3开发，以更好地遵循人类指令。

研究者首先评估了模型在典型NLP任务上遵循指令的零样本能力。使用的是SUPERNI评估集，包含119个任务，每个任务有100个实例。实验主要关注零样本设置，即模型仅根据任务定义进行提示，没有上下文示例。实验结果显示，SELF-INSTRUCT显著提高了GPT3的指令遵循能力。与未经SUPERNI特别训练的其他模型相比，GPT3SELF-INST性能更好，接近InstructGPT001的性能。

尽管SUPERNI在收集现有NLP任务方面非常全面，但这些任务大多偏向于分类任务，并且是为了研究目的而提出的。为了更好地评估指令遵循模型的实际价值，研究者策划了一组新的、以用户为导向的指令集。这组指令涵盖了多种领域，如电子邮件写作、社交媒体、生产力工具、娱乐和编程等。研究者创造了252个指令，每个指令有一个实例。这些指令旨在测试指令模型处理多样化和不熟悉指令的能力。

图6 展示了GPT3模型及其指令调整变体在这些新编写的指令集上的性能，由人类专家进行评估。评估者根据模型的响应是否准确有效完成任务，将输出分为四个等级：正确且满意的响应、可接受但有小错误的响应、回应指令但内容有重大错误的响应、不相关或完全无效的响应。结果显示，GPT3SELF-INST在所有经过公开指令数据集训练的GPT3变体中表现最佳，并且与InstructGPT001的性能非常接近。

研究者还探讨了数据规模和质量对模型性能的影响。通过从生成的数据集中抽取不同数量的指令，对GPT3进行微调，并评估结果模型在252个用户导向指令集上的性能。结果表明，随着数据规模的增加，模型性能持续改善，但在达到16K后几乎趋于平稳。

图 7 展示了使用不同大小指令数据集进行调优的 GPT3SELF-INST 模型的人类评估性能。研究者们还评估了通过从 InstructGPT003 （最好的通用模型）中提取输出来提高数据质量是否能进一步提升性能。结果显示所得到的模型比使用原始数据训练的模型性能提高了10%，这表明通过人类专家或从更好的模型中提取来提高数据质量有很大的空间。

综上所述，SELF-INSTRUCT方法不仅提高了GPT3的指令遵循能力，而且通过实验验证了其在多样化任务上的有效性。这些实验结果为未来在指令调整领域的研究提供了有价值的见解和方向。