结论
在大型 “指令调整” 语言模型依赖的人类编写指令数据存在数量、多样性和创造性局限,
从而阻碍模型通用性的背景下,
Self - Instruct 框架,
通过 自动生成 并 筛选指令数据 微调预训练语言模型,
有效提升了其指令遵循能力,为预训练语言模型的指令调整提供新方法,
推动自然语言处理领域在指令理解和执行方面的发展。
背景
大型 “指令调整” 语言模型展现出对新任务的零样本泛化能力,但严重依赖人类编写的指令数据。然而,这些人类编写的指令数据在数量、多样性和创造性上存在局限,这阻碍了模型的通用性。
实验过程
- 实验设计:使用 Self - Instruct 框架微调 GPT3 模型,并将其与原始 GPT3 模型、InstructGPT - 001 进行对比。具体是利用语言模型生成指令、输入和输出样本,经过筛选后,使用这些合成数据微调原始 GPT3 模型。
- 实验验证:
-
- Super - NaturalInstructions 基准测试:Self - Instruct 微调后的 GPT3 模型表现出 33% 的绝对改进,性能与 InstructGPT - 001 相当。
-
- 专家编写指令评估:组织人类评估者对专家编写的新任务指令进行评估,Self - Instruct 微调后的 GPT3 模型在评估中表现出色,仅落后 InstructGPT - 001 5% 的绝对差距。
原文Arxiv链接:
[2212.10560] Self-Instruct: Aligning Language Models with Self-Generated Instructions