Paper name
Large Language Models Are Reasoning Teachers
Paper Reading Note
URL: https://arxiv.org/pdf/2212.10071.pdf
twitter 宣传: https://twitter.com/itsnamgyu/status/1605516353439354880
TL;DR
- 提出了 Fine-tune-CoT 方法,旨在利用非常大的语言模型 (LMs) 的CoT推理能力来教导小模型如何解决复杂任务,蒸馏出来的小模型在某些数据集上精度甚至能超过 teacher 大模型
Introduction
背景
- 最近的研究表明,通过包含思维链 (CoT) 推理或促使模型一步一步地思考的几个示例,可以在大语言模型 (LLM) 中激发复杂推理能力。
- 基于提示的CoT推理方法的一个主要缺点是它们依赖于跨越数千亿参数的超大模型,由于巨大的计算需求和推理成本,这些模型无法大规模部署
- 虽然有人试图通过显式推理步骤来微调小模型来解决这个问题,但它们需要复杂的推理注释,通常还需要特定于任务的训练设置
- 本文希望在小模型中实现复杂的推理,以便在实际应用中使用,提出了一种名为 Fine-tune-CoT 的方法,旨在利用非常大的语言模型 (LMs) 的CoT推理能力来教导小模型如何解决复杂任务
本文方案
- 应用现有的 zero-shot CoT 提示从非常大的教师模型中生成理据,并使用它们来微调较小的学生模型
- 该方法可以很容易地应用于新的下游任务,因为基于 LM 的教师具有显著的 zero-shot 推理能力,没有手工推理注释或任务特定工程
- 保留了基于提示的CoT的多功能性,而不需要过大的模型
- Fine-tune-CoT 的蒸馏步骤
- 一个非常大的教师模型被提示通过生成多步推理解释(绿色)来解决复杂的问题(黄色)
- 根据最终预测的正确性(红色)对生成的补全进行筛选。问题、基本原理和答案用于组成由提示和多步骤完成组成的推理示例
- 精心策划的推理样本用于微调一个小的、轻量级的学生模型
同时基于 LM 的教师模型支持了多样化的推理——为每个原始样本生成多个不同的基本原理,以丰富微调数据。这提高了学生模型的性能,并且不需要人工注释
Dataset/Algorithm/Model/Experiment Detail
实现方式
Step 1. Reasoning generation
- 首先利用一个大型教师模型为给定的任务生成CoT推理解释
- 考虑一个标准样本Si,由一个问题qi和它的真实答案ai组成。使用 Zero-shot-CoT 模型,提示教师模型生成一个推理解释
r
^
i
\hat{r}_i
r^i 来解决 qi,生成的最终答案为
a
^
i
\hat{a}_i
a^i
- 生成的文本序列,包括提示符和生成,采用以下形式: “Q: . A: Let’s think step by step. <ˆri> Therefore, the answer is <ˆai>”
Step 2. Curation
- 为了准备微调样本,过滤生成的样本并将它们重新格式化为提示补全对
- 对于过滤,简单地将教师模型的最终预测 a ^ i \hat{a}_i a^i 与 ground-truth 答案 ai 进行比较,挑选预测与 gt 一致的样本
- 将(Si, r ^ i \hat{r}_i r^i , a ^ i \hat{a}_i a^i ) 重新打包成一个推理样本S’i = (pi, ci),一个提示补全对
Step 3. Fine-tuneFine-tune
- 使用广泛可访问的 OpenAI API 在组装的推理样本上对一个小型预训练的学生模型进行微调。使用与预训练期间相同的训练目标,即 autoregressive language modeling objective 或 next-token prediction
Diverse reasoning
- 为了使微调- cot的样本效率最大化,为每个训练样本生成多个推理解释,从而增加微调数据
- 具体而言,对于给定的样本 Si,采用随机采样策略,即大 T 的温度采样,而不是采用贪婪解码的 Zero-shot-CoT 来获得单个解释-答案对 (ei, ai),以获得 D 个不同的样本对
实验结果
实验配置
- 模型列表,学生模型比非常大的教师模型小25 - 500倍
- 用于对比的 baseline 模型
Zero-shot-CoT: task-agnostic prompting baseline
finetuning:使用原始训练样本进行 finetune
Fine-tune-CoT:本文方法
实验结果
- 12 个数据集上的对比结果,“Random” 指的是在多项选择题的任务中,根据选项的数量随机猜测的表现,即只能以正确格式输出随机答案的模型的性能。
Fine-tune-CoT 性能超过 Zero-shot-CoT
一些小模型效果超过了大模型:Shuffled Objects and Coin Flip
Fine-tune vs Fine-tune-CoT: Date Understanding and Shuffle Objects 数据上 Fine-tune-CoT 比 Fine-tune 精度明显高(Fine-tune 精度与 Random 差不多),某些数据集上 Fine-tune 精度也会比 Fine-tune-CoT 高,不过 Fine-tune-CoT 性能随着模型大小显示出更可靠的缩放曲线,并在需要多个步骤的任务中显示出明显的优势
Thoughts
- 利用大模型提取一些更利于小模型学习的训练样例,并将训练样例转换为更利于 student 模型学习的形式,看起来挺合理