ICLR 2024
1 背景
- 大模型通常需要在有监督指令数据集上进行指令微调来加强指令遵循能力
- 但是广泛使用的数据集包含许多具有不正确或不相关响应的低质量样本,这对大模型微调具有误导性
- ——>论文提出了一种简单有效的数据选择策略,使用ChatGPT自动识别和过滤掉低质量数据
- 同时引入了: ALPAGASUS,它是仅对从52k训练数据中过滤出来的9k高质量数据进行微调。
- 在多个测试集和受控人类评估上显着优于 GPT-4
- 将 7B 的训练时间从 80 分钟减少到 14 分钟。
- 同时引入了: ALPAGASUS,它是仅对从52k训练数据中过滤出来的9k高质量数据进行微调。
2 方法
prompt的dimension是用户给定的属性(比如帮助行,准确度等)
3 实验
LLM平均得分:
使用精简的数据微调效果更好: