从一个question中看到多种多样的cot,都可以从中学习。
offline self-training
数据的质量是模型自己来定义的。
思考增加或者减少一条数据,对于模型训练的影响。
用influence function来衡量新增一条数据对于模型训练的整体的影响。
高质量的数据能够对模型产生正向的影响。
高质量的数据能够对主题产生正向的支持/反对。
使用最后一层MLP的梯度,聚类找出
对比随即筛选和reward model筛选(开源的,用于对齐人类便好)。