文章目录 1.实战Step1:监督微调 1.1 任务说明: 使用标定的数据对预训练模型进行微调 评价与测试: 2 实战Step2:Reward模型微调 3.实战Step3:RLHF训练 3.评价与测试 4.QA 参考 1.实战Step1:监督微调 基础语言模型是指只在大规模文本语料中进行了预训练的模型,未经过指令和下游任务微调、以及人类反馈等任何对齐优化。 1.1 任务说明: 使用标定的数据对预训练模型进行微调 启动训练: 通过执行下面的命令,就可以开启模型的训练。 在执行以下命令以开始模型训练之前,请确保设置了 CUDA 并激活了 conda 运行环境 $ python3 train