欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/146838740
免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。
OpenR1 是一个开源的强化学习框架,复现 DeepSeek-R1 的训练流程,为研究人员和开发者提供了一个完整的推理优化训练工具链。该项目由 Hugging Face 发起,通过开源的方式,详细展示了从知识蒸馏到强化学习,再到多阶段训练的完整过程。OpenR1 包含了用于训练和评估模型以及生成合成数据的脚本,支持 GRPO 训练、监督微调(SFT)等多种训练方法。它还封装了多个开源框架,如 TRL 和 distilabel,方便用户快速上