欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/146840732
免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。
DeepSeek-R1 通过强化学习,显著提升大语言模型推理能力,使用特殊的训练策略,其中 DeepSeek-R1-Zero 完全摒弃有监督微调(SFT),依靠强化学习训练,开创大模型训练中,跳过监督微调的先例。DeepSeek-R1 使用冷启动数据微调,通过多阶段强化学习,进一步优化推理能力。强化学习驱动的训练,不仅降低数据依赖,让模型在训练过程中,自发形成 “回头检查步骤” 的自我反思能力。
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning