一、近期技术进展
-
模型迭代与性能提升
- DeepSeek-V3-0324版本更新:2025年3月24日发布,作为V3的小版本升级,参数规模达6850亿,采用混合专家(MoE)架构,激活参数370亿。其代码能力接近Claude 3.7,数学推理能力显著提升,且在开源社区(如Hugging Face)上线。
- DeepSeek-R1模型:2025年1月发布,通过强化学习技术在后训练阶段提升推理能力,性能对标OpenAI的o1模型,推理过程透明化,引发全球关注。
-
架构创新与成本优化
- 在MoE架构中引入“辅助损失免费的负载均衡策略”和“节点受限路由机制”,解决了传统混合专家模型的负载不均衡问题,减少跨节点通信成本,训练效率提升。
- 通过强化学习优化预训练策略,以较低算力实现接近GPT-01的性能,推动行业反思大算