DeepSeek LLM 论文解读：相信长期主义开源理念可扩展大语言模型（DeepSeek 吹响通用人工智能的号角）

在这里插入图片描述

论文链接：DeepSeek LLM: Scaling Open-Source Language Models with Longtermism（相信长期主义开源理念可扩展大语言模型）

- 摘要
- 一、数据处理
- - （一）数据清洗与丰富
  - （二）分词器与词汇设置
- 二、模型架构优化
- - （一）微观架构借鉴与创新
  - （二）宏观架构分层调整
- 三、超参数优化
- - （一）初始化与优化器设置
  - （二）学习率调度策略革新
- 四、训练框架与技术融合
- - （一）高效训练框架集成
  - （二）精度与稳定性权衡
- 五、缩放定律研究与应用
- - 一、超参数缩放定律
  - 二、模型与数据缩放策略
  - （三）不同数据缩放定律
- 六、对齐与微调策略
- - （一）多阶段对齐流程
  - （二）DPO 提升效果显著
- 七、评估
- - （一）多基准评估覆盖广泛
  - （二）开放与留出评估贴近实际
  - （三）安全与综合评估确保可靠
- 八、结论、限制和未来工作

摘要

在人工智能迅速发展的浪潮中，大语言模型（LLMs）已成为核心研究领域，其性能精度备受瞩目。DeepSeek LLM 作为开源语言模型的重要代表，在精度提升方面成果显著，对其研究剖析可为大模型发展提供关键启示。

开源大型语言模型（LLMs）的快速发展令人瞩目。然而，先前文献中描述的缩放定律结论各异，给大语言模型的扩展蒙上了阴影。我们深入研究缩放定律，并提出独特的发现，这些发现有助于在两种常用的开源配置（7B 和 67B）下扩展大规模模型。在缩放定律的指导下，我们推出了 DeepSeek LLM，这是一个致力于从长远角度推进开源语言模型的项目。为了支持预训练阶段，我们开发了一个目前包含 2 万亿词元且不断扩充的数据集。我们还在 DeepSeek LLM 基础模型上进行了有监督微调（SFT）和直接偏好优化（DPO），从而创建了 DeepSeek Chat 模型。我们的评估结果表明，DeepSeek LLM 67B 在一系列基准测试中超越了 LLaMA - 2 70B，特别是在代码、数学和推理领域。此外，开放式评估显示，我们的 DeepSeek LLM 67B Chat 在性能上优于 GPT - 3.5。

一、数据处理

（一）数据清洗与丰富

DeepSeek LLM 高度重视数据的预处理阶段。在去重环节，其采用激进策略，对 Common Crawl 语料库进行跨 91 个数据转储（dumps）的去重操作，相比单转储去重，能去除高达 89.8%的重复文档，有效减少数据冗余，确保模型训练数据的多样性与独特性。在过滤阶段，综合语言和语义评估构建严格标准，从多维度筛选高质量文本，提升数据信息密度。混音阶段则聚焦解决数据不平衡问题，增加稀缺领域样本，使数据分布更均衡，为模型学习各类知识奠定坚实基础，避免因数据偏差导致的精度损失。在这里插入图片描述

（二）分词器与词汇设置

基于 tokenizers 库实现 Byte-level Byte-Pair Encoding（BBPE）算法，在预分词时防止不同类别字符合并，如对换行符、标点和中日韩（CJK）符号单独处理，并效仿 GPT-2 拆分数字。经大量实践确定 100000 个常规词表规模，在约 24GB 多语言语料上训练分词器，并添加 15 个特殊词元扩充至 100015 个，训练时设词汇量为 102400，为模型高效处理文本、准确理解语义提供有力支持，保障模型在不同语言和文本结构下的精度表现。

二、模型架构优化

（一）微观架构借鉴与创新

在微观设计上，DeepSeek LLM 借鉴 LLaMA 架构优势，采用 Pre-Norm 结构结合 RMSNorm 函数稳定网络层输入归一化，以 SwiGLU 为前馈神经网络（FFN）激活函数提升非线性表达能力，中间层维度设为 $\frac{8}{3}d_{model}$ ，并引入 Rotary Embedding 实现高效位置编码。在 67B 模型中，创新性采用 GroupedQuery Attention（GQA）替代传统 Multi-Head Attention（MHA），在维持性能同时降低推理成本，优化模型在大规模数据处理和复杂任务推理时的精度与效率平衡。在这里插入图片描述

（二）宏观架构分层调整

宏观层面，依模型规模精心分层，7B 模型设 30 层，67B 模型设 95 层。这种分层策略既契合其他开源模型参数规模趋势，便于模型训练与推理的流水线并行优化，又通过深度调整挖掘模型潜力，增强对复杂语言模式和语义关系的捕捉能力，在不同任务场景下有效提升模型精度表现，展现出宏观架构设计对精度优化的关键作用。

三、超参数优化

（一）初始化与优化器设置

模型以标准差 0.006 初始化，选用 AdamW 优化器，其超参数 $\beta_{1}=0.9$ 、 $\beta_{2}=0.95$ 、weight_decay = 0.1 经大量实验验证，在平衡梯度更新、防止过拟合及稳定训练过程方面表现优异，为模型训练提供可靠的优化基础，确保模型在训练初期能朝着提升精度方向有效收敛。

（二）学习率调度策略革新

摒弃传统余弦学习率调度器，采用多步学习率调度器。在训练前期经 2000 步热身使学习率达峰值，随后依训练进度动态调整，处理 80%训练 tokens 后降至峰值 31.6%，90%后降至 10%，并设梯度裁剪为 1.0。多步调度器在不同计算预算下能维持模型性能稳定，且便于持续训练时复用前期训练成果。通过实验精细调整多步阶段比例为 80%、10%、10%，进一步优化训练动态，提升模型精度，有效应对模型训练过程中的梯度变化和过拟合风险。

四、训练框架与技术融合

（一）高效训练框架集成

依托 HAI-LLM 框架整合数据并行、张量并行、序列并行和 1F1B 流水线并行技术，高效利用计算资源提升训练速度，如在大规模数据处理时实现多 GPU 协同计算。同时，运用 flash attention 技术优化注意力计算硬件利用率，采用 ZeRO-1 技术优化优化器状态存储与更新，减少内存开销，通过计算与通信重叠、层/算子融合等策略加速训练流程，确保模型训练高效稳定，为精度提升提供有力硬件和框架支持。

（二）精度与稳定性权衡

训练全程采用 bf16 精度并以 fp32 精度累积梯度，在保障计算效率同时维持数值稳定性，避免精度损失累积。通过原位交叉熵计算减少 GPU 内存占用，即时转换 bf16 对数为 fp32 计算交叉熵并回写梯度，提升内存利用效率，防止因内存不足或精度问题影响训练进程，确保模型训练精度稳步提升。

五、缩放定律研究与应用

一、超参数缩放定律

早期对超参数设置的研究宛如一片混沌，虽有零星经验之谈，但在 DeepSeek LLM 的实践中却显得捉襟见肘。为扭转这一局面，DeepSeek LLM 踏上大规模实验征程，全力挖掘计算预算与最优批量大小、学习率之间的内在规律。研究发现，随着计算预算的逐步攀升，最优批量大小呈稳步上升之势，而学习率则悄然下降，三者构成紧密相连的幂律关系。在这里插入图片描述

例如，在小型实验中，当计算预算处于 1e17 FLOPs 时，对特定模型规模（177M FLOPs/token）进行批量大小和学习率的网格搜索，结果显示在宽泛的参数取值范围内，模型的泛化误差相对稳定，这意味着在该区间内模型有望实现近优性能。随后，借助多步学习率调度器，对众多不同批量大小、学习率及计算预算（从 1e17 至 2e19）的模型展开训练，并依据泛化误差筛选出近优超参数。最终拟合得出的批量大小公式 $B_{opt }=0.2920 \cdot C^{0.3271}$ 和学习率公式 $\eta_{opt }=0.3118 \cdot C^{-0.1250}$ 在 1e20 计算预算的模型验证中表现出色，有力支撑了 DeepSeek LLM 7B 和 67B 模型在训练时的高效性能达成，为模型训练的稳定性与准确性筑牢根基。在这里插入图片描述

二、模型与数据缩放策略

传统模型与数据规模的表征方式，如非嵌入参数 $N_{1}$ 和完整参数 $N_{2}$ ，在计算成本估算上存在显著缺陷，犹如粗糙的量具难以精准度量模型的真实需求。DeepSeek LLM 独具慧眼，引入非嵌入 FLOPs/token（M）这一全新表征维度，将注意力操作的计算开销纳入考量，同时巧妙剔除词汇计算的干扰，使模型规模的度量更加精准合理。在这里插入图片描述

在确定最优模型和数据规模的探索中，DeepSeek LLM 借鉴 Chinchilla 的 IsoFLOP 方法，精心设计多组计算预算与模型/数据规模组合实验。通过对不同组合在独立验证集上泛化误差的细致分析，成功拟合出最优模型规模 $M_{opt}=M_{base } \cdot C^{a}$ （其中 $M_{base }=0.1715$ ， $a = 0.5243$ ）和数据规模 $D_{opt}=D_{base } \cdot C^{b}$ （其中 $D_{base }=5.8316$ ， $b = 0.4757$ ）的增长曲线。这一成果为 DeepSeek LLM 7B 和 67B 模型的训练规划提供了高瞻远瞩的战略指导，确保在有限的计算资源下实现模型性能的最大化提升。在这里插入图片描述

以实际训练为例，依据此缩放策略，模型在训练过程中能够根据计算预算的动态变化，合理分配资源用于模型结构的扩展和数据的扩充，避免资源的浪费或不足。在面对大规模训练任务时，模型可以有条不紊地增加层数、调整参数规模，同时引入高质量的数据，使模型的表达能力和知识储备同步提升，在基准测试和实际应用中展现出卓越的性能表现，有力验证了该缩放策略的科学性和有效性。
在这里插入图片描述

（三）不同数据缩放定律

在 DeepSeek LLM 的研发进程中，数据质量对缩放定律的影响逐渐浮出水面，成为不可忽视的关键因素。通过对早期内部数据、当前内部数据和 OpenWebText2 等不同数据集的深入研究发现，数据质量与最优模型/数据缩放分配策略之间存在着紧密的线性关联。

具体而言，随着数据质量的提升，在计算预算的分配天平上，模型缩放的权重逐渐增加，数据缩放的权重则相应降低。这一现象直观地表明，高质量数据在训练过程中能够释放更大的价值，如同优质的燃料能为引擎提供更强劲的动力，推动模型向更大规模高效扩展。例如，OpenWebText2 数据因其高质量特性，在相同数据规模下，相较于早期内部数据，更能充分发挥计算资源的潜力，促使模型在性能提升上实现更大的飞跃。

这一发现不仅为 DeepSeek LLM 在数据筛选和预处理阶段提供了关键的决策依据，促使其更加注重数据质量的把控和提升，如强化数据清洗、筛选和标注流程，确保进入模型训练的数据具有更高的准确性、完整性和相关性；同时也为整个 LLM 领域的研究人员敲响了警钟，提醒他们在模型开发过程中重新审视数据质量的核心地位，深入探索数据质量与模型性能之间的复杂关系。

六、对齐与微调策略

（一）多阶段对齐流程

收集百万级英汉语言指令数据，涵盖多领域，按 4 轮和 2 轮分别对 7B 和 67B 模型进行监督微调（SFT），学习率依模型规模设为 1e-5 和 5e-6，并监测基准准确率与重复率。针对 7B 模型数学数据微调时的重复问题，采用两阶段微调与直接偏好优化（DPO）结合方法，在维持基准性能同时显著降低重复率，提升模型指令遵循与响应生成能力，增强模型在实际应用中的精度表现。

（二）DPO 提升效果显著

运用 DPO 算法基于 helpfulness 和 harmlessness 构建偏好数据优化模型，训练一轮（学习率 5e-6、批量 512，搭配学习率预热和余弦调度器）。结果表明，DPO 能强化模型开放端生成能力，在标准基准测试中保持性能稳定，在提升模型生成文本质量、增强与用户需求匹配度方面效果显著，有效提升模型在复杂任务和真实场景下的精度与实用性。

七、评估

（一）多基准评估覆盖广泛

在多语言多领域基准测试中全面评估模型，包括 MMLU、C-Eval、GSM8K 等涵盖语言理解、推理、数学、代码等多维度任务的数据集。依任务特性采用 perplexity 评估、生成式评估、语言建模评估等方法，设置 2048 或 4096 最大序列长度，并详细规范评估格式。实验结果显示，DeepSeek LLM 67B 在多基准测试中超越 LLaMA-2 70B，尤其在代码、数学和推理任务中优势突出，充分验证模型在不同任务和语言场景下的高精度表现。

在这里插入图片描述

（二）开放与留出评估贴近实际

开放端评估聚焦模型在真实场景下的生成能力，中文采用 AlignBench、英文采用 MT-Bench 基准测试。结果表明 DeepSeek LLM 67B Chat 在中英文开放端评估表现卓越，超越多数开源模型，接近或超越 GPT-3.5，DPO 优化后性能进一步提升。留出评估针对数据污染和过拟合，选用 LeetCode、匈牙利国家高中考试、谷歌指令跟随评估数据集，结果显示大模型优势显著，且 DeepSeek 7B 和 67B 模型在不同规模任务中性能差异明显，体现模型精度随规模增长的提升趋势与实际应用可靠性。
在这里插入图片描述

在这里插入图片描述

（三）安全与综合评估确保可靠

安全评估构建 20 人专家团队和分类体系，设计 2400 题测试集及评估准则，测试结果表明 DeepSeek 67B Chat 安全性强，在“不回答”数据集测试中得分高于 ChatGPT 和 GPT-4，凸显模型在安全合规方面的可靠表现。综合评估还涉及模型在多阶段训练策略、不同数据类型处理对精度影响的分析，如两阶段微调、多选择题数据添加实验等，为模型优化改进提供全面深入的依据，确保模型精度在多方面持续提升与优化。在这里插入图片描述

八、结论、限制和未来工作

结论：介绍了 DeepSeek LLMs，其在 2 万亿词元的中英双语数据集上从头开始训练。详细解释了超参数选择、缩放定律及微调尝试，校准了先前工作的缩放定律并提出新策略，还能预测近优批量大小和学习率且发现缩放定律与数据质量相关，依此进行预训练和评估并避免了训练中的不良问题。
局限性：DeepSeek Chat 存在和其他 LLM 类似的局限，如预训练后无法持续更新知识、可能生成不实信息、有幻觉现象，且初始中文数据不全面，对其他语言的掌握能力也有待提升。
未来工作：即将发布代码智能和混合专家（MoE）技术报告；正在构建更大更好的数据集以提升模型多方面能力；对齐团队致力于研究让模型更有益、诚实和安全，且初步实验表明强化学习可提升模型复杂推理能力。