论文链接
:DeepSeek LLM: Scaling Open-Source Language Models with Longtermism(相信长期主义开源理念可扩展大语言模型)
目录
- 摘要
- 一、数据处理
- (一)数据清洗与丰富
- (二)分词器与词汇设置
- 二、模型架构优化
- (一)微观架构借鉴与创新
- (二)宏观架构分层调整
- 三、超参数优化
- (一)初始化与优化器设置
- (二)学习率调度策略革新
- 四、训练框架与技术融合
- (一)高效训练框架集成
- (二)精度与稳定性权衡
- 五、缩放定律研究与应用
- 一、超参数缩放定律
- 二、模型与数据缩放策略
- (三)不同数据缩放定律
- 六、对齐与微调策略
- (一)多阶段对齐流程
- (二)DPO 提升效果显著
- 七、评估
- (一)多基准评估覆盖广泛
- (二)开放与留出评估贴近实际
- (三)安全与综合评估确保可靠
- 八、结论、限制和未来工作
摘要
在人工智能迅速发展的浪潮中,大语言模型(LLMs)已成为核心研究领域,其性能精度备受瞩目。DeepSeek LLM 作为开源语言模型的重要代表,在精度提升方面成果显著,对其研究剖析可为大模型发展提供关键启示。
开源大型语言模型(LLMs)的快速发展令人瞩目。然而,先前文献中描述的缩放定律结论各异,给大语言模型的扩展蒙上了阴影。我们深入研究缩放定律,并提出独特的发现,这些发现有助于在两种常用的开源配置(7B 和 67B)下扩展大规模模型。在缩放定律的指导下,我们推出了 DeepSeek LLM,这是一个致力于从长远角度推进开源语言模型的项目。为了支持预训练阶段,我们开发了一个目前包含 2 万亿词元且不断扩充的数据集。我们还在 DeepSeek LLM 基础模型上进行了有监督微调(SFT)和直接偏好优化(DPO),从而创建了 DeepSeek Chat 模型。我们的评估结果表明,DeepSeek LLM 67B 在一系列基准测试中超越了 LLaMA - 2 70B,特别是在代码、数学和推理领域。此外,开放式评估显示,我们的 DeepSeek LLM 67B Chat 在性能上优于 GPT - 3.5。
一、数据处理
(一)数据清洗与丰富
DeepSeek LLM 高度重视数据的预处理阶段。在去重环节,其采用激进策略,对 Common Crawl 语料库进行跨 91 个数据转储(dumps)的去重操作,相比单转储去重,能去除高达 89.8%的重复文档,有效减少数据冗余,确保模型训练数据的多样性与独特性。在过滤阶段,综合语言和语义评估构建严格标准,从多维度筛选高质量文本,提升数据信息密度。混音阶段则聚焦解决数据不平衡问题,增加稀缺领域样本,使数据分布更均衡,为模型学习各类知识奠定坚实基础,避免因数据偏差导致的精度损失。
(二)分词器与词汇设置
基于 tokenizers 库实现 Byte-level Byte-Pair Encoding(BBPE)算法,在预分词时防止不同类别字符合并,如对换行符、标点和中日韩(CJK)符号单独处理,并效仿 GPT-2 拆分数字。经大量实践确定 100000 个常规词表规模,在约 24GB 多语言语料上训练分词器,并添加 15 个特殊词元扩充至 100015 个,训练时设词汇量为 102400,为模型高效处理文本、准确理解语义提供有力支持,保障模型在不同语言和文本结构下的精度表现。
二、模型架构优化
(一)微观架构借鉴与创新
在微观设计上,DeepSeek LLM 借鉴 LLaMA 架构优势,采用 Pre-Norm 结构结合 RMSNorm 函数稳定网络层输入归一化,以 SwiGLU 为前馈神经网络(FFN)激活函数提升非线性表达能力,中间层维度设为
8
3
d
m
o
d
e
l
\frac{8}{3}d_{model}
38dmodel ,并引入 Rotary Embedding 实现高效位置编码。在 67B 模型中,创新性采用 GroupedQuery Attention(GQA)替代传统 Multi-Head Attention(MHA),在维持性能同时降低推理成本,优化模型在大规模数据处理和复杂任务推理时的精度与效率平衡。
(二)宏观架构分层调整
宏观层面,依模型规模精心分层,7B 模型设 30 层,67B 模型设 95 层。这种分层策略既契合其他开源模型参数规模趋势,便于模型训练与推理的流水线并行优化,又通过深度调整挖掘模型潜力,增强对复杂语言模式和语义关系的捕捉能力,在不同任务场景下有效提升模型精度表现,展现出宏观架构设计对精度优化的关键作用。
三、超参数优化
(一)初始化与优化器设置
模型以标准差 0.006 初始化,选用 AdamW 优化器,其超参数 β 1 = 0.9 \beta_{1}=0.9 β1=0.9 、 β 2 = 0.95 \beta_{2}=0.95 β2=0.95 、weight_decay = 0.1 经大量实验验证,在平衡梯度更新、防止过拟合及稳定训练过程方面表现优异,为模型训练提供可靠的优化基础,确保模型在训练初期能朝着提升精度方向有效收敛。
(二)学习率调度策略革新
摒弃传统余弦学习率调度器,采用多步学习率调度器。在训练前期经 2000 步热身使学习率达峰值,随后依训练进度动态调整,处理 80%训练 tokens 后降至峰值 31.6%,90%后降至 10%,并设梯度裁剪为 1.0。多步调度器在不同计算预算下能维持模型性能稳定,且便于持续训练时复用前期训练成果。通过实验精细调整多步阶段比例为 80%、10%、10%,进一步优化训练动态,提升模型精度,有效应对模型训练过程中的梯度变化和过拟合风险。
四、训练框架与技术融合
(一)高效训练框架集成
依托 HAI-LLM 框架整合数据并行、张量并行、序列并行和 1F1B 流水线并行技术,高效利用计算资源提升训练速度,如在大规模数据处理时实现多 GPU 协同计算。同时,运用 flash attention 技术优化注意力计算硬件利用率,采用 ZeRO-1 技术优化优化器状态存储与更新,减少内存开销,通过计算与通信重叠、层/算子融合等策略加速训练流程,确保模型训练高效稳定,为精度提升提供有力硬件和框架支持。
(二)精度与稳定性权衡
训练全程采用 bf16 精度并以 fp32 精度累积梯度,在保障计算效率同时维持数值稳定性,避免精度损失累积。通过原位交叉熵计算减少 GPU 内存占用,即时转换 bf16 对数为 fp32 计算交叉熵并回写梯度,提升内存利用效率,防止因内存不足或精度问题影响训练进程,确保模型训练精度稳步提升。
五、缩放定律研究与应用
一、超参数缩放定律
早期对超参数设置的研究宛如一片混沌,虽有零星经验之谈,但在 DeepSeek LLM 的实践中却显得捉襟见肘。为扭转这一局面,DeepSeek LLM 踏上大规模实验征程,全力挖掘计算预算与最优批量大小、学习率之间的内在规律。研究发现,随着计算预算的逐步攀升,最优批量大小呈稳步上升之势,而学习率则悄然下降,三者构成紧密相连的幂律关系。
例如,在小型实验中,当计算预算处于 1e17 FLOPs 时,对特定模型规模(177M FLOPs/token)进行批量大小和学习率的网格搜索,结果显示在宽泛的参数取值范围内,模型的泛化误差相对稳定,这意味着在该区间内模型有望实现近优性能。随后,借助多步学习率调度器,对众多不同批量大小、学习率及计算预算(从 1e17 至 2e19)的模型展开训练,并依据泛化误差筛选出近优超参数。最终拟合得出的批量大小公式
B
o
p
t
=
0.2920
⋅
C
0.3271
B_{opt }=0.2920 \cdot C^{0.3271}
Bopt=0.2920⋅C0.3271 和学习率公式
η
o
p
t
=
0.3118
⋅
C
−
0.1250
\eta_{opt }=0.3118 \cdot C^{-0.1250}
ηopt=0.3118⋅C−0.1250在 1e20 计算预算的模型验证中表现出色,有力支撑了 DeepSeek LLM 7B 和 67B 模型在训练时的高效性能达成,为模型训练的稳定性与准确性筑牢根基。
二、模型与数据缩放策略
传统模型与数据规模的表征方式,如非嵌入参数
N
1
N_{1}
N1 和完整参数
N
2
N_{2}
N2 ,在计算成本估算上存在显著缺陷,犹如粗糙的量具难以精准度量模型的真实需求。DeepSeek LLM 独具慧眼,引入非嵌入 FLOPs/token(M)这一全新表征维度,将注意力操作的计算开销纳入考量,同时巧妙剔除词汇计算的干扰,使模型规模的度量更加精准合理。
在确定最优模型和数据规模的探索中,DeepSeek LLM 借鉴 Chinchilla 的 IsoFLOP 方法,精心设计多组计算预算与模型/数据规模组合实验。通过对不同组合在独立验证集上泛化误差的细致分析,成功拟合出最优模型规模
M
o
p
t
=
M
b
a
s
e
⋅
C
a
M_{opt}=M_{base } \cdot C^{a}
Mopt=Mbase⋅Ca (其中
M
b
a
s
e
=
0.1715
M_{base }=0.1715
Mbase=0.1715 ,
a
=
0.5243
a = 0.5243
a=0.5243 )和数据规模
D
o
p
t
=
D
b
a
s
e
⋅
C
b
D_{opt}=D_{base } \cdot C^{b}
Dopt=Dbase⋅Cb (其中
D
b
a
s
e
=
5.8316
D_{base }=5.8316
Dbase=5.8316 ,
b
=
0.4757
b = 0.4757
b=0.4757 )的增长曲线。这一成果为 DeepSeek LLM 7B 和 67B 模型的训练规划提供了高瞻远瞩的战略指导,确保在有限的计算资源下实现模型性能的最大化提升。
以实际训练为例,依据此缩放策略,模型在训练过程中能够根据计算预算的动态变化,合理分配资源用于模型结构的扩展和数据的扩充,避免资源的浪费或不足。在面对大规模训练任务时,模型可以有条不紊地增加层数、调整参数规模,同时引入高质量的数据,使模型的表达能力和知识储备同步提升,在基准测试和实际应用中展现出卓越的性能表现,有力验证了该缩放策略的科学性和有效性。
(三)不同数据缩放定律
在 DeepSeek LLM 的研发进程中,数据质量对缩放定律的影响逐渐浮出水面,成为不可忽视的关键因素。通过对早期内部数据、当前内部数据和 OpenWebText2 等不同数据集的深入研究发现,数据质量与最优模型/数据缩放分配策略之间存在着紧密的线性关联。
具体而言,随着数据质量的提升,在计算预算的分配天平上,模型缩放的权重逐渐增加,数据缩放的权重则相应降低。这一现象直观地表明,高质量数据在训练过程中能够释放更大的价值,如同优质的燃料能为引擎提供更强劲的动力,推动模型向更大规模高效扩展。例如,OpenWebText2 数据因其高质量特性,在相同数据规模下,相较于早期内部数据,更能充分发挥计算资源的潜力,促使模型在性能提升上实现更大的飞跃。
这一发现不仅为 DeepSeek LLM 在数据筛选和预处理阶段提供了关键的决策依据,促使其更加注重数据质量的把控和提升,如强化数据清洗、筛选和标注流程,确保进入模型训练的数据具有更高的准确性、完整性和相关性;同时也为整个 LLM 领域的研究人员敲响了警钟,提醒他们在模型开发过程中重新审视数据质量的核心地位,深入探索数据质量与模型性能之间的复杂关系。
六、对齐与微调策略
(一)多阶段对齐流程
收集百万级英汉语言指令数据,涵盖多领域,按 4 轮和 2 轮分别对 7B 和 67B 模型进行监督微调(SFT),学习率依模型规模设为 1e-5 和 5e-6,并监测基准准确率与重复率。针对 7B 模型数学数据微调时的重复问题,采用两阶段微调与直接偏好优化(DPO)结合方法,在维持基准性能同时显著降低重复率,提升模型指令遵循与响应生成能力,增强模型在实际应用中的精度表现。
(二)DPO 提升效果显著
运用 DPO 算法基于 helpfulness 和 harmlessness 构建偏好数据优化模型,训练一轮(学习率 5e-6、批量 512,搭配学习率预热和余弦调度器)。结果表明,DPO 能强化模型开放端生成能力,在标准基准测试中保持性能稳定,在提升模型生成文本质量、增强与用户需求匹配度方面效果显著,有效提升模型在复杂任务和真实场景下的精度与实用性。
七、评估
(一)多基准评估覆盖广泛
在多语言多领域基准测试中全面评估模型,包括 MMLU、C-Eval、GSM8K 等涵盖语言理解、推理、数学、代码等多维度任务的数据集。依任务特性采用 perplexity 评估、生成式评估、语言建模评估等方法,设置 2048 或 4096 最大序列长度,并详细规范评估格式。实验结果显示,DeepSeek LLM 67B 在多基准测试中超越 LLaMA-2 70B,尤其在代码、数学和推理任务中优势突出,充分验证模型在不同任务和语言场景下的高精度表现。
(二)开放与留出评估贴近实际
开放端评估聚焦模型在真实场景下的生成能力,中文采用 AlignBench、英文采用 MT-Bench 基准测试。结果表明 DeepSeek LLM 67B Chat 在中英文开放端评估表现卓越,超越多数开源模型,接近或超越 GPT-3.5,DPO 优化后性能进一步提升。留出评估针对数据污染和过拟合,选用 LeetCode、匈牙利国家高中考试、谷歌指令跟随评估数据集,结果显示大模型优势显著,且 DeepSeek 7B 和 67B 模型在不同规模任务中性能差异明显,体现模型精度随规模增长的提升趋势与实际应用可靠性。
(三)安全与综合评估确保可靠
安全评估构建 20 人专家团队和分类体系,设计 2400 题测试集及评估准则,测试结果表明 DeepSeek 67B Chat 安全性强,在“不回答”数据集测试中得分高于 ChatGPT 和 GPT-4,凸显模型在安全合规方面的可靠表现。综合评估还涉及模型在多阶段训练策略、不同数据类型处理对精度影响的分析,如两阶段微调、多选择题数据添加实验等,为模型优化改进提供全面深入的依据,确保模型精度在多方面持续提升与优化。
八、结论、限制和未来工作
- 结论:介绍了 DeepSeek LLMs,其在 2 万亿词元的中英双语数据集上从头开始训练。详细解释了超参数选择、缩放定律及微调尝试,校准了先前工作的缩放定律并提出新策略,还能预测近优批量大小和学习率且发现缩放定律与数据质量相关,依此进行预训练和评估并避免了训练中的不良问题。
- 局限性:DeepSeek Chat 存在和其他 LLM 类似的局限,如预训练后无法持续更新知识、可能生成不实信息、有幻觉现象,且初始中文数据不全面,对其他语言的掌握能力也有待提升。
- 未来工作:即将发布代码智能和混合专家(MoE)技术报告;正在构建更大更好的数据集以提升模型多方面能力;对齐团队致力于研究让模型更有益、诚实和安全,且初步实验表明强化学习可提升模型复杂推理能力。