DeepSeek LLM 论文解读:相信长期主义开源理念可扩展大语言模型(DeepSeek 吹响通用人工智能的号角)

news2025/2/9 9:03:01

在这里插入图片描述

论文链接:DeepSeek LLM: Scaling Open-Source Language Models with Longtermism(相信长期主义开源理念可扩展大语言模型)


目录

    • 摘要
    • 一、数据处理
      • (一)数据清洗与丰富
      • (二)分词器与词汇设置
    • 二、模型架构优化
      • (一)微观架构借鉴与创新
      • (二)宏观架构分层调整
    • 三、超参数优化
      • (一)初始化与优化器设置
      • (二)学习率调度策略革新
    • 四、训练框架与技术融合
      • (一)高效训练框架集成
      • (二)精度与稳定性权衡
    • 五、缩放定律研究与应用
      • 一、超参数缩放定律
      • 二、模型与数据缩放策略
      • (三)不同数据缩放定律
    • 六、对齐与微调策略
      • (一)多阶段对齐流程
      • (二)DPO 提升效果显著
    • 七、评估
      • (一)多基准评估覆盖广泛
      • (二)开放与留出评估贴近实际
      • (三)安全与综合评估确保可靠
    • 八、结论、限制和未来工作


摘要

在人工智能迅速发展的浪潮中,大语言模型(LLMs)已成为核心研究领域,其性能精度备受瞩目。DeepSeek LLM 作为开源语言模型的重要代表,在精度提升方面成果显著,对其研究剖析可为大模型发展提供关键启示。

开源大型语言模型(LLMs)的快速发展令人瞩目。然而,先前文献中描述的缩放定律结论各异,给大语言模型的扩展蒙上了阴影。我们深入研究缩放定律,并提出独特的发现,这些发现有助于在两种常用的开源配置(7B 和 67B)下扩展大规模模型。在缩放定律的指导下,我们推出了 DeepSeek LLM,这是一个致力于从长远角度推进开源语言模型的项目。为了支持预训练阶段,我们开发了一个目前包含 2 万亿词元且不断扩充的数据集。我们还在 DeepSeek LLM 基础模型上进行了有监督微调(SFT)和直接偏好优化(DPO),从而创建了 DeepSeek Chat 模型。我们的评估结果表明,DeepSeek LLM 67B 在一系列基准测试中超越了 LLaMA - 2 70B,特别是在代码、数学和推理领域。此外,开放式评估显示,我们的 DeepSeek LLM 67B Chat 在性能上优于 GPT - 3.5。

一、数据处理

(一)数据清洗与丰富

DeepSeek LLM 高度重视数据的预处理阶段。在去重环节,其采用激进策略,对 Common Crawl 语料库进行跨 91 个数据转储(dumps)的去重操作,相比单转储去重,能去除高达 89.8%的重复文档,有效减少数据冗余,确保模型训练数据的多样性与独特性。在过滤阶段,综合语言和语义评估构建严格标准,从多维度筛选高质量文本,提升数据信息密度。混音阶段则聚焦解决数据不平衡问题,增加稀缺领域样本,使数据分布更均衡,为模型学习各类知识奠定坚实基础,避免因数据偏差导致的精度损失。在这里插入图片描述

(二)分词器与词汇设置

基于 tokenizers 库实现 Byte-level Byte-Pair Encoding(BBPE)算法,在预分词时防止不同类别字符合并,如对换行符、标点和中日韩(CJK)符号单独处理,并效仿 GPT-2 拆分数字。经大量实践确定 100000 个常规词表规模,在约 24GB 多语言语料上训练分词器,并添加 15 个特殊词元扩充至 100015 个,训练时设词汇量为 102400,为模型高效处理文本、准确理解语义提供有力支持,保障模型在不同语言和文本结构下的精度表现。

二、模型架构优化

(一)微观架构借鉴与创新

在微观设计上,DeepSeek LLM 借鉴 LLaMA 架构优势,采用 Pre-Norm 结构结合 RMSNorm 函数稳定网络层输入归一化,以 SwiGLU 为前馈神经网络(FFN)激活函数提升非线性表达能力,中间层维度设为 8 3 d m o d e l \frac{8}{3}d_{model} 38dmodel ,并引入 Rotary Embedding 实现高效位置编码。在 67B 模型中,创新性采用 GroupedQuery Attention(GQA)替代传统 Multi-Head Attention(MHA),在维持性能同时降低推理成本,优化模型在大规模数据处理和复杂任务推理时的精度与效率平衡。在这里插入图片描述

(二)宏观架构分层调整

宏观层面,依模型规模精心分层,7B 模型设 30 层,67B 模型设 95 层。这种分层策略既契合其他开源模型参数规模趋势,便于模型训练与推理的流水线并行优化,又通过深度调整挖掘模型潜力,增强对复杂语言模式和语义关系的捕捉能力,在不同任务场景下有效提升模型精度表现,展现出宏观架构设计对精度优化的关键作用。

三、超参数优化

(一)初始化与优化器设置

模型以标准差 0.006 初始化,选用 AdamW 优化器,其超参数 β 1 = 0.9 \beta_{1}=0.9 β1=0.9 β 2 = 0.95 \beta_{2}=0.95 β2=0.95 、weight_decay = 0.1 经大量实验验证,在平衡梯度更新、防止过拟合及稳定训练过程方面表现优异,为模型训练提供可靠的优化基础,确保模型在训练初期能朝着提升精度方向有效收敛。

(二)学习率调度策略革新

摒弃传统余弦学习率调度器,采用多步学习率调度器。在训练前期经 2000 步热身使学习率达峰值,随后依训练进度动态调整,处理 80%训练 tokens 后降至峰值 31.6%,90%后降至 10%,并设梯度裁剪为 1.0。多步调度器在不同计算预算下能维持模型性能稳定,且便于持续训练时复用前期训练成果。通过实验精细调整多步阶段比例为 80%、10%、10%,进一步优化训练动态,提升模型精度,有效应对模型训练过程中的梯度变化和过拟合风险。s

四、训练框架与技术融合

(一)高效训练框架集成

依托 HAI-LLM 框架整合数据并行、张量并行、序列并行和 1F1B 流水线并行技术,高效利用计算资源提升训练速度,如在大规模数据处理时实现多 GPU 协同计算。同时,运用 flash attention 技术优化注意力计算硬件利用率,采用 ZeRO-1 技术优化优化器状态存储与更新,减少内存开销,通过计算与通信重叠、层/算子融合等策略加速训练流程,确保模型训练高效稳定,为精度提升提供有力硬件和框架支持。

(二)精度与稳定性权衡

训练全程采用 bf16 精度并以 fp32 精度累积梯度,在保障计算效率同时维持数值稳定性,避免精度损失累积。通过原位交叉熵计算减少 GPU 内存占用,即时转换 bf16 对数为 fp32 计算交叉熵并回写梯度,提升内存利用效率,防止因内存不足或精度问题影响训练进程,确保模型训练精度稳步提升。

五、缩放定律研究与应用

一、超参数缩放定律

早期对超参数设置的研究宛如一片混沌,虽有零星经验之谈,但在 DeepSeek LLM 的实践中却显得捉襟见肘。为扭转这一局面,DeepSeek LLM 踏上大规模实验征程,全力挖掘计算预算与最优批量大小、学习率之间的内在规律。研究发现,随着计算预算的逐步攀升,最优批量大小呈稳步上升之势,而学习率则悄然下降,三者构成紧密相连的幂律关系。在这里插入图片描述

例如,在小型实验中,当计算预算处于 1e17 FLOPs 时,对特定模型规模(177M FLOPs/token)进行批量大小和学习率的网格搜索,结果显示在宽泛的参数取值范围内,模型的泛化误差相对稳定,这意味着在该区间内模型有望实现近优性能。随后,借助多步学习率调度器,对众多不同批量大小、学习率及计算预算(从 1e17 至 2e19)的模型展开训练,并依据泛化误差筛选出近优超参数。最终拟合得出的批量大小公式 B o p t = 0.2920 ⋅ C 0.3271 B_{opt }=0.2920 \cdot C^{0.3271} Bopt=0.2920C0.3271 和学习率公式 η o p t = 0.3118 ⋅ C − 0.1250 \eta_{opt }=0.3118 \cdot C^{-0.1250} ηopt=0.3118C0.1250在 1e20 计算预算的模型验证中表现出色,有力支撑了 DeepSeek LLM 7B 和 67B 模型在训练时的高效性能达成,为模型训练的稳定性与准确性筑牢根基。在这里插入图片描述

二、模型与数据缩放策略

传统模型与数据规模的表征方式,如非嵌入参数 N 1 N_{1} N1 和完整参数 N 2 N_{2} N2 ,在计算成本估算上存在显著缺陷,犹如粗糙的量具难以精准度量模型的真实需求。DeepSeek LLM 独具慧眼,引入非嵌入 FLOPs/token(M)这一全新表征维度,将注意力操作的计算开销纳入考量,同时巧妙剔除词汇计算的干扰,使模型规模的度量更加精准合理。在这里插入图片描述

在确定最优模型和数据规模的探索中,DeepSeek LLM 借鉴 Chinchilla 的 IsoFLOP 方法,精心设计多组计算预算与模型/数据规模组合实验。通过对不同组合在独立验证集上泛化误差的细致分析,成功拟合出最优模型规模 M o p t = M b a s e ⋅ C a M_{opt}=M_{base } \cdot C^{a} Mopt=MbaseCa (其中 M b a s e = 0.1715 M_{base }=0.1715 Mbase=0.1715 a = 0.5243 a = 0.5243 a=0.5243 )和数据规模 D o p t = D b a s e ⋅ C b D_{opt}=D_{base } \cdot C^{b} Dopt=DbaseCb (其中 D b a s e = 5.8316 D_{base }=5.8316 Dbase=5.8316 b = 0.4757 b = 0.4757 b=0.4757 )的增长曲线。这一成果为 DeepSeek LLM 7B 和 67B 模型的训练规划提供了高瞻远瞩的战略指导,确保在有限的计算资源下实现模型性能的最大化提升。在这里插入图片描述

以实际训练为例,依据此缩放策略,模型在训练过程中能够根据计算预算的动态变化,合理分配资源用于模型结构的扩展和数据的扩充,避免资源的浪费或不足。在面对大规模训练任务时,模型可以有条不紊地增加层数、调整参数规模,同时引入高质量的数据,使模型的表达能力和知识储备同步提升,在基准测试和实际应用中展现出卓越的性能表现,有力验证了该缩放策略的科学性和有效性。
在这里插入图片描述

(三)不同数据缩放定律

在 DeepSeek LLM 的研发进程中,数据质量对缩放定律的影响逐渐浮出水面,成为不可忽视的关键因素。通过对早期内部数据、当前内部数据和 OpenWebText2 等不同数据集的深入研究发现,数据质量与最优模型/数据缩放分配策略之间存在着紧密的线性关联。

具体而言,随着数据质量的提升,在计算预算的分配天平上,模型缩放的权重逐渐增加,数据缩放的权重则相应降低。这一现象直观地表明,高质量数据在训练过程中能够释放更大的价值,如同优质的燃料能为引擎提供更强劲的动力,推动模型向更大规模高效扩展。例如,OpenWebText2 数据因其高质量特性,在相同数据规模下,相较于早期内部数据,更能充分发挥计算资源的潜力,促使模型在性能提升上实现更大的飞跃。

这一发现不仅为 DeepSeek LLM 在数据筛选和预处理阶段提供了关键的决策依据,促使其更加注重数据质量的把控和提升,如强化数据清洗、筛选和标注流程,确保进入模型训练的数据具有更高的准确性、完整性和相关性;同时也为整个 LLM 领域的研究人员敲响了警钟,提醒他们在模型开发过程中重新审视数据质量的核心地位,深入探索数据质量与模型性能之间的复杂关系。

六、对齐与微调策略

(一)多阶段对齐流程

收集百万级英汉语言指令数据,涵盖多领域,按 4 轮和 2 轮分别对 7B 和 67B 模型进行监督微调(SFT),学习率依模型规模设为 1e-5 和 5e-6,并监测基准准确率与重复率。针对 7B 模型数学数据微调时的重复问题,采用两阶段微调与直接偏好优化(DPO)结合方法,在维持基准性能同时显著降低重复率,提升模型指令遵循与响应生成能力,增强模型在实际应用中的精度表现。

(二)DPO 提升效果显著

运用 DPO 算法基于 helpfulness 和 harmlessness 构建偏好数据优化模型,训练一轮(学习率 5e-6、批量 512,搭配学习率预热和余弦调度器)。结果表明,DPO 能强化模型开放端生成能力,在标准基准测试中保持性能稳定,在提升模型生成文本质量、增强与用户需求匹配度方面效果显著,有效提升模型在复杂任务和真实场景下的精度与实用性。

七、评估

(一)多基准评估覆盖广泛

在多语言多领域基准测试中全面评估模型,包括 MMLU、C-Eval、GSM8K 等涵盖语言理解、推理、数学、代码等多维度任务的数据集。依任务特性采用 perplexity 评估、生成式评估、语言建模评估等方法,设置 2048 或 4096 最大序列长度,并详细规范评估格式。实验结果显示,DeepSeek LLM 67B 在多基准测试中超越 LLaMA-2 70B,尤其在代码、数学和推理任务中优势突出,充分验证模型在不同任务和语言场景下的高精度表现。

在这里插入图片描述

在这里插入图片描述

(二)开放与留出评估贴近实际

开放端评估聚焦模型在真实场景下的生成能力,中文采用 AlignBench、英文采用 MT-Bench 基准测试。结果表明 DeepSeek LLM 67B Chat 在中英文开放端评估表现卓越,超越多数开源模型,接近或超越 GPT-3.5,DPO 优化后性能进一步提升。留出评估针对数据污染和过拟合,选用 LeetCode、匈牙利国家高中考试、谷歌指令跟随评估数据集,结果显示大模型优势显著,且 DeepSeek 7B 和 67B 模型在不同规模任务中性能差异明显,体现模型精度随规模增长的提升趋势与实际应用可靠性。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

(三)安全与综合评估确保可靠

安全评估构建 20 人专家团队和分类体系,设计 2400 题测试集及评估准则,测试结果表明 DeepSeek 67B Chat 安全性强,在“不回答”数据集测试中得分高于 ChatGPT 和 GPT-4,凸显模型在安全合规方面的可靠表现。综合评估还涉及模型在多阶段训练策略、不同数据类型处理对精度影响的分析,如两阶段微调、多选择题数据添加实验等,为模型优化改进提供全面深入的依据,确保模型精度在多方面持续提升与优化。在这里插入图片描述

八、结论、限制和未来工作

  • 结论:介绍了 DeepSeek LLMs,其在 2 万亿词元的中英双语数据集上从头开始训练。详细解释了超参数选择、缩放定律及微调尝试,校准了先前工作的缩放定律并提出新策略,还能预测近优批量大小和学习率且发现缩放定律与数据质量相关,依此进行预训练和评估并避免了训练中的不良问题。
  • 局限性:DeepSeek Chat 存在和其他 LLM 类似的局限,如预训练后无法持续更新知识、可能生成不实信息、有幻觉现象,且初始中文数据不全面,对其他语言的掌握能力也有待提升。
  • 未来工作:即将发布代码智能和混合专家(MoE)技术报告;正在构建更大更好的数据集以提升模型多方面能力;对齐团队致力于研究让模型更有益、诚实和安全,且初步实验表明强化学习可提升模型复杂推理能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2295181.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

fastchat 部署大模型

大模型实战--Llama3.1大模型部署及启动Web UI、OpenAI API实操 - 简书一、背景 随着人工智能技术的飞速发展,大模型(Large Language Models, LLMs)已成为自然语言处理领域的核心工具。这些模型以其强大的语言理解和生成能力,...ht…

【安当产品应用案例100集】037-强化OpenVPN安全防线的卓越之选——安当ASP身份认证系统

在当前数字化时代,网络安全已成为企业发展的重要组成部分。对于使用OpenVPN的企业而言,确保远程访问的安全性尤为重要。安当ASP身份认证系统凭借其强大的功能和便捷的集成方式,为OpenVPN的二次登录认证提供了理想的解决方案,特别是…

协议-ACLLite-ffmpeg

是什么? FFmpeg是一个开源的多媒体处理工具包,它集成了多种功能,包括音视频的录制、转换和流式传输处理。FFmpeg由一系列的库和工具组成,其中最核心的是libavcodec和libavformat库。 libavcodec是一个领先的音频/视频编解码器库&…

树和二叉树_7

树和二叉树_7 一、leetcode-102二、题解1.引库2.代码 一、leetcode-102 二叉树的层序遍历 给你二叉树的根节点 root ,返回其节点值的 层序遍历 。 (即逐层地,从左到右访问所有节点)。 样例输入:root [3,9,20,null,nu…

Rocky Linux9安装Zabbix7.0(精简版)

Linux 系统版本 Rocky Linux release 9.3 (Blue Onyx) 注意:zabbix 7以上版本不支持CentOS 7系统,需要CentOS 8以上, 本教程支持CentOS9及Rocky Linux 9 在Rocky Linux release 9.3测试通过 Linux环境准备 关闭防火墙和selinux #关闭防…

网络分析工具—WireShark的安装及使用

Wireshark 是一个广泛使用的网络协议分析工具,常被网络管理员、开发人员和安全专家用来捕获和分析网络数据包。它支持多种网络协议,能够帮助用户深入理解网络流量、诊断网络问题以及进行安全分析。 Wireshark 的主要功能 数据包捕获与分析: …

C++开发(软件开发)常见面试题

目录 1、C里指针和数组的区别 2、C中空指针请使用nullptr不要使用NULL 3、http/https区别和头部结构? 4、有了mac地址为什么还要ip地址?ip地址的作用 5、有了路由器为什么还要交换机? 6、面向对象三大特性 7、友元函数 8、大端小端 …

WEB攻防-文件下载文件读取文件删除目录遍历目录穿越

目录 一、文件下载漏洞 1.1 文件下载案例(黑盒角度) 1.2 文件读取案例(黑盒角度) 二、文件删除 三、目录遍历与目录穿越 四、审计分析-文件下载漏洞-XHCMS 五、审计分析-文件读取漏洞-MetInfo-函数搜索 六、审计分析-…

MySQL数据库(七)SQL 优化

一 插入数据 采用方法 1 批量插入 2 手动提交事务 3 主键顺序插入 4* 使用load插入指令数据 二 主键优化 1 数据组织方式 在InnoDB存储引擎中,表中的数据都是根据主键顺序组织存放的,这种存储方式的表称为索引组织表 2 页分裂 页可以为空也可…

使用EVE-NG实现单臂路由

一、基础知识 1.三层vlan vlan在三层环境中通常用作网关vlan配上ip网关内部接口ip 2.vlan创建步骤 创建vlan将接口划分到不同的vlan给vlan配置ip地址 二、项目案例 1、项目拓扑 2、项目实现 PC1配置 配置PC1IP地址为192.168.1.10/24网关地址为192.168.1.1 ip 192.168.1…

本地部署DeepSeek(Mac版本,带图形化操作界面)

一、下载安装:Ollama 官网下载:Download Ollama on macOS 二、安装Ollama 1、直接解压zip压缩包,解压出来就是应用程序 2、直接将Ollama拖到应用程序中即可 3、启动终端命令验证 # 输入 ollama 代表已经安装成功。 4、下载模型 点击模型…

Linux LED 实验

一、Linux 下 LED 灯驱动原理 其实跟裸机实验很相似,只不过要编写符合 Linux 的驱动框架。 1. 地址映射 MMU全称 Memory Manage Unit,即内存存储单元。 MMU主要功能为: 1)完成虚拟空间到物理空间的映射; 2&#x…

【Redis】redis 存储的列表如何分页和检索

博主介绍:✌全网粉丝22W,CSDN博客专家、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域✌ 技术范围:SpringBoot、SpringCloud、Vue、SSM、HTML、Nodejs、Python、MySQL、PostgreSQL、大数据、物…

2025.2.6 数模AI智能体大更新,更专业的比赛辅导,同提示词效果优于gpt-o1/o3mini、deepseek-r1满血

本次更新重新梳理了回复逻辑规则,无任何工作流,一共3.2k字细节描述。具体效果可以看视频,同时也比对了gpt-o1、gpt-o3mini、deepseek-r1-67BI,从数学建模题目解答上来看,目前我的数模AI智能体具有明显优势。 AI智能体优…

cursor指令工具

Cursor 工具使用指南与实例 工具概览 Cursor 提供了一系列强大的工具来帮助开发者提高工作效率。本指南将通过具体实例来展示这些工具的使用方法。 1. 目录文件操作 1.1 查看目录内容 (list_dir) 使用 list_dir 命令可以查看指定目录下的文件结构: 示例: list_dir log…

【玩转全栈】----Django模板语法、请求与响应

目录 一、引言 二、模板语法 三、传参 1、视图函数到模板文件 2、模板文件到视图函数 四、引入静态文件 五、请求与响应 ?1、请求 2、响应 六、综合小案例 1、源码展示 2、注意事项以及部分解释 3、展示 一、引言 像之前那个页面,太过简陋,而且一个完整…

C++,设计模式,【单例模式】

文章目录 一、模式定义与核心价值二、模式结构解析三、关键实现技术演进1. 基础版(非线程安全)2. 线程安全版(双重检查锁)3. 现代C++实现(C++11起)四、实战案例:全局日志管理器五、模式优缺点深度分析✅ 核心优势⚠️ 潜在缺陷六、典型应用场景七、高级实现技巧1. 模板化…

基于yolov11的阿尔兹海默症严重程度检测系统python源码+onnx模型+评估指标曲线+精美GUI界面

【算法介绍】 基于YOLOv11的阿尔兹海默症严重程度检测系统是一种创新的医疗辅助工具,旨在通过先进的计算机视觉技术提高阿尔兹海默症的早期诊断和病情监测效率。阿尔兹海默症是一种渐进性的神经退行性疾病,通常表现为认知障碍、记忆丧失和语言障碍等症状…

设计模式-生产者消费者模型

阻塞队列: 在介绍生产消费者模型之前,我们先认识一下阻塞队列。 阻塞队列是一种支持阻塞操作的队列,常用于生产者消费者模型,它提供了线程安全的队列操作,并且在队列为空或满时,能够阻塞等待,…

RabbitMQ介绍以及基本使用

文章目录 一、什么是消息队列? 二、消息队列的作用(优点) 1、解耦 2、流量削峰 3、异步 4、顺序性 三、RabbitMQ基本结构 四、RabbitMQ队列模式 1、简单队列模式 2、工作队列模式 3、发布/订阅模式 4、路由模式 5、主题模式 6、…