【AI学习】DeepSeek-V3 技术报告学习:总体架构

news2024/12/29 10:54:11

翻了一下DeepSeek-V3 技术报告学习,太长,只是大概翻了一下,其中Multi-Token Prediction的技术就很亮眼。

摘要

本文介绍了DeepSeek-V3,这是一个拥有671B总参数的强大混合专家(MoE)语言模型,每个标记激活37B参数。为了实现高效的推理和成本效益的训练,DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构,这些架构在DeepSeek-V2中已经得到了充分的验证。此外,DeepSeek-V3率先采用了一种无辅助损失的策略来进行负载平衡,并设置了多标记预测训练目标以增强性能。我们在14.8万亿多样化和高质量的标记上预训练DeepSeek-V3,随后进行监督式微调和强化学习阶段,以充分发挥其能力。全面的评估表明,DeepSeek-V3超越了其他开源模型,并达到了与领先的闭源模型相当的性能。尽管性能出色,DeepSeek-V3的完整训练仅需要2.788M H800 GPU小时。此外,其训练过程非常稳定。在整个训练过程中,我们没有遇到任何不可恢复的损失峰值或执行任何回滚操作。模型检查点可在GitHub上找到: https://github.com/deepseek-ai/DeepSeek-V3

在这里插入图片描述

1. Introduction

当然,以下是文章《DeepSeek-V3 Technical Report》中第1部分“Introduction”的忠实翻译:

  1. 引言

近年来,大型语言模型(LLMs)经历了快速的迭代和演化(Anthropic, 2024; Google, 2024; OpenAI, 2024a),逐步缩小了与人工通用智能(AGI)之间的差距。除了闭源模型外,包括DeepSeek系列(DeepSeek-AI, 2024a,b,c; Guo et al., 2024)、LLaMA系列(AI@Meta, 2024a,b; Touvron et al., 2023a,b)、Qwen系列(Qwen, 2023, 2024a,b)和Mistral系列(Jiang et al., 2023; Mistral, 2024)在内的开源模型也在取得重大进展,努力缩小与闭源对手之间的差距。为了进一步推动开源模型能力的发展,我们扩展了我们的模型,并引入了DeepSeek-V3,这是一个拥有671B参数的大型MoE模型,其中每个标记激活了37B参数。

具有前瞻性的视角,我们始终致力于强大的模型性能和经济的成本。因此,在架构方面,DeepSeek-V3继续采用多头潜在注意力(MLA)(DeepSeek-AI, 2024c)以实现高效的推理,以及DeepSeekMoE(Dai et al., 2024)以实现成本效益的训练。这两种架构已在DeepSeek-V2(DeepSeek-AI, 2024c)中得到验证,证明了它们在保持强大模型性能的同时,能够实现高效的训练和推理。除了基本架构之外,我们还实施了两个额外的策略来进一步增强模型能力。首先,DeepSeek-V3率先采用了一种无辅助损失的策略(Wang et al., 2024a)来进行负载平衡,旨在最小化因鼓励负载平衡而对模型性能产生的不利影响。其次,DeepSeek-V3采用了多Token预测(MTP:Multi-Token Prediction)训练目标,我们观察到这增强了评估基准上的总体性能。

为了实现高效的训练,我们支持FP8混合精度训练,并为训练框架实施了全面的优化。低精度训练已成为高效训练的一个有前途的解决方案(Dettmers et al., 2022; Kalamkar et al., 2019; Narang et al., 2017; Peng et al., 2023b),其发展与硬件能力的进步(Luo et al., 2024; Micikevicius et al., 2022; Rouhani et al., 2023a)密切相关。在这项工作中,我们引入了一个FP8混合精度训练框架,并首次验证了其在极大规模模型上的可行性和有效性。通过支持FP8计算和存储,我们实现了加速训练和减少GPU内存使用。至于训练框架,我们为有效的流水线并行设计了DualPipe算法,它具有较少的流水线气泡,并且通过计算通信重叠,隐藏了训练期间的大部分通信。这种重叠确保了,随着模型的进一步扩展,只要我们保持恒定的计算与通信比率,我们仍然可以在节点间使用细粒度专家,同时实现接近零的全对全通信开销。此外,我们还开发了高效的跨节点全对全通信内核,以充分利用InfiniBand(IB)和NVLink带宽。此外,我们精心优化了内存占用,使得训练DeepSeek-V3无需使用昂贵的张量并行。结合这些努力,我们实现了高训练效率。

在预训练期间,我们在14.8T高质量和多样化的标记上训练DeepSeek-V3。预训练过程非常稳定。在整个训练过程中,我们没有遇到任何不可恢复的损失峰值或需要回滚。接下来,我们对DeepSeek-V3进行了两个阶段的上下文长度扩展。在第一阶段,最大上下文长度扩展到32K,在第二阶段,进一步扩展到128K。随后,我们在DeepSeek-V3的基础模型上进行后训练,包括监督式微调和强化学习,以使其与人类偏好保持一致,并进一步释放其潜力。在后训练阶段,我们从DeepSeekR1系列模型中提取推理能力,同时仔细保持DeepSeek-V3的输出风格和长度的平衡。

在这里插入图片描述

DeepSeek-V3的主要贡献,包括:

架构:创新的负载平衡策略和训练目标
在DeepSeek-V2的高效架构基础上,DeepSeek-V3率先采用了无辅助损失的负载平衡策略,旨在最小化因鼓励负载平衡而对模型性能产生的不利影响。
研究并证明了多标记预测(MTP)目标对模型性能有益,并且可以用于推测性解码以加速推理。
预训练:追求终极训练效率
设计了一个FP8混合精度训练框架,并首次验证了FP8训练在极大规模模型上的可行性和有效性。
通过算法、框架和硬件的共同设计,克服了跨节点MoE训练中的通信瓶颈,实现了接近完全的计算-通信重叠,显著提高了训练效率并降低了训练成本,使得模型规模的进一步扩展不再增加额外开销。
以经济的成本完成了DeepSeek-V3在14.8T标记上的预训练,产生了目前最强的开源基础模型。预训练后的训练阶段仅需要额外的0.1M GPU小时。
后训练:从DeepSeek-R1中的知识蒸馏
引入了一种创新的方法,从长链思考(CoT)模型,特别是DeepSeek R1系列模型中,提取推理能力到标准LLMs,特别是DeepSeek-V3中。该流程将R1的验证和反思模式优雅地整合到DeepSeek-V3中,并显著提高了其推理性能。同时,也控制了DeepSeek-V3的输出风格和长度。

2. Architecture

我们首先介绍了DeepSeek-V3的基本架构,其特征是用于高效推理的多头潜在证明(MLA)(DeepSeek AI,2024c)和用于经济训练的DeepSeekMoE(Dai等人,2024)。然后,我们提出了一个多Token预测(MTP:Multi-Token Prediction)训练目标,我们观察到该目标可以提高评估基准的整体性能。对于其他未明确提及的细节,DeepSeek-V3遵循DeepSeek V2(DeepSeek AI,2024c)的设置。

2.1. Basic Architecture

在这里插入图片描述
DeepSeek-V3的基本架构仍然是基于Transformer(Vaswani et al., 2017)框架。为了实现高效的推理和经济的训练,DeepSeek-V3也采用了MLA(Multi-head Latent Attention)和DeepSeekMoE,这些已经在DeepSeek-V2中得到了充分的验证。与DeepSeek-V2相比,一个例外是我们还引入了一个无辅助损失的负载平衡策略(Wang et al., 2024a)用于DeepSeekMoE,以减轻为了确保负载平衡而对性能造成的影响。图2展示了DeepSeek-V3的基本架构,我们将在本节简要回顾MLA和DeepSeekMoE的细节。

2.1.1. Multi-Head Latent Attention

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.1.2. DeepSeekMoE with Auxiliary-Loss-Free Load Balancing(无辅助损失的DeepSeekMoE负载平衡)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.2. Multi-Token Prediction

在这里插入图片描述
受Gloeckle等人(2024年)的启发,我们研究并为DeepSeek-V3设置了一个多Token预测(MTP)目标,该目标将每个位置的预测范围扩展到多个未来令牌。一方面,MTP目标增加了训练信号的密度,可能会提高数据效率。另一方面,MTP可能使模型能够预先规划其表示,以更好地预测未来的令牌。图3说明了我们MTP实现的情况。与Gloeckle等人(2024年)不同,他们使用独立的输出头并行预测D个额外的Token,我们顺序预测额外的Token,并在每个预测深度保持完整的因果链。我们在本节介绍我们的MTP实现的详细信息。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

备注

大概看下来,感觉梁文锋这个人真是厉害。作为扩展(八卦),可以继续阅读两篇文章
1、《揭秘DeepSeek:一个更极致的中国技术理想主义故事》
2、《连续30年不亏钱的传奇基金经理西蒙斯:人生还有两个目标》,作为量化基金的传奇人物,西蒙斯是梁文锋非常推崇的人物,可以一并阅读

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2267411.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

b站ip属地评论和主页不一样怎么回事

在浏览B站时,细心的用户可能会发现一个有趣的现象:某些用户的评论IP属地与主页显示的IP属地并不一致。这种差异引发了用户的好奇和猜测,究竟是什么原因导致了这种情况的发生呢?本文将对此进行深入解析,帮助大家揭开这一…

Java中三大构建工具的发展历程(Ant、Maven和Gradle)

🐸 背景 我们要写一个Java程序,一般的步骤是编译,测试,打包。 这个构建的过程,如果文件比较少,我们可以手动使用java, javac,jar命令去做这些事情。但当工程越来越大,文件越来越多&#xff0c…

Wend看源码-Java-Map学习

摘要 在当今的编程世界中,深入了解各类数据类型对于开发者而言至关重要。本篇聚焦于 JDK 21 版本下,Java.util 包所提供的 Map 类型。Map 作为一种关键的数据结构,能够以键值对的形式高效存储和检索数据,广泛应用于众多领域。 本文…

uniapp开发微信小程序实现获取“我的位置”

1. 创建GetLocation项目 使用HBuilder X创建一个项目GetLocation,使用Vue3。 2. 在腾讯地图开放平台中创建应用 要获取位置,在小程序中需要使用腾讯地图或是高德地图。下面以腾讯地图为例。 (1)打开腾讯地图开放平台官方网址:腾讯位置服务 - 立足生态,连接未来 (2)注册…

如何使用 Firewalld 设置 Linux 防火墙

简介 在 Linux 中,防火墙是一个应用程序或服务,它使用预定的规则集来过滤或控制进出 Linux 服务器的网络流量。通常将防火墙配置为允许所需的流量通过,同时阻止其余的外部流量。 Firewalld 是一个用于 Linux 系统的防火墙管理解决方案。它是…

财务域——业财一体设计

摘要 本文讨论了业财一体化的概念、背景、目标、技术推动因素以及企业经营环境的复杂化。业财一体化旨在通过信息化手段实现业务与财务数据的实时共享与联动,提升管理效率和决策能力。文章还概述了业财一体化在销售管理、成本核算、预算管理和风险管控等方面的应用…

【时间之外】IT人求职和创业应知【80】-特殊日子

目录 北京冬季招聘会 OpenAI CEO炮轰马斯克 英伟达推出全新AI芯片B300 莫欢喜,总成空。本周必须要谨行慎言。 感谢所有打开这个页面的朋友。人生不如意,开越野车去撒野,会害了自己,不如提升自己。提升自己的捷径就是学习和思考…

【AIGC-ChatGPT副业提示词指令 - 动图】魔法咖啡馆:一个融合创意与治愈的互动体验设计

引言 在当今快节奏的生活中,咖啡早已不仅仅是提神醒脑的饮品,更成为了一种情感寄托和生活态度的表达。本文将介绍一个独特的"魔法咖啡馆"互动体验设计,通过将咖啡与情感、魔法元素相结合,创造出一个充满想象力和治愈感…

Docker使用——国内Docker的安装办法

文章目录 参考资料前言Mac安装办法Homebrew 安装1. 直接下报错2. 安装homebrew, 用国内镜像3. 安装Docker4. 启动docker服务5. 测试是否安装成功 参考资料 鸣谢大佬文章。 macOS系统中:Docker的安装:https://blog.csdn.net/sulia1234567890…

python opencv的sift特征检测(Scale-Invariant Feature Transform)

sift 官方文档地址:https://docs.opencv.org/4.10.0/da/df5/tutorial_py_sift_intro.html 创建SIFT实例cv2.SIFT.create()特征检测sift.detect描述子sift.compute/sift.detectAndCompute画特征cv2.drawKeypoints 原图 特征点 代码 import cv2first ./12.pngsif…

精读DeepSeek v3技术文档的心得感悟

最近宋大宝同学读完了DeepSeekv3的文档,心中颇多感慨,忍不住想在这里记录一下对这款“业界有望启示未来低精度训练走向”的开源大模型的观察与思考。DeepSeek v3的亮点绝不仅仅是“Float8”或“超长上下文”这么简单,而是贯穿了从数值精度、注…

yarn install 安装报错:Workspaces can only be enabled in private projects.

在本地运行项目的时候,使用yarn install 安装模块依赖的时候,遇到报错:Workspaces can only be enabled in private projects. 一、原因分析 报这个错误是因为你使用了yarn的workspace,但并未将工程标记为private。 二、解决办法 …

深度学习中的残差网络、加权残差连接(WRC)与跨阶段部分连接(CSP)详解

随着深度学习技术的不断发展,神经网络架构变得越来越复杂,而这些复杂网络在训练时常常遇到梯度消失、梯度爆炸以及计算效率低等问题。为了克服这些问题,研究者们提出了多种网络架构,包括 残差网络(ResNet)、…

Excel将混乱的多行做成1列

目标是将数据按从左到右,再从上到下排成一列。 公式法 首先用textjoin函数将文本包起来,做成一个超长文本。 然后用公式 截取文本 Mid(m1,n,3),意思就是对m1单元格,从第n个字符开始,截取3个字符出来。 这个公式如何自…

在vscode的ESP-IDF中使用自定义组件

以hello-world为例,演示步骤和注意事项 1、新建ESP-IDF项目 选择模板 从hello-world模板创建 2、打开项目 3、编译结果没错 正在执行任务: /home/azhu/.espressif/python_env/idf5.1_py3.10_env/bin/python /home/azhu/esp/v5.1/esp-idf/tools/idf_size.py /home…

基于springboot校园招聘系统源码和论文

可做计算机毕业设计JAVA、PHP、爬虫、APP、小程序、C#、C、python、数据可视化、大数据、文案 使用旧方法对校园招聘系统的信息进行系统化管理已经不再让人们信赖了,把现在的网络信息技术运用在校园招聘系统的管理上面可以解决许多信息管理上面的难题,比…

PaddleOCR文字识别模型的FineTune

一、paddleOCR paddle框架为百度开发的深度学习框架,其中对于文字检测、识别具有较为便利的开发条件。同时PaddleOCR文字识别工具较为轻量化,并可按照任务需求进行model的finetune,满足实际的业务需求。 源码来源:githubOCR 在gi…

【数据库初阶】Ubuntu 环境安装 MySQL

🎉博主首页: 有趣的中国人 🎉专栏首页: 数据库初阶 🎉其它专栏: C初阶 | C进阶 | 初阶数据结构 小伙伴们大家好,本片文章将会讲解 Ubuntu 系统安装 MySQL 的相关内容。 如果看到最后您觉得这篇…

MoH:将多头注意力(Multi-Head Attention)作为头注意力混合(Mixture-of-Head Attention)

摘要 https://arxiv.org/pdf/2410.11842? 在本文中,我们对Transformer模型的核心——多头注意力机制进行了升级,旨在提高效率的同时保持或超越先前的准确度水平。我们表明,多头注意力可以表示为求和形式。鉴于并非所有注意力头都具有同等重…

AI助力古诗视频制作全流程化教程

AI助力古诗视频制作全流程化教程 目录 1. 制作视频的原材料(全自动) 2.文生图:图像生成(手动) 3.文生音频:TTS技术(全自动) 4.视频编辑(手动) 5.自动发…