DeepSeek今日连开3源!针对优化的并行策略,梁文锋本人参与开发

news2025/2/28 6:34:46

DeepSeek开源周第四天,直接痛快「1日3连发」,且全都围绕一个主题:

优化并行策略

  • DualPipe:一种创新的双向流水线并行算法,能够完全重叠前向和后向计算-通信阶段,并减少“流水线气泡”。它通过对称的微批次调度,优化了并行计算效率。
  • Expert Parallelism Load Balancer (EPLB):用于MoE的负载均衡算法,通过复制高负载专家并智能地分配专家到不同GPU上,确保计算资源的均衡利用。它包含两种政策:层次化负载均衡和全局负载均衡。
  • Profiling Data:训练和推理框架的性能分析数据,展示了通信-计算重叠策略和底层实现细节。

这三者中,DualPipe从时间上优化了计算与通信的调度,EPLB从空间上平衡利用计算资源,Profiling Data则提供了前两者在实际应用中效果的可视化证据。

DualPipe的开发团队中包括梁文锋本人

发布后10分钟不到,3者在GitHub上的星标已经破300了,且其中DualPipe的星标飙升最快。

而DeepSeek一发推,网友的留言也排山倒海一般扑面而来,几乎都是不吝溢美之词:

好活!令人兴奋!
优化策略可以重新定义行业的性能。

Day 4,直接1日3连发

DualPipe

DualPipe是在DeepSeek-V3中首次出现双向流水线并行算法,现在代码完全开源。

它实现了前向与后向计算-通信阶段的完全重叠,还减少了流水线气泡(即某些设备在某些时刻空闲等待)。

DualPipe采用了双向微批次调度策略,其核心特点是:

  • 对称设计:反向方向的微批次与前向方向对称排列,形成一种几何平衡的调度结构
  • 计算-通信重叠:两个共享黑色边框的单元格表示相互重叠的计算和通信过程
  • 双向并行:同时在两个方向上推进微批次,最大化硬件利用率

传统流水线并行方法如1F1B(one-forward-one-backward)在处理多GPU场景时会产生大量气泡。

DualPipe通过重新安排微批次执行顺序,和对称结构缓解这个问题。

EPLB

EPLB适用于V3/R1的专家并行负载均衡器,解决MoE模型在分布式训练和推理中的负载不平衡问题。

在MoE架构中,不同的输入会激活不同的专家,可能导致某些专家过载,进一步造成不同GPU的利用率不平衡。

EPLB采用“redundant experts”(冗余专家)策略

识别高负载专家→复制多个副本分配到不同GPU→在推理时动态分配输入到负载较轻的专家副本。

并带有两种普通的策略:

  • 分层负载平衡,专家并行较小的预填充阶段使用。
  • 全局负载平衡,在专家并行规模较大的解码阶段采用。

V3/R1中的计算通信重叠分析数据

开源第四弹的part 3,DeepSeek公开分享了来自训练和推理框架的分析数据,以帮助社区更好地了解通信计算重叠策略和低级实现细节

GitHub上注明,分析数据是使用PyTorch Profiler捕获的。

下载后,开发者可以通过导航到Chrome浏览器中的chrome://tracing(或Edge浏览器中的edge://tracing)将它进行可视化。

Attention please——DeepSeek模拟了一个绝对平衡的MoE路由策略进行分析。

首先,训练阶段。

训练配置文件数据演示了DeepSeek在DualPipe中,对一对单独的向前和向后数据块的重叠策略。

每个数据块包含4个MoE 层。

并行配置与DeepSeek-V3预训练设置一致EP64、TP1具有4K序列长度。

为简单起见,在profilng期间不包括PP通信。

其次,推理阶段。

1)预填充。

对于预填充,配置文件使用EP32和TP1(与DeepSeek V3/R1的实际在线部署一致),提示长度设置为4K,每个GPU的批量大小为16Ktokens。

在预填充阶段,DeepSeek利用两个微批次来重叠计算和多对多通信,同时确保注意力计算负载在两个微批次之间平衡

——这意味着相同的提示可以在它们之间分配。

2)解码。

(注:相关数据尚未准备就绪,将于稍后发布)

解码方面,该配置文件采用了EP128、TP1和4K的提示长度(与实际在线部署配置非常匹配),每个GPU的批量大小为128个请求。

与预填充类似,解码还利用两个微批处理进行重叠计算和多对多通信。

但与预填充不同的是,解码期间的all-to-all通信不会占用GPU SM:

发出RDMA消息后,所有GPU SM都会被释放,系统在计算完成后等待all-to-all通信完成。

有关all-to-all实现的更多信息,请参考开源周第二弹DeepEP。

One More Thing

“大放异彩!”

对于第四弹的开源内容,网友是这么感慨的。

目前看来,DeepSeek开源周的前4天,都挺令追更群众们满意。

尤其是这次开源周全部瞄准大模型的Infra层。

追更看客们表示:

更好的团队合作不仅是团队管理优化的一部分,更是实现顶级AI性能的秘诀。
DeepSeek正在创建新的标准,大规模训练的未来就在咱们眼前!

好了,DeepSeek开源周,明天就是最后一天了,不知道会有什么压轴登场?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2307256.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【含文档+PPT+源码】基于过滤协同算法的旅游推荐管理系统设计与实现

项目介绍 本课程演示的是一款基于过滤协同算法的旅游推荐管理系统设计与实现,主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的 Java 学习者。 1.包含:项目源码、项目文档、数据库脚本、软件工具等所有资料 2.带你从零开始部署运行本套…

【华为OD机考】华为OD笔试真题解析(15)--异常的打卡记录

题目描述 考勤记录是分析和考核职工工作时间利用情况的原始依据,也是计算职工工资的原始依据,为了正确地计算职工工资和监督工资基金使用情况,公司决定对员工的手机打卡记录进行异常排查。 如果出现以下两种情况,则认为打卡异常…

Java实战:使用HttpClient实现图片下载与本地保存

在当今数字化时代,网络资源的获取与处理已成为软件开发中的常见需求。其中,图片作为网络上最常见的资源之一,其下载与保存功能在许多应用场景中都显得尤为重要。无论是社交媒体平台、电商平台,还是个人项目,能够高效地…

【实战】使用PCA可视化神经网络提取后的特征空间【附源码】

《------往期经典推荐------》 一、AI应用软件开发实战专栏【链接】 项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体检测系统开发】5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】7.【…

Python毕业设计选题:基于Python的社区爱心养老管理系统设计与实现_django

开发语言:Python框架:djangoPython版本:python3.7.7数据库:mysql 5.7数据库工具:Navicat11开发软件:PyCharm 系统展示 管理员登录 管理员功能界面 用户管理 身体健康界面 公共书籍界面 借阅信息界面 归还…

Spring Boot整合WebSocket

目录 ?引言 1.WebSocket 基础知识 ?1.1 什么是 WebSocket? ?1.2 WebSocket 的应用场景 ?2.Spring Boot WebSocket 整合步骤 2.1 创建 Spring Boot 项目 2.2 添加 Maven 依赖 2.3 配置 WebSocket 2.4 创建 WebSocket 控制器 2.5 创建前端页面 引言 在…

Pycharm使用matplotlib出现的问题(1、不能弹出图表 2、图表标题中文不显示)

Pycharm使用matplotlib出现的问题 问题1:Pycharm调试时出现:AttributeError: module backend_interagg has no attribute FigureCanvas. Did you mean: FigureCanvasAgg? 排查原因:可能是由于matplotlib后端设置不正确或与运行环境不兼容引…

【PromptCoder】使用 package.json 生成 cursorrules

【PromptCoder】使用 package.json 生成 cursorrules 在当今快节奏的开发世界中,效率和准确性至关重要。开发者们不断寻找能够优化工作流程、帮助他们更快编写高质量代码的工具。Cursor 作为一款 AI 驱动的代码编辑器,正在彻底改变我们的编程方式。但如…

给博客添加基于百度地图的足迹页面

使用百度地图 api 做的足迹页面一段时间了,经过一番改造,目前已基本能够满足自己需求。 一、添加百度地图 添加百度地图基本思路就是6点: 申请百度AK适当位置添加百度地图容器引入百度地图 api创建地图实例设置地图中心点初始化地图 这里…

【构建工具】Gradle Kotlin DSL中的大小写陷阱:BuildConfigField

在Android开发当中,BuildConfig是一个非常有用的功能,它允许我们在构建过程中定义常量,并在运行时使用它们。But!!当我们从传统的Groovy DSL迁移到Kotlin DSL时或者被Android Studio坑的时候,有一些细微的差…

4个小时开发DeepSeek+baiduNaotu一键生成思维导图

一、引言 最近发现AI生成思维导图的解决方案普遍存在两个断层:用户需手动复制模型输出的JSON数据到脑图软件,且缺乏实时可视化反馈。基于日常使用的BaiduNaotu框架(其轻量级架构与简洁的UI设计已满足基础需求),我决定…

(21)从strerror到strtok:解码C语言字符函数的“生存指南2”

❤个人主页:折枝寄北的博客 ❤专栏位置:简单入手C语言专栏 目录 前言1. 错误信息报告1.1 strerror 2. 字符操作2.1 字符分类函数2.2 字符转换函数 3. 内存操作函数3.1 memcpy3.2 memmove3.2memset3.3 memcmp 感谢您的阅读 前言 当你写下strcpy(dest, s…

SpringBoot集成easy-captcha图片验证码框架

SpringBoot集成easy-captcha图片验证码框架 此项目已经很久未维护,如有更好的选择,建议使用更好的选择!!! 一、引言 验证码(CAPTCHA)是现代应用中防止机器人攻击、保护接口安全的核心手段之一。然而,从零开发验证码…

货车一键启动无钥匙进入手机远程启动的正确使用方法

一、移动管家货车无钥匙进入系统的使用方法 基本原理:无钥匙进入系统通常采用RFID无线射频技术和车辆身份识别码识别系统。车钥匙需要随身携带,当车钥匙靠近货车时,它会自动与货车的解码器匹配。开门操作:当靠近货车后&#xff0…

【实战 ES】实战 Elasticsearch:快速上手与深度实践-1.2.2倒排索引原理与分词器(Analyzer)

👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路 文章大纲 1.2.2倒排索引原理与分词器(Analyzer)1. 倒排索引:搜索引擎的基石1.1 正排索引 vs 倒排索引示例数据对比: 1.2 倒排索引核心结…

和鲸科技携手四川气象,以 AI 的力量赋能四川气象一体化平台建设

气象领域与农业、能源、交通、环境科学等国计民生关键领域紧密相连,发挥着不可替代的重要作用。人工智能技术的迅猛发展,为气象领域突破困境带来了新的契机。AI 技术能够深度挖掘气象大数据中蕴含的复杂信息,助力人类更精准地把握自然规律&am…

linux下java Files.copy 提示文件名过长

linux下java Files.copy 提示文件名过长问题排查 系统运行时执行文件拷贝的功能的时候出现了 文件名称过长的报错提示 查询过资料后整理出了每个操作系统支持最大的文件名称长度 每个操作系统现在的文件长度不一样 Linux的 /usr/include/linux/limits.h 中做出了说明 这些限制…

Metal学习笔记八:纹理

到目前为止,您已经学习了如何使用片段函数和着色器为模型添加颜色和细节。另一种选择是使用图像纹理,您将在本章中学习如何作。更具体地说,您将了解: • UV 坐标:如何展开网格,以便可以对其应用纹理。 • 纹…

Idea 和 Pycharm 快捷键

一、快捷键 二、Pycharm 中怎么切换分支 参考如下 如果在界面右下角 没有看到当前所在的分支,如 “Git:master” 3. 有了 4.

fody引用c++的dll合并后提示找不到

fody引用c的dll合并后提示找不到 解决方案&#xff1a; 在 FodyWeavers.xml 文件中添加配置 CreateTemporaryAssemblies‘true’ 官方文档&#xff1a;https://github.com/Fody/Costura <Weavers xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance" xsi:noN…