【深度学习】DeepSpeed，ZeRO 数据并行的三个阶段是什么？

【深度学习】DeepSpeed，ZeRO 数据并行的三个阶段是什么？

news2025/4/2 6:54:25

文章目录

ZeRO
实验
- - 实验设置
  - DeepSpeed ZeRO Stage-2 实验
  - 性能比较
  - 进一步优化
  - DeepSpeed ZeRO Stage-3 和 CPU 卸载
  - 结论

在这里插入图片描述

ZeRO

ZeRO（Zero Redundancy Optimizer）是一种用于分布式训练的大规模深度学习模型的优化技术。它通过分片模型状态（参数、梯度和优化器状态）来消除数据并行训练中的内存冗余，从而显著提高内存效率。ZeRO 分为三个阶段，每个阶段逐步增加内存优化程度。分别对应优化器状态、梯度和参数的划分。

优化器状态分区（P os）——内存减少 4 倍，通信量与数据并行相同
阶段 1：跨数据并行工作器/GPU 的分片优化器状态
- 描述：在 ZeRO 的第一个阶段，优化器状态被分片到不同的数据并行工作器或 GPU 上，而不是在每个 GPU 上重复。比如，Adam 优化器的状态包括权重、动量和方差等，这些状态信息会被均匀分布到各个 GPU 上。
- 内存节省：这种方法可以实现大约 4 倍的内存节省，同时保持与传统数据并行相同的通信量。
- 应用场景：适用于训练参数在亿级别的模型，比如 GPT-2，能有效降低单个 GPU 的内存使用.
添加梯度分区（P os+g）——内存减少 8 倍，通信量与数据并行相同
阶段 2：分片优化器状态和梯度
- 描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1983399.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Flink异步IO 调用算法总是超时

Flink异步IO 调用算法总是超时

记录一次使用Flink 异步调用IO 总是超时的bug 注：博主使用的版本就是：<flink.version>1.16.1</flink.version> 起因： 因公司业务需要，使用Flink对数据进行流式处理，具体处理流程就是，从kafka…

阅读更多...

PageRank算法与TextRank算法

PageRank算法与TextRank算法

PageRank PageRank 是一种用于计算网页重要性的算法，其核心思想源自随机浏览模型。这个模型假设一个网络中的用户通过随机点击链接在网页之间跳转，并根据网页的链接结构计算每个网页的重要性。假设三个网页按以下方式连接，计算每个网页的PR值…

阅读更多...

【零基础实战】基于物联网的人工淡水湖养殖系统设计

【零基础实战】基于物联网的人工淡水湖养殖系统设计

文章目录一、前言1.1 项目介绍1.1.1 开发背景1.1.2 项目实现的功能1.1.3 项目硬件模块组成1.1.4 ESP8266工作模式配置 1.2 系统设计方案1.2.1 关键技术与创新点1.2.2 功能需求分析1.2.3 现有技术与市场分析1.2.4 硬件架构设计1.2.5 软件架构设计1.2.6 上位机开发思路 1.3 系统…

阅读更多...

Robot Operating System——深度解析单线程执行器（SingleThreadedExecutor）执行逻辑

Robot Operating System——深度解析单线程执行器（SingleThreadedExecutor）执行逻辑

大纲创建SingleThreadedExecutor新增Nodeadd_nodetrigger_entity_recollectcollect_entities 自旋等待get_next_executablewait_for_workget_next_ready_executableTimerSubscriptionServiceClientWaitableAnyExecutable execute_any_executable 参考资料在ROS2中&#xff0c…

阅读更多...

ARM知识点二

ARM知识点二

一、指令指令的生成过程指令执行过程示例 if (a 0) {x 0; } else {x x 3; } //翻译为 cmp r0,#0 MOVEQ R1,#0 ADDGT R1,R1,#3指令获取：从Flash中读取 CMP R0, #0，控制器开始执行。指令解码：解码器解析 CMP 指令，ALU比较R…

阅读更多...

DAMA学习笔记(十)-数据仓库与商务智能

DAMA学习笔记(十)-数据仓库与商务智能

1.引言数据仓库（Data Warehouse，DW）的概念始于20世纪80年代。该技术赋能组织将不同来源的数据整合到公共的数据模型中去，整合后的数据能为业务运营提供洞察，为企业决策支持和创造组织价值开辟新的可能性。与商务智能&…

阅读更多...

浅谈线程组插件之jp@gc - Ultimate Thread Group

浅谈线程组插件之jp@gc - Ultimate Thread Group

浅谈线程组插件之jpgc - Ultimate Thread Group jpgc - Ultimate Thread Group是JMeter的一个强大且灵活的扩展插件，由JMeter Plugins Project提供。它为性能测试提供了超越JMeter原生线程组的更精细的控制能力，允许用户根据复杂的场景设计自定义负载模…

阅读更多...

【TFT电容屏】

【TFT电容屏】

TFT电容屏基础知识补课前言一、入门知识1.1 引脚介绍1.1.1 显示部分片选指令选择写指令读操作复位并行数据接口 1.1.2 背光电源背光电源 1.1.3 触摸IIC接口外部中断接口复位NC 1.2 驱动介绍1.3 FSMC介绍总结前言跟着阳桃电子的学习⇨逐个细讲触摸屏接口定义–STM32单片机…

阅读更多...

科普文：JUC系列之ForkJoinPool源码解读ForkJoinWorkerThread

科普文：JUC系列之ForkJoinPool源码解读ForkJoinWorkerThread

科普文：JUC系列之ForkJoinPool基本使用及原理解读-CSDN博客科普文：JUC系列之ForkJoinPool源码解读概叙-CSDN博客科普文：JUC系列之ForkJoinPool源码解读WorkQueue-CSDN博客科普文：JUC系列之ForkJoinPool源码解读ForkJoinTask…

阅读更多...

复现sql注入漏洞

复现sql注入漏洞

Less-1 字符型注入页面如下： 我们先输入“?id1”看看结果： 页面显示错误信息中显示提交到sql中的“1”在通过sql语句构造后形成“1" LIMIT 0, 1”，其中多了一个“”，那么，我们的任务就是——逃脱出单引号的控制…

阅读更多...

petalinux安装成功后登录Linux出现密码账号不正确

petalinux安装成功后登录Linux出现密码账号不正确

安装完Linux系统后发现登陆开发板上的Linux系统登陆一直错误，但你输入的账号和密码确确实实是“root”，但仍然一直在重复登陆。这个时候就会怀疑自己是不是把密码改了，导致错误，然后又重新创建petalinux工程。其实这个时候不需…

阅读更多...

2024年第二季度HDD出货量和容量分析

2024年第二季度HDD出货量和容量分析

概述根据Trendfocus, Inc.发布的《SDAS: HDD Information Service CQ2 24 Quarterly Update – Executive Summary》报告，2024年第二季度硬盘驱动器(HDD)出货量和容量均出现了显著增长。总体来看，HDD出货量较上一季度增长2%，达到3028万块&a…

阅读更多...

MySQLDM笔记-查询库中是否存在列出的表名及查询库中列出的不存在的表名

MySQLDM笔记-查询库中是否存在列出的表名及查询库中列出的不存在的表名

如下表名： aaa,bb,cc,ccs,dds,csdf,csdfs,sdfa,werwe,csdfsd 在MySQL库中，查询哪些表名在数据库中 SELECT table_name FROM information_schema.tables WHERE table_schema your_database_name_here AND table_name IN (aaa, bb, cc, ccs, dds, csdf…

阅读更多...

硬件电路学习记录（七）——全面概述MOS管

硬件电路学习记录（七）——全面概述MOS管

目录 1.NMOS： 工作原理特性应用 2.PMOS： PMOS的结构与工作原理结构工作原理增强型PMOS与耗尽型PMOS 增强型PMOS（Enhancement Mode PMOS） 耗尽型PMOS（Depletion Mode PMOS） 应用 PMOS的工…

阅读更多...

不同角色路由权限配置（六）

不同角色路由权限配置（六）

一、启用方式配置开启config/config.ts。同时需要 src/access.ts 提供权限配置 export default {access: {},// access 插件依赖 initial State 所以需要同时开启initialState: {}, };这里以扩展的路由配置为例，配置只有admin权限才能查看的页面 1、在src/acces…

阅读更多...

新华三H3CNE网络工程师认证—路由基础

新华三H3CNE网络工程师认证—路由基础

我们的一个个网络其实是由不同的广播域构成的，而路由器的作用就是用来连接不同的广播域。那么不同广播域之间是如何通信的呢？比如有三个网段，1.0、2.0和3.0。网段1.0和网段2.0通信需要构造数据包，源是1.1，目标去往2.1。…

阅读更多...

3.6 上下文菜单

3.6 上下文菜单

上下文菜单上下文菜单就是常见的右键菜单(弹出式菜单)。显示上下文菜单，阻塞函数 BOOL TrackPopupMenu(HMENU hMenu, //菜单句柄UINT uFlags, //显示方式int x, //水平位置，屏幕坐标系int y, //垂直位置，屏幕坐标系UINT nReserved, //…

阅读更多...

Cartopy简介和安装

Cartopy简介和安装

Cartopy 是一个开源免费的第三方 Python 扩展包，由英国气象办公室的科学家们开发，支持 Python 2.7 和 Python 3，致力于使用最简单直观的方式生成地图，并提供对 matplotlib 友好的协作接口。初学Cartopy，欢迎指正&#…

阅读更多...

Leetcode—186. 反转字符串中的单词 II【中等】Plus

Leetcode—186. 反转字符串中的单词 II【中等】Plus

2024每日刷题（152） Leetcode—186. 反转字符串中的单词 II 实现代码 class Solution { public:void reverseW(vector<char>& s, int n) {int i 0;int j 0;while(i < n) {while(i < j || i < n && s[i] ) {i;}while(j &…

阅读更多...

Spring自动装配的局限

Spring自动装配的局限

Spring自动装配的局限 1. 覆盖风险2. 类型限制3. 精确性挑战4. 维护难度 💖The Begin💖点点关注，收藏不迷路💖 Spring的自动装配功能虽然为开发者带来了极大的便利，但在实际应用中也存在一些不容忽视的局限。 1. 覆盖…

阅读更多...

推荐文章

最新文章