Zero++原理

Zero++原理

news2025/4/28 9:55:06

1. Weights在AllGather中的量化；（计算时间换网络通信延迟）

Zero3的Weights分片在各个rank中；在forward和backward中，用到整层weights时都要所有rank进行AllGather；

使用FP16-->INT8量化，减少一半通信量；

对整个矩阵进行量化，误差大；分成多个子矩阵，分别量化，误差小；

我认为：最左图不太准确；4.690可以作为127，-9.220可以作为-128，FP16的0值和INT8的0值不需要重合的；

2. weights的AllGather减少跨机器通信量（内存和访存换通信延迟）

基于事实：机器内部跨GPU通信，远比跨机器通信，要快；

Forward阶段，老样子AllGather通信，但把拿到的weights在本node（机器）上保存一份完整的副本；

Backward阶段，因为weights相比Forward并没有任何改变，因此复用本node上的weights副本，每个GPU只和本node上的所有GPU进行AllGather通信；

3. Gradients在AllReduce阶段的量化

FP16-->INT4, 减少通信量；

量化后的gradient，直接reduce加和的话，精度损失太大；只能先反量化后，再加和；

如果使用Ring-AllReduce实现版本，每一步都要量化、反量化，N个GPU需要N次量化、反量化，且延迟为N；

采用1步到位的All-to-All，量化、反量化都是1次，（理论上，取决于网络拓扑）1步延迟；

我：可以用Seide的方法（首轮都往+1节点发送，第2论都往+2节点发送，。。。）

但是这样会增加跨机器通信量。设定如下变量：

如果用Ring-AllReduce，则每台机器的跨机器通信量，为M；（想象第1台机器的第N块卡，向第2台机器的第1块卡，发送的总数据量）

如果用All-to-All，则每台机器的跨机器通信量，为N*(M/Z)；(想象第1台机器，拥有N*(M/Z)的数据量，当机器数较大时，除了少量发给自己，其余绝大部分都发给其他机器）

解决方法：故伎重演，还用2层通信，先intra-node通信，再inter-node通信；一共2遍量化、反量化；

intra-node通信：每个GPU的通信量是M/Z；每台机器的跨机器通信量，是M/Z；

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1792828.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

win+mac通用的SpringBoot+H2数据库集成过程。

win+mac通用的SpringBoot+H2数据库集成过程。

有小部分大学的小部分老师多毛病，喜欢用些晦涩难搞的数据库来折腾学生，我不理解，但大受震撼。按我的理解，这种数据库看着好像本地快速测试代码很舒服，但依赖和数据库限制的很死板，对不上就是用不了&#xf…

阅读更多...

Vitis HLS 学习笔记--static RAM/ROM

Vitis HLS 学习笔记--static RAM/ROM

目录 1. 简介 2. static RAM 2.1 无 reset 的情形 2.2 含 reset 的情形 3. static ROM 4. 总结 1. 简介本文仍然是讨论阵列的初始化与复位问题，区别于《Vitis HLS 学习笔记--global_array_RAM初始化及复位-CSDN博客》，本文讨论的对象是静态阵列&…

阅读更多...

微服务第一轮

微服务第一轮

课程文档目录一、业务流程 1、登录 Controller中的接口： Service中的实现impl： Service中的实现impl所继承的接口IService（各种方法）： VO： DTO： 2、搜索商品 Controller中的接口&a…

阅读更多...

期望24K，商汤科技golang开发社招一二三 + hr 面

期望24K，商汤科技golang开发社招一二三 + hr 面

商汤科技对数据库和中间件相关的东西问的比其他的大厂要少很多，可能他们更多是和算法相关，没有什么高并发的场景。总体感觉对技术的要求不是特别高。当时问了他们主管，我面试的部门的工作是主要去实现他们算法部门研究的算法，感觉…

阅读更多...

CSS函数：fit-content与matrix的使用

CSS函数：fit-content与matrix的使用

网格函数 fit-content()属于网格函数，除此之外的网格函数还有：CSS函数： 实现数据限阈的数字函数。顾名思义，这三个函数只能在网格布局中使用。fit-content()函数主要是用于给定布局可用大小，适应内容，其功…

阅读更多...

【微信小程序】页面导航

【微信小程序】页面导航

声明式导航导航到 tabbar 页 tabBar页面指的是被配置为tabBar的页面。在使用<navigator>组件跳转到指定的tabBar页面时，需要指定url属性和open-type属性，其中： url 表示要跳转的页面的地址，必须以/开头open-type表示跳…

阅读更多...

【Vue】路由介绍

【Vue】路由介绍

一、引入思考单页面应用程序，之所以开发效率高，性能好，用户体验好最大的原因就是：页面按需更新比如当点击【发现音乐】和【关注】时，只是更新下面部分内容，对于头部是不更新的要按需更新&#xff…

阅读更多...

企业微信hook接口协议,ipad协议http,内部联系人备注修改

企业微信hook接口协议,ipad协议http,内部联系人备注修改

内部联系人备注修改参数名必选类型说明uuid是String每个实例的唯一标识，根据uuid操作具体企业微信请求示例 {"uuid":"1688855749266556","vid":1688856554448765,"remark":"备注啦啦啦22222","des&quo…

阅读更多...

Pycharm SSH远程连接时出现报错，测试 SFTP 连接，连接到 ‘connect.westb.seetacloud.com‘ 失败

Pycharm SSH远程连接时出现报错，测试 SFTP 连接，连接到 ‘connect.westb.seetacloud.com‘ 失败

问题由来很离谱！今天本来打算租借AutoDL的显卡完成一项深度学习的任务，很离谱的是同步文件夹的时候报了标题说的错。就很莫名奇妙，一天都在网上找解决办法，结果都不对头。其他报错最后摸索着，在使用pycharm远程登…

阅读更多...

[数据集][目标检测]手枪检测数据集VOC+YOLO格式3000张1类别

[数据集][目标检测]手枪检测数据集VOC+YOLO格式3000张1类别

数据集格式：Pascal VOC格式YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)：3000 标注数量(xml文件个数)：3000 标注数量(txt文件个数)：3000 标注…

阅读更多...

数据流通与智能家居的未来

数据流通与智能家居的未来

在科技飞速发展的今天，智能家居逐渐融入我们的日常生活，改变了传统的居住方式。智能生态网络（IEN）作为智能家居的核心，集成了家庭内的各种智能设备和传感器，实现了对家庭环境的智能化管理。而数据要素流通则…

阅读更多...

SpringCloud 服务调用 spring-cloud-starter-openfeign

SpringCloud 服务调用 spring-cloud-starter-openfeign

spring-cloud-starter-openfeign 是 Spring Cloud 中的一个组件，用于在微服务架构中声明式地调用其他服务。它基于 Netflix 的 Feign 客户端进行了封装和增强，使其与 Spring Cloud 生态更好地集成。 1. Feign Feign 是一个声明式的 Web Service 客户端…

阅读更多...

绿联Nas docker 中 redis 老访问失败的排查

绿联Nas docker 中 redis 老访问失败的排查

部署了一些服务，老隔3-5 天其他服务就联不上 redis 了，未确定具体原因，只记录观察到的现象宿主机访问只有 ipv6 绑定了，ipv4 绑定挂掉了其他容器访问也无法访问成功当重启容器后： 一切又恢复正常。可能的解…

阅读更多...

使用 Django 和 MQTT 构建实时数据传输应用

使用 Django 和 MQTT 构建实时数据传输应用

文章目录什么是 MQTT？Django 中的 MQTT结论在现代的 Web 应用程序开发中，实时数据传输变得越来越重要。MQTT（Message Queuing Telemetry Transport）是一种轻量级的发布/订阅消息传输协议，而 Django 是一个流行的 Pyt…

阅读更多...

【最新鸿蒙应用开发】——Want信息载体

【最新鸿蒙应用开发】——Want信息载体

信息传递载体Want 1、概述上一章节我们学习了UIAbility组件【最新鸿蒙应用开发】——一篇搞懂什么是UIAbility-CSDN博客 ，其中组件间的交互传递信息的媒介就是Want，本章节我们来更加深入学习Want的相关知识。 Want是一种对象，用于在应用组…

阅读更多...

实践记录-docker-step1~5/10-参考docker官网步骤操作记录

实践记录-docker-step1~5/10-参考docker官网步骤操作记录

参考来源： （应用的容器化实践）docker官方入门指南 https://docs.docker.com/get-started/ 本指南包含有关如何开始使用 Docker 的分步说明。本指南介绍如何： 将映像作为容器生成并运行。使用 Docker Hub 共享映像。使用带有数据…

阅读更多...

OpenCv之简单的人脸识别项目（属性判断页面）

OpenCv之简单的人脸识别项目（属性判断页面）

人脸识别准备十二、属性判断页面1.导入所需的包2.设置窗口2.1定义窗口外观和大小2.2设置窗口背景2.2.1设置背景图片2.2.2创建label控件 3.定义预测性别脚本4.定义预测年龄脚本5.定义关闭窗口的函数6.按钮设计6.1预测性别按钮6.2预测年龄按钮6.3返回按钮 7.定义关键函数8.属性判…

阅读更多...

python-opencv图像分割

python-opencv图像分割

文章目录二值化图像骨骼连通域分割二值化所谓图像分割，就是将图像的目标和背景分离开来，更直观一点，就是把目标涂成白色，背景涂成黑色，言尽于此，是不是恍然大悟：这不就是二值化么&#xff1…

阅读更多...

农业四情监测系统

农业四情监测系统

TH-Q1农业，作为支撑国民经济建设与发展的基础产业，其稳定与高效的发展对于国家乃至全球的经济稳定具有举足轻重的意义。然而，农业的发展并非一帆风顺，它面临着诸如气候变化、病虫害、土壤质量等多种因素的挑战。在这一背景下&…

阅读更多...

AJAX 跨域

AJAX 跨域

这里写目录标题同源策略JSONPJSONP 是怎么工作的JSONP 的使用原生JSONP实践CORS 同源策略同源： 协议、域名、端口号必须完全相同、当然网页的URL和AJAX请求的目标资源的URL两者之间的协议、域名、端口号必须完全相同。 AJAX是默认遵循同源策略的，不…

阅读更多...

推荐文章

最新文章