华为集合通信库开源了!HCCL开源链接、架构、拓扑算法、常用接口

news2024/9/30 23:09:14

激动啊!我们华为HCCL终于开源了!

视频分享在这:

华为集合通信库开源了!HCCL开源链接、拓扑算法、常用接口_哔哩哔哩_bilibili

一、HCCL相关链接

源码位置(需注册华为账号才可下载)

cann-hccl: cann-hccl,是基于昇腾硬件的高性能集合通信库(Huawei Collective Communication Library,简称HCCL)。

HCCL主页 

HCCL-昇腾社区

HCCL官方视频教程 

昇腾社区-官网丨昇腾万里 让智能无所不及

HCCL文档 

HCCL接口简介-集合通信接口-CANN商用版8.0.RC2开发文档-昇腾社区

HCCL性能测试工具

工具介绍-HCCL性能测试工具-训练推理开发工具-开发工具-CANN商用版8.0.RC2开发文档-昇腾社区

二、HCCL介绍

2.1 概述

华为集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,提供单机多卡以及多机多卡间的数据并行、模型并行集合通信方案。

HCCL的软件架构如下图所示,分为“通信框架”、“通信算法”与“通信平台”三个模块,本源码仓中包含了其中紫色底纹所示的“通信框架”与“通信算法”两个模块的源码。

hccl-architecture

  • 适配层,图引擎与单算子适配,进行通信切分寻优等操作。
  • 集合通信业务层,包括通信框架与通信算法两个模块:
    • 通信框架:负责通信域管理,通信算子的业务串联,协同通信算法模块完成算法选择,协同通信平台模块完成资源申请并实现集合通信任务的下发。
    • 通信算法:作为集合通信算法的承载模块,提供特定集合通信操作的资源计算,并根据通信域信息完成通信任务编排。
  • 集合通信平台层,提供NPU之上与集合通信关联的资源管理,并提供集合通信维测能力。

 2.2 支持的拓扑算法

HCCL源码仓提供了Mesh、Ring、Recursive Halving-Doubling(RHD)、PairWise四种拓扑算法的实现源码。

算法描述原理与耗时
MeshServer内通信算法,是Mesh互联拓扑的基础算法。Mesh
RingServer内和Server间通信算法,是基于环结构的并行调度算法。
Server间通信场景下,适用于小规模节点数(<32机,且非2幂)和中大规模通信数据量(>=256M)的场景。
Ring
RHDServer间通信算法,递归二分和倍增算法,当通信域内Server个数为2的整数次幂时,此算法具有较好的亲和性。RHD
PairwiseServer间通信算法,比较算法,仅用于AllToAll与AlltoAllV算子,适用于数据量较小(<=1M * RankSize)的场景。PairWise
StarServer内通信算法,Star算法适用于有根节点的通信操作(如Broadcast、Reduce、Gather、Scatter等),利用星型拓扑或全连接拓扑一步完成通信操作。Star

2.2.1 服务器内的Ring拓扑

如下图所示,可构建4个逻辑ring环:

左图的黄线表示PCIe,蓝线表示HCCS(High-speed Custom Communication System)是华为为其昇腾(Ascend)系列 AI 处理器设计的高速互连技术。 

 2.2.2 服务器间的Halving doubling

  2.2.2 服务器内和间拓扑算组合

这里针对AllReduce集合通信

框内代表服务器内,框间代表服务器间。

 三、HCCL常用接口

四、源码居然有一些中文注释

多少年源码里面没看到中文了,看的我快哭了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2087493.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

渲染引擎实践 - UnrealEngine引擎中启用 Vulkan 和使用 Renderdoc 抓帧

一&#xff1a;方法一&#xff1a; 1. 到 .\Engine\UE_5.2\Engine\Binaries\Win64 目录下&#xff08;以Windows平台为例&#xff09;&#xff0c;找到UnrealEditor, 并创建桌面快捷方式。 2. 右键快捷方式&#xff0c;配置运行参数&#xff1a; -vulkan -AttachRenderDoc 二…

vulhub xxe靶机攻击教程

使用御剑目录扫描工具测试一下&#xff0c;发现有robots.txt文件 访问robots.txt文件&#xff0c;这个文件通常放的是一个网站的目录 我们得到两个目录&#xff0c;试着访问一下 xxe目录下是一个登录页面&#xff0c;xxe/admin.php目录下也是一个登录页面 我们先在xxe页面进行…

idea未加载Marketplace插件问题

今天想用idea安装一些插件&#xff0c;结果迟迟加载不出来 直到我将网络换成手机热点突然就好了&#xff0c;还真的是网络的问题

LIN诊断(2)—— 在CANoe软件中,加载cdd/pdx等诊断数据库时,切换调度表的不同方式选择

&#x1f345; 我是蚂蚁小兵&#xff0c;专注于车载诊断领域&#xff0c;尤其擅长于对CANoe工具的使用&#x1f345; 寻找组织 &#xff0c;答疑解惑&#xff0c;摸鱼聊天&#xff0c;博客源码&#xff0c;点击加入&#x1f449;【相亲相爱一家人】&#x1f345; 玩转CANoe&…

cesium 发光线

发光线也是一种比较常见的可视化效果&#xff0c;cesium 内置的材质已经提供了PolylineGlowMaterialProperty类&#xff0c;实现了发光效果。这种材质在线的中间部分始终会有白色线条&#xff0c;如果想实现纯色的发光线&#xff0c;就需要对这种材质进行改造。本篇通过自定义M…

VTK随笔十:VTK图形处理(封闭性检测、联通区域分析、多分辨率处理)

一、封闭性检测 如果一条边只被一个多边形包含&#xff0c;那么这条边就是边界边。 是否存在边界边是检测一个网格模型是否封闭的重要特征。 vtkFeatureEdges是一个非常重要的类&#xff0c;该类能够提取多边形网格模型中四种类型的边。 1)边界边。即只被一个多边形或者…

解释预测的艺术

如何以人性化的方式解释你的模型 可直接在橱窗里购买&#xff0c;或者到文末领取优惠后购买&#xff1a; 数据科学家职责的一个重要部分是解释模型预测。通常&#xff0c;接受解释的人不是技术人员。如果你开始谈论成本函数、超参数或 p 值&#xff0c;你将会遇到茫然的表情。我…

List集合和Set集合

Collection&#xff1a; Collection 不唯一&#xff0c;无序 List 不唯一&#xff0c;有序 Set 唯一&#xff0c;无序 ArrayList&#xff1a;内部使用长度可变的数组&#xff0c;遍历查询效率高 LinkedList&#xff1a;采用双向链表实现&#xff0c;增删改效率比较高 ArrayL…

【小白深度学习入门】【2】池化层详解:工作原理、维度计算、池化类型

《博主简介》 小伙伴们好&#xff0c;我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 &#x1f44d;感谢小伙伴们点赞、关注&#xff01; 《------往期经典推荐------》 一、AI应用软件开发实战专栏【链接】 项目名称项目名称1.【人脸识别与管理系统开发…

Dataworks_PySpark开发流程

PySpark是由Spark官方开发的Python语言第三方库&#xff0c;Python开发者可以通过使用python语言来编写Spark程序和SparkSQL完成开发。 之所以采用PySpark而不采用Java/Scala&#xff0c;是由于&#xff1a; Dataworks可通过将代码在线写入DataWorks Python资源的方式&#xf…

Android 12系统源码_输入系统(一)认识Android的输入系统

前言 问渠那得清如许&#xff0c;为有源头活水来。对于大多数现代操作系统中&#xff0c;“事件”就是它们的“活水源头”&#xff0c;正是在“事件和消息”的不断产生、流转和处理中&#xff0c;整个软件系统才能“动”起来。 Android系统有一套从底层Linux内核到上层应用程…

合宙LuatOS产品规格书——Air780EQ

合宙Air780EQ&#xff0c; 基于移芯EC716E高端平台&#xff0c; 集成LTE 3GPP Release 13技术&#xff0c;确保高速、稳定的网络连接&#xff1b; 广泛兼容各大运营商网络&#xff0c;实现真正的全网通设计&#xff0c;提升产品市场适应性与灵活性。 Air780EQ 4G全网通模块核…

Unity(2022.3.41LTS) - 角色控制器和3D刚体

目录 一. 角色控制 二. 3D刚体 一. 角色控制 名称&#xff1a;功能&#xff1a;坡度限制将碰撞器限制为仅爬升比指示值更陡峭&#xff08;以度为单位&#xff09;的斜坡。步长偏移只有当楼梯离地面比指示值更近时&#xff0c;角色才会爬上楼梯。此值不应大于 Character Contr…

追求全能还是专精?——AI模型的未来趋势探讨

AI模型&#xff1a;追求全能还是专精&#xff1f; 近日&#xff0c;OpenAI预计在秋季推出代号为“草莓”的新AI。从专注于数学问题到处理主观营销策略&#xff0c;"草莓"模型展现出惊人的多样性。而这种全能型 AI 是否代表了未来趋势&#xff1f;相比专攻于某一领域的…

【离线查询 滑动窗口】2747. 统计没有收到请求的服务器数目

本文涉及知识点 离线查询 C算法&#xff1a;滑动窗口总结 LeetCode2747. 统计没有收到请求的服务器数目 给你一个整数 n &#xff0c;表示服务器的总数目&#xff0c;再给你一个下标从 0 开始的 二维 整数数组 logs &#xff0c;其中 logs[i] [server_id, time] 表示 id 为…

【Kafka】Windows下安装Kafka(全面)

目录 1.前提条件 2.下载 3.安装 4.环境变量配置 5.验证 1.前提条件 1.先安装zookeeper&#xff1a; 【Zookeeper】Windows下安装Zookeeper&#xff08;全面&#xff09;-CSDN博客https://blog.csdn.net/weixin_57259781/article/details/141679454 2.还需要安装scala: …

设计模式 -- 外观模式(Facade Pattern)

1 问题引出 组建一个家庭影院 DVD 播放器、投影仪、自动屏幕、环绕立体声、爆米花机,要求完成使用家庭影院的功能&#xff0c;其过程为&#xff1a; 直接用遥控器&#xff1a;统筹各设备开关 开爆米花机&#xff0c;放下屏幕 &#xff0c;开投影仪 &#xff0c;开音响&#xf…

坐牢第三十二天(c++)

一.作业 仿照string类&#xff0c;实现myString #include <iostream> #include <cstring> // 引入cstring以使用memcpy using namespace std; class myString {char *str; // 记录c风格的字符串int size; // 记录字符串的实际长度 public:// 无参构造myString():…

循环流网络的费用问题

循环流网络的费用问题 费用为负的网络流循环流网络的费用一些题目[UVa1659 Help Little Laura](https://onlinejudge.org/index.php?optioncom_onlinejudge&Itemid8&category24&pageshow_problem&problem4534)[Aizu-2230 How to Create a Good Game](https://…

[LLM][Prompt Engineering]:思维链(CoT)

思维链 思维链1. 思维链提示方法和增强策略1.1 简单的思维链提示1.2 示例形式的思维链提示1.3 思维链提示的后处理方案1.4 拓展推理结构 2. CoT的能力来源&#xff1a;为什么思维链提示能显著提升大语言模型在推理任务上的效果&#xff1f; 强大的逻辑推理是大语言模型“智能涌…