Infiniband网络架构的技术与性能分析

news2024/9/20 15:06:07

ea63088dec170f57744af353a19f57c8.jpeg

Infiniband格局寡头,性能占优

   

1b2e5b34abb378b9a2c296219de331e5.jpeg

这篇文章探讨了网络交换机的性能优势,以及如何通过扩大模型参数量来提高语言模型的生成和预测能力。然而,计算约束对这种正向关系产生了重要影响,导致在相同的计算约束下,总存在最佳的模型参数量和最大的模型有效程度。因此,如何最大限度地提高集群的计算资源成为了当前的核心问题。

集群算力优化的关键在于GPU利用率和线性加速比。其中,GPU利用率受限于芯片架构、内存访问、互联带宽和功耗等因素;而线性加速比则与节点通信、并行训练框架和资源调度密切相关。

为了设计高效的集群组网方案,满足低时延、大带宽、无阻塞的机间通信,从而降低多机多卡间数据同步的通信耗时,提升GPU有效计算时间比(GPU计算时间/整体训练时间)至关重要。AI大模型对网络建设也提出了新的要求。

优化端到端延迟的方法有很多,例如: * 优化网络拓扑结构,减少数据传输距离。 * 使用高性能网络接口卡,提高数据传输速率。 * 优化数据传输协议,减少数据传输开销。 * 使用分布式训练框架,合理分配数据和计算任务,减少通信量。 通过这些优化措施,可以有效降低端到端延迟,从而显著缩短整体训练时间,提高训练效率。

超大规模组网:千亿-万亿级别AI模型需求庞大的硬件设施及网络延展能力。《新型智算技术白皮书》指出,当万卡集群规模达到临界点时,如何实现最优运算效率、最佳数据处理能力、硬件互联以及网络可用性和易运维等,将成为AI智算中心的重要议题。

2)超高带宽需求:多卡构成的算力集群内,不可避免的存在服务器机内和机间通信。

在模型并行的计算过程中,All Reduce操作产生的通信数据量可达数百GB,这使得GPU间的通信带宽和方式对任务完成时间至关重要。在流水线并行、数据并行和张量并行等模式下,部分集合通信也可能出现数百GB的数据量。这些复杂的通信模式可能导致多对一或一对多的连接同时产生,因此,机间GPU的高速互联对于网络单端口带宽、节点间的可用链路数量以及网络总带宽提出了高要求。

3)超低时延:数据通信传输的时延分为静态和动态时延两个部分。静态时延由转发芯片的能力和传输的距离决定,通常为固定值。动态时延包含了交换机内部排队时延和丢包重传时延,通常由网络拥塞、丢包与网络抖动引起。

4) 超高稳定性与自动化部署:随着卡数量激增,网络稳定性面临挑战,可能导致网络故障和性能波动,进而影响计算节点间的连通性和计算资源利用率。

RDMA(Remote Direct Memory Access,远程直接内存访问)是一种为了解决网络传输中服务器端数据处理延迟而产生的技术。在传统网络中,数据传输涉及多个步骤:首先将数据从源系统的内核复制到网络堆栈,然后通过网络发送。最后,在接收端执行多个步骤后,将数据复制到目标系统的内核中。RDMA可以绕过操作系统内核,让一台主机可以直接访问另外一台主机的内存。目前RDMA技术的主要采用方案有Infiniband和RoCEv2(基于RDMA的Ethernet技术,后简称为RoCE)两种 。

IB(Infiniband)和RoCE(基于RDMA的Ethernet技术)是目前主流的两种网络技术,IB架构的网络胜在低延迟及高带宽,以太网则优在开放性及性价比。

RoCE是应用相对广泛,相对成熟的网络互联技术,也是整个互联网络大厦的基石,兼容性好,可实现不同的系统之间的互连互通。同时,RoCE的供应商较多,也因此具有相对较强的性价比优势。IB的应用领域很专,作为高带宽、低时延、高可靠的网络互联技术,在HPC集群领域广泛应用。但由于供应商较少,部署成本高于RoCE。

RoCE是足够好的方案,而InfiniBand是特别好的方案。不可否认的是,在超算集群中,IB架构仍是选择相对较多、效率相对较高的互联方式。虽然IB网络结构有性能优势,基于成本和开放性考虑,大多数云计算公司仍表示计划在其生产型人工智能基础设施中使用开源以太网交换机,而不是专有的IB解决方案。

根据亚马逊的高级首席工程师Brian Barrett,AWS之所以放弃IB方案,主要是因为:“云数据中心很多时候是要满足资源调度和共享等一系列弹性部署的需求,专用的IB网络构建的集群如同在汪洋大海中的孤岛”。

2023年7月19日,Linux基金会发起成立开源组织——超以太网联盟UEC (Ultra Ethernet Consortium) ,致力于打造面向AI时代的超大规模新型网络技术及系统。该联盟将提供基于以太网的开放、互操作、高性能全通信栈架构,以满足人工智能和高性能计算日益增长的大规模网络需求。

UEC是由包括AMD、Arista、博通、思科、Eviden、HPE、Intel、Meta和微软在内的具有数十年的网络、人工智能、云和高性能计算大规模部署经验的公司创立。

InfiniBand技术是一种用于高性能计算的计算机网络通信标准,它具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的数据互连。InfiniBand技术最早引入RDMA协议,从而源生的具有低延迟、大带宽、高可靠的优势。2015年,InfiniBand技术在TOP500榜单中的占比首次超过了50%,达到51.4%(257套),InfiniBand成为超级计算机最首选的内部连接技术 。

目前IB架构的供应商以Nvidia的Mellanox为主。IB协会(InfiniBand TradeAssociation,IBTA)最初由英特尔、微软、SUN公司、IBM、康柏以及惠普公司主导成立。1999年5月,Mellanox由几名从英特尔公司和伽利略技术公司离职的员工,在以色列创立,并于2001年推出了自己首款IB的产品。2002年,原IB阵营的巨头英特尔和微软退出。2010年,Mellanox和Voltaire公司合并,IB主要供应商只剩下Mellanox和QLogic。

2012年,英特尔以1.25亿美元的价格收购了QLogic的IB网络业务重回IB阵营,但不久又以1.4亿美元的价格从Cray手中收购了“Gemini”XT和“Aries”XC超级计算互连业务,后基于IB和Aries打造出了新的Omni-Path互联技术。2013年,Mellanox相继收购了硅光子技术公司Kotura和并行光互连芯片厂商IPtronics,进一步完善了自身产业布局。2015年,Mellanox在全球InfiniBand市场上的占有率达到80%。2019年,英伟达(Nvidia)公司击败对手英特尔和微软,以69亿美元的价格成功收购了Mellanox。

我们以英伟达最新一代GB200产品为例:

1、机柜内部

在单个rack内,包含18个Compute tray(上10下8)和9个Switch tray。这些机柜内的Computetray与Switchtray通过Copper Cable Cartridge相连。借助液冷冷却技术,相较于H100的风冷基础设施,在保持相同功耗的情况下,可实现高达25倍的性能提升。

单个Compute tray配置包括2颗高性能GB200 Grace Blackwell处理器、4颗高速Connectx-800G Infiniband NIC以及1颗Bluefield-3 DPU,为您提供卓越的计算性能和网络连接。

1)GB200 Grace Blackwell Superchip包含两颗Blackwell GPU和一颗Grace CPU。其中,单颗Blackwell GPU架构尺寸是上一代Hopper GPU的两倍,但AI性能(FP4)是Hopper的5倍(单颗Blackwell GPU AI性能(FP8)约为20petaFLOPS,8X24GB的HBM3e,8TB/s的内存带宽),有18个NVlink端口连接18颗NVlink switch chip,实现1.8TB/s双向连接速度。

ConnectX-800GInfiniband Supernic是一种高性能的网络连接器,可以实现端到端800Gb/s的网络连接和性能隔离,专为高效管理多租户生成式AI云而设计。它通过PCle 6.0提供800Gb/s的数据吞吐量。ConnectX-8 Supernic支持单端口OSFP 224和双端口QSFP112连接器,支持NVIDIA Socket Direct 16通道辅助卡扩展 。

Bluefield-3 DPU可以通过400Gb/s以太网或NDR 400Gb/s InfiniBand网络连接,实现卸载、加速和隔离软件定义的网络、存储、安全和管理功能,从而显著提高数据中心的性能、效率和安全性。

单个Switch tray含2颗NVlink Switch芯片,每颗支持4接口、1.8TB/s传输速率。

Switchtray盘提供惊人的性能。每个盘有144个NVlink端口,总带宽高达14.4TB/s。9个这样的盘就能为72个Blackwell GPU提供完全连接,单颗GPU可连接18个NVlink端口。让我们一起探索这个高效的网络架构,释放计算潜力!

在机柜内连接方面,Compute tray与Switch tray通过五代NVlink实现互联,其双向带宽高达1.8TB/s,较上一代提升一倍,且超过PCle Gen5带宽的14倍以上。

"突破性的1.8TB/s GPU-to-GPU通信速度,为AI和高性能计算打开了全新的视野。Computetray的Superchip技术,实现了内部GPU与CPU之间的NVlink Chip-to-Chip双向带宽高达900GB/s,进一步提升了计算效率与性能。"

2、机柜之间

GPU=72在现有硬件配置下,单台机柜内部通过NVlink即可实现L1层switch tray连接。

铜缆是GB200机柜内的首选方案,通过提升单芯片的算力密度和采用高效的液冷技术,GB200在有限的空间内部署了更多的GPU卡,从而使铜缆连接成为更具性价比的选择。然而,由于高速长距离传输可能导致损耗,其未来发展速度和应用稳定性仍需观察。


在现有硬件配置下,单层网络已无法满足GPU>72的要求,需要升级至更高层数网络结构。有单一NVlink、IB组网等方案可供选择。

1)当所需连接的GPU数量大于72小于576时,在NVlink单一组网的方案中,可以使用架构为全NVlink连接的集群,GPU和光模块的数量比例为1:9。单机柜的NVL72方案中的交换机已没有额外的接口进行更大规模的互联,根据推荐,可扩展集群多采用双机柜NVL72方案,单个机柜有18个Compute Tray、9个Switch Tray。与单机柜版本不同的是,双机柜版本Computer Tray仅一颗GraceBlackwellSuperchip(2 Blackwell GPU+1 Grace CPU)。Switch Tray内容单双机柜版本保持一致。

36颗Blackwell GPU充分连接18颗NVswitch chip共有36*18=648个ports,构成576集群的为双排的16个机柜,则累计需连接的端口为648*16=10368个ports,单口单向速率为50GB/s(双向速率100GB/s)。假设L1至L2层网络通过光模块且采用1.6T光模块(200GB/s),则共需要10368*50/200*2=5184个1.6T光模块,GPU:1.6T光模块=576:5184=1:9。

2)当所需链接的GPU数量大于72时,在IB组网的方案中,若使用最新一代NVIDIAQuantum-X800 Q3400交换机互联,根据端口数的不同,同样网络层数所能承载的最多GPU数量不同,GPU和光模块的比例略有区别。相较NVIDIAQuantum-2 QM9700仅有的64个400G的ports而言,最新一代NVIDIAQuantum-X800 Q3400交换机有144个800G的ports,最多可以实现(144^2)/2=10368张GPU的互联。

根据SemiAnalysis预测,2层网络结构的1.6t光模块/GPU占比约2.5%,3层网络结构的占比约3.5%。

模型即服务(MaaS)是一种新型人工智能服务模式,将人工智能算法模型以及相关能力进行封装,以服务的形式对用户提供,其核心目标是降低人工智能技术使用门槛,控制应用建设成本,简化系统架构。

 -对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2116028.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【软考】希尔排序算法分析

目录 1. c代码2. 运行截图3. 运行解析 1. c代码 #include <stdio.h> #include <stdlib.h> void shellSort(int data[], int n){// 划分的数组&#xff0c;例如8个数则为[4, 2, 1]int *delta;int k;// i控制delta的轮次int i;// 临时变量&#xff0c;换值int temp;…

基于java网页的纸业管理系统设计与实现

博主介绍&#xff1a;专注于Java .net php phython 小程序 等诸多技术领域和毕业项目实战、企业信息化系统建设&#xff0c;从业十五余年开发设计教学工作 ☆☆☆ 精彩专栏推荐订阅☆☆☆☆☆不然下次找不到哟 我的博客空间发布了1000毕设题目 方便大家学习使用 感兴趣的可以…

【iOS】MVC设计模式

MVC 前言 如何设计一个程序的结构&#xff0c;这是一门专门的学问&#xff0c;叫做"架构模式"&#xff08;architectural pattern&#xff09;&#xff0c;属于编程的方法论。MVC 模式就是架构模式的一种。 它是Apple 官方推荐的 App 开发架构&#xff0c;也是一般…

C++中深拷贝与浅拷贝

描述&#xff1a; 在未定义显示拷贝构造函数的情况下&#xff0c;系统调用默认的拷贝函数——即浅拷贝&#xff0c;它能够完成成员的简单赋值拷贝操作。当数据成员中没有指针时&#xff0c;浅拷贝是可行的&#xff1b; 但当数据成员中有指针时&#xff0c;如果采用简单的浅拷…

C++ vectorOJ练习题

目录 136. 只出现一次的数字 118. 杨辉三角 26. 删除有序数组中的重复项 137. 只出现一次的数字ll 260. 只出现一次的数字 III 17. 电话号码的字母组合 JZ39 数组中出现次数超过一半的数字 136. 只出现一次的数字 采用异或运算的思路 异或运算的特性是&#xff0c;相同的…

多机编队—(1)ubuntu 配置Fast_Planner

文章目录 前言一、Could not find package ...二、使用error: no match for ‘operator’...总结 前言 最近想要做有轨迹引导的多机器人编队&#xff0c;打算采用分布式的编队架构&#xff0c;实时的给每个机器人规划出目标位置&#xff0c;然后通过Fast_Planner生成避障路径&…

【与C++的邂逅】--- string容器使用

Welcome to 9ilks Code World (๑•́ ₃ •̀๑) 个人主页: 9ilk (๑•́ ₃ •̀๑) 文章专栏&#xff1a; 与C的邂逅 本篇博客我们将来了解string容器本身以及接口的使用。 string是串&#xff0c;本质是一个字符数组&#xff0c;可以对其进行增删查改。 &am…

Camtasia2024破解版本电脑屏幕录像编辑神器全新体验

&#x1f31f; 屏幕录像与编辑神器——Camtasia2024全新体验 大家好&#xff01;今天我要来和大家安利一款让我彻底摆脱视频制作烦恼的神器——Camtasia2024&#xff01;&#x1f389; &#x1f308; 功能升级&#xff1a;更智能&#xff0c;更便捷 得提的是Camtasia 2024在功…

python的常用模块,必能覆盖你的需求

1.Request 把python的提示信息做到精细且覆盖广泛 2.Numpy 非常重要的库&#xff0c;最初学Python&#xff0c;第一个使用的就是这个。为Python提供了很多高级的数学方式 3.SciPy 是Python的算法和数学工具车&#xff0c;把很多科学家从RUby吸引到了python 4. P…

【车载开发系列】ParaSoft安装步骤介绍

【车载开发系列】ParaSoft安装步骤介绍 【车载开发系列】ParaSoft安装步骤介绍 【车载开发系列】ParaSoft安装步骤介绍一. 前言二. 安装步骤1. 双击安装包2. 选择安装语言3. 选择许可协议4. 选择软件安装位置5. 选择开始菜单文件夹6. 选择安装时的附加任务7. 安装准备完毕8. 执…

【小沐学OpenGL】Ubuntu环境下glfw的安装和使用

文章目录 1、简介1.1 OpenGL简介1.2 glfw简介 2、安装glfw2.1 直接命令二进制安装2.2 源码安装 3、测试glfw3.1 测试1&#xff0c;glfwglew3.2 测试2&#xff0c;glfwglad3.3 测试3 结语 1、简介 1.1 OpenGL简介 OpenGL作为图形界的工业标准&#xff0c;其仅仅定义了一组2D和…

PhotoZoom9怎么样?图片模糊怎么办?

DeepZoomPix的前身。PhotoZoom是一款新颖的、技术上具有革命性的对数码图片进行放大的工具。通常的工具对数码图片进行放大时&#xff0c;总会降低图片的品质&#xff0c;而这款软件使用了S-SPLINE Max技术 一种申请过专利的&#xff0c;拥有自动调节、高级的插值算法的技术&am…

PCIe总线-Linux内核PCIe设备枚举流程分析(十三)

1.简介 当系统启动时或者有新的PCIe设备接入时&#xff0c;PCIe主机会扫描PCIe总线上的PCIe设备&#xff0c;读取设备配置空间信息&#xff0c;建立设备的拓扑关系&#xff0c;然后为设备分配资源&#xff08;如内存空间、I/O空间、中断、总线编号等&#xff09;&#xff0c;最…

网络安全AI大模型训练从入门到精通

前言 2022年下半年&#xff0c;国内安全圈内开始完chatGPT&#xff0c;当时在安全圈内小火了一把。大家纷纷注册去体验一把&#xff0c;希望chatGPT能帮助解决日常安服渗透问题。当时以为仅此而已&#xff0c;谁知年后大火&#xff0c;随后以chatGPT为代表的大语言模型&#x…

【老课推荐】基于LangChain和知识图谱的大模型医疗问答机器人项目

在当今数据驱动和人工智能主导的时代&#xff0c;大模型和知识图谱的结合是一个重要的研究和应用方向。大模型实战课程通过48课时&#xff0c;分为六个主要章节&#xff0c;涵盖了从基本概念到高级应用的多方面内容。学员将通过本课程学习如何使用LangChain和OpenAI进行开发&am…

Spring Boot:医疗排班系统开发的技术革新

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统&#xff0c;它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等&#xff0c;非常…

数据分析:Python语言相关性对角矩阵计算

文章目录 介绍加载R包导入数据计算连续型变量相关系数展示显著性结果图总结介绍 下三角相关系数矩阵是指相关系数矩阵中,仅展示主对角线以下部分(不包括主对角线)的值。在相关系数矩阵中,主对角线上的元素都是1(因为任何变量与自身的相关系数都是完美的1),而上三角和下…

Java笔试面试题AI答之单元测试JUnit(2)

文章目录 7. 为什么JUnit只报告单次测试中的第一次失败&#xff1f;8. Java中&#xff0c;assert是一个关键字。 这不会与JUnit的assert&#xff08;&#xff09;方法冲突吗&#xff1f;9. 解释如何测试静态方法&#xff1f;一、直接调用测试二、隔离依赖三、使用Mock框架四、重…

助贷行业的三大严峻挑战:贷款中介公司转型债务重组业务

大家是否察觉到一种趋势&#xff1f;现如今&#xff0c;众多贷款辅助服务机构与专注于债务再构的公司之间形成了紧密的“联动”。有的选择将获取的贷款需求转介给债务重组方&#xff0c;有的则直接下场&#xff0c;动用自身资本参与债务重组业务。这一现象背后&#xff0c;究竟…

每日一练:合并区间

一、题目要求 以数组 intervals 表示若干个区间的集合&#xff0c;其中单个区间为 intervals[i] [starti, endi] 。请你合并所有重叠的区间&#xff0c;并返回 一个不重叠的区间数组&#xff0c;该数组需恰好覆盖输入中的所有区间 。 示例 1&#xff1a; 输入&#xff1a;in…