Infiniband格局寡头,性能占优
这篇文章探讨了网络交换机的性能优势,以及如何通过扩大模型参数量来提高语言模型的生成和预测能力。然而,计算约束对这种正向关系产生了重要影响,导致在相同的计算约束下,总存在最佳的模型参数量和最大的模型有效程度。因此,如何最大限度地提高集群的计算资源成为了当前的核心问题。
集群算力优化的关键在于GPU利用率和线性加速比。其中,GPU利用率受限于芯片架构、内存访问、互联带宽和功耗等因素;而线性加速比则与节点通信、并行训练框架和资源调度密切相关。
为了设计高效的集群组网方案,满足低时延、大带宽、无阻塞的机间通信,从而降低多机多卡间数据同步的通信耗时,提升GPU有效计算时间比(GPU计算时间/整体训练时间)至关重要。AI大模型对网络建设也提出了新的要求。
优化端到端延迟的方法有很多,例如: * 优化网络拓扑结构,减少数据传输距离。 * 使用高性能网络接口卡,提高数据传输速率。 * 优化数据传输协议,减少数据传输开销。 * 使用分布式训练框架,合理分配数据和计算任务,减少通信量。 通过这些优化措施,可以有效降低端到端延迟,从而显著缩短整体训练时间,提高训练效率。
超大规模组网:千亿-万亿级别AI模型需求庞大的硬件设施及网络延展能力。《新型智算技术白皮书》指出,当万卡集群规模达到临界点时,如何实现最优运算效率、最佳数据处理能力、硬件互联以及网络可用性和易运维等,将成为AI智算中心的重要议题。
2)超高带宽需求:多卡构成的算力集群内,不可避免的存在服务器机内和机间通信。
在模型并行的计算过程中,All Reduce操作产生的通信数据量可达数百GB,这使得GPU间的通信带宽和方式对任务完成时间至关重要。在流水线并行、数据并行和张量并行等模式下,部分集合通信也可能出现数百GB的数据量。这些复杂的通信模式可能导致多对一或一对多的连接同时产生,因此,机间GPU的高速互联对于网络单端口带宽、节点间的可用链路数量以及网络总带宽提出了高要求。
3)超低时延:数据通信传输的时延分为静态和动态时延两个部分。静态时延由转发芯片的能力和传输的距离决定,通常为固定值。动态时延包含了交换机内部排队时延和丢包重传时延,通常由网络拥塞、丢包与网络抖动引起。
4) 超高稳定性与自动化部署:随着卡数量激增,网络稳定性面临挑战,可能导致网络故障和性能波动,进而影响计算节点间的连通性和计算资源利用率。
RDMA(Remote Direct Memory Access,远程直接内存访问)是一种为了解决网络传输中服务器端数据处理延迟而产生的技术。在传统网络中,数据传输涉及多个步骤:首先将数据从源系统的内核复制到网络堆栈,然后通过网络发送。最后,在接收端执行多个步骤后,将数据复制到目标系统的内核中。RDMA可以绕过操作系统内核,让一台主机可以直接访问另外一台主机的内存。目前RDMA技术的主要采用方案有Infiniband和RoCEv2(基于RDMA的Ethernet技术,后简称为RoCE)两种 。
IB(Infiniband)和RoCE(基于RDMA的Ethernet技术)是目前主流的两种网络技术,IB架构的网络胜在低延迟及高带宽,以太网则优在开放性及性价比。
RoCE是应用相对广泛,相对成熟的网络互联技术,也是整个互联网络大厦的基石,兼容性好,可实现不同的系统之间的互连互通。同时,RoCE的供应商较多,也因此具有相对较强的性价比优势。IB的应用领域很专,作为高带宽、低时延、高可靠的网络互联技术,在HPC集群领域广泛应用。但由于供应商较少,部署成本高于RoCE。
RoCE是足够好的方案,而InfiniBand是特别好的方案。不可否认的是,在超算集群中,IB架构仍是选择相对较多、效率相对较高的互联方式。虽然IB网络结构有性能优势,基于成本和开放性考虑,大多数云计算公司仍表示计划在其生产型人工智能基础设施中使用开源以太网交换机,而不是专有的IB解决方案。
根据亚马逊的高级首席工程师Brian Barrett,AWS之所以放弃IB方案,主要是因为:“云数据中心很多时候是要满足资源调度和共享等一系列弹性部署的需求,专用的IB网络构建的集群如同在汪洋大海中的孤岛”。
2023年7月19日,Linux基金会发起成立开源组织——超以太网联盟UEC (Ultra Ethernet Consortium) ,致力于打造面向AI时代的超大规模新型网络技术及系统。该联盟将提供基于以太网的开放、互操作、高性能全通信栈架构,以满足人工智能和高性能计算日益增长的大规模网络需求。
UEC是由包括AMD、Arista、博通、思科、Eviden、HPE、Intel、Meta和微软在内的具有数十年的网络、人工智能、云和高性能计算大规模部署经验的公司创立。
InfiniBand技术是一种用于高性能计算的计算机网络通信标准,它具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的数据互连。InfiniBand技术最早引入RDMA协议,从而源生的具有低延迟、大带宽、高可靠的优势。2015年,InfiniBand技术在TOP500榜单中的占比首次超过了50%,达到51.4%(257套),InfiniBand成为超级计算机最首选的内部连接技术 。
目前IB架构的供应商以Nvidia的Mellanox为主。IB协会(InfiniBand TradeAssociation,IBTA)最初由英特尔、微软、SUN公司、IBM、康柏以及惠普公司主导成立。1999年5月,Mellanox由几名从英特尔公司和伽利略技术公司离职的员工,在以色列创立,并于2001年推出了自己首款IB的产品。2002年,原IB阵营的巨头英特尔和微软退出。2010年,Mellanox和Voltaire公司合并,IB主要供应商只剩下Mellanox和QLogic。
2012年,英特尔以1.25亿美元的价格收购了QLogic的IB网络业务重回IB阵营,但不久又以1.4亿美元的价格从Cray手中收购了“Gemini”XT和“Aries”XC超级计算互连业务,后基于IB和Aries打造出了新的Omni-Path互联技术。2013年,Mellanox相继收购了硅光子技术公司Kotura和并行光互连芯片厂商IPtronics,进一步完善了自身产业布局。2015年,Mellanox在全球InfiniBand市场上的占有率达到80%。2019年,英伟达(Nvidia)公司击败对手英特尔和微软,以69亿美元的价格成功收购了Mellanox。
我们以英伟达最新一代GB200产品为例:
1、机柜内部
在单个rack内,包含18个Compute tray(上10下8)和9个Switch tray。这些机柜内的Computetray与Switchtray通过Copper Cable Cartridge相连。借助液冷冷却技术,相较于H100的风冷基础设施,在保持相同功耗的情况下,可实现高达25倍的性能提升。
单个Compute tray配置包括2颗高性能GB200 Grace Blackwell处理器、4颗高速Connectx-800G Infiniband NIC以及1颗Bluefield-3 DPU,为您提供卓越的计算性能和网络连接。
1)GB200 Grace Blackwell Superchip包含两颗Blackwell GPU和一颗Grace CPU。其中,单颗Blackwell GPU架构尺寸是上一代Hopper GPU的两倍,但AI性能(FP4)是Hopper的5倍(单颗Blackwell GPU AI性能(FP8)约为20petaFLOPS,8X24GB的HBM3e,8TB/s的内存带宽),有18个NVlink端口连接18颗NVlink switch chip,实现1.8TB/s双向连接速度。
ConnectX-800GInfiniband Supernic是一种高性能的网络连接器,可以实现端到端800Gb/s的网络连接和性能隔离,专为高效管理多租户生成式AI云而设计。它通过PCle 6.0提供800Gb/s的数据吞吐量。ConnectX-8 Supernic支持单端口OSFP 224和双端口QSFP112连接器,支持NVIDIA Socket Direct 16通道辅助卡扩展 。
Bluefield-3 DPU可以通过400Gb/s以太网或NDR 400Gb/s InfiniBand网络连接,实现卸载、加速和隔离软件定义的网络、存储、安全和管理功能,从而显著提高数据中心的性能、效率和安全性。
单个Switch tray含2颗NVlink Switch芯片,每颗支持4接口、1.8TB/s传输速率。
Switchtray盘提供惊人的性能。每个盘有144个NVlink端口,总带宽高达14.4TB/s。9个这样的盘就能为72个Blackwell GPU提供完全连接,单颗GPU可连接18个NVlink端口。让我们一起探索这个高效的网络架构,释放计算潜力!
在机柜内连接方面,Compute tray与Switch tray通过五代NVlink实现互联,其双向带宽高达1.8TB/s,较上一代提升一倍,且超过PCle Gen5带宽的14倍以上。
"突破性的1.8TB/s GPU-to-GPU通信速度,为AI和高性能计算打开了全新的视野。Computetray的Superchip技术,实现了内部GPU与CPU之间的NVlink Chip-to-Chip双向带宽高达900GB/s,进一步提升了计算效率与性能。"
2、机柜之间
GPU=72在现有硬件配置下,单台机柜内部通过NVlink即可实现L1层switch tray连接。
铜缆是GB200机柜内的首选方案,通过提升单芯片的算力密度和采用高效的液冷技术,GB200在有限的空间内部署了更多的GPU卡,从而使铜缆连接成为更具性价比的选择。然而,由于高速长距离传输可能导致损耗,其未来发展速度和应用稳定性仍需观察。
在现有硬件配置下,单层网络已无法满足GPU>72的要求,需要升级至更高层数网络结构。有单一NVlink、IB组网等方案可供选择。
1)当所需连接的GPU数量大于72小于576时,在NVlink单一组网的方案中,可以使用架构为全NVlink连接的集群,GPU和光模块的数量比例为1:9。单机柜的NVL72方案中的交换机已没有额外的接口进行更大规模的互联,根据推荐,可扩展集群多采用双机柜NVL72方案,单个机柜有18个Compute Tray、9个Switch Tray。与单机柜版本不同的是,双机柜版本Computer Tray仅一颗GraceBlackwellSuperchip(2 Blackwell GPU+1 Grace CPU)。Switch Tray内容单双机柜版本保持一致。
36颗Blackwell GPU充分连接18颗NVswitch chip共有36*18=648个ports,构成576集群的为双排的16个机柜,则累计需连接的端口为648*16=10368个ports,单口单向速率为50GB/s(双向速率100GB/s)。假设L1至L2层网络通过光模块且采用1.6T光模块(200GB/s),则共需要10368*50/200*2=5184个1.6T光模块,GPU:1.6T光模块=576:5184=1:9。
2)当所需链接的GPU数量大于72时,在IB组网的方案中,若使用最新一代NVIDIAQuantum-X800 Q3400交换机互联,根据端口数的不同,同样网络层数所能承载的最多GPU数量不同,GPU和光模块的比例略有区别。相较NVIDIAQuantum-2 QM9700仅有的64个400G的ports而言,最新一代NVIDIAQuantum-X800 Q3400交换机有144个800G的ports,最多可以实现(144^2)/2=10368张GPU的互联。
根据SemiAnalysis预测,2层网络结构的1.6t光模块/GPU占比约2.5%,3层网络结构的占比约3.5%。
模型即服务(MaaS)是一种新型人工智能服务模式,将人工智能算法模型以及相关能力进行封装,以服务的形式对用户提供,其核心目标是降低人工智能技术使用门槛,控制应用建设成本,简化系统架构。
-对此,您有什么看法见解?-
-欢迎在评论区留言探讨和分享。-