人工智能万卡 GPU 集群的硬件和网络架构

news2024/9/20 1:31:32

ba8fec6e633dc1704acadef28c01263f.jpeg 

万卡 GPU 集群互联:硬件配置和网络设计

   

一、背景

自从 OpenAI 推出 ChatGPT 以来,LLM 迅速成为焦点关注的对象,并取得快速发展。众多企业纷纷投入 LLM 预训练,希望跟上这一波浪潮。然而,要训练一个 100B 规模的 LLM,通常需要庞大的计算资源,例如拥有万卡 GPU 的集群。以 Falcon 系列模型为例,其在 4096 个 A100 组成的集群上训练 180B 模型,训练 3.5T Token 耗时将近 70 天。随着数据规模不断膨胀,对算力的需求也日益增长。例如,Meta 在训练其 LLaMA3 系列模型时使用了 15T 的 Token,这一过程是在 2 个 24K H100 集群上完成的。

本文深入探讨构建大规模GPU集群的关键组件与配置。涵盖多样GPU类型与服务器配置,网络设备(网卡、交换机、光模块)调优,以及数据中心网络拓扑设计(如3-Tier、Fat-Tree)。特别聚焦NVIDIA DGX A100与DGX H100 SuperPod的精准配置与网络布局,同时概览业界万卡集群标准拓扑。助您全面理解,高效构建大规模GPU集群。

构建超万卡GPU集群是一项复杂的挑战,涉及存储网络、管理网络等多个维度。尽管本文仅触及冰山一角,但已深入探讨了广泛采用的树形拓扑结构。值得注意的是,电力与冷却系统作为集群稳定运行的关键,同样不可或缺。未来,集群的构建与维护还需在这些方面持续精进。

二、相关组件

2.1 GPU

Ampere、Hopper及最新Blackwell系列GPU持续进化,如图表所示,显存、算力及NVLink性能均显著增强,彰显其强大的技术迭代与性能提升。

  • A100升级至H100,FP16稠密算力提升超3倍,功耗从400w增至700w,效能显著提升,为高性能计算注入新动力。
  • H200升级至B200,FP16稠密算力翻倍,功耗仅从700w增至1000w,性能提升显著,能效比优异。
  • Blackwell GPU以其FP4精度支持,算力高达FP8的两倍。NVIDIA报告中,FP4算力与Hopper架构FP8算力对比,凸显了显著的加速优势,展现了Blackwell GPU的卓越性能。
  • GB200搭载完整的Full B200芯片,而B100和B200则是其简化版本,确保性能与成本的精准平衡。

e7b5af2c89ef8771e2170c8d6bede71d.jpeg

2.2 HGX

HGX,NVIDIA倾力打造的高性能服务器,集8或4个GPU于一身,搭载Intel或AMD CPU。其NVLink与NVSwitch技术实现全面互联,确保性能极致释放(8个GPU为NVLink全互联上限)。散热系统采用风冷设计,确保稳定运行。HGX,引领服务器性能新纪元。

  • HGX A100升级至HGX H100和HGX H200,FP16稠密算力激增3.3倍,同时功耗控制不到原两倍,性能卓越,效率领先。
  • HGX B100和B200在FP16稠密算力上实现近2倍提升,相较HGX H100和H200,功耗保持相当,最多节省近半,性能卓越且能效出众。
  • HGX B100与B200网络保持原配,后向IB网卡维持8x400Gb/s高速传输,无需升级,确保稳定高效。

ff60ae835634a80b4da19d9ecd472a94.jpeg

NVIDIA DGX与HGX,专为深度学习、人工智能及大规模计算打造的高性能解决方案,各具特色,满足不同设计及应用需求。

  • DGX,专为普通消费者打造,提供即插即用高性能方案,配备完整软件支持,涵盖NVIDIA深度学习软件栈、驱动与工具,预构建且封闭,轻松满足您的多样化需求。
  • HGX,专为云服务提供商与大规模数据中心运营商打造,构建高性能定制解决方案的利器。模块化设计,支持按需定制硬件,作为硬件平台或参考架构,助力客户构建卓越性能。

2.3 网络

2.3.1 网卡

这里主要介绍 ConnectX-5/6/7/8,是 Mellanox 的高速网卡,都支持以太网和 IB(InfiniBand)。2016 年发布 ConnectX-5,2019 年 NVIDIA 收购 Mellanox,然后 2020 年发布了 ConnectX-6,2022 年发布 ConnectX-7,2024 年 GTC 大会上老黄介绍了 ConnectX-8,还没看到详细参数。几个网卡对应的简要配置如下所示,可以看出,基本上每一代的总带宽都翻倍,下一代估计能到 1.6Tbps:

46603737ada7dcca48078d4ad36e3ae1.jpeg

2.3.2 交换机

NVIDIA提供以太网和IB交换机,支持数十至数百端口。其总吞吐量(双向交换能力)计算为最大带宽乘以端口数再乘以2,这里的2代表双向传输。这一配置确保高性能的数据传输和处理能力。

Spectrum-X系列以太网交换机,支持高带宽数据传输,满足多样化网络需求。尽管低带宽也兼容,但总端口数固定,故在此主要展示高带宽数据。

ae2a8b2bb93c6a9f70051dbd071eab7d.jpeg

如下图为常见的 Quantum-X 系列 IB 交换机:

c9e8811abdee695ab678b1a2897b112c.jpeg

除了以上的 Mellanox 交换机外,现在也有很多数据中心会采用框式交换机(Modular Switch),比如 Meta 最近的 Building Meta's GenAI Infrastructure 中提到其构建了 2 个包含 24K H100 的 GPU 集群,其中使用了 Arista 7800 系列交换机,而 7800 系列就包含框式交换机,如下图所示,7816LR3 和 7816R3 甚至可以提供 576 Port 的 400G 高速带宽,其内部通过高效的总线或者交换背板互联,传输和处理的延迟非常低:

f431391c87ecd1629f3ee9b0d49cd569.jpeg

2.3.3 光模块

光模块是光纤通信的核心,可将电信号高效转化为光信号,通过光纤传输,实现超高速率、长距离通信,且抗电磁干扰能力强。它集成发射器与接收器,前者负责电转光,后者实现光转电,为现代通信提供坚实技术支撑。下图为光模块结构示意,展现其工作原理与卓越性能。

ddaf6ab2aaf966ad4d5d1a83b1007592.jpeg

SFP与QSFP,光纤通信中两大光模块接口。SFP小巧便携,QSFP则四倍扩展。两者在尺寸、带宽及应用上各有千秋:SFP适合紧凑设计,QSFP则助力高速传输。选择适合您需求的接口,让光纤通信更高效。

  • SFP 通常是单传输通道(一条光纤或一对光纤)
  • QSFP作为多传输通道,其升级版QSFP-DD实现双倍密度,提供更高端口密度,通过8个信道显著提升性能,是高效数据传输的理想选择。

d3722596a4be8e2b33bd04f2456c96b2.jpeg

OSFP封装方式崭露头角,以其8通道数满足高带宽需求,如400Gbps和800Gbps。它专为高带宽场景设计,与SFP、QSFP接口不兼容。尺寸略大于QSFP-DD,需转换器适配。下图为适应不同传输距离(100米至10千米)的400Gbps OSFP光模块,展现了其强大的传输能力。

e4b3cd91a95cf663f5e701bcaa05938e.jpeg

针对不同距离与场景,精选光模块至关重要。如图所示,Core与Spine间选用10Km的400G LR4及800G 2xLR4,Spine与Leaf间则选2Km的400G FR4,Leaf至ToR则推荐500m的400G DR。后文将详细解读网络拓扑布局,敬请期待。

3f17e4d4d4bac18723547bb8aae36fb4.jpeg

光模块单价高昂,单个可达数千至数万人民币,与带宽和传输距离成正比。例如,FS热销的400Gbps光模块,带宽大、距离远,价格自然不菲。

a492f0130fd3d562e570a8c660dad490.jpeg

光模块数量与GPU成正比,通常为其4-6倍,导致成本高昂。在每个Port都需要光模块的背景下,优化成本成为关键挑战。

2.4 数据中心网络(DCN)拓扑

2.4.1 基本概念

东西向流量,即数据中心内不同服务器间的相互访问流量,已成为现代数据中心的主要流量来源,占比高达70%-80%,是数据中心高效运作的关键驱动力。

2d87e84fc0eb083b6fdbcfc4ff064f8f.jpeg

2.4.2 多层 DCN 架构

多层DCN网络架构广泛应用,尤以3层DCN架构为典型。该架构基于Tree结构,专注于管理南北向流量,包含核心层、汇聚层与接入层三层,高效且灵活。

  • Core Layer:核心层,通常是高容量的路由器或交换机。
  • Aggregation Layer(又称Distribution Layer)高效连接接入层设备,提供精准的路由指引、细致的过滤功能以及灵活的流量管理工程。
  • 接入层(Access Layer)直接连接用户设备,是用户与网络之间的桥梁,确保用户设备顺利接入网络。

98db62473b3ecb8fba9742fe4ab848f0.jpeg

该架构中,通常会假设并非所有接入设备同时以最大带宽通信,因此,常见的做法是越往上总带宽越小,比如 Access 层的总带宽是 20 Gbps,而 Distribution 层的总带宽可能只有 1 Gbps。此时,一旦出现多个设备通信带宽总和超过设计容量,比如极端情况,所有设备都以最大带宽通信,则一定会出现 blocking,延迟增加,也将导致延迟的不可预测性。以上也就是常说的 oversubscription,其中 20:1 就是相应的 oversubscription rate。

该架构设计冗余备份机制,Core与Distribution层交换机互联易形成环路。为确保稳定,需采用生成树协议(SFP)避免环路,但此举可能带来带宽冗余浪费,需精细管理优化资源利用。

2.4.3 CLOS 网络

CLOS网络,由Charles Clos于1953年首创,是一种革命性的多级交换架构,专为大型电话交换系统的连通与扩展而生。如今,其原理已广泛应用于数据中心和高性能计算领域。CLOS网络凭借多级互联结构,提供高带宽、低延迟服务,确保网络高效且可扩展,引领现代通信技术的潮流。

如下图所示,CLOS 网络通常为三级结构:

  • 输入层(Ingress):负责接收外部输入信号。
  • 中间层(Middle):负责连接输入层和输出层交换机。
  • 输出层(Egress):负责发送数据到最终目的地。

83c47993f03d9857ecde821ec6b39f11.jpeg

CLOS 网络有如下特点和优势:

  • 非阻塞设计:CLOS网络采用无收敛结构,确保数据传输畅通无阻,有效避免交换机瓶颈引发的延迟或数据丢失,保障网络性能卓越。
  • CLOS网络具备卓越的可扩展性,通过层级和交换机的增加,可轻松支持更多输入输出连接,且性能无损,实现高效扩展。
  • 冗余设计确保网络多路径通畅,即使部分交换机或连接失效,数据也能迅速转至其他路径,显著提升整体网络可靠性。
2.4.4 Fat-Tree 拓扑

Fat-Tree DCN架构,源自Charles Leiserson于1985年的创新,是高性能计算和大型数据中心中不可或缺的CLOS网络。此架构以多层交换机为核心,构建独特的树形结构,超越传统3-tier网络。Fat-Tree以其卓越的设计和性能,成为行业领先的DCN解决方案。

  • 所有层交换机都被替换为低端交换机,成本更低。

586ce0167271150fe80df06cb40043db.jpeg

Fat-Tree DCN 架构的目的是最大化端到端带宽,提供 1:1 的 oversubscripition ratio,也就是实现无阻塞(Non-Blocking)网络。因此,在 Fat-Tree 中,交换机的数目会比 3-Tier 多的多,一般情况 Fat-Tree 中所有交换机都有相同个数的 Port,比如 K 个,相应的称为 K-port Fat-Tree 网络拓扑。2 层 Fat-Tree 和 3 层 Fat-Tree 拓扑如下所示:

  • 2 层 Fat-Tree 拓扑
    • Spine Switch:K/2 个,对应 K*(K/2) 个 Port。
    • Leaf Switch:K 个,对应 K*K 个 Port。
    • 实现高达K*K/2个Server的无阻塞网络,仅需3*K/2个Network Switch,确保高效、流畅的通信体验。
  • 3 层 Fat-Tree 拓扑
    • 核心交换机(Super Spine Switch)拥有(K/2)^2台,共计K*(K/2)^2个端口,提供高效、强大的网络连通能力。
    • Spine Switch拥有2*(K/2)^2个单元,支持K*2*(K/2)^2个端口,高效满足大规模网络部署需求。
    • Leaf Switch高达2*(K/2)^2个,支持K*2*(K/2)^2个端口,高效扩展,满足大规模网络需求。
    • 采用本方案,可实现高达K^3/4个Server的无阻塞网络,显著提升通信效率。同时,仅需5*K^2/4个Switch即可支撑整个网络架构,确保高效且稳定的数据传输。高效能设计,满足大规模网络需求。

具体的计算方式如下表所示:

277fde88b47f53fcb015232ca6b097c8.jpeg

PS:关于 Fat-Tree 架构与 Spine-Leaf 架构的说法各异,有说 Fat-Tree 都是 3 层的,Spine-Leaf 是 2 层的,但很多场景也会介绍 Fat-Tree 的多层级拓扑。对于 Spine-Leaf 架构,也存在 SuperSpine-Spine-Leaf 的拓扑。我们这里就不再区分,都统一为 Fat-Tree 架构。此外,即使 Fat-Tree,也有场景提到无阻塞 Fat-Tree 和 有阻塞 Fat-Tree,这里如果没有特殊说明,都指无阻塞 Fat-Tree。

三、NVIDIA DGX SuperPod - A100

3.1 DGX A100 System

如图Figure 3所示,DGX A100 System(6U)展现了NVIDIA的尖端技术。详细介绍请参阅《Introduction to the NVIDIA DGX A100 System》,系统内含强大配置,为您的AI计算需求提供卓越支持。

  • 8 个 A100 GPU,每个 GPU 600 GB/s NVLink 带宽。
  • 搭载4.8TB/s NVSwitch带宽与640GB HBM2显存,卓越性能尽在掌握,助力您轻松应对各类计算挑战。
  • 高效配置:8个Compute Connection(IB)搭载ConnectX-6网卡,实现8倍200Gbps总带宽,极速互联,满足高性能计算需求。
  • 2 个 Storage Connection(IB)。
  • 1 个 In-Band Connection(Ethernet)。
  • 1 个 Out-Band Connection(Ethernet)。

如下图 Figure 3 所示为相应的网络接口:

fa1620c7e7d2f6bd6332f9696c17bd07.jpeg

8×A100配置通过6个NVSwitch实现8个GPU的全互联。重要提示:NVLink带宽以Byte为单位,而网络带宽以bit为单位。DGX A100系统机内总带宽高达4.8TB/s,而网络带宽仅为1.6Tbps,两者相差24倍。这一配置彰显了卓越的数据传输能力,为高性能计算领域树立了新标杆。

8997a4d544d6da2ef6460d9254e14252.jpeg

3.2 SuperPod SU

如图Figure 14所示,DGX-SuperPod-A100的核心基础单元为SuperPod SU(Scalable Unit),展示了其高效且可扩展的构建方式。

  • 每个Compute Rack融合4台DGX A100系统,配备2个3U PDU,单Rack即拥有高达32个A100 GPU的强大算力。汇聚成超级单元(SU),其GPU总量更跃升至160个A100,展现无与伦比的计算能力,为您的数据中心注入澎湃动力。
  • Leaf Network Rack高效集成,包含8个1U Compute Switch与2个1U Storage Switch,配置强大,空间优化,满足多元化网络需求。
    • Compute Switch搭载高性能QM8790 200 Gb/s IB交换机,提供惊人的320个端口(8*40),满足您高带宽、高效能的网络需求。
      • 通过160个光模块,ConnectX-6网卡高效连接Compute Rack,每个GPU独享200Gbps带宽,实现极速数据传输,性能卓越。
      • 其余 160 个通过光模块连接 Spine Rack。

1d667a21038a755e712afb7dde600f58.jpeg

ToR Switch(柜顶交换机)常用于充当Leaf Switch,因其与Server同柜,布线简化但或致Switch Port浪费。在有限空间的机柜中,尤其是随着GPU Server功耗上升,冷却系统面临挑战,导致GPU Server部署受限,进而减少网卡需求。这一配置策略旨在实现高效冷却与资源优化。

f00eaa76b50c37d08cf363b45f84500b.jpeg

在工业场景中,虽然存在8*A100 System中使用较少网卡(如4x200 Gbps)的情况,导致所需端口和交换机减半,但整体网络拓扑结构相似。为简化说明,本文暂不考虑这种特殊情况。

3.3 Spine Rack

如图Figure 15所示,Spine Rack内集成20台1U的QM8790 200 Gb/s IB交换机,即Compute Switch,总计拥有800个端口(20*40)。此外,Out-of-band和In-band两种Switch并行运行,有效保障管理网络的高效与安全,实现了强大的数据交换与管理功能。

ac501298f881165a10a34325de8e9ddc.jpeg

3.4 DGX SuperPod 100-node

如图Figure 4,展示了一个由100个节点构建的DGX-SuperPOD,其架构包含5个SU以及一个额外的Spine Rack,彰显强大性能与扩展性。

  • SU集成8个高性能Leaf Compute Switch(QM7890,200Gbps),构建高效计算网络核心。
    • 每节点配备8个ConnectX-6网卡,分别直连8个Leaf Compute Switch,实现一对一GPU高效互联,确保数据传输的极致速度与稳定性。
    • Leaf Compute Switch的20个Port精准对接SU内20个Node,实现一对一连接。同时,另20个Port无缝连接Spine中的20个Spine Compute Switch,构建高效的数据传输网络。精准配置,确保网络流畅无阻。
  • Spine Rack集成20台高性能Spine Compute Switch(QM8790,200 Gbps),构筑强大计算网络,满足高效数据传输需求。
    • Spine Compute Switch的40个Port精准对接5组、每组8个的Leaf Compute Switch,构建高效、精准的计算网络,确保数据流通畅无阻。

4467386ece67f37a3d2dc04bfe1a2560.jpeg

利用先进拓扑,我们构建了无阻塞(Non-Blocking)网络,支持高达800 GPU的互联,确保任意两个GPU间畅通无阻,实现高效通信。

  • 高效连接不同SU的GPU,通过ConnectX-6直连Leaf Switch,再经Spine Switch扩展,最终回归Leaf Switch并连接至另一ConnectX-6,形成流畅无阻的数据传输路径。
  • 通过ConnectX-6至Leaf Switch再至ConnectX-6的链路,实现同一SU内不同Node间GPU的高效互联,确保数据传输畅通无阻。
  • 同一个 Node 内的 GPU 可以通过 NVLink 连通。

利用QM8790实现的2级Fat-Tree无阻塞网络,支持最多800个GPU,即每个GPU配备一个200 Gbps NIC Port,总数由Port数计算得出:40*(40/2)=800。若需扩展至更多GPU,可采用3级Fat-Tree架构,支持高达16000 GPU,上限计算为:40*(40/2)*(40/2)。这一架构优化为大规模GPU集群提供了强大的网络支撑。

3.5 DGX SuperPod 140-node

在100节点系统中,Compute Switch端口满载。为满足更多GPU需求,需升级架构,将二层Switch扩展为三层,增设一层Core Compute Switch。采用QM8790 200 Gbps技术,不仅提升系统扩展性,还能确保高性能的数据传输,助力GPU资源充分利用。

如下图 Figure 4 所示为 140-node 的 SuperPod,共包含 7 个 SU,所以总共 7*8=56 个 Leaf Switch。正常来说,56 个 Leaf Switch 只需要 56 个 Spine Switch,28 个 Core Switch 即可。而实际上用了 80 个 Spine Switch,并分为 8 个 Group,每个 SG 中 10 个 Spine Switch,每个 CG 中 14 个 Core Switch。(PS:也许是因为这样可以实现对称式的 Fat-Tree 拓扑,更好管理)

  • 每个SU的第k个Leaf Switch直连至第k个SG的10个Spine Switch,实现高效网络互联。
    • 每个Leaf Switch配备2个端口,均连接至SG中的Spine Switch,总计连接数为10*2=20,确保高效数据传输与稳定网络架构。
    • Spine Switch配备14个Port,实现与Leaf Switch的2倍7端口高效连接,确保数据传输畅通无阻。
  • Spine Switch 中奇数位置的 Switch 与 Core Switch 中奇数位置相连,偶数位置与偶数位置相连。比如 Spine Switch 1 的 14 个 Port 分别有 1 个 Port 与 Core Switch 1,3,5,...,25,27(CG1) 相连;Spine Switch 2 的 14 个 Port 分别有 1 个 Port 与 Core Switch 2,3,6,...,26,28(CG2) 相连。
  • 每个核心交换机(Core Switch)均与40个脊柱交换机(Spine Switch)相连,构建高效网络架构。

034ae824c9637fd2a1cc41a0daf34da9.jpeg

高效搭建1120 GPU集群,仅需140台设备,每台配置8个GPU与1个ConnectX-6 200Gbps网卡,轻松实现高性能计算与数据处理。

3.7 Storage Rack

如图Figure 16,Storage Rack配备了4个QM8790 200 Gbps IB交换机(即Storage Switch),合计拥有160个Port(4*40),构成高效存储架构。Rack内还设有相应的存储单元,确保数据的高效管理与访问。

19861fd4c59f3cb7d159cea5a0ed2145.jpeg

3.8 DGX SuperPod Storage Fabric

如图Figure 7所示,140节点的Storage Fabric架构由18个Leaf Switch构成。每SU内的Leaf Network Rack配备2个,而Storage Rack则包含4个。此外,架构中还配置了8个Spine Switch,确保了高效的网络连接与数据存储能力。

363034a1e906305bdcdd8578316b6ce7.jpeg

3.9 更多配置

如下图 Table 3 所示为不同 node 对应的 Compute 配置:

a1856363da880598716175fe23c443c8.jpeg

如下图 Table 4 所示为不同 node 对应的 Storage 配置:

fa9e730565507787c4dfa33ff5fa2203.jpeg

四、NVIDIA DGX SuperPod - H100

4.1 DGX H100 System

DGX H100 System(6U)展示图如下,详情请参阅NVIDIA DGX H100 System介绍,内含关键配置信息,为您呈现高效能计算的未来之选。

  • 8 个 H100 GPU,每个 GPU 900 GB/s NVLink 带宽。
  • 900*8高达7.2TB/s的NVSwitch带宽,搭配80*8共640GB HBM3显存,性能卓越,满足高端计算需求。
  • 采用4个OSFP端口(IB)与8个ConnectX-7网卡相连,实现高达8×400 Gbps的卓越带宽性能。
  • 1 个 In-Band Connection(Ethernet)。

ca2bb5e8a249d21823ccdfcde92344f2.jpeg6446c2cd388ca5f6e21baa61d8207b2b.jpeg

这款设备搭载8个GPU,经NVSwitch全互联,机内总带宽高达7.2TB/s,远超其3.2Tbps的网络带宽,性能差异显著,达22.5倍之差。

4.2 SuperPod SU

如图Figure 2所示,DGX-SuperPod-H100的基本构建单元为SuperPod SU(可扩展单元),展现其卓越的可扩展性和高效性。

  • 每个Compute Rack集成4套DGX H100系统,配备3个PDU,共计搭载32个H100 GPU。扩展至一个完整的SU(Supercomputer Unit),您将拥有惊人的256个H100 GPU,展现无与伦比的计算实力。

8d66b00695cace3f3124d6289b6e02cd.jpeg

4.3 Management Rack

H100 DGX SuperPod 配备NVIDIA Management Rack,与A100系列的Spine Rack和Storage Rack相似。如图3所示(配置因规模而异),它集成了一系列关键组件,确保系统的稳定运行和高效管理,为超级计算提供强大支持。

  • 采用32个Leaf Compute Switch,搭载QM9700芯片,每台支持64个400Gbps端口。理论上,这些交换机可提供高达1024个400Gbps端口,其中一半用于连接node上的ConnectX-7网卡,另一半则连接16个Spine Compute Switch,实现1024 GPU的无阻塞网络架构。这一配置保证了数据传输的高效与稳定,满足大规模计算需求。
  • 16台Spine Compute Switch均采用QM9700,完美对接32台Leaf Compute Switch的一半端口,高效连接,确保网络性能卓越。
  • 8 个 Leaf Storage Switch,同样使用 QM9700。
  • 4 个 Spine Storage Switch,同样使用 QM9700。

67948ce9b535daeb44e0b6441378918e.jpeg

4.4 DGX SuperPod 127-node

如图Figure 5所示,DGX SuperPod由127个节点构成,包括4个SU和一个Management Rack。理论上,Management Rack能连接4个SU的128个节点。然而,由于Leaf Switch部分连接至UFM(统一织网管理器),实际节点数为127个。这一高效配置确保了资源的最优利用与管理的便捷性。

1f5785ead28b8a52c423535b2c95434e.jpeg

4.5 更多配置

如Table 3所示,采用QM9700 Switch的2级Fat-Tree可构建2048 GPU无阻塞网络,支持8 SU;而3级Fat-Tree则能扩展至65536 GPU无阻塞网络。尽管潜力巨大,但本研究仅配置了64 SU,即16384 GPU,展示了技术的强大扩展性和实用性。

e918e2ce2c3a5eceb8975e47014463d9.jpeg

五、业内 GPU 训练集群方案

5.1 两层 Fat-Tree 拓扑

如图展示的是典型的两层无阻塞Fat-Tree(Spine-Leaf)拓扑结构。在训练中,常见的GPU机器配置8个GPU,通过NVLink+NVSwitch实现全互联,通信带宽远超网络。业内通常将同机8个GPU的网卡分散连接至不同交换机,确保高效互通。

  • 每个Group包含8个Leaf Switch,每台机器配备8个GPU。若Leaf交换机拥有128个Port,为实现无阻塞,64个Port将直接连接至GPU网卡。因此,每个Group总计拥有512个GPU(64*8)。Leaf Switch 1专门连接所有Node的1号GPU网卡,以此类推。这一设计特性在分布式训练策略中可发挥巨大优势,为高效计算提供坚实基础。
  • 为达成Spine Switch与Leaf Switch的全网状连接,每个Leaf Switch需与一个Spine Switch相连,共需64个Spine Switch。同时,每个Spine Switch需连接全部128个Leaf Switch。基于这一架构,共需构建16个连接组。这一设计确保了网络的高效性与稳定性,实现了全面覆盖的连接网络。
  • 综合以上信息,系统支持高达192个128端口的交换机,并能连接最多8192个GPU,满足大规模数据处理需求。

3f352e82177b19c95aff1778e129d635.jpeg

5.2 FS 两层 Fat-Tree 拓扑

FS上展示的两层Fat-Tree标准解决方案,采用RoCE网络强化高性能计算,其拓扑与我们所知一致,仅以64端口交换机为核心。这一配置有效保障数据处理能力,是高效计算网络的理想之选。

c3206cbd9da29fb49f1c8e8308491dad.jpeg

由于其采用的是 64 Port 400Gbps Switch,因此:

  • Leaf,Spine Switch 都会减半,分别为 64 和 32
  • 支持 GPU 数减到 1/4,为 2*(64/2)*(64/2)=2048
  • 光模块总数为Switch端口数与网卡数(GPU数)之和,计算得(64+32)×64+2048=8192,实现高效数据传输与处理能力。

1ae11345e4f0f3aeb580ab714392d399.jpeg

5.3 三层 Fat-Tree 拓扑

星融元发布的星智AI网络解决方案,专为LLM大模型承载网设计,采用三层无阻塞Fat-Tree拓扑(SuperSpine-Spine-Leaf),其中两层Spine-Leaf构成一个Pod,实现高效、稳定的数据传输。

  • Spine Switch需半数Port连接SuperSpine,导致Group数减半。一Pod含64个Spine Switch,对应8个Group,进而拥有64个Leaf Switch,总计支持高达4096个GPU。这一配置高效利用资源,确保网络性能与扩展性的完美结合。
  • 有了多个 Pod,可以进一步构建 64 个 SuperSpine Fabric,每一个 Fabric 要与不同 Pod 中的 Spine Switch 实现全互联。这里以 8 个 Pod 为例,将 8 个 Pod 里的第 i 个 Spine Switch 与 Fabric i 中的 SuperSpine Switch 实现 Full Mesh,这里有 8 个 Pod,因此一个 Fabric 中只需要 4 个 128 Port 的 SuperSpine Switch 即可。
  • 以上配置 8 个 Pod 对应:
    • 总的 GPU:4096*8=32768
    • SuperSpine Switch:64*4=256
    • Spine Switch:64*8=512
    • Leaf Switch:64*8=512
    • 总的 Switch:256+512+512=1280
    • 总的光模块数:1280*128+32768=196608
  • 实际上理论最多可以支持 128 个 Pod,对应的设备数为:
    • GPU:4096*128=524288=2*(128/2)^3
    • SuperSpine Switch:64*64=4096=(128/2)^2
    • Spine Switch:64*128=8192=2*(128/2)^2
    • Leaf Switch:64*128=8192=2*(128/2)^2

c8f38ae83cdcc0075392fb31cc7778f9.jpeg

5.4 百度三层 Fat-Tree 拓扑

如下图所示为百度智能云(大规模AI 高性能网络的设计与实践)上介绍的三层 Fat-Tree 无阻塞网络。可以看出与上述介绍的稍有不同,Spine Switch 和 Leaf Switch 之间采用了分组 Full Mesh,也就是所有 Group 中的第 i 个 Leaf Switch 与 Channel i 中的 Spine Switch 实现 Full Mesh(和上面介绍的 SuperSpine 与 Spine 的连接方式类似)。然后在 SuperSpine 和 Spine 之间继续采用分组 Full Mesh。

3d5edde5ba7638c23eee08a4543fa0ed.jpeg


 

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1697027.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OpenWrt U盘安装使用 详细教程 x86/64平台 软路由实测 系列一

1 官方稳定 版:OpenWrt 23.05 OpenWrt Downloads #根据实际情况选择 PC支持uefi,选择版本:https://downloads.openwrt.org/releases/23.05.3/targets/x86/64/openwrt-23.05.3-x86-64-generic-ext4-combined-efi.img.gz 2 rufus 制作U盘启动 3 制作好的U盘,接入主…

经典链表题-链表回文结构

🎉🎉🎉欢迎莅临我的博客空间,我是池央,一个对C和数据结构怀有无限热忱的探索者。🙌 🌸🌸🌸这里是我分享C/C编程、数据结构应用的乐园✨ 🎈🎈&…

传输层——UDP

在学习计算机网络的过程中,我们知道OSI七层协议模型,但是在实际开发应 用中我们发现OSI七层协议模型并不适合实施,因为OSI上三层通常都是由开 发人员统一完成的,这三层之间在实现过程中没有一个明确的界限,所以我 们更…

Windows平台C#版RTSP转RTMP直播推送定制版

技术背景 前几年我们发布了C版的多路RTMP/RTSP转RTMP转发官方定制版。在秉承低延迟、灵活稳定、低资源占用的前提下,客户无需关注开发细节,只需图形化配置转发等各类参数,实现产品快速上线目的。 如监控类摄像机、NVR等,通过厂商…

关于堆排序

今天我们不刷力扣了,我们来复习(手撕)一下数据结构中的八大排序算法之一,堆排序 基本概念: 堆是一种特殊的树形数据结构,即完全二叉树。 堆分为大顶堆和小顶堆: 大顶堆:每个节点的值…

手机上制作证件照

最近由于需要给老姐弄一组证件照,找了一通手机上的软件,找到一款性价比较高的,详细流程记录下来。vx小程序上搜索"泰世茂证件照",打开首页如下图所示∶ 单击"开始制作" ,选择一个证件照类别&#…

Python中Web开发-FastAPI框架

大家好,在当今Web开发领域,高性能、易用性和可扩展性是开发者们追求的目标。Python作为一种流行的编程语言,在Web开发领域也有着强大的影响力。而在众多的Python Web框架中,FastAPI凭借其快速、现代和易用的特性,成为了…

语雀——云知识库/笔记

对于日常进行学习/创作或是记录学习、工作内容与心得的群体来说,能够及时同步的云笔记应用有着广泛的应用场景。近期,我也探索了许多款不同的软件应用,今天来分享一款很有特点的应用——语雀。 语雀,为每一个人提供优秀的文档和知…

docker-file 网络

docker挂载 1.绑定挂载(Bind Mounts):绑定挂载是将主机上的文件或目录挂载到容器中。 docker run -v /host/path:/container/path image_name 2.卷挂载(Volume Mounts):卷挂载将 Docker 数据卷挂载到容器中…

[数据结构1.0]计数排序

读者老爷好,本鼠鼠最近学了计数排序,浅浅介绍一下! 目录 1.统计相同元素出现次数 2.根据统计的结果将序列回填到原来的序列中 3.相对映射计数排序 计数排序又称为鸽巢原理,是对哈希直接定址法的变形应用,是非比较排…

AI语音及其应用

文章目录 一、基本认识二、AI语音应用场景三、真人录音与AI配音的区别四、AI语音创作基本步骤 本文将简单了解下AI语音、应用场景及其优势和创作核心步骤。 一、基本认识 AI语音是指基于人工智能技术开发的语音识别和语音合成系统。语音识别是指计算机识别和理解人类语音的能力…

决定了,将ChatGPTer开源!主打一个大模型人人可用。

一个快速上手且极易部署的类ChatGPT开源应用,可接入 OPENAI API 或 通义千问API 开源地址: https://github.com/isnl/EsChat 大声(偷偷)告诉你:通义千问有免费API额度可白嫖!!! 版本特性 OPENAI 和 通义千…

北航提出part2whole:可控⼈体图像⽣成的统⼀参考框架,可从任何数量和不同来源的参考人体部位图像中生成逼真的、高质量的各种姿势的人体人物图。

Parts2Whole,它可以从任何数量和不同来源的参考人体部位图像中生成逼真的、高质量的各种姿势的人体人物。我们的方法保持了与相应条件语义区域的高度一致性,同时保证了整体之间的多样性和协调性。 (a)以不同人的参考图像为条件生成人的图像。每对包括4个…

6.Redis之String命令

1.String类型基本介绍 redis 所有的 key 都是字符串, value 的类型是存在差异的~~ 一般来说,redis 遇到乱码问题的概率更小~~ Redis 中的字符串,直接就是按照二进制数据的方式存储的. (不会做任何的编码转换【讲 mysql 的时候,知道 mysql 默认的字符集, 是拉丁文,插入中文…

ChatGLM2-6B 模型基于 [P-Tuning v2]的微调

ChatGLM2-6B-PT 一、介绍 1、本文实现对于 ChatGLM2-6B 模型基于 [P-Tuning v2](https://github.com/THUDM/P-tuning-v2) 的微调 2、运行至少需要 7GB 显存 3、以 [ADGEN](https://aclanthology.org/D19-1321.pdf) (广告生成) 数据集为例介绍代码的使用方法。 模型部署参考…

OC笔记之foundation框架

OC学习笔记(三) 文章目录 OC学习笔记(三)常用Foundation框架结构体NSRangeNSRange结构体的定义定义 NSRange 的方法打印Range的相关信息NSRange的实际运用查找子字符串返回NSRange结构体 NSPointNSRect NSStringNSString的创建NSS…

Python文件操作(Excel、PDF、XML、Word)

大家好,在现代数据驱动的世界中,对于数据的处理和管理是至关重要的。Python作为一种强大而灵活的编程语言,提供了丰富的工具和库来处理各种文件格式。本文将探讨Python中的文件操作,重点介绍如何使用Python处理Excel、PDF、XML和W…

【python】python tkinter 计算器GUI版本(模仿windows计算器 源码)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C/Python语言 👉公众号👈:测试开发自动化【获取源码商业合作】 👉荣__誉👈:阿里云博客专家博主、5…

每日一题《leetcode--2816.翻倍以链表形式表示的数字》

https://leetcode.cn/problems/double-a-number-represented-as-a-linked-list/ 这里我们直接模拟翻倍后链表的数字,首先我们得先考虑链表的头结点的值是否大于4(*2后是否需要进位)。 处理完头结点后,就需要考虑其余结点。因为求的是链表中每个结点翻倍后…

这个开源的多模态模型无敌。。。

InternVL 由 OpenGVLab 开发,是一个开源的多模态对话模型,其性能接近商业化的 GPT-4V 模型。 GPT-4V 是 OpenAI 去年推出的多模态模型,使用它你可以分析所需的任何类型的图像并获取有关该图像的信息。 1. InternVL 开源模型 而今天的主角研究…