人工智能万卡 GPU 集群的硬件和网络架构

 

万卡 GPU 集群互联：硬件配置和网络设计

   

一、背景

自从 OpenAI 推出 ChatGPT 以来，LLM 迅速成为焦点关注的对象，并取得快速发展。众多企业纷纷投入 LLM 预训练，希望跟上这一波浪潮。然而，要训练一个 100B 规模的 LLM，通常需要庞大的计算资源，例如拥有万卡 GPU 的集群。以 Falcon 系列模型为例，其在 4096 个 A100 组成的集群上训练 180B 模型，训练 3.5T Token 耗时将近 70 天。随着数据规模不断膨胀，对算力的需求也日益增长。例如，Meta 在训练其 LLaMA3 系列模型时使用了 15T 的 Token，这一过程是在 2 个 24K H100 集群上完成的。

本文深入探讨构建大规模GPU集群的关键组件与配置。涵盖多样GPU类型与服务器配置，网络设备（网卡、交换机、光模块）调优，以及数据中心网络拓扑设计（如3-Tier、Fat-Tree）。特别聚焦NVIDIA DGX A100与DGX H100 SuperPod的精准配置与网络布局，同时概览业界万卡集群标准拓扑。助您全面理解，高效构建大规模GPU集群。

构建超万卡GPU集群是一项复杂的挑战，涉及存储网络、管理网络等多个维度。尽管本文仅触及冰山一角，但已深入探讨了广泛采用的树形拓扑结构。值得注意的是，电力与冷却系统作为集群稳定运行的关键，同样不可或缺。未来，集群的构建与维护还需在这些方面持续精进。

二、相关组件

2.1 GPU

Ampere、Hopper及最新Blackwell系列GPU持续进化，如图表所示，显存、算力及NVLink性能均显著增强，彰显其强大的技术迭代与性能提升。

A100升级至H100，FP16稠密算力提升超3倍，功耗从400w增至700w，效能显著提升，为高性能计算注入新动力。
H200升级至B200，FP16稠密算力翻倍，功耗仅从700w增至1000w，性能提升显著，能效比优异。
Blackwell GPU以其FP4精度支持，算力高达FP8的两倍。NVIDIA报告中，FP4算力与Hopper架构FP8算力对比，凸显了显著的加速优势，展现了Blackwell GPU的卓越性能。
GB200搭载完整的Full B200芯片，而B100和B200则是其简化版本，确保性能与成本的精准平衡。

2.2 HGX

HGX，NVIDIA倾力打造的高性能服务器，集8或4个GPU于一身，搭载Intel或AMD CPU。其NVLink与NVSwitch技术实现全面互联，确保性能极致释放（8个GPU为NVLink全互联上限）。散热系统采用风冷设计，确保稳定运行。HGX，引领服务器性能新纪元。

HGX A100升级至HGX H100和HGX H200，FP16稠密算力激增3.3倍，同时功耗控制不到原两倍，性能卓越，效率领先。
HGX B100和B200在FP16稠密算力上实现近2倍提升，相较HGX H100和H200，功耗保持相当，最多节省近半，性能卓越且能效出众。
HGX B100与B200网络保持原配，后向IB网卡维持8x400Gb/s高速传输，无需升级，确保稳定高效。

NVIDIA DGX与HGX，专为深度学习、人工智能及大规模计算打造的高性能解决方案，各具特色，满足不同设计及应用需求。

DGX，专为普通消费者打造，提供即插即用高性能方案，配备完整软件支持，涵盖NVIDIA深度学习软件栈、驱动与工具，预构建且封闭，轻松满足您的多样化需求。
HGX，专为云服务提供商与大规模数据中心运营商打造，构建高性能定制解决方案的利器。模块化设计，支持按需定制硬件，作为硬件平台或参考架构，助力客户构建卓越性能。

2.3 网络

2.3.1 网卡

这里主要介绍 ConnectX-5/6/7/8，是 Mellanox 的高速网卡，都支持以太网和 IB（InfiniBand）。2016 年发布 ConnectX-5，2019 年 NVIDIA 收购 Mellanox，然后 2020 年发布了 ConnectX-6，2022 年发布 ConnectX-7，2024 年 GTC 大会上老黄介绍了 ConnectX-8，还没看到详细参数。几个网卡对应的简要配置如下所示，可以看出，基本上每一代的总带宽都翻倍，下一代估计能到 1.6Tbps：

2.3.2 交换机

NVIDIA提供以太网和IB交换机，支持数十至数百端口。其总吞吐量（双向交换能力）计算为最大带宽乘以端口数再乘以2，这里的2代表双向传输。这一配置确保高性能的数据传输和处理能力。

Spectrum-X系列以太网交换机，支持高带宽数据传输，满足多样化网络需求。尽管低带宽也兼容，但总端口数固定，故在此主要展示高带宽数据。

如下图为常见的 Quantum-X 系列 IB 交换机：

除了以上的 Mellanox 交换机外，现在也有很多数据中心会采用框式交换机（Modular Switch），比如 Meta 最近的 Building Meta's GenAI Infrastructure 中提到其构建了 2 个包含 24K H100 的 GPU 集群，其中使用了 Arista 7800 系列交换机，而 7800 系列就包含框式交换机，如下图所示，7816LR3 和 7816R3 甚至可以提供 576 Port 的 400G 高速带宽，其内部通过高效的总线或者交换背板互联，传输和处理的延迟非常低：

2.3.3 光模块

光模块是光纤通信的核心，可将电信号高效转化为光信号，通过光纤传输，实现超高速率、长距离通信，且抗电磁干扰能力强。它集成发射器与接收器，前者负责电转光，后者实现光转电，为现代通信提供坚实技术支撑。下图为光模块结构示意，展现其工作原理与卓越性能。

SFP与QSFP，光纤通信中两大光模块接口。SFP小巧便携，QSFP则四倍扩展。两者在尺寸、带宽及应用上各有千秋：SFP适合紧凑设计，QSFP则助力高速传输。选择适合您需求的接口，让光纤通信更高效。

SFP 通常是单传输通道（一条光纤或一对光纤）
QSFP作为多传输通道，其升级版QSFP-DD实现双倍密度，提供更高端口密度，通过8个信道显著提升性能，是高效数据传输的理想选择。

OSFP封装方式崭露头角，以其8通道数满足高带宽需求，如400Gbps和800Gbps。它专为高带宽场景设计，与SFP、QSFP接口不兼容。尺寸略大于QSFP-DD，需转换器适配。下图为适应不同传输距离（100米至10千米）的400Gbps OSFP光模块，展现了其强大的传输能力。

针对不同距离与场景，精选光模块至关重要。如图所示，Core与Spine间选用10Km的400G LR4及800G 2xLR4，Spine与Leaf间则选2Km的400G FR4，Leaf至ToR则推荐500m的400G DR。后文将详细解读网络拓扑布局，敬请期待。

光模块单价高昂，单个可达数千至数万人民币，与带宽和传输距离成正比。例如，FS热销的400Gbps光模块，带宽大、距离远，价格自然不菲。

光模块数量与GPU成正比，通常为其4-6倍，导致成本高昂。在每个Port都需要光模块的背景下，优化成本成为关键挑战。

2.4 数据中心网络（DCN）拓扑

2.4.1 基本概念

东西向流量，即数据中心内不同服务器间的相互访问流量，已成为现代数据中心的主要流量来源，占比高达70%-80%，是数据中心高效运作的关键驱动力。

2.4.2 多层 DCN 架构

多层DCN网络架构广泛应用，尤以3层DCN架构为典型。该架构基于Tree结构，专注于管理南北向流量，包含核心层、汇聚层与接入层三层，高效且灵活。

Core Layer：核心层，通常是高容量的路由器或交换机。
Aggregation Layer（又称Distribution Layer）高效连接接入层设备，提供精准的路由指引、细致的过滤功能以及灵活的流量管理工程。
接入层（Access Layer）直接连接用户设备，是用户与网络之间的桥梁，确保用户设备顺利接入网络。

该架构中，通常会假设并非所有接入设备同时以最大带宽通信，因此，常见的做法是越往上总带宽越小，比如 Access 层的总带宽是 20 Gbps，而 Distribution 层的总带宽可能只有 1 Gbps。此时，一旦出现多个设备通信带宽总和超过设计容量，比如极端情况，所有设备都以最大带宽通信，则一定会出现 blocking，延迟增加，也将导致延迟的不可预测性。以上也就是常说的 oversubscription，其中 20:1 就是相应的 oversubscription rate。

该架构设计冗余备份机制，Core与Distribution层交换机互联易形成环路。为确保稳定，需采用生成树协议（SFP）避免环路，但此举可能带来带宽冗余浪费，需精细管理优化资源利用。

2.4.3 CLOS 网络

CLOS网络，由Charles Clos于1953年首创，是一种革命性的多级交换架构，专为大型电话交换系统的连通与扩展而生。如今，其原理已广泛应用于数据中心和高性能计算领域。CLOS网络凭借多级互联结构，提供高带宽、低延迟服务，确保网络高效且可扩展，引领现代通信技术的潮流。

如下图所示，CLOS 网络通常为三级结构：

输入层（Ingress）：负责接收外部输入信号。
中间层（Middle）：负责连接输入层和输出层交换机。
输出层（Egress）：负责发送数据到最终目的地。

CLOS 网络有如下特点和优势：

非阻塞设计：CLOS网络采用无收敛结构，确保数据传输畅通无阻，有效避免交换机瓶颈引发的延迟或数据丢失，保障网络性能卓越。
CLOS网络具备卓越的可扩展性，通过层级和交换机的增加，可轻松支持更多输入输出连接，且性能无损，实现高效扩展。
冗余设计确保网络多路径通畅，即使部分交换机或连接失效，数据也能迅速转至其他路径，显著提升整体网络可靠性。

2.4.4 Fat-Tree 拓扑

Fat-Tree DCN架构，源自Charles Leiserson于1985年的创新，是高性能计算和大型数据中心中不可或缺的CLOS网络。此架构以多层交换机为核心，构建独特的树形结构，超越传统3-tier网络。Fat-Tree以其卓越的设计和性能，成为行业领先的DCN解决方案。

所有层交换机都被替换为低端交换机，成本更低。

Fat-Tree DCN 架构的目的是最大化端到端带宽，提供 1:1 的 oversubscripition ratio，也就是实现无阻塞（Non-Blocking）网络。因此，在 Fat-Tree 中，交换机的数目会比 3-Tier 多的多，一般情况 Fat-Tree 中所有交换机都有相同个数的 Port，比如 K 个，相应的称为 K-port Fat-Tree 网络拓扑。2 层 Fat-Tree 和 3 层 Fat-Tree 拓扑如下所示：

2 层 Fat-Tree 拓扑
- Spine Switch：K/2 个，对应 K*(K/2) 个 Port。
- Leaf Switch：K 个，对应 K*K 个 Port。
- 实现高达K*K/2个Server的无阻塞网络，仅需3*K/2个Network Switch，确保高效、流畅的通信体验。
3 层 Fat-Tree 拓扑
- 核心交换机（Super Spine Switch）拥有(K/2)^2台，共计K*(K/2)^2个端口，提供高效、强大的网络连通能力。
- Spine Switch拥有2*(K/2)^2个单元，支持K*2*(K/2)^2个端口，高效满足大规模网络部署需求。
- Leaf Switch高达2*(K/2)^2个，支持K*2*(K/2)^2个端口，高效扩展，满足大规模网络需求。
- 采用本方案，可实现高达K^3/4个Server的无阻塞网络，显著提升通信效率。同时，仅需5*K^2/4个Switch即可支撑整个网络架构，确保高效且稳定的数据传输。高效能设计，满足大规模网络需求。

具体的计算方式如下表所示：

PS：关于 Fat-Tree 架构与 Spine-Leaf 架构的说法各异，有说 Fat-Tree 都是 3 层的，Spine-Leaf 是 2 层的，但很多场景也会介绍 Fat-Tree 的多层级拓扑。对于 Spine-Leaf 架构，也存在 SuperSpine-Spine-Leaf 的拓扑。我们这里就不再区分，都统一为 Fat-Tree 架构。此外，即使 Fat-Tree，也有场景提到无阻塞 Fat-Tree 和有阻塞 Fat-Tree，这里如果没有特殊说明，都指无阻塞 Fat-Tree。

三、NVIDIA DGX SuperPod - A100

3.1 DGX A100 System

如图Figure 3所示，DGX A100 System（6U）展现了NVIDIA的尖端技术。详细介绍请参阅《Introduction to the NVIDIA DGX A100 System》，系统内含强大配置，为您的AI计算需求提供卓越支持。

8 个 A100 GPU，每个 GPU 600 GB/s NVLink 带宽。
搭载4.8TB/s NVSwitch带宽与640GB HBM2显存，卓越性能尽在掌握，助力您轻松应对各类计算挑战。
高效配置：8个Compute Connection（IB）搭载ConnectX-6网卡，实现8倍200Gbps总带宽，极速互联，满足高性能计算需求。
2 个 Storage Connection（IB）。
1 个 In-Band Connection（Ethernet）。
1 个 Out-Band Connection（Ethernet）。

如下图 Figure 3 所示为相应的网络接口：

8×A100配置通过6个NVSwitch实现8个GPU的全互联。重要提示：NVLink带宽以Byte为单位，而网络带宽以bit为单位。DGX A100系统机内总带宽高达4.8TB/s，而网络带宽仅为1.6Tbps，两者相差24倍。这一配置彰显了卓越的数据传输能力，为高性能计算领域树立了新标杆。

3.2 SuperPod SU

如图Figure 14所示，DGX-SuperPod-A100的核心基础单元为SuperPod SU（Scalable Unit），展示了其高效且可扩展的构建方式。

每个Compute Rack融合4台DGX A100系统，配备2个3U PDU，单Rack即拥有高达32个A100 GPU的强大算力。汇聚成超级单元（SU），其GPU总量更跃升至160个A100，展现无与伦比的计算能力，为您的数据中心注入澎湃动力。
Leaf Network Rack高效集成，包含8个1U Compute Switch与2个1U Storage Switch，配置强大，空间优化，满足多元化网络需求。
- Compute Switch搭载高性能QM8790 200 Gb/s IB交换机，提供惊人的320个端口（8*40），满足您高带宽、高效能的网络需求。
  - 通过160个光模块，ConnectX-6网卡高效连接Compute Rack，每个GPU独享200Gbps带宽，实现极速数据传输，性能卓越。
  - 其余 160 个通过光模块连接 Spine Rack。

ToR Switch（柜顶交换机）常用于充当Leaf Switch，因其与Server同柜，布线简化但或致Switch Port浪费。在有限空间的机柜中，尤其是随着GPU Server功耗上升，冷却系统面临挑战，导致GPU Server部署受限，进而减少网卡需求。这一配置策略旨在实现高效冷却与资源优化。

在工业场景中，虽然存在8*A100 System中使用较少网卡（如4x200 Gbps）的情况，导致所需端口和交换机减半，但整体网络拓扑结构相似。为简化说明，本文暂不考虑这种特殊情况。

3.3 Spine Rack

如图Figure 15所示，Spine Rack内集成20台1U的QM8790 200 Gb/s IB交换机，即Compute Switch，总计拥有800个端口（20*40）。此外，Out-of-band和In-band两种Switch并行运行，有效保障管理网络的高效与安全，实现了强大的数据交换与管理功能。

3.4 DGX SuperPod 100-node

如图Figure 4，展示了一个由100个节点构建的DGX-SuperPOD，其架构包含5个SU以及一个额外的Spine Rack，彰显强大性能与扩展性。

SU集成8个高性能Leaf Compute Switch（QM7890，200Gbps），构建高效计算网络核心。
- 每节点配备8个ConnectX-6网卡，分别直连8个Leaf Compute Switch，实现一对一GPU高效互联，确保数据传输的极致速度与稳定性。
- Leaf Compute Switch的20个Port精准对接SU内20个Node，实现一对一连接。同时，另20个Port无缝连接Spine中的20个Spine Compute Switch，构建高效的数据传输网络。精准配置，确保网络流畅无阻。
Spine Rack集成20台高性能Spine Compute Switch（QM8790，200 Gbps），构筑强大计算网络，满足高效数据传输需求。
- Spine Compute Switch的40个Port精准对接5组、每组8个的Leaf Compute Switch，构建高效、精准的计算网络，确保数据流通畅无阻。

利用先进拓扑，我们构建了无阻塞（Non-Blocking）网络，支持高达800 GPU的互联，确保任意两个GPU间畅通无阻，实现高效通信。

高效连接不同SU的GPU，通过ConnectX-6直连Leaf Switch，再经Spine Switch扩展，最终回归Leaf Switch并连接至另一ConnectX-6，形成流畅无阻的数据传输路径。
通过ConnectX-6至Leaf Switch再至ConnectX-6的链路，实现同一SU内不同Node间GPU的高效互联，确保数据传输畅通无阻。
同一个 Node 内的 GPU 可以通过 NVLink 连通。

利用QM8790实现的2级Fat-Tree无阻塞网络，支持最多800个GPU，即每个GPU配备一个200 Gbps NIC Port，总数由Port数计算得出：40*(40/2)=800。若需扩展至更多GPU，可采用3级Fat-Tree架构，支持高达16000 GPU，上限计算为：40*(40/2)*(40/2)。这一架构优化为大规模GPU集群提供了强大的网络支撑。

3.5 DGX SuperPod 140-node

在100节点系统中，Compute Switch端口满载。为满足更多GPU需求，需升级架构，将二层Switch扩展为三层，增设一层Core Compute Switch。采用QM8790 200 Gbps技术，不仅提升系统扩展性，还能确保高性能的数据传输，助力GPU资源充分利用。

如下图 Figure 4 所示为 140-node 的 SuperPod，共包含 7 个 SU，所以总共 7*8=56 个 Leaf Switch。正常来说，56 个 Leaf Switch 只需要 56 个 Spine Switch，28 个 Core Switch 即可。而实际上用了 80 个 Spine Switch，并分为 8 个 Group，每个 SG 中 10 个 Spine Switch，每个 CG 中 14 个 Core Switch。（PS：也许是因为这样可以实现对称式的 Fat-Tree 拓扑，更好管理）

每个SU的第k个Leaf Switch直连至第k个SG的10个Spine Switch，实现高效网络互联。
- 每个Leaf Switch配备2个端口，均连接至SG中的Spine Switch，总计连接数为10*2=20，确保高效数据传输与稳定网络架构。
- Spine Switch配备14个Port，实现与Leaf Switch的2倍7端口高效连接，确保数据传输畅通无阻。
Spine Switch 中奇数位置的 Switch 与 Core Switch 中奇数位置相连，偶数位置与偶数位置相连。比如 Spine Switch 1 的 14 个 Port 分别有 1 个 Port 与 Core Switch 1,3,5,...,25,27（CG1）相连；Spine Switch 2 的 14 个 Port 分别有 1 个 Port 与 Core Switch 2,3,6,...,26,28（CG2）相连。
每个核心交换机（Core Switch）均与40个脊柱交换机（Spine Switch）相连，构建高效网络架构。

高效搭建1120 GPU集群，仅需140台设备，每台配置8个GPU与1个ConnectX-6 200Gbps网卡，轻松实现高性能计算与数据处理。

3.7 Storage Rack

如图Figure 16，Storage Rack配备了4个QM8790 200 Gbps IB交换机（即Storage Switch），合计拥有160个Port（4*40），构成高效存储架构。Rack内还设有相应的存储单元，确保数据的高效管理与访问。

3.8 DGX SuperPod Storage Fabric

如图Figure 7所示，140节点的Storage Fabric架构由18个Leaf Switch构成。每SU内的Leaf Network Rack配备2个，而Storage Rack则包含4个。此外，架构中还配置了8个Spine Switch，确保了高效的网络连接与数据存储能力。

3.9 更多配置

如下图 Table 3 所示为不同 node 对应的 Compute 配置：

如下图 Table 4 所示为不同 node 对应的 Storage 配置：

四、NVIDIA DGX SuperPod - H100

4.1 DGX H100 System

DGX H100 System（6U）展示图如下，详情请参阅NVIDIA DGX H100 System介绍，内含关键配置信息，为您呈现高效能计算的未来之选。

8 个 H100 GPU，每个 GPU 900 GB/s NVLink 带宽。
900*8高达7.2TB/s的NVSwitch带宽，搭配80*8共640GB HBM3显存，性能卓越，满足高端计算需求。
采用4个OSFP端口（IB）与8个ConnectX-7网卡相连，实现高达8×400 Gbps的卓越带宽性能。
1 个 In-Band Connection（Ethernet）。

这款设备搭载8个GPU，经NVSwitch全互联，机内总带宽高达7.2TB/s，远超其3.2Tbps的网络带宽，性能差异显著，达22.5倍之差。

4.2 SuperPod SU

如图Figure 2所示，DGX-SuperPod-H100的基本构建单元为SuperPod SU（可扩展单元），展现其卓越的可扩展性和高效性。

每个Compute Rack集成4套DGX H100系统，配备3个PDU，共计搭载32个H100 GPU。扩展至一个完整的SU（Supercomputer Unit），您将拥有惊人的256个H100 GPU，展现无与伦比的计算实力。

4.3 Management Rack

H100 DGX SuperPod 配备NVIDIA Management Rack，与A100系列的Spine Rack和Storage Rack相似。如图3所示（配置因规模而异），它集成了一系列关键组件，确保系统的稳定运行和高效管理，为超级计算提供强大支持。

采用32个Leaf Compute Switch，搭载QM9700芯片，每台支持64个400Gbps端口。理论上，这些交换机可提供高达1024个400Gbps端口，其中一半用于连接node上的ConnectX-7网卡，另一半则连接16个Spine Compute Switch，实现1024 GPU的无阻塞网络架构。这一配置保证了数据传输的高效与稳定，满足大规模计算需求。
16台Spine Compute Switch均采用QM9700，完美对接32台Leaf Compute Switch的一半端口，高效连接，确保网络性能卓越。
8 个 Leaf Storage Switch，同样使用 QM9700。
4 个 Spine Storage Switch，同样使用 QM9700。

4.4 DGX SuperPod 127-node

如图Figure 5所示，DGX SuperPod由127个节点构成，包括4个SU和一个Management Rack。理论上，Management Rack能连接4个SU的128个节点。然而，由于Leaf Switch部分连接至UFM（统一织网管理器），实际节点数为127个。这一高效配置确保了资源的最优利用与管理的便捷性。

4.5 更多配置

如Table 3所示，采用QM9700 Switch的2级Fat-Tree可构建2048 GPU无阻塞网络，支持8 SU；而3级Fat-Tree则能扩展至65536 GPU无阻塞网络。尽管潜力巨大，但本研究仅配置了64 SU，即16384 GPU，展示了技术的强大扩展性和实用性。

五、业内 GPU 训练集群方案

5.1 两层 Fat-Tree 拓扑

如图展示的是典型的两层无阻塞Fat-Tree（Spine-Leaf）拓扑结构。在训练中，常见的GPU机器配置8个GPU，通过NVLink+NVSwitch实现全互联，通信带宽远超网络。业内通常将同机8个GPU的网卡分散连接至不同交换机，确保高效互通。

每个Group包含8个Leaf Switch，每台机器配备8个GPU。若Leaf交换机拥有128个Port，为实现无阻塞，64个Port将直接连接至GPU网卡。因此，每个Group总计拥有512个GPU（64*8）。Leaf Switch 1专门连接所有Node的1号GPU网卡，以此类推。这一设计特性在分布式训练策略中可发挥巨大优势，为高效计算提供坚实基础。
为达成Spine Switch与Leaf Switch的全网状连接，每个Leaf Switch需与一个Spine Switch相连，共需64个Spine Switch。同时，每个Spine Switch需连接全部128个Leaf Switch。基于这一架构，共需构建16个连接组。这一设计确保了网络的高效性与稳定性，实现了全面覆盖的连接网络。
综合以上信息，系统支持高达192个128端口的交换机，并能连接最多8192个GPU，满足大规模数据处理需求。

5.2 FS 两层 Fat-Tree 拓扑

FS上展示的两层Fat-Tree标准解决方案，采用RoCE网络强化高性能计算，其拓扑与我们所知一致，仅以64端口交换机为核心。这一配置有效保障数据处理能力，是高效计算网络的理想之选。

由于其采用的是 64 Port 400Gbps Switch，因此：

Leaf，Spine Switch 都会减半，分别为 64 和 32
支持 GPU 数减到 1/4，为 2*(64/2)*(64/2)=2048
光模块总数为Switch端口数与网卡数（GPU数）之和，计算得(64+32)×64+2048=8192，实现高效数据传输与处理能力。

5.3 三层 Fat-Tree 拓扑

星融元发布的星智AI网络解决方案，专为LLM大模型承载网设计，采用三层无阻塞Fat-Tree拓扑（SuperSpine-Spine-Leaf），其中两层Spine-Leaf构成一个Pod，实现高效、稳定的数据传输。

Spine Switch需半数Port连接SuperSpine，导致Group数减半。一Pod含64个Spine Switch，对应8个Group，进而拥有64个Leaf Switch，总计支持高达4096个GPU。这一配置高效利用资源，确保网络性能与扩展性的完美结合。
有了多个 Pod，可以进一步构建 64 个 SuperSpine Fabric，每一个 Fabric 要与不同 Pod 中的 Spine Switch 实现全互联。这里以 8 个 Pod 为例，将 8 个 Pod 里的第 i 个 Spine Switch 与 Fabric i 中的 SuperSpine Switch 实现 Full Mesh，这里有 8 个 Pod，因此一个 Fabric 中只需要 4 个 128 Port 的 SuperSpine Switch 即可。
以上配置 8 个 Pod 对应：
- 总的 GPU：4096*8=32768
- SuperSpine Switch：64*4=256
- Spine Switch：64*8=512
- Leaf Switch：64*8=512
- 总的 Switch：256+512+512=1280
- 总的光模块数：1280*128+32768=196608
实际上理论最多可以支持 128 个 Pod，对应的设备数为：
- GPU：4096*128=524288=2*(128/2)^3
- SuperSpine Switch：64*64=4096=(128/2)^2
- Spine Switch：64*128=8192=2*(128/2)^2
- Leaf Switch：64*128=8192=2*(128/2)^2

5.4 百度三层 Fat-Tree 拓扑

如下图所示为百度智能云（大规模AI 高性能网络的设计与实践）上介绍的三层 Fat-Tree 无阻塞网络。可以看出与上述介绍的稍有不同，Spine Switch 和 Leaf Switch 之间采用了分组 Full Mesh，也就是所有 Group 中的第 i 个 Leaf Switch 与 Channel i 中的 Spine Switch 实现 Full Mesh（和上面介绍的 SuperSpine 与 Spine 的连接方式类似）。然后在 SuperSpine 和 Spine 之间继续采用分组 Full Mesh。