NVIDIA DGX 互联结构
NVIDIA DGX 是Nvidia 推出的turnkey 解决方案,其中按照组合关系:
- DGX GB200 System: NVL72
- 36 Nvidia Grace CPU
- 72 BlackWell GPU
- 每台机柜包含18 个GB200 计算节点,每个节点包含2 个GB200s
- 9 个NVSwitches Tray 节点,每个2 颗 NVSwitch 芯片
- 节点间使用nvlink 进行互联,互联线缆使用铜(Cooper),不需要光收发器(铜进光退)
1.4 exaFLOPS of AI performance, 30 terabytes (TB) of fast memory, and 130 terabytes per second (TB/s) of bidirectional GPU bandwidth.
下图为1U 高度的NVL72 单节点实物形态,其中每个节点包含两组GB200s 系统,整合水冷散热。
![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/987b768da14344eab5fc9201aecc41ed.png
实物NVL72 机柜
![实物NVL72 机柜](https://img-blog.csdnimg.cn/direct/5398d8a1102a4a35acec66e85dc9e4d8.png
- DGX SuperPOD™:最多576 组DGX GB200 系统组成超级pod
- DGX GB200 BasePod
Rank 之间的互联通过 Infiniband
Rank 内的互联通 Nvlink
NVidia发布了GB200 NVL72 解决方案架构, 我们以公开的资料进一步探讨下NV的DGX 内部互联结构.
![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/c1fe6b6b88ba4226a0dfae63dd771c5f.png
DGX 软件架构
作为TurnKey 解决方案, DGX 具备完备的软件栈, 实现开箱即用的交付.