Nvidia GPU系列产品分析

news2025/1/10 0:20:15

概述

Nvidia的GPU发展了30多年，已经逐渐形成了消费级、专业级、AI加速等不同计算任务的GPU系列。

纵观Nvidia的GPU发展历程，其不断迭代的GPU架构以及性能强劲的GPU互联技术成了Nvidia始终站在市场顶峰的决胜法宝。

当前Nvidia企业级GPU的互联架构

Nvidia企业级GPU的互联经过20年的发展，产品不断在迭代，性能越来越高，但互联架构基本万变不离其综。采用PCIe+NVLink的协议组合，两类Switch的连接拓扑（SuperChip系列除外）。
在这里插入图片描述
与传统的互联相比：

在这里插入图片描述

Nvidia GPU的两种接口：SXM和PCIe

Nvidia发布的AI计算平台（机架式服务器）有两种，一种是SXM版本（Socketed Multi-Chip Module，即链路层为NVLink版本），另一种是PCIe版本。
SXM是英伟达专为实现GPU间超高速互连而研发的一种高带宽插座式解决方案。这一独特的设计使得GPU能够无缝对接于英伟达自家的DGX和HGX系统。这种设计为每一代Nvidia GPU配备了特定的SXM插座³，确保GPU与系统间实现最该效率的连接。
pcie版本则面向传统的CPU服务器架构，GPU通过pcie switch与CPU相连，每两个GPU则通过NVLink Bridge连接，与SXM相比GPU间的通信效率较低。

DGX、HGX和EGX

DGX、HGX和EGX是Nvidia退出的三种服务器参考架构，后面常跟具体的GPU型号，比如DGX B200等等。

DGX可视为出厂预装且高度可扩展的完整服务器解决方案，包含了Nvidia的GPU、CPU、DPU产品。
多台NVIDIA 显卡可通过NVSwitch系统轻松组合，形成包含32个乃至64个节点的超级集群SuperPod，足以应对超大规模模型训练的严苛需求。
DGX分为BasePOD⁹和SuperPOD¹⁰两个系列，BasePOD是Nvidia自定义的计算系统，通过多个NVswitch将GPU连接起来，通信效率更高，而SuperPOD则类似数据中心场景，通常常用机架式的服务器连接。
如图为DGX V100平台

HGX则属于原始设备制造商(OEM)定制整机方案，包含了CPU和GPU。

EGX则用在边缘端，包含了CPU和GPU，但相比HGX规模更小。

每代GPU产品的芯片架构

Nvidia的GPU从2006年到2024年开始依次Tesla → Fermi → Kepler → Maxwell → Pascal → Volta → Turing → Ampere → Hopper → Blackwell的架构演进。
截止Ampere架构的详细说明请参考此文⁸。
在这里插入图片描述

消费级GPU

主要包括GeForce系列（G系列），面向桌面端的游戏玩家或普通用户

专用型GPU

主要包括Quadro系列（P系列），面向计算机辅助设计、动画制作、虚拟显示领域

企业级GPU

包括Tesla系列等，主要面向高性能计算、机器学习等任务。

B100

2024年GTC上发布，具体参数如下，用在HGX B100计算系统中
在这里插入图片描述

B200

2024年GTC上发布，该芯片采用Blackwell架构，具有 2080 亿个晶体管，采用专门定制的台积电 4NP 工艺制造。所有 Blackwell 产品均采用双倍光刻极限尺寸的裸片，通过 10 TB/s 的chiplet互联技术 NV-HBI连接成一块统一的 GPU。
B200可以支持多达 10 万亿个参数的 AI 模型，而 OpenAI 的 GPT-3 由 1750 亿个参数组成。它还通过单个 GPU 提供 20 petaflops 的 AI 性能——单个 H100 最多可提供 4 petaflops 的 AI 计算。

2x GPU die + 8x HBM3e
通过HBM 单芯片内存可达192GB
D2D接口：NV-HBI（高带宽接口）带宽：10 TB/s
功耗：1000W
NVlink5 带宽：1800 GB/s
PCIe 6.0 带宽：256 GB/s

在这里插入图片描述

超级芯片（Superchip）

超级芯片是由Nvidia的CPU和GPU通过NVLink协议在板级上封装起来的集成系统。Grace是Nvidia基于Arm架构研发的CPU。

Grace Hopper（GH100）

2022年春季，Nvidia发布了Grace Hopper GPU平台。Grace Hopper平台实际上是由Grace CPU和Hopper GPU通过NVLink C2C技术连接的超级芯片（Superchip）⁴。
在这里插入图片描述

Grace blackwell（GB200）

2024年3月GTC 2024会议上，Nvidia发布了Grace blackwell GPU平台，该平台是由Grace CPU和Blackwell架构的GPU通过NVlink-C2C构成的superchip。相比于前一代的一对一连接，GB改成了一对二连接。

chip-to-chip接口：NVlink C2C技术 900GB/s
功率：2700W

AI计算平台

同样是CPU+GPU的加速平台，与GH和GB等系列不同的，BasePOD的CPU通常是Intel的志强系列。

DGX A100 BasePOD

在这里插入图片描述

DGX H100 BasePOD

DGX H100是用于训练、推理和分析的高性能AI计算系统。组件包括BlueField-3 DPU、DNR InfiniBand、第二代MIG技术以及H100 GPU。

8个H100 GPU
2个56 core的intel Xeon处理器
16 petaFLOPS@FP16

DGX B200 BasePOD

2024年3月，Nvidia发布了其最新的用于AI运算的统一平台 DGX^TM B200，相比上一代提升了3倍的训练性能和15倍的推理性能，可以处理不同的工作负载，包括大语言模型、推荐系统（recommender system）和对话机器人（chatbots）等。

8个 B200 张量核GPU，每个GPU采用Blackwell GPU架构
1440 GB GPU内存
两个 Intel® Xeon® Platinum 8570 CPU
系统内存 4TB
72 petaFLOPS training and 144 petaFLOPS inference
第5代NVlink
功耗~14.3kW max
10个rack单元

Hopper DGX SuperPOD

Hopper架构的DGX SuperPOD推测是由basePOD组成的集群系统（官网并没有明说，根据数据手册的图片推测）。

第4代NVLink技术 + 第3代NVSwitch
最多连接256个H100

在这里插入图片描述

Blackwell DGX SuperPOD

GTC2024公布的基于Blackwell架构的数据中心。与上一代Hopper架构的SuperPOD不同，Blackwell架构的SuperPOD的基本节点不再是BasePOD，而是1U大小的Blackwell计算节点，该节点由Grace Blackwell、NVswitch、DPU等设备组成，集成度相比BasePOD更高。

下图是GTC2024黄仁勋主题演讲的截图，由于产品尚未完全发布，不排除也会由DGX B200 BasePOD系统组成的SuperPOD。

第5代NVLink技术 + 第5代NVSwitch
最多连接576个GB

SuperPOD集群如图所示：
在这里插入图片描述

多台NVL72构成超算集群

2块GB200构成一个blackwell计算节点。
在这里插入图片描述

18个Blackwell计算节点构成一个Rack，即一个GB200计算节点。如图所示，图中显示27个Blackwell节点，猜测有可能分水冷和风冷，水冷节点数可能多一点。
在这里插入图片描述
一个rack再包含光量子infiniband路由器可构成GB200 NVL72平台。

在这里插入图片描述
通过Quantum-X800 infiniband或者spectrum-X800网络交换机连接racks， 8台NVL72构成rack集群

单计算节点组成

infiniband 网卡

每个计算节点配备了connectx-800G infiniband supernic，工业级的先进的GPU RDMA，且可编程配置
在这里插入图片描述

Bluefield-3 DPU

强大的基础设施处理器，能够实现网络内计算
在这里插入图片描述

NVLink switch

用于连接一个GB计算节点上的4个GPU，构成网络。
在这里插入图片描述

互联技术

NVLink和NVSwitch

NVLink是NVIDIA推出的一种高速的GPU到GPU的互联接口协议；
NVSwitch是将多条NVLink整合，在单个节点内以NVLink的速度实现多对多的GPU通信的芯片。
二者类似PCIe技术和PCIe switch的关系，但与传统的 PCIe 系统解决方案相比，NVLink能为多 GPU 系统提供更快速的替代方案。
如图所示是NVIDIA发布的几代NVLink信息⁷：
在这里插入图片描述

NVLink C2C

将NVLink技术延申到芯片到芯片，将Nvidia的GPU、DPU和CPU一致性的互连起来。
基于世界领先的Serdes链路技术，通过先进封装，NVLink-C2C相比GPU上的PCIe5.0 PHY有25倍的能效提升和90倍的面积效率提升。与传统的SerDes互联相比，NVLink C2C采用了高密度单端架构和NRZ调制。