Nvidia GPU系列产品分析

news2025/1/10 0:20:15

概述

Nvidia的GPU发展了30多年,已经逐渐形成了消费级、专业级、AI加速等不同计算任务的GPU系列。

纵观Nvidia的GPU发展历程,其不断迭代的GPU架构以及性能强劲的GPU互联技术成了Nvidia始终站在市场顶峰的决胜法宝。

当前Nvidia企业级GPU的互联架构

Nvidia企业级GPU的互联经过20年的发展,产品不断在迭代,性能越来越高,但互联架构基本万变不离其综。采用PCIe+NVLink的协议组合,两类Switch的连接拓扑(SuperChip系列除外)。
在这里插入图片描述
与传统的互联相比:

在这里插入图片描述

Nvidia GPU的两种接口:SXM和PCIe

Nvidia发布的AI计算平台(机架式服务器)有两种,一种是SXM版本(Socketed Multi-Chip Module,即链路层为NVLink版本),另一种是PCIe版本。
SXM是英伟达专为实现GPU间超高速互连而研发的一种高带宽插座式解决方案。这一独特的设计使得GPU能够无缝对接于英伟达自家的DGX和HGX系统。这种设计为每一代Nvidia GPU配备了特定的SXM插座3,确保GPU与系统间实现最该效率的连接。
pcie版本则面向传统的CPU服务器架构,GPU通过pcie switch与CPU相连,每两个GPU则通过NVLink Bridge连接,与SXM相比GPU间的通信效率较低。

DGX、HGX和EGX

DGX、HGX和EGX是Nvidia退出的三种服务器参考架构,后面常跟具体的GPU型号,比如DGX B200等等。

DGX可视为出厂预装且高度可扩展的完整服务器解决方案,包含了Nvidia的GPU、CPU、DPU产品。
多台NVIDIA 显卡可通过NVSwitch系统轻松组合,形成包含32个乃至64个节点的超级集群SuperPod,足以应对超大规模模型训练的严苛需求。
DGX分为BasePOD9和SuperPOD10两个系列,BasePOD是Nvidia自定义的计算系统,通过多个NVswitch将GPU连接起来,通信效率更高,而SuperPOD则类似数据中心场景,通常常用机架式的服务器连接。
如图为DGX V100平台

HGX则属于原始设备制造商(OEM)定制整机方案,包含了CPU和GPU。

EGX则用在边缘端,包含了CPU和GPU,但相比HGX规模更小。

每代GPU产品的芯片架构

Nvidia的GPU从2006年到2024年开始依次Tesla → Fermi → Kepler → Maxwell → Pascal → Volta → Turing → Ampere → Hopper → Blackwell的架构演进。
截止Ampere架构的详细说明请参考此文8
在这里插入图片描述

消费级GPU

主要包括GeForce系列(G系列),面向桌面端的游戏玩家或普通用户

专用型GPU

主要包括Quadro系列(P系列),面向计算机辅助设计、动画制作、虚拟显示领域

企业级GPU

包括Tesla系列等,主要面向高性能计算、机器学习等任务。

B100

2024年GTC上发布,具体参数如下,用在HGX B100计算系统中
在这里插入图片描述

B200

2024年GTC上发布,该芯片采用Blackwell架构,具有 2080 亿个晶体管,采用专门定制的台积电 4NP 工艺制造。所有 Blackwell 产品均采用双倍光刻极限尺寸的裸片,通过 10 TB/s 的chiplet互联技术 NV-HBI连接成一块统一的 GPU。
B200可以支持多达 10 万亿个参数的 AI 模型,而 OpenAI 的 GPT-3 由 1750 亿个参数组成。它还通过单个 GPU 提供 20 petaflops 的 AI 性能——单个 H100 最多可提供 4 petaflops 的 AI 计算。

  • 2x GPU die + 8x HBM3e
  • 通过HBM 单芯片内存可达192GB
  • D2D接口:NV-HBI(高带宽接口) 带宽:10 TB/s
  • 功耗:1000W
  • NVlink5 带宽:1800 GB/s
  • PCIe 6.0 带宽:256 GB/s

在这里插入图片描述

超级芯片(Superchip)

超级芯片是由Nvidia的CPU和GPU通过NVLink协议在板级上封装起来的集成系统。Grace是Nvidia基于Arm架构研发的CPU。

Grace Hopper(GH100)

2022年春季,Nvidia发布了Grace Hopper GPU平台。Grace Hopper平台实际上是由Grace CPU和Hopper GPU通过NVLink C2C技术连接的超级芯片(Superchip)4
在这里插入图片描述

Grace blackwell(GB200)

2024年3月GTC 2024会议上,Nvidia发布了Grace blackwell GPU平台,该平台是由Grace CPU和Blackwell架构的GPU通过NVlink-C2C构成的superchip。相比于前一代的一对一连接,GB改成了一对二连接。

  • chip-to-chip接口:NVlink C2C技术 900GB/s
  • 功率:2700W
    在这里插入图片描述

AI计算平台

同样是CPU+GPU的加速平台,与GH和GB等系列不同的,BasePOD的CPU通常是Intel的志强系列。

DGX A100 BasePOD

在这里插入图片描述

DGX H100 BasePOD

DGX H100是用于训练、推理和分析的高性能AI计算系统。组件包括BlueField-3 DPU、DNR InfiniBand、第二代MIG技术以及H100 GPU。

  • 8个H100 GPU
  • 2个56 core的intel Xeon处理器
  • 16 petaFLOPS@FP16
    在这里插入图片描述
    在这里插入图片描述

DGX B200 BasePOD

2024年3月,Nvidia发布了其最新的用于AI运算的统一平台 DGXTM B200,相比上一代提升了3倍的训练性能和15倍的推理性能,可以处理不同的工作负载,包括大语言模型、推荐系统(recommender system)和对话机器人(chatbots)等。

  • 8个 B200 张量核GPU,每个GPU采用Blackwell GPU架构
  • 1440 GB GPU内存
  • 两个 Intel® Xeon® Platinum 8570 CPU
  • 系统内存 4TB
  • 72 petaFLOPS training and 144 petaFLOPS inference
  • 第5代NVlink
  • 功耗~14.3kW max
  • 10个rack单元
    在这里插入图片描述

Hopper DGX SuperPOD

Hopper架构的DGX SuperPOD推测是由basePOD组成的集群系统(官网并没有明说,根据数据手册的图片推测)。

  • 第4代NVLink技术 + 第3代NVSwitch
  • 最多连接256个H100

在这里插入图片描述

Blackwell DGX SuperPOD

GTC2024公布的基于Blackwell架构的数据中心。与上一代Hopper架构的SuperPOD不同,Blackwell架构的SuperPOD的基本节点不再是BasePOD,而是1U大小的Blackwell计算节点,该节点由Grace Blackwell、NVswitch、DPU等设备组成,集成度相比BasePOD更高。

下图是GTC2024黄仁勋主题演讲的截图,由于产品尚未完全发布,不排除也会由DGX B200 BasePOD系统组成的SuperPOD。

  • 第5代NVLink技术 + 第5代NVSwitch
  • 最多连接576个GB

SuperPOD集群如图所示:
在这里插入图片描述

多台NVL72构成超算集群

2块GB200构成一个blackwell计算节点。
在这里插入图片描述

18个Blackwell计算节点构成一个Rack,即一个GB200计算节点。如图所示,图中显示27个Blackwell节点,猜测有可能分水冷和风冷,水冷节点数可能多一点。
在这里插入图片描述
一个rack再包含光量子infiniband路由器可构成GB200 NVL72平台。
在这里插入图片描述

在这里插入图片描述
通过Quantum-X800 infiniband或者spectrum-X800网络交换机连接racks, 8台NVL72构成rack集群
在这里插入图片描述

单计算节点组成

infiniband 网卡

每个计算节点配备了connectx-800G infiniband supernic,工业级的先进的GPU RDMA,且可编程配置
在这里插入图片描述

Bluefield-3 DPU

强大的基础设施处理器,能够实现网络内计算
在这里插入图片描述

NVLink switch

用于连接一个GB计算节点上的4个GPU,构成网络。
在这里插入图片描述

互联技术

NVLink和NVSwitch

NVLink是NVIDIA推出的一种高速的GPU到GPU的互联接口协议;
NVSwitch是将多条NVLink整合,在单个节点内以NVLink的速度实现多对多的GPU通信的芯片。
二者类似PCIe技术和PCIe switch的关系,但与传统的 PCIe 系统解决方案相比,NVLink能为多 GPU 系统提供更快速的替代方案。
如图所示是NVIDIA发布的几代NVLink信息7
在这里插入图片描述
在这里插入图片描述

NVLink C2C

将NVLink技术延申到芯片到芯片,将Nvidia的GPU、DPU和CPU一致性的互连起来。
基于世界领先的Serdes链路技术,通过先进封装,NVLink-C2C相比GPU上的PCIe5.0 PHY有25倍的能效提升和90倍的面积效率提升。与传统的SerDes互联相比,NVLink C2C采用了高密度单端架构和NRZ调制。

  • 支持AMBA CHI协议
  • 互联带宽为900GB/s
  • 40Gbps NRZ调制,BER<1e-12
  • 免除FEC,接口时延可以做到小于5ns

软件

参考文献

  1. Nvidia官网:DGX B200
  2. Nvidia官网:NVLink-C2C
  3. 智能计算芯世界:英伟达AI服务器NVLink版与PCIe版的差异与选择
  4. Nvidia官网:H100白皮书
  5. Nvidia官网:Blackwell 架构
  6. 极客湾:英伟达官宣全球最强AI芯片:性能提升 30 倍,并将重新设计整个底层软件堆栈
  7. NVIDIA官网:NVlink和NVswitch
  8. Will Zhang知乎:英伟达GPU架构演进近十年,从费米到安培
  9. NVIDIA官网:DGX BasePOD
  10. NVIDIA官网:DGX SuperPOD
  11. 不糊弄的说微信:NVIDIA Blackwell架构和实现详解

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1542798.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Netty学习——源码篇5 EventLoop

1 Reactor线程模型 Reactor线程模型 中对Reactor的三种线程模型——单线程模型、多线程模型、主从多线程模型做了介绍&#xff0c;这里具体分析Reactor在Netty中的应用。 1.1单线程模型 单线程模型处理流程如下图&#xff1a; 单线程模型&#xff0c;即Accept的处理和Handler…

【数据结构】链表习题之环形链表的约瑟夫问题

&#x1f451;个人主页&#xff1a;啊Q闻 &#x1f387;收录专栏&#xff1a;《数据结构》 &#x1f389;道阻且长&#xff0c;行则将至 前言 今天这道题目时牛客上的题目&#xff0c;名为环形链表的约瑟夫问题&#xff0c;很有趣的的一道题目 环形链表的约瑟…

图文详解电容的9大功能

电容是电路设计中最为普通常用的器件&#xff0c;也常常在高速电路中扮演重要角色。 电容的用途非常多&#xff0c;主要有如下几种&#xff1a; 1. 隔直流&#xff1a; 作用是阻止直流通过而让交流通过。 2. 旁路&#xff08;去耦&#xff09;&#xff1a; 为交流电路中某…

干货详解如何通过代理IP使用 Puppeteer?

Puppeteer 在全球拥有数百万用户&#xff0c;堪称最流行的无头浏览器之一。对于任何与自动浏览相关的任务来说&#xff0c;该工具都是不可或缺的。在接下来的段落中&#xff0c;我们将了解如何在 Puppeteer 中使用代理以及在设置过程中使用哪些技巧。 一、Puppeteer中的代理IP是…

【数据结构】带头双向链表的实现

&#x1f451;个人主页&#xff1a;啊Q闻 &#x1f387;收录专栏&#xff1a;《数据结构》 &#x1f389;道阻且长&#xff0c;行则将至 前言 带头双向链表是链表的一种&#xff0c;相较于单链表的实现&#xff0c;其更为简单 一.初识带头双向循环链表 带头…

宁波ISO14068碳中和,ISO14068认证,ISO14068辅导

ISO 14068是国际标准化组织&#xff08;ISO&#xff09;&#x1f4dd;发布的关于碳中和的标准✒️&#xff0c;也被称为“碳中和国际标准”。该标准&#x1f9f0;定义了碳中和的&#x1f4f1;概念&#xff0c;包括组织或产品&#x1f460;通过自身减排、边界内&#x1fae7;碳清…

力扣-20 有效的括号详解 Java

目录 1.题目分析 2.基础知识储备 2.1 哈希表 2.2 栈的存取 3. 逻辑概要 4.源码 示例 1.题目分析 为了对比都是从内而外&#xff0c;一个个匹配&#xff0c;全部匹配成功即为有效字符 2.基础知识储备 2.1 哈希表 简单来说&#xff0c;keyvalue存储 &#xff0c;通过key…

探索LLaMA模型:架构创新与Transformer模型的进化之路

引言 在人工智能和自然语言处理领域&#xff0c;预训练语言模型的发展一直在引领着前沿科技的进步。Meta AI&#xff08;前身为Facebook&#xff09;在2023年2月推出的LLaMA&#xff08;Large Language Model Meta AI&#xff09;模型引起了广泛关注。LLaMA模型以其独特的架构…

【微服务】Spring Boot 版本升级到 2.7.18

前言 目前项目上扫描出一些 Java 依赖的代码漏洞&#xff0c;需要对现有依赖版本升级&#xff0c;记录一下遇到的问题。 <spring-boot.version>2.3.2.RELEASE</spring-boot.version> <spring-cloud.version>Hoxton.SR9</spring-cloud.version> <s…

饼图渲染的关键

1) 创建一个DOM对象,有自定义的高和宽. 2) 引入Echarts软件包并导入到对应文件内 npm i Echarts import 文件.js script src.../文件 3) 初始化一个对象 4) 对象的方法实现饼图渲染 data内的数据,且当一个对象已经渲染一遍,再执行这个,会对setOption的参数进行更新,其…

ctfshow web入门 反序列化

254 分析代码&#xff1a; 如果用户名和密码参数都存在&#xff0c;脚本会创建一个 ctfShowUser 类的实例 $user。 接着&#xff0c;调用 $user->login($username, $password) 方法尝试登录。如果登录成功&#xff08;即用户名和密码与类中的默认值匹配&#xff09;&#…

MyBatis 入门笔记

课程地址 Mybatis 是一个优秀的持久层框架&#xff0c;用于简化 JDBC 操作 快速入门 POJO Plain Old Java Object 建表 create database mybatis; use mybatis; drop table if exists tb_user;create table tb_user(id int primary key auto_increment,username varchar(2…

万里牛和金蝶云星空接口打通对接实战

万里牛和金蝶云星空接口打通对接实战 源系统:万里牛 万里牛作为行业领先的全渠道零售云服务商&#xff0c;成立于2011年&#xff0c;核心成员来自于阿里巴巴、信雅达等知名企业&#xff0c;是业内最早的SaaSERP服务商&#xff0c;致力于为企业提供全渠道零售一站式解决方案。万…

Gemma开源AI指南

近几个月来&#xff0c;谷歌推出了 Gemini 模型&#xff0c;在人工智能领域掀起了波澜。 现在&#xff0c;谷歌推出了 Gemma&#xff0c;再次引领创新潮流&#xff0c;这是向开源人工智能世界的一次变革性飞跃。 与前代产品不同&#xff0c;Gemma 是一款轻量级、小型模型&…

Web安全基础入门+信息收集篇

教程介绍 学习信息收集&#xff0c;针对域名信息,解析信息,网站信息,服务器信息等&#xff1b;学习端口扫描&#xff0c;针对端口进行服务探针,理解服务及端口对应关系&#xff1b;学习WEB扫描&#xff0c;主要针对敏感文件,安全漏洞,子域名信息等&#xff1b;学习信息收集方法…

AIGC、3D模型、轻量化、格式转换、可视化、数字孪生引擎...

老子云3D可视化快速开发平台&#xff0c;集云压缩、云烘焙、云存储云展示于一体&#xff0c;使3D模型资源自动输出至移动端PC端、Web端&#xff0c;能在多设备、全平台进行展示和交互&#xff0c;是全球领先、自主可控的自动化3D云引擎。 平台架构 平台特性 基于 HTML5 和 Web…

踏青智能伙伴,尽享户外乐趣

春风拂面&#xff0c;花香四溢&#xff0c;正是踏青赏花的好时节。想要尽情享受户外的美好时光吗&#xff1f;华为手环8将是你户外的好搭子&#xff01;它不仅拥有精准的天气预报功能&#xff0c;还能播放你喜爱的音乐&#xff0c;记录户外步行轨迹&#xff0c;并实现遥控拍照&…

[深度学习]yolov8+pyqt5搭建精美界面GUI设计源码实现一

【简单介绍】 基于YOLOv8与PyQt5的精美界面GUI设计&#xff0c;旨在为用户提供一个直观、易用且功能强大的目标检测平台。通过结合YOLOv8的先进目标检测能力与PyQt5的丰富界面设计元素&#xff0c;我们打造了一款高效、稳定的软件产品。 在界面设计上&#xff0c;我们注重用户…

【机器学习】基于北方苍鹰算法优化的BP神经网络分类预测(NGO-BP)

目录 1.原理与思路2.设计与实现3.结果预测4.代码获取 1.原理与思路 【智能算法应用】智能算法优化BP神经网络思路【智能算法】北方苍鹰优化算法&#xff08;NGO)原理及实现 2.设计与实现 数据集&#xff1a; 数据集样本总数2000 多输入单输出&#xff1a;样本特征24&#x…

语音转文字——sherpa ncnn语音识别离线部署C++实现

简介 Sherpa是一个中文语音识别的项目&#xff0c;使用了PyTorch 进行语音识别模型的训练&#xff0c;然后训练好的模型导出成 torchscript 格式&#xff0c;以便在 C 环境中进行推理。尽管 PyTorch 在 CPU 和 GPU 上有良好的支持&#xff0c;但它可能对资源的要求较高&#x…