NVIDIA GH200 超级芯片:重塑超算性能与AI基准的革新之作

news2024/12/26 23:08:06

Nvidia 正在将其 GH200 芯片应用于欧洲超级计算机,研究人员正在着手研究这些系统并发布带有性能基准的研究论文。
在这里插入图片描述
在第一篇论文《理解紧密耦合异构系统中的数据移动:以 Grace Hopper 超级芯片为例》中,研究人员对 GH200 的各种应用进行了基准测试,该芯片集成了 CPU 和 GPU。这些数字突显了该芯片的惊人速度以及 AI 和科学应用程序性能如何从本地化的 HBM3 和 DDR5 内存中受益。

Alps 系统的一项基准测试(仍在升级)用于测量 GH200 运行 AI 应用程序时的性能。

另一篇论文《使用百亿亿次气候模拟器提高地球系统模型输出并节省 PB 级存储空间》测量了 Frontier 中 GH200 到 AMD MI250X 的大型集群、Leonardo 中的 Nvidia A100 以及 Summit 中的 Nvidia V100 的性能。这些系统曾位居 Top500 排行榜榜首,现在已进入前十。

GH200 将 Nvidia 专有的 72 个 ARM Neoverse V2 CPU 核心与 132 个 GPU 流处理器直接连接起来。CPU 和 GPU 通过 NVLink-C2C 互连进行通信,该互连以 900GB/秒的速度双向运行。它还具有 96GB 的 HBM3 并汇集了不同类型的 CPU 和 GPU 内存。
在这里插入图片描述

非正式 GH200 分析

研究人员获得了正在升级的阿尔卑斯超级计算机中 GH200 芯片的一个分区,并在 CUDA 12.3 软件堆栈上测量了 AI 基准。阿尔卑斯超级计算机位于瑞士国家超级计算中心。

Alps 是首批使用 GH200 的超级计算机之一,其名为“preAlps”的优化子系统在 Green500 榜单上排名第五。它基于 HPE 的 Slingshot 互连,而不是 Nvidia 的专有网络接口。

研究人员测试了四核 GH200 节点。研究人员表示,统一内存池“为扩展具有大内存占用的应用程序开辟了新的可能性,这些内存占用超出了单个 GPU 或 CPU 直接可用的内存”。

每个节点有 288 个 CPU 核心和四个 Hopper GPU。最终的四核配置总内存为 896GB,每个 Superchip 包括 96GB HBM3 和 128GB LPDDR5 内存。每个节点包含四个 GH200 Superchip,通过 HPE Slingshot 11 连接,每个节点的速度为 800 Gb/s。
在这里插入图片描述
研究人员测量了在统一内存池中将数据存储在 HBM3 或 LPDDR5 中时的各种读取、写入和性能指标。在运行工作负载时,数据会暂时存储在内存中,HBM3 的速度明显快于 LPDDR5。

研究人员测量了基于 GEMM 算法的 AI 性能,该算法利用 GPU 中以 AI 为中心的 Tensor Core。

超级芯片在 HBM3 上的性能为 612 teraflops,DDR 为 59.2 teraflops。FP32 在 HBM3 上的性能为 51.9 teraflops,在 DDR5 上的性能更差,为 22.9 teraflops。在 FP64 上,HBM3 上的性能为 58.4 teraflops,在 DDR 内存上的性能为 13.2 teraflops。

使用 HBM3 内存时,LLM 推理时间也快得多。总而言之,在具有 130 亿个参数的 Llama-2 模型上,100 个 token 的推理速度比 DDR 内存快四倍。使用 Llama-2 70 亿个参数模型时,它大约快两倍。
在这里插入图片描述
对于不同的模型,使用不同的物理内存分配,Llama-2 LLM 100 个 token 的推理时间越短越好。(来源:参考论文)

其他重要发现:Hopper GPU 使用 DDR 时读取速度为 420.2 GB/s,写入速度为 380.1 GB/s,使用 HBM3 时读取速度为 3795.9 GB/s,写入速度为 3712.1 GB/s。

Hopper GPU 的 HBM 内存延迟为 344.2 纳秒,DDR 内存延迟为 817.8 纳秒。

研究人员还对 Grace CPU 进行了读写和内存延迟测试。他们还公布了 CPU 和 GPU 的复制性能。研究人员来自苏黎世联邦理工学院和 Nvidia。

研究人员总结道:“我们认为,尽管 Quad GH200 节点的内存系统非常复杂,但从单个互连的超级芯片的角度来看待该系统对于实现良好的性能至关重要。”

研究人员表示,Nvlink-C2C 互连“为开发混合 CPU 和 GPU 计算的异构应用程序开辟了可能性”。

与 MI250X 和 A100 的比较

研究人员还在阿尔卑斯山的 GH200 集群、Frontier 的 MI250X、Leonardo 的 Nvidia A100 和 Summit 的 Nvidia V100 上运行了气候模拟器应用程序。这些芯片曾位居 Top500 排行榜前列或前 10 名。

这两种比较并不完全是同类比较,尤其是 GH200 与 Nvidia A100 和 V100 的比较,因为它们不包括集成 CPU。

然而,混合精度性能数字(包括双精度和半精度测量)提供了 HPC 爱好者所关心的内容的快照,即这些系统在混合科学和 AI 模拟时提供更整体性能的全景视图。

数据显示,GH200 显著改善了气候模拟应用和数据。地球模拟模型对超级计算系统要求很高,因此非常适合测量 GPU 性能。

Alps 集群拥有 4,096 个 GPU,问题规模为 1040 万,最高可达每秒 3.842 亿亿次浮点运算,每个 GPU 最高可达每秒 93.8 万亿次浮点运算。

Frontier 中的 MIX250X 拥有 4,096 个 GPU,问题规模为 839 万,基准测试结果为 223.7 petaflops,每个 GPU 为 54.6 teraflops。

莱昂纳多超级计算机中的 Nvidia A100 拥有 4,096 个 GPU,问题规模为 839 万,基准测试速度为 243.1 petaflops,每个 GPU 为 57.2 teraflops。

Leonardo 拥有 3,456 个节点,每个节点配备四块 Nvidia A100 64GB GPU,理论双精度峰值性能为 306.31 petaflops。

Summit 中的 V100 拥有 6,144 个 GPU,问题规模为 629 万,总体性能为 153.6 千万亿次浮点运算,每个 GPU 的性能为 25 万亿次浮点运算。Summit 即将退役。
在这里插入图片描述
在四个系统的 1,024 个节点上,混合精度 Cholesky 的双精度/半精度模式性能结果摘要(单位:PFlop/s)。(来源:参考论文)

基准测试中使用的气候模拟器基于 35 年来 3180 亿个每小时温度数据点和 83 年前全球模拟的 310 亿个每日数据点进行训练。

研究人员声称,他们的气候模拟器(作为其他系统的补充)可以从高性能系统中获得更高的性能,在 Frontier(拥有 9,472 个节点)的 9,025 个节点上可提供高达 0.976 exaflops 的性能。

该模拟器还可以为与气候相关的数据密集型模拟带来成本和性能效率。其他模拟器会生成大量 PB 数据,因此存储成本高昂,并限制了计算能力。

例如,美国国家大气研究中心的 CMIP6 模拟了 37,000 年的气候数据(由各种情景生成),消耗了 1.9 亿个 CPU 小时和 2PB 的后处理时间序列数据。

“NCAR 的数据管理成本每年约为每 TB 45 美元。这给需要 PB 级存储的项目带来了巨大的财务负担,并可能限制科学目标,”研究人员表示。

该论文的作者是 NCAR、阿卜杜拉国王科技大学 (KAUST)、圣路易斯大学和圣母大学的研究人员。研究人员还与 Nvidia 和田纳西大学有联系。

来源:内容来自hpcwire,谢谢。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2120185.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue2关闭eslint

vue2关闭eslint 1、找到项目build目录下的webpack.base.conf.js文件 2、注释createLintingRule()里面的内容(只注释里面的内容) 3、重启项目即可

自己动手实现mybatis的底层框架(不用动态代理直接用执行器、用动态代理自己实现。图文分析!)

目录 一.原生mybits框架图分析 自己实现Mybatis框架的分析 两种框架操作数据库的方法: 二.搭建开发环境 1.先创建一个maven项目 2.加入依赖(mysql dom4j junit lombok) 三.mybatis框架的设计思路 具体实现过程 3.1实现任务阶段 1- 完成读取配置文件&#x…

基于 TiDB 资源管控 + TiCDC 实现多业务融合容灾测试

导读 随着金融行业的不断发展,多个业务系统的整合成为了趋势,分布式数据库的应用也愈发广泛。为了应对多业务融合带来的复杂性,金融机构需要在保障各业务系统高效运行的同时,确保 IT 系统的高可用性和稳定性。本文将介绍 TiDB 如…

多输入多输出 | Matlab实现DBO-BP蜣螂算法优化BP神经网络多输入多输出预测

多输入多输出 | Matlab实现DBO-BP蜣螂算法优化BP神经网络多输入多输出预测 目录 多输入多输出 | Matlab实现DBO-BP蜣螂算法优化BP神经网络多输入多输出预测预测效果基本介绍程序设计往期精彩参考资料 预测效果 基本介绍 多输入多输出 | Matlab实现DBO-BP蜣螂算法优化BP神经网络…

如何选择合适的数据报表工具?

在企业的日常运营中,数据报表如同企业的“仪表盘”,为管理者提供了关键的业务信息。无论是销售数据、财务状况还是生产进度,都需要通过数据报表进行清晰的呈现。同时,随着企业对数据可视化的需求不断增加,数据看板和数…

Numba最近邻插值(CPU+ GPU + Z轴切块 + XYZ轴切块 + 多线程)

文章目录 最近邻插值(加速方法)(1)scipy.ndimage.zoom(2)Numba-CPU加速(3)Numba-GPU加速(4)Numba-CPU加速(Z轴切块)(5&…

docker运行springboot项目

博客中若有侵权或者错误的地方,请及时告知,感谢。 1. 背景 在开发中使用k8s部署,日常也只是写个dockerFile, 没有想过整个部署流程是怎样的。今天我们自己部署docker镜像。 2.实战 2.1 建立springboot项目 (1) JAVA项目打包 (解决no mai…

Minio笔记-Centos搭建Minio

下载 Minio wget https://dl.min.io/server/minio/release/linux-amd64/minio 赋予执行权限 chmod x minio 创建存储目录 mkdir /data 运行 Minio ./minio server /data 默认端口为9000 访问 Minio 控制台:在浏览器中输入 http://your-server-ip:9000 默认…

FPGA Prototyping vs Emulation

FPGA Prototyping vs. Emulation One way to visualize the difference between Prototyping and Emulation is with a “spider chart” (named for its resemblance to a spider’s web). The Prototyping vs. Emulation spider chart below highlights the differences bet…

斐纳切数列考试题

计算机二级考试有一道题 result [] a,b0,1 while a<100:print(a,end,) a, b b, ab # 0,1,1,2,3,5,8,13,21,34,55,89,

LLM - 理解 多模态大语言模型 (MLLM) 的发展与相关技术 (二)

欢迎关注我的CSDN&#xff1a;https://spike.blog.csdn.net/ 本文地址&#xff1a;https://spike.blog.csdn.net/article/details/142063880 免责声明&#xff1a;本文来源于个人知识与公开资料&#xff0c;仅用于学术交流&#xff0c;欢迎讨论&#xff0c;不支持转载。 多模态…

idea 日志打印乱码

在这里插入图片描述 配置中改为一致

算法篇_RGB图像数据压缩与解压(单片机使用)

文章目录 一、前言二、算法选型2.1 Run-Length Encoding (RLE)2.2 Differential Pulse-Code Modulation (DPCM) 三、采用RLE算法实现图像压缩四、哈夫曼编码实现压缩和解压4.1 哈夫曼编码压缩自定义数据与还原4.2 哈夫曼编码压缩完成图像的压缩和还原 书接上回&#xff08;上一…

Java重修笔记 第五十一天 泛型

泛型 1. 对加入集合的数据类型进行约束&#xff0c;提高了安全性 2. 不用做专门的数据类型转换&#xff0c;就可以直接使用从集合取出来的对象&#xff0c;效率高 在类定义中使用泛型 1. 在类名后面跟上 <泛型列表> 表示该类所使用的使用泛型&#xff0c;具体是什么…

nginx 使用篇 配置

一、介绍 1.介绍 Nginx是一个高性能的HTTP和反向代理服务器&#xff0c;同时也是一个邮件代理服务器&#xff0c;它以稳定性、丰富的功能集、简单的配置文件和低系统资源消耗而闻名。 作为一个轻量级的服务器&#xff0c;Nginx在处理高并发连接方面表现出色&#xff0c;能够支…

怎么修复松下相机死机视频只有0字节(0KB)的MDT文件【实测可修复】

死机后视频文件大小仅为0字节 松下S5相机录像死机&#xff0c;关机重新开机后有一个视频文件变成MDT&#xff0c;大小为0KB&#xff0c;录了30多分钟&#xff0c;本应为MOV格式的视频。0字节文件可以修复吗&#xff1f;怎么修复0字节的MDT文件为视频&#xff1f; 数据提取与视…

认知杂谈55

今天分享 有人说的一段争议性的话 I I I I 内容摘要 这篇内容主要有以下要点&#xff1a;首先&#xff0c;人际交往有难度&#xff0c;要让大家都喜欢很难&#xff0c;需学习沟通技巧&#xff0c;可通过看书、关注抖音博主、参加培训班及看罗翔视频片段来提升。其次&#xf…

【C++11 ——— 类的新功能】

C11 ——— 类的新功能 类的新功能默认成员函数类成员变量初始化强制生成默认函数的关键字default禁止生成默认函数的关键字delete 类的新功能 默认成员函数 原来C类中&#xff0c;有6个默认成员函数&#xff1a; 构造函数析构函数拷贝构造函数拷贝赋值重载取地址重载const …

代码随想录刷题day27丨455.分发饼干 ,376. 摆动序列 ,53. 最大子序和

代码随想录刷题day27丨455.分发饼干 ,376. 摆动序列 ,53. 最大子序和 1.贪心算法理论基础 贪心的本质是选择每一阶段的局部最优&#xff0c;从而达到全局最优。 这么说有点抽象&#xff0c;来举一个例子&#xff1a; 例如&#xff0c;有一堆钞票&#xff0c;你可以拿走十张&a…

论文《Graph Neural Networks with convolutional ARMA filters》笔记

【ARMA 2021 PAMI】本文介绍了一种新型的基于**自回归移动平均&#xff08;Auto-Regression Moving Average&#xff0c;ARMA&#xff09;**滤波器的图卷积层。与多项式滤波器相比&#xff0c;ARMA滤波器提供了更灵活的频率响应&#xff0c;对噪声更鲁棒&#xff0c;能更好地捕…