NVIDIA H200 创下 MLPerf LLM 最新推理记录

news2024/11/17 7:20:20

NVIDIA H200 Tensor Core GPU 和 NVIDIA TensorRT-LLM 创下 MLPerf LLM 最新推理记录

生成式人工智能正在解锁新的计算应用程序,通过持续的模型创新来极大地增强人类的能力。 生成式 AI 模型(包括大型语言模型 (LLM))用于制作营销文案、编写计算机代码、渲染详细图像、创作音乐、生成视频等。 最新模型所需的计算量是巨大的,并且随着新模型的发明而不断增长。

生成式人工智能推理的计算强度要求芯片、系统和软件都具有卓越的性能。 MLPerf Inference 是一个基准套件,可衡量多个流行深度学习用例的推理性能。 基准套件的最新版本——MLPerf Inference v4.0——添加了两个新的工作负载,代表流行的现代生成人工智能用例。 第一个是基于 Meta Llama 2 系列大型语言模型 (LLM) 中最大的 Llama 2 70B 的 LLM 基准。 第二个是基于 Stable Diffusion XL 的文本到图像测试。

NVIDIA 加速计算平台在使用 NVIDIA H200 Tensor Core GPU 的两个新工作负载上均创下了性能记录。 而且,使用 NVIDIA TensorRT-LLM 软件,NVIDIA H100 Tensor Core GPU 在 GPT-J LLM 测试中的性能几乎提高了两倍。 NVIDIA Hopper 架构 GPU 继续为数据中心类别中的所有 MLPerf 推理工作负载提供每个加速器的最高性能。 此外,NVIDIA还在MLPerf Inference开放部门提交了多份参赛作品,展示了其模型和算法创新。

在这篇文章中,我们将介绍这些创纪录的生成式人工智能推理性能成就背后的一些全栈技术。

TensorRT-LLM 使 LLM 推理性能提高了近三倍

基于 LLM 的服务(例如聊天机器人)必须能够快速响应用户查询并且具有成本效益,这需要高推理吞吐量。 生产推理解决方案必须能够同时以低延迟和高吞吐量为尖端的LLM提供服务。

TensorRT-LLM 是一个高性能开源软件库,在 NVIDIA GPU 上运行最新的 LLM 时可提供最先进的性能。

MLPerf Inference v4.0 包括两项 LLM 测试。 第一个是上一轮 MLPerf 中引入的 GPT-J,第二个是新添加的 Llama 2 70B 基准测试。 使用 TensorRT-LLM 的 H100 Tensor Core GPU 在离线和服务器场景中分别在 GPT-J 上实现了 2.4 倍和 2.9 倍的加速。 与上一轮提交的作品相比。 TensorRT-LLM 也是 NVIDIA 平台在 Llama 2 70B 测试中表现出色的核心。

以下是 TensorRT-LLM 实现这些出色性能结果的一些关键功能:

  • Inflight sequence batching通过更好地交错推理请求并在完成处理后立即逐出批处理中的请求并在其位置插入新请求,增加了 LLM 推理期间的 GPU 使用率。
  • Paged KV cache 通过将 KV 缓存分区和存储到不连续的内存块、按需分配和逐出块以及在注意力计算期间动态访问块来改善内存消耗和使用。
  • 张量并行性支持使用 NCCL 进行通信,在 GPU 和节点之间分配权重,从而实现大规模高效推理。
  • 量化支持 FP8 量化,该量化使用 NVIDIA Hopper 架构中的第四代 Tensor Core 来减小模型大小并提高性能。
  • XQA 内核高性能注意力实现,支持 MHA、MQA 和 GQA,以及波束搜索,在给定的延迟预算内显着提高吞吐量。

有关 TensorRT-LLM 功能的更多详细信息,请参阅这篇文章,深入探讨 TensorRT-LLM 如何增强 LLM 推理。

H200 Tensor Core GPU 增强了 LLM 推理能力

H200基于Hopper架构,是全球首款使用业界最先进HBM3e显存的GPU。 H200 采用 141 GB HBM3e 和 4.8 TB/s 内存带宽,与 H100 相比,GPU 内存增加近 1.8 倍,GPU 内存带宽增加近 1.4 倍。

与本轮提交的 H100 相比,更大、更快的内存和新的定制散热解决方案的结合使 H200 GPU 在 Llama 2 70B 基准测试中展示了巨大的性能改进。

HBM3e 实现更高性能

与 H100 相比,H200 升级的 GPU 内存有助于在 Llama 2 70B 工作负载上通过两个重要方式释放更多性能。

它无需张量并行或管道并行执行,即可在 MLPerf Llama 2 70B 基准测试中获得最佳性能。 这减少了通信开销并提高了推理吞吐量。

其次,与 H100 相比,H200 GPU 具有更大的内存带宽,缓解了工作负载中受内存带宽限制的部分的瓶颈,并提高了 Tensor Core 的使用率。 这产生了更大的推理吞吐量。

定制冷却设计进一步提高性能

TensorRT-LLM 的广泛优化加上 H200 的升级内存,意味着 H200 上的 Llama 2 70B 执行受计算性能限制,而不是受内存带宽或通信瓶颈的限制。

由于 NVDIAIA HGX H200 与 NVIDIA HGX H100 直接兼容,因此系统制造商能够对系统进行资格认证,从而加快上市速度。 而且,正如本轮 NVIDIA MLPerf 提交文件所证明的那样,H200 在与 H100 相同的 700 W 热设计功率 (TDP) 下,可将 Llama 2 70B 推理性能提高高达 28%。

借助 NVIDIA MGX,系统构建商可以通过可实现更高 GPU 热量的定制冷却设计为客户提供更多价值。 在这一轮中,NVIDIA 还使用 H200 进行了定制散热设计,使 GPU 能够以更高的 1,000 W TDP 运行。 运行 Llama 2 70B 基准测试时,这使得服务器和离线场景的性能分别提高了 11% 和 14%,与 H100 相比,总速度分别提高了 43% 和 45%。

设定 Stable Diffusion XL 性能的标准

Stable Diffusion XL 是一种文本到图像生成 AI 模型,由以下部分组成:

  • 用于将提示文本转换为嵌入的两个 CLIP 模型。
  • 由残差块 (ResBlocks) 和转换器组成的 UNet 模型,可迭代地对较低分辨率潜在空间中的图像进行去噪。
  • 变分自动编码器 (VAE),将潜在空间图像解码为 1024×1024 分辨率的 RGB 图像输出。

在 MLPerf Inference v4.0 中,Stable Diffusion XL 用于文本到图像测试,根据提供的文本提示生成图像。

配备 TensorRT 软件的 NVIDIA GPU 在 MLPerf Inference v4.0 文本到图像测试中提供了最高性能。 GPU 配置为 700W TDP 的 8-GPU NVIDIA HGX H200 系统在服务器和离线场景中分别实现了 13.8 个查询/秒和 13.7 个样本/秒的性能。

L40S 是性能最高的通用 NVIDIA GPU,专为在 AI 计算、图形和媒体加速方面实现突破性的多工作负载性能而设计。 使用配备 8 个 L40S GPU 的系统提交的 Stable Diffusion XL 在服务器和离线场景中也分别展示了 4.9 个查询/秒和 5 个样本/秒的性能。

NVIDIA 提交的核心内容是一个创新方案,该方案将 UNet 中的 ResBlock 和转换器部分量化为 INT8 精度。 在 ResBlocks 中,卷积层被量化为 INT8,而在 Transformer 中,查询键值块和前馈网络线性层被量化为 INT8。 INT8 绝对最大值仅从前 8 个去噪步骤(总共 20 个)中收集。 SmoothQuant 应用于量化线性层的激活,克服了将激活量化为 INT8 的挑战,同时保持了原始精度。

与 FP16 基准(不属于 NVIDIA MLPerf 提交的一部分)相比,这项工作在 H100 GPU 上将性能提高了 20%。

此外,TensorRT 中对扩散模型的 FP8 量化的支持即将推出,这将提高性能和图像质量。

开放式创新

除了在 MLPerf Inference 封闭组中提交世界一流的性能外,NVIDIA还在开放组中提交了多项成绩。 MLCommons 表示,开放式“旨在促进创新,并允许使用不同的模型或进行再培训。”

在这一轮中,NVIDIA提交了利用TensorRT中的各种模型优化功能(例如稀疏化、剪枝和缓存)的开放划分结果。 这些用于 Llama 2 70B、GPT-J 和 Stable Diffusion XL 工作负载,在保持高精度的同时展示了出色的性能。 以下小节概述了支持这些提交的创新。

具有结构化稀疏性的 Llama 2 70B

NVIDIA 开放部门提交的 H100 GPU 展示了使用 Hopper Tensor Core 的结构化稀疏功能对稀疏 Llama 2 70B 模型进行的推理。 对模型的所有注意力和 MLP 块进行结构化稀疏,并且该过程是在训练后完成的,不需要对模型进行任何微调。

这种稀疏模型有两个主要好处。 首先,模型本身缩小了 37%。 尺寸的减小使得模型和 KVCache 能够完全适应 H100 的 GPU 内存,从而无需张量并行性。

接下来,使用 2:4 稀疏 GEMM 内核提高了计算吞吐量并更有效地利用了内存带宽。 与 NVIDIA 闭分区提交相比,在同一 H100 系统上,离线场景下的总体吞吐量高出 33%。 通过这些加速,稀疏模型仍然满足 MLPerf 封闭部门设定的严格的 99.9% 准确度目标。 稀疏模型为每个样本生成的标记比封闭划分中使用的模型更少,从而导致对查询的响应更短。

带修剪和蒸馏的 GPT-J

在开放分区 GPT-J 提交中,使用了修剪后的 GPT-J 模型。 该技术大大减少了模型中的头数和层数,与在 H100 GPU 上运行模型时的封闭除法提交相比,推理吞吐量提高了近 40%。 自从 NVIDIA 在本轮 MLPerf 中提交结果以来,性能进一步提高。

然后使用知识蒸馏对修剪后的模型进行微调,实现了 98.5% 的出色准确率。

具有 DeepCache 的Stable Diffusion XL

Stable Diffusion XL 工作负载的大约 90% 的端到端处理都花在使用 UNet 运行迭代去噪步骤上。 它具有 U 形层拓扑,其中潜伏值首先被下转换,然后上转换回原始分辨率。

DeepCache 是本文描述的一种技术,建议使用两种不同的 UNet 结构。 第一个是原始的 UNet——在我们的提交实现中称为 Deep UNet。 第二个是单层 UNet,称为 Shallow UNet 或 Shallow UNet,它重用(或绕过)最新 Deep UNet 中的中间张量,从而显着减少计算量。

NVIDIA 开放分区提交实现了 DeepCache 的变体,其中我们将两个输入缓存到最后一个上转换层,并在去噪步骤中在 Deep UNet 和 Shallow UNet 之间交替。 这使得运行模型的 UNet 部分所需的计算量减少了一半,在 H100 上将端到端性能提高了 74%。

无与伦比的推理性能

NVIDIA 平台在整个 MLPerf Inference v4.0 基准测试中展示了卓越的推理性能,Hopper 架构可在每个工作负载上实现每个 GPU 的最高性能。

使用 TensorRT-LLM 软件使 H100 在 GPT-J 工作负载上实现了显着的性能提升,在短短 6 个月内性能几乎提高了两倍。 H200 是全球首款 HBM3e GPU,配备 TensorRT-LLM 软件,在离线和服务器场景下的 Llama 2 70B 工作负载上提供了创纪录的推理性能。 而且,在首次针对文本到图像生成 AI 的 Stable Diffusion XL 测试中,NVIDIA 平台提供了最高的性能。

要重现 NVIDIA MLPerf Inference v4.0 提交中展示的令人难以置信的性能,请参阅 MLPerf 存储库。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1551960.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

NOIP,CSP-J,CSP-S——树

一、树 概念: 节点、深度、路径、边 树的直径 真题: 答案:B 答案:A 一个树的边是n-1 现在是m,所以m-(n-1)=m-n+1

C++基础11:模板与命名空间

此专栏为移动机器人知识体系下的编程语言中的 C {\rm C} C从入门到深入的专栏,参考书籍:《深入浅出 C {\rm C} C》(马晓锐)和《从 C {\rm C} C到 C {\rm C} C精通面向对象编程》(曾凡锋等)。 10.模板与命名空间 10.1 模板简述 模板使函数和类的处理对象…

Hbase 王者荣耀数据表 HBase常用Shell命令

大数据课本: HBase常用Shell命令 在使用具体的Shell命令操作HBase数据之前,需要首先启动Hadoop,然后再启动HBase,并且启动HBase Shell,进入Shell命令提示符状态,具体命令如下: $ cd /usr/local…

13.软件测试过程与管理

重点: 软件测试的成本管理:区分一致性成本和非一致性成本;根据题干描述计算质量成本、投资回报率; DDP:缺陷探测率的计算;下午题考的频率高; 主要议题: 1.软件测试过程 2.软件测试…

教育建筑智慧能源管理平台解决方案【新型电力系统下的绿色校园能源管理平台】

一、行业特点 1.建筑类型多:集教学、科研、生活于一体,占地面积大,建筑类型多,功能划分复杂。 2.供电可靠性要求高:教育建筑中的高层建筑、图书馆、实验楼等特级和一级负荷比较多,一旦发生故障会危及生命…

【IP 组播】PIM-SM

目录 原理概述 实验目的 实验内容 实验拓扑 1.基本配置 2.配置IGP 3.配置PIM-SM 4.用户端DR与组播源端DR 5.从RPT切换到SPT 6.配置PIM-Silent接口 原理概述 PIM-SM 是一种基于Group-Shared Tree 的组播路由协议,与 PIM-DM 不同,它适合于组播组成…

C++模板类和模板函数

模板类 #include<bits/stdc.h> using namespace std; template<typename T> class People{public:People(T name):name_(name){}protected:T name_; }; class A:public People<string>{public:A(string name): People(name){}void print(){std::cout<<…

启动性能优化

一、应用启动慢的原因 1.在主线程执行了太多耗时的操作&#xff0c;比如加载数据&#xff0c;或者初始化三方库等等&#xff0c;导致在Application的oncreate或者Activity的oncreate方法中耗时太久 2.布局嵌套太深&#xff0c;或者一些不会立即使用的布局也在一开始一起加载到…

tomcat配置静态资源后无法正常访问

目录 一、场景二、配置三、访问异常四、排查五、原因六、解决 一、场景 1、将前端文件存在到指定目录 2、在tomcat配置静态资源 3、配置后无法正常访问到前端文件 二、配置 1、tomcat配置 2、静态资源 三、访问异常 四、排查 可以ping通&#xff0c;但是访问不了3080端口 …

4G CAT.1单灯控制器 计讯物联TL112

传统的照明控制方式往往需要通过开关进行操作&#xff0c;而单灯控制器的出现改变了这一局面。计讯物联单灯控制器TL112&#xff0c;一种基于无线通信技术的智能照明控制设备&#xff0c;可通过管理中心平台、pc电脑端、手机端等多方式&#xff0c;实现对路灯的智能控制&#x…

Springboot整合瀚高

需要下载highgo驱动,然后将jar包打入进自己本地maven中 下载地址: highgi6.2.4 1.打开jar包所在的文件&#xff0c;然后在该文件夹中打开命令窗口&#xff08;或者先打开命令窗口&#xff0c;然后cd到jar所在文件夹&#xff09; install-file -Dfile&#xff1a;jar包名Dart…

SQL Server事务复制操作出现的错误 进程无法在“xxx”上执行sp_replcmds

SQL Server事务复制操作出现的错误 进程无法在“xxx”上执行“sp_replcmds” 无法作为数据库主体执行&#xff0c;因为主体 "dbo" 不存在、无法模拟这种类型的主体&#xff0c;或您没有所需的权限

机器学习——元学习

元学习&#xff08;Meta Learning&#xff09;是一种机器学习方法&#xff0c;旨在使模型能够学习如何学习。它涉及到在学习过程中自动化地学习和优化学习算法或模型的能力。元学习的目标是使模型能够从有限的训练样本中快速适应新任务或新环境。 在传统的机器学习中&#xff…

Linux 反引号、单引号以及双引号的区别

1.单引号—— 单引号中所有的字符包括特殊字符&#xff08;$,,和\&#xff09;都将解释成字符本身而成为普通字符。它不会解析任何变量&#xff0c;元字符&#xff0c;通配符&#xff0c;转义符&#xff0c;只被当作字符串处理。 2.双引号——" 双引号&#xff0c;除了$,…

遥感卫星影像质量评价指标汇总

1. 主观评价方法 以人为图像的评价者&#xff0c;根据自己的评价尺度和经验对图像质量进行评价。 2. 客观评价方法 1)均方差 2)信噪比 主要用来评价影像经压缩、传输、增强等处理前后的质量变化情况&#xff0c;其本质与均方差类似。 3)方差 反映了图像各个像元灰度相对…

游戏本笔记本更换@添加内存条实操示例@DDR5内存条

文章目录 添加内存条的意义准备工具设备拔出电源适配器并关机&#x1f47a;样机 内存条上的金手指安装过程Notes 安装后开机初次开机速度屏幕显示分辨率和闪烁问题检查安装后的效果 添加内存条的意义 参考双通道内存DDR5多通道内存-CSDN博客 准备工具 准备一个质量差不多的螺…

【正版特惠】IDM 永久授权 优惠低至109元!

尽管小编有修改版IDM&#xff0c;但是由于软件太好用了&#xff0c;很多同学干脆就直接购买了正版&#xff0c;现在正版也不贵&#xff0c;并且授权码绑定自己的邮箱&#xff0c;直接官方下载激活&#xff0c;无需其他的绿化修改之类的操作&#xff0c;不喜欢那么麻烦的&#x…

python知识点总结(十)

python知识点总结十 1、装饰器的理解、并实现一个计时器记录执行性能&#xff0c;并且将执行结果写入日志文件中2、队列和栈的区别&#xff0c;并且用python实现3、设计实现遍历目录与子目录4、CPU处理进程最慢的情况通常发生在以下几种情况下&#xff1a;5、CPU处理线程最慢的…

【嵌入式机器学习开发实战】(七)—— 政安晨:通过ARM-Linux掌握基本技能【环境准备:树莓派】

ARM-Linux是一种针对ARM架构的操作系统&#xff0c;它的设计目标是在低功耗、低成本的硬件平台上运行。ARM-Linux可以运行在多种ARM处理器上&#xff0c;包括树莓派。 树莓派&#xff08;Raspberry Pi&#xff09;是一款基于ARM架构的单板计算机&#xff0c;由英国的树莓派基金…

46.continue语句

目录 一.continue语句 二.视频教程 一.continue语句 continue语句的作用和break语句很像&#xff0c;break语句会跳出当前循环&#xff0c;而continue语句则是跳出本次循环&#xff0c;继续执行下一次循环。 举个例子&#xff1a; #include <stdio.h>void main(void)…