显卡之争!英伟达和AMD下场互掐!GPU霸主地位是否能保?

news2025/1/18 20:13:42

大家好,我是二狗。

英伟达和AMD这两家芯片巨头掐起来啦!

事情的起因是,两周前AMD董事会主席兼CEO苏姿丰在一场活动中发布了用于生成式AI和数据中心的新一代Intinct MI300X GPU芯片加速卡。

单单发布显卡没啥问题,但是AMD声称MI300X芯片在推断 Meta 的 Llama 2700 亿参数模型时,能够实现比 H100 低 40% 的延迟。

这意味着AMD的MI300X芯片性能更优呗!

英伟达下场指责AMD

那英伟达作为GPU显卡的行业老大哥,听到之后哪能愿意啊。

所以,就在上周,英伟达特意发布一篇官方博客来证明 H100 具有顶级的推理性能。

英伟达博客表示:

一流的AI性能需要高效的并行计算架构、高效的工具堆栈和深度优化的算法。英伟达发布了开源 NVIDIA TensorRT-LLM,其中包括针对 NVIDIA H100 Tensor Core GPU 核心的 NVIDIA Hopper 架构的最新内核优化。这些优化使 Llama 2 70B 等模型能够在 H100 GPU 上使用加速 FP8 运算执行,同时保持推理精度。

而AMD在发布会上提到MI300X 芯片相比H100 GPU 更好的推理性能,但是AMD的测试没有使用优化软件,如果基准测试正确,H100 的推理速度将会快 2 倍。

简单来讲,英伟达的想表达意思就是,AMD 在基准测试时没有利用优化软件或 H100 对 FP8 数据类型的支持,而是在 FP16 上使用 vLLM 进行测试。一般来说,精度较低的数据类型会牺牲精度来换取性能。换句话说,英伟达表示 AMD 故意阻碍了H100的性能发挥。

英伟达在博客上还po出了具有8个 H100 GPU 的单台 NVIDIA DGX H100 服务器在 Llama 2 70B 型号上的实际测试性能。测试包括一次处理一个推理请求的“Batch-1”的结果,以及使用固定响应时间处理的结果。

英伟达声称,当使用其闭源 TensorRT LLM 框架和 FP8 进行基准测试时,H100的性能实际上是 MI300X 的两倍。

英伟达还认为,AMD 通过使用 把batch size 设置为1 来呈现性能的最佳情况,换句话说,只通过一次处理一个推理请求。英伟达认为这是不符合实际的,因为大多数云提供商都会用延迟来换取更大的batch size。

据英伟达称,使用英伟达的优化软件堆栈,具有 8 个加速器的 DGX H100 节点能够处理 14 个batch size,而具有 8 个 AMD MI300X 的类似节点则可以处理一个batch size。

AMD摆数据强势回击英伟达

在英伟达的上述博客发布一天之内,AMD也发布了博客进行回应,AMD声称自家的显卡确实具备行业领先的性能,而英伟达的基准测试并不是做的同类比较。

AMD指责英伟达进行的测试基准是不合理的:

  • 英伟达在 H100 上使用 TensorRT-LLM 进行测试,而不是 AMD 基准测试中使用的 vLLM;

  • 英伟达用 H100 上的 FP8 数据类型的性能和AMD MI300X GPU 上的 FP16 数据类型进行了比较;

  • 英伟达将AMD发布的性能数据从相对延迟数反转为绝对吞吐量;

AMD表示:

我们正处于产品升级阶段,我们不断寻找新的途径来利用 ROCM 软件和 AMD Instinct MI300 加速器释放性能。

我们发布会上提供的数据是在 11 月份测试记录的。自从11月份以来,我们已经取得了很大进展,并且很高兴分享我们突显这些成果的最新结果。

下图是AMD使用最新的MI300X运行Llama 70B的性能数据进行对比,蓝色是MI300X显卡的性能,灰色是H100显卡的性能。

很容易看出,在AMD的测试之下,无论是性能还是延迟,MI300X都要优于H100。

AMD则接着表示:“结果再次表明,即使使用 FP8 和 TensorRT-LLM,使用 FP16 的 MI300X 也可与 Nvidia 推荐的最佳性能设置的 H100 相媲美。”

显卡竞争的关键-软件栈优化

英伟达事后没有针对AMD的最新博客做出声明,但是英伟达和 AMD 的基准测试争论凸显了软件库和框架在提升AI性能方面所发挥的作用。

英伟达的主要论点之一是,AMD 通过使用 vLLM 而不是 TensorRT-LLM软件来测试,所以才导致 H100性能处于劣势。

英伟达于9月份宣布并于10月底发布 TensorRT-LLM,TensorRT-LLM组合了包括深度学习编译器、优化内核、预处理和后处理步骤以及多GPU和多节点通信原语等功能。

英伟达声称,使用优化后的软件在运行 60 亿个参数的 GPT-J 模型时,能够有效地将 H100 的推理性能提高一倍,而H100 在 Llama 2 70B 中的性能也提升了 77%。

AMD 在本月早些时候推出 ROCm 6 框架时也做出了类似的声明。AMD 声称,由于对 vLLM、HIP Graph 和 Flash Attention 的优化,其最新的 AI 框架能够将 LLM 性能提高 1.3 倍到 2.6 倍。且与在 ROCm 5 上运行的 MI250X 相比,在 ROCm 6新软件框架上运行的 MI300X 速度快了 8 倍。

AMD凭借“内存”取胜?

AI推理工作负载非常复杂,性能取决于FLOPS、精度、内存容量、内存带宽、互连带宽和模型大小等多种因素。

AMD本次最大的优势不是浮点性能,而是内存—— MI300X 的高带宽内存 (HBM) 速度提高了55%,速度为 5.2TB/秒,容量为 192GB,是 H100 的 80GB 的两倍多。 这对于AI推理非常重要,因为模型的大小与运行它所需的内存量成正比。在 FP16 中,每个参数有 16 位或 2 个字节。因此,对于 Llama 70B,需要大约 140GB+ 的 KV 缓存空间,这有助于加速推理工作负载,但需要额外的内存。

AMD 的 MI300X 平台可支持具有多达 8 个加速器的系统,HBM 总量为 1.5TB,而英伟达的 HGX 平台最高才 640 GB。 正如 SemiAnalysis 在其 MI300X 发布报道中指出的那样,在 FP16 上,具有 1760 亿参数的Bloom 模型需要 352GB 内存,从而为 AMD 留下更多内存以适应更大的batch size大小。

英伟达彻底慌了

英伟达一般是不会和AMD掐架的,但这次可能是真的慌了。

因为在AMD的发布会当天,Meta和微软表示,他们将购买使用AMD最新的AI芯片 Instinct MI300X,这意味着在英伟达显卡缺货的情况下,AMD应成为最优先的替代品。

下图是研究公司 Omidia 最近的一份报告,显示了英伟达2023年Q3季度Top12的H100显卡购买客户:

而这些大客户都有可能面临流失的风险。

夕小瑶科技说前不久刚写了一篇文章「英伟达危机大爆发!一夜之间,四面楚歌 」,深度分析了英伟达现在面临的对手和危机(感兴趣的朋友可以移步查看)。

1、AMD正面挑战英伟达显卡霸主地位;

2、微软自研AI芯片,软件硬件两手抓;

3、谷歌坚持自用TPU,打造下一代最强TPU;

4、美国政府对英伟达的限令,禁售中国大陆,将失去百度阿里抖音客户;

5、OpenAI等创业公司正在研发自己的AI芯片。

行业会等待英伟达吗?英伟达的“显卡蛋糕”将被分食多少?

答案或许不乐观,但是英伟达依旧可能是Top赢家。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1331151.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Spring实战】03 JDBC常用操作

文章目录 1. JdbcTemplate 类1)queryForList2)update3)query4)execute5)queryForObject 2.代码及执行1)代码2)执行 3. 优点4. 详细代码总结 Spring JDBC 是 Spring 框架提供的一种用于简化数据库…

05. Springboot admin集成Actuator(一)

目录 1、前言 2、Actuator监控端点 2.1、健康检查 2.2、信息端点 2.3、环境信息 2.4、度量指标 2.5、日志文件查看 2.6、追踪信息 2.7、Beans信息 2.8、Mappings信息 3、快速使用 2.1、添加依赖 2.2、添加配置文件 2.3、启动程序 4、自定义端点Endpoint 5、自定…

基于epoll的web服务器(C语言版本)

基于epoll的web服务器(C语言版本) 1. 初始化监听套接字 包括创建监听套接字,设置端口复用,绑定,设置监听等步骤 1.1 创建监听套接字(socket函数) socket()打开一个网络通讯端口,如果成功的话&#xff0…

界面控件DevExpress v23.2全新发布 - 官宣正式支持.NET 8

DevExpress拥有.NET开发需要的所有平台控件,包含600多个UI控件、报表平台、DevExpress Dashboard eXpressApp 框架、适用于 Visual Studio的CodeRush等一系列辅助工具。屡获大奖的软件开发平台DevExpress 今年第一个重要版本v23.1正式发布,该版本拥有众多…

【精选】vulnhub CTF6 linux udev提权 (青铜门笔记)

一、信息收集 1.主机探测 发现靶机的IP地址是:192.168.103.130 ┌──(root💀kali)-[~] └─# arp-scan -l2.访问web页面 发现有个登录的页面,尝试了弱口令,但是发现没有成功; 所以,我们需要在后面的信…

单词接龙[中等]

一、题目 字典wordList中从单词beginWord和endWord的 转换序列 是一个按下述规格形成的序列beginWord -> s1 -> s2 -> ... -> sk&#xff1a; 1、每一对相邻的单词只差一个字母。 2、对于1 < i < k时&#xff0c;每个si都在wordList中。注意&#xff0c;beg…

数值分析期末复习

第一章 科学计算 误差 解题步骤 先求绝对误差: ∣ x − x ∗ ∣ |x - x^*| ∣x−x∗∣求相对误差限: ∣ x − x ∗ ∣ x ∗ \frac{|x\,\,-\,\,x^*|}{x^*} x∗∣x−x∗∣​求有效数字 ∣ x − x ∗ ∣ 需要小于它自身的半个单位 |x-x^*|\text{需要小于它自身的半个单位} ∣…

Kafka集群架构原理(待完善)

kafka在zookeeper数据结构 controller选举 客户端同时往zookeeper写入, 第一个写入成功(临时节点), 成为leader, 当leader挂掉, 临时节点被移除, 监听机制监听下线,重新竞争leader, 客户端也能监听最新leader leader partition自平衡 leader不均匀时, 造成某个节点压力过大, …

数字信号的理解

1 数字信号处理简介 数字信号处理 digital signal processing&#xff08;DSP&#xff09;经常与实际的数字系统相混淆。这两个术语都暗示了不同的概念。数字信号处理在本质上比实际的数字系统稍微抽象一些。数字系统是涉及的硬件、二进制代码或数字域。这两个术语之间的普遍混…

物联网产品设计,聊聊设备OTA的升级

物联网产品设计部分的OTA设备固件是一个非常重要的部分&#xff0c;能够实现升级用户服务、保障系统安全等功能。 在迅速变化和发展的物联网市场&#xff0c;新的产品需求不断涌现&#xff0c;因此对于智能硬件设备的更新需求就变得空前高涨&#xff0c;设备不再像传统设备一样…

SQL分类

SQL分类 DDL 查询库 查询表 创建表 修改表 DML 添加数据 修改数据 删除数据 DQL 基本查询 条件查询 聚合函数 分组查询 排序查询 分页查询 执行顺序 DCL 管理用户 管理权限 数据类型 数值类型 字符串类型 日期类型

从零构建tomcat环境

一、官网构建 1.1 下载 一般来说对于开源软件都有自己的官方网站&#xff0c;并且会附上使用文档以及一些特性和二次构建的方法&#xff0c;那么我们首先的话需要从官网或者tomcat上下载到我们需要的源码包。下载地址&#xff1a;官网、Github。 这里需要声明一下&#xff…

龙芯loongarch64服务器编译安装tensorflow-io-gcs-filesystem

前言 安装TensorFlow的时候,会出现有些包找不到的情况,直接使用pip命令也无法安装,比如tensorflow-io-gcs-filesystem,安装的时候就会报错: 这个包需要自行编译,官方介绍有限,这里我讲解下 编译 准备 拉取源码:https://github.com/tensorflow/io.git 文章中…

80x86汇编—汇编程序基本框架

文章目录 First Program指令系统伪指令数值表达式 程序框架解释int 21 中断 通过一个基本框架解释各个指令和用处&#xff0c;方便复习。所以我认为最好的学习顺序就是先看一段完整的汇编代码程序&#xff0c;然后给你逐个逐个的解释每一个代码是干嘛用的。然后剩下的还有很多指…

linux的主线程提前子线程退出以及线程分离

主线程提前退出 如果主线程没有等待子线程提前退出&#xff0c;可能会发生以下情况&#xff1a; 子线程继续运行&#xff1a;如果主线程退出&#xff0c;但子线程仍在执行任务&#xff0c;子线程将继续独立运行。子线程的生命周期不受主线程控制&#xff0c;直到子线程自行完成…

Latex生成的PDF中加入书签/Navigation/导航

本文参考&#xff1a;【Latex学习】在生成pdf中加入书签/目录/提纲_latex 书签-CSDN博客 &#xff08;这篇文章写的真的太棒了&#xff01;非常推荐&#xff09; 题外话&#xff0c;我的碎碎念&#xff0c;这也是我如何提高搜索能力的办法&#xff1a;想在Latex生成的PDF中加入…

python脚本 链接到ssh服务器 快速登录ssh服务器 ssh登录

此文分享一个python脚本,用于管理和快速链接到ssh服务器。 效果演示 🔥完整演示效果 👇第一步,显然,我们需要选择功能 👇第二步,确认 or 选择ssh服务器,根据配置文件中提供的ssh信息,有以下情况 👇场景一,只有一个候选ssh服务器,则脚本会提示用户是否确认链…

【hcie-cloud】【9】华为云Stack_Deploy部署工具介绍

文章目录 前言华为云Stack Deploy简介华为云Stack Deploy工具简介华为云Stack Deploy工具部署范围华为云Stack Deploy工具节点网络要求华为云Stack Deploy工具部署流程 华为云Stack Deploy功能介绍部署工具工程场景部署流程介绍创建工程 - 基本信息填写创建工程 - 基本参数选择…

【ITK库学习】使用itk库进行图像配准:“Hello World”配准

目录 1、itkImageRegistrationMethod / itkImageRegistrationMethodv42、itkTranslationTransform3、itkMeanSquaresImageToImageMetric / itkMeanSquaresImageToImageMetric44、itkRegularStepGradientDescentOptimizerv / itkRegularStepGradientDescentOptimizerv4 图像配准…

0基础学习VR全景平台篇第130篇:曝光三要素—感光度

上课&#xff01;全体起立~ 大家好&#xff0c;欢迎观看蛙色官方系列全景摄影课程&#xff01; 众所周知&#xff0c;摄影是一门用光的艺术。随着天气、地点、时间的变化&#xff0c;我们所处环境的光线也随之发生改变。而在不同的环境下该如何去正确的调节曝光&#xff0c;是…