AMD在Advancing AI发布会上发布三大核心硬件产品,挑战英伟达AI芯片市场

news2024/12/26 9:20:47

美国时间10月10日,AMD在旧金山召开了Advancing AI发布会。

这是老对手英伟达2024 AI Summit 结束后的第三天。与英伟达大会的不同之处在于,英伟达专注于软件方面的更新,而AMD主打“硬”牌。

这一次,他们带来了三款核心硬件产品:新版Instinct MI325X 、第五代EPYC 服务器和最新的第三代 DPU Pensando系列。

一天之内,服务器GPU、CPU、DPU三箭齐发。

AMD董事会主席及首席执行官苏姿丰似乎决心重现她在AMD的前十年里,以EPYC服务器为基石,带领AMD反超Intel的奇迹。

在开场词中,苏姿丰表示预计到2028年,AI加速器市场规模将达到5000亿美元。这一次,她的目标更为宏大:通过打通服务器的各个节点,瞄准规模数千亿美元的AI服务器市场,成为领头羊。

苏姿丰还表示:对于AMD来讲,AI平台意味着四件核心事项:作为训练和推理的最强计算引擎、开放的软件解决方案、建立深度共同创新的AI生态系统以及在集群水平上的系统设计。

本次发布会的三支箭正落在集群水平上的系统设计这一靶心。野心已有,但最终还是要看三支箭是否足够“锋利”,能刺破英伟达构筑的AI服务器铁桶阵。

三支箭详解

第一支箭:新一代EPYC服务器发布,CPU也要助力AI

苏姿丰执掌AMD,十年磨两剑:一是Ryzen芯片,另一个就是EPYC CPU服务器。

从2018年开始,EPYC服务器从市占率接近0%,经过四代升级达到了2024年H1的34%。生生从英特尔手里夺走了CPU服务器市场的1/3份额。这也是苏姿丰最得意的一场仗。

为了形成一体化的AI服务器阵列,今年,EPYC迎来了它的第五代升级——EPYC 9005系列。

AMD 第五代 EPYC 处理器(代号"Turin")采用了台积电 3/4nm 制程和 Zen 5 架构,最高配置拥有16个 Zen5的 CCD核心,内含 192 核心和 384 线程。时钟频率可达 5GHz。这款处理器支持 AVX512 指令集,提供完整的 512 位数据路径,并实现了 17% 的 IPC 性能提升。它使用 SP5 平台,兼容前代"Genoa"处理器。内存方面,它引入了DDR5支持,带宽提升至6400 MT/s;I/O能力上,它支持PCIe Gen5和更多的PCIe通道;安全性方面增加了硬件级别的根信任和可信I/O功能。

Turin处理器的性能领先相当明显,相比于上一代英特尔Xeon服务器,Turin在SPEC CPU测试中性能提升2.7倍,企业性能最高提升4.0倍,HPC(高性能计算)性能最高提升3.9倍。在不同的工作中虽然表现不一,但整体相较上一代EPYC服务器,Turin的提升也很大。

特别值得注意的是Turin在AI方面的能力提升和对GPU节点控制的优化:它基于CPU的AI性能最高提升3.8倍,作为GPU主机节点时性能最高提升1.2倍。

对于这些提升,AMD做了一个形象的展示。如果你用Turin服务器替代上一代Xeon服务器的话,131个Turin就足够达成1000个Xeon服务器的效果。

AMD还对Turin的AI适用性加强做了更深入的阐述。因为在AI时代,越来越少的人会把服务器专用于一般用途,多少都得和AI结合上,而在这种情况下,对AI有更好支持的Turin就是最好的选择。

AMD也非常在意Turin作为GPU主机节点带来的GPU算力提升。AMD优化了CPU在AI工作流程中的关键动作,包括数据预处理、内存复制、内核启动和任务协调等。这些优化使得CPU在处理GPU协调任务时更高效,比前代产品快28%。

AMD和Xeon 8592做了一下对比,Turin让MI300X的推理性能提升了8%,训练性能提升了20%。针对英伟达H100,Turin更是使GPU集群的推理性能提升了高达20%,训练提升了15%。比自家的MI300X都强。

第二支箭:MI325X登场,下一代GPU剑指B200

发布会上,苏姿丰放出的第二支箭是MI300系列的第二代产品MI325X。它曾在2024 ComputerX上被简短介绍过,但其技术细节从未被公布。作为目前最有望打破英伟达垄断的GPU加速器产品,MI300系列的下一代产品备受关注。

此刻,答案终于揭晓:MI325X性能上超越了H200。

MI325X加速器采用了 AMD CDNA 3 GPU 架构,配备 256GB 下一代 HBM3E 高带宽内存。内置 1530 亿个晶体管。它提供了 6TB/s 的内存带宽,在 FP8 和 FP16 精度下分别达到 2.6 PF 和 1.3 PF 的峰值理论性能。

与英伟达上一代的旗舰GPU 加速器H200相比,MI325X的内存容量更大(256Gvs141G),内存带宽也更高(6TB/s vs 4.8TB/s)。在算力方面,虽然英伟达官方宣称H200的FP16 算力可达1.9 PF,但经semianalysis实测,其实际算力约为1 PF,与H100持平,比MI325X低了30%。

因此AMD MI325X在推理方面的表现平均超越H200 30%,与其算力比提升相符。保持了上一代的领先优势。

由MI325X核心集成的GPU平台包含 8 个 MI325X。该平台总共提供 2TB HBM3E 高带宽内存,FP8 精度下的理论峰值性能达到 20.8 PF,FP16 精度下达到 10.4 PF。系统配备 AMD Infinity Fabric 互连技术,带宽高达 896 GB/s,总内存带宽达到了 48 TB/s。

相比于H200的集成平台H200 HGX,MI325X平台提供1.8倍的内存量,1.3倍的内存带宽和1.3倍的算力水平。在推理方面能相较H200 HGX提升至多1.4倍的表现水平。

AMD版GPU软件系统ROCm在过去一年内和主流AI开发平台的适配性一直在磨合期,这导致其训练效果有待提升。但这一年来AMD一方面加强升级ROCm,一方面与AI开发平台深度合作,总算是让它有了一倍左右的提升。

这一提升的结果是,针对Meta Llama-2这种主流模型,MI325X的单GPU训练效率终于超越了H200。而在集群中,其训练效率仍和H200 HGX相当。

MI325X预计将于 2024 年第四季度开始出货,与H200的大规模交付相差仅一个季度。鉴于目前英伟达遇到了B200和B100的封装瓶颈,规模发货被延迟,交付给OpenAI的也仅仅是工程样机。如果MI325X的发货规模能快速爬升,那理论上的代差就会被实际的出货情况抹平,MI325X在市场上的实际对手就是H200,而它还比H200性能稍高。

现在就看AMD能否抓住这个窗口期,保证供应链,趁机扩大市场了。

除了MI325X外,AMD还详细介绍了更下一代MI300系列的GPU加速器MI350系列。

它采用了 AMD 的 CDNA 4 架构,使用先进的 3nm 制程工艺,配备高达 288GB 的 HBM3E 高带宽内存。MI350 系列的一个重要创新是新增了 FP4 和 FP6 数据类型支持,这可能会在保持计算精度的同时进一步提高 AI 训练和推理性能。

据AMD表示,MI355X的在FP16数据格式下的算力可达到2.3PF,比MI325X提升1.8倍,与B200的算力持平。而在FP6和FP4格式下,其算力可达9.2PF,比B200在FP6格式下算力提升近一倍,而与其在FP4格式下算力持平。

因此MI355X可以被视为AMD真正剑指B200的GPU芯片。

而MI355X的集成平台则配备了 2.3TB HBM3E 高带宽内存,内存带宽高达 64 TB/s。在计算性能方面,MI355X 在 FP16 精度下可达 18.5 PF,FP8 精度下达到 37 PF。在新增的 FP6 和 FP4 数据类型下,它能达到 74 PF 的理论峰值性能。

不过这一产品需要等到2025年下半年才能发售。

AMD还在发布会上公布了其路线图,除了以上的产品外,2026年AMD预计会发售基于新架构的MI400系列GPU芯片。

第三支箭:用新DPU解决AI数据传输瓶颈

对于大多数公司来讲,数据传输可能才是他们模型训练中最大的拦路虎。

想要构建一个好的数据服务器集群,除了算力扎实以外,核心任务是实现高效的数据传输,确保能够快速处理和分发海量的训练数据,从而最大化GPU利用率。与此同时,支持大规模GPU并行计算也成为了一项关键能力,服务器需要能够协调大量GPU的同时运作,并在扩展过程中保持近乎线性的性能提升。很多基础模型公司甚至将它作为AI工程的核心。

Meta在训练Llama 3.1时就专门搭建了一个相当复杂的集群,力图增加并联GPU数量和数据效率,并选择了RoCE v2传输协议解决网络问题。经过多次分路和调整数据包的大小实验,Meta的工程团队才成功达成了一个相对高效的数据传输水平和稳定性。

但这种工程能力并非所有开发模型的公司都有,数据传输往往会成为计算集群的核心卡点,使得GPU的算力无法得到满载发挥。

AMD这次推出的第三代可编程P4引擎就旨在解决这一问题。它的传输速度可以达到400GB/s,与英伟达最新的DPU BlueField-3持平。而且它支持120M每秒的可编程数据包,和5M每秒的并发服务速度。

这一芯片的核心特性就是在处理并联GPU的后端网络优化,它能针对高负载数据进行负载均衡和拥塞管理,可以避免同一数据通路上产生数据包阻塞,还能在丢包时仅重发丢失的包,而非一口气把所有数据重发一遍;它还支持快速故障恢复,可以绕过出现错误的GPU所在的数据通路,避免整个集群直接瘫痪,并试图自动修复该处的数据包故障。

AMD为前端网络提供的解决方案是Pensando Salina 400 DPU,它采用400G PCIe Gen 5接口,配备232 P4多服务MPU,双通道DDR5内存(带宽高达102GB/s,最大容量128GB),以及16个N1 ARM核心。该产品支持软件定义网络、有状态防火墙、加密、负载均衡、网络地址转换和存储卸载等功能。其核心数量与BlueField-3持平,但内存和带宽都有提升(BlueField-3仅有32G DDR5内存)。

简单来说,这一DPU从硬件基础上比英伟达的同类产品BlueField-3拥有更多的吞吐内存,在网络调节中也更自由。

而后端网络的网卡则为Pensando Pollara 400,这是业界首款支持Ultra Ethernet Consortium标准的AI网络接口卡(NIC)。该产品具有可编程硬件管道,性能提升最高达6倍,支持400Gbps的网络速度。它采用开放生态系统设计,支持UEC Ready RDMA技术,可缩短作业完成时间,并提供高可用性。Pollara 400的主要特性包括可编程RDMA传输、可编程拥塞控制和通信库加速。

因此,通过AMD的DPU产品,其对于AI服务器网络的利用率可以达到95%,而一般未优化数据网络仅能做到不到50%。

这些提升背后的秘密武器是UEC(超级以太网联盟)协议,据AMD宣称,其相比于Meta训练时使用的传统的RoCE v2协议,服务器中信息传输速度能提高6倍,集群间信息传输速度提高了5倍。而且之前的智能分路等多种功能也都是内嵌于UEC协议之中的。

目前AMD的新款DPU是唯一支持UEC协议的数据网络传输产品。英伟达的BlueField-3目前仅支持EoCE v2协议,而且它想要转换协议并非易事,除了需要面对AMD的专利瓶颈外,硬件兼容性也需要一个较长的过程才能完成。

虽然AMD在2022年就收购了Pansando公司,并推出了两代DPU产品,但它都没能打破英伟达由BlueField系列构建的DPU霸权。毕竟据英伟达官方介绍,搭配BlueField,英伟达的GPU集群表现可以提升1.7倍。但如果UEC被实际证明确实高效,AMD就至少成功抢占了在DPU上的先发优势。

结语

在苏姿丰的带领下,AMD花了十年时间重新回到了芯片的核心赛圈。而下一个十年,也是AI蓬勃发展的黄金十年。苏姿丰瞄准这一方向冲刺,她在采访中曾说:“AI正在推动一场革命,并迅速重塑科技行业的方方面面,从数据中心到AI PC和边缘计算。”

在新的十年的开始之际,AMD通过这次发布会准备在AI领域进行全线布局,让服务器的三大支柱都ALL IN AI。不过,AMD是否还能继续攻城略地,成功逆袭,目前尚未可知。这次苏姿丰面对对手毕竟与当初不同。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2211405.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python 批量转换 Shapefile 为 GeoJSON

批量转换 Shapefile (.shp) 为 GeoJSON 文件的脚本详解 🗺️🔄 在地理信息系统(GIS)和遥感领域,Shapefile(.shp)格式与GeoJSON格式是两种常用的数据格式。Shapefile 作为矢量数据的标准格式之一…

使用scss生成旋转圆圈

图片 html代码&#xff1a; <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title>…

直播相关04-录制麦克风声音, 通过编程录音

一 通过编程录音 开发录音功能的主要步骤是&#xff1a; 注册设备获取输入格式对象打开设备采集数据释放资源 需要用到的FFmpeg库有4个。 extern "C" { // 设备相关API #include <libavdevice/avdevice.h> // 格式相关API&#xff0c;也就是说&#xff0c;win…

Mysql(2)—SQL语法详解(通俗易懂)

一、关于SQL 1.1 简介 SQL&#xff08;Structured Query Language&#xff0c;结构化查询语言&#xff09;是一种用于管理关系型数据库的标准编程语言。它主要用于数据的查询、插入、更新和删除等操作。SQL最初在1970年代由IBM的研究人员开发&#xff0c;旨在处理关系数据模型…

Python基础常见面试题总结

文章目录 1.深拷贝与浅拷贝2.迭代器3.生成器4.装饰器5.进程、线程、协程6.高阶函数7.魔法方法8.python垃圾回收机制 1.深拷贝与浅拷贝 浅拷贝是对地址的拷贝&#xff0c;只拷贝第一层&#xff0c;第一层改变的时候不会改变&#xff0c;内层改变才会改变。深拷贝是对值的拷贝&a…

【第十六周】回顾线性回归与逻辑回归以及它们的详细推导过程

目录 摘要Abstract1.线性回归1.1.一元线性回归1.1.1.函数凹凸性判断 1.2.多元线性回归1.3.进一步理解梯度下降法 2.逻辑回归2.1.信息论角度推导交叉熵损失函数2.2.概率论角度推导交叉熵损失函数 3.额外阅读&#xff1a;Label Smoothing3.1.One-hot 和 Label Smoothing 的优缺点…

解决报错:Invalid number of channels [PaErrorCode -9998]

继昨天重装了树莓派系统后&#xff0c;今天开始重新安装语音助手。在测试录音代码时遇到了报错“Invalid number of channels [PaErrorCode -9998]”&#xff0c;这是怎么回事&#xff1f; 有人说这是因为pyaudio没有安装成功造成的。于是&#xff0c;我pip3 install –upgrad…

利用python创建接口

目录 1. 创建一个简单的接口1.1 具体过程1.2 代码解读1. **导入 Flask**2. **创建 Flask 应用**3. **定义一个路由**4. **运行应用** 1.3 遗留问题 2. 创建一个复杂接口2.2 具体过程 1. 创建一个简单的接口 1.1 具体过程 from flask import Flaskapp Flask(__name__)app.rou…

pip安装指定版本的tensorflow

安装CPU版本&#xff1a;(以2.9.0版本为例) pip install tensorflow2.9.0安装GPU版本&#xff1a;(以2.9.0版本为例) pip install tensorflow-gpu2.9.0若下载缓慢&#xff0c;使用阿里国内镜像源加速下载&#xff1a;(以2.9.0版本为例) pip install -i https://mirrors.aliy…

一些硬件知识【20241013】

3C认证要花很多钱&#xff1a; X电容可以滤除差模信号干扰&#xff0c;当火线上有高频干扰信号时候&#xff0c;X电容利用两端压差将干扰送到N: Y电容针对于零火线上有相位相同的共模干扰信号的时候&#xff0c;将干扰导向大地&#xff1a; 电阻上并联一个电容有什么作用&#…

mac安装homebrew和git

简介 由于把自己的新mac拿来撸代码&#xff0c;开始环境搭建&#xff0c;安装各种工具和依赖&#xff0c;安装 git 需要先安装 homebrew&#xff0c;然后就遇到了 homebrew 安装失败的问题。 curl: (7) Failed to connect to raw.githubusercontent.com port 443: Connection…

多字节字符集MFC使用 Windows Visual Styles

新建一个记事本&#xff0c;然后添加以下代码 <?xml version"1.0" encoding"UTF-8" standalone"yes"?> <assembly xmlns"urn:schemas-microsoft-com:asm.v1" manifestVersion"1.0"><trustInfo xmlns"…

STM32 | STM32F4OTA_ESP8266_Bootloader为引导程序远程更新的代码(APP)

更新。点击上方"蓝字"关注我们 01、思路 >>> STM32F4OTA_ESP8266_Bootloader为引导程序 远程更新的代码&#xff08;APP&#xff09;:远程更新的APP Ymoden_server&#xff1a;为运行在Linux的TCP服务器 备注&#xff1a;STM32 OTA远程更新需要连接热点 电…

地级市-国内旅游收入、国内旅游人数数据(2000-2023年)

国内旅游收入是指国内游客在旅行过程中的全部花费&#xff0c;包括交通、参观游览、住宿、餐饮、购物和娱乐等。这一指标不包括国际游客在国内的消费&#xff0c;主要反映国内旅游市场的经济规模和发展水平&#xff0c;是评估旅游行业对国民经济贡献的重要参数。 地级市-国内旅…

安全可靠测评结果公告(2024年第2号)

大家可以选择对应的数据库&#xff0c;中央处理器&#xff0c;供参考

【C++】--内存管理

&#x1f47e;个人主页: 起名字真南 &#x1f47b;个人专栏:【数据结构初阶】 【C语言】 【C】 目录 1 C/C内存分布2 C语言中动态内存管理方式 &#xff1a;3 C内存管理方式3.1 new/delete操作内置类型3.2 new和delete操作自定义类型 4 operator new与operator delete4.1 opera…

Cortex-M 内核的 OS 特性

目录 一、通用堆栈知识二、双堆栈用法三、PendSV 中断介绍和用法四、SVC 软中断介绍和用法五、特权级和非特权级使用方法 一、通用堆栈知识 在前面讲解 STM32 启动文件的时候就已经提到过&#xff0c;有关堆栈大小的设置是在启动文件中设置的&#xff1a; Heap 主要用于 Mal…

学习Redisson实现分布式锁

官网&#xff1a;https://redisson.org/ 官方文档&#xff1a;https://redisson.org/docs/getting-started/ 官方中文文档&#xff1a;https://github.com/redisson/redisson/wiki/%E7%9B%AE%E5%BD%95 1、引入依赖 <!--redisson--> <dependency><groupId>or…

基础教程 | 用VuePress搭建一个简单的个人博客(附源码)

先附上自己个人博客页面&#xff1a;https://illusionno.github.io/ 源码也在这里&#xff1a;https://github.com/illusionno/my-blog &#xff08;如果觉得有帮助&#xff0c;可以点颗star✨&#xff09; 使用的主题是vuepress-theme-reco2.x&#xff0c;并在上面进行了一些调…

基于Java Web众筹系统的设计与实现

文未可获取一份本项目的java源码和数据库参考。 体育俱乐部是我国体育产业的重要组成部分&#xff0c;而乒乓球作为“国球”&#xff0c;在我国拥有最广泛的群众基础。在世界乒坛&#xff0c;面对如此激烈的外部竞争环境&#xff0c;我国乒乓球运动应扎扎实实地研究基层职业乒乓…