每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
虽然Nvidia GPU在AI训练领域的主导地位依然不可撼动,但在AI推理方面,竞争对手似乎正在缩小与这家科技巨头的差距,尤其是在能效方面。然而,Nvidia的新款Blackwell芯片的强大性能可能依然难以超越。
今天,ML Commons发布了最新的AI推理竞赛结果,即ML Perf Inference v4.1。这一轮竞赛首次有使用AMD Instinct加速器、最新的Google Trillium加速器、多伦多初创公司UntetherAI的芯片以及Nvidia新款Blackwell芯片的团队参与。另有两家公司,Cerebras和FuriosaAI,宣布了新款推理芯片,但未提交MLPerf竞赛。
MLPerf竞赛类似于奥运会,有许多类别和子类别。本次提交最多的类别是“数据中心封闭”类别。封闭类别要求参赛者在给定模型上运行推理,不能对软件进行重大修改。数据中心类别则测试参赛者的大批量查询处理能力,而边缘类别则更加关注减少延迟。
在每个类别中,有9种不同的基准测试,涵盖不同类型的AI任务。这些任务包括流行的应用场景,如图像生成(如Midjourney)和大型语言模型问答(如ChatGPT),以及同样重要但不太出名的任务,如图像分类、物体检测和推荐引擎。
本轮竞赛还新增了一个名为“专家混合”的基准测试。这是大型语言模型(LLM)部署中日益流行的趋势,其中一个语言模型被分成多个较小的独立模型,每个模型针对特定任务进行微调,如普通对话、解决数学问题和编程辅助。模型可以将每个查询定向到合适的子模型或“专家”组。这种方法能够减少每个查询的资源使用,从而降低成本并提高吞吐量。
在数据中心封闭基准测试的各项任务中,Nvidia的H200 GPU和GH200超级芯片依然表现最佳,这些芯片将GPU和CPU整合在同一个封装内。然而,细看性能结果时,情况变得更加复杂。一些参赛者使用了多个加速器芯片,而另一些只使用了一个。如果我们将每个参赛者能够处理的每秒查询次数按所用加速器数量归一化,并只保留每种加速器类型中表现最好的提交,就会发现一些有趣的细节(需要注意的是,这种方法忽略了CPU和互连的作用)。
在每个加速器基础上,Nvidia的Blackwell在LLM问答任务上表现出2.5倍的性能提升,超越了此前的所有芯片版本。Untether AI的speedAI240 Preview芯片在其唯一提交的任务——图像识别——中几乎与H200持平。Google的Trillium在图像生成方面表现为H100和H200的一半多一点,而AMD的Instinct在LLM问答任务中的表现与H100大致相当。
Blackwell的强大性能
Nvidia Blackwell取得成功的原因之一是其能够以4位浮点精度运行LLM。Nvidia及其竞争对手一直致力于减少在变压器模型(如ChatGPT)的部分计算中使用的比特数,以加快计算速度。Nvidia在H100中引入了8位数学计算,而此次提交则标志着4位数学计算首次在MLPerf基准测试中得到展示。
使用如此低精度的数字的最大挑战在于保持准确性。Nvidia的产品营销总监Dave Salvator表示,为了保持MLPerf提交所需的高准确性,Nvidia团队在软件上进行了重大创新。
另一个重要的贡献是Blackwell的内存带宽几乎翻倍,从H200的4.8 TB/s提升至8 TB/s。
Nvidia提交的Blackwell芯片使用了单个芯片,但Salvator表示,Blackwell是为网络化和扩展而设计的,结合Nvidia的NVLink互连技术后将表现最佳。Blackwell GPU支持最多18个NVLink 100 GB/s连接,总带宽为1.8 TB/s,约为H100互连带宽的两倍。
Salvator认为,随着大型语言模型的规模不断扩大,即使是推理也将需要多GPU平台来满足需求,而Blackwell正是为此设计的。“Blackwell是一个平台,”Salvator表示。
Nvidia在预览子类别中提交了基于Blackwell芯片的系统,这意味着该芯片尚未上市,但预计将在下次MLPerf发布前(六个月后)上市。
Untether AI在功耗和边缘推理中的表现
在每个基准测试中,MLPerf还包括了一个能量测量部分,系统地测试每个系统在执行任务时消耗的电力。在主赛事(数据中心封闭能量类别)中,本轮只有Nvidia和Untether AI提交了结果。虽然Nvidia参与了所有基准测试,但Untether仅提交了图像识别任务。
Untether AI通过一种称为内存计算的方法实现了这一令人印象深刻的效率。UntetherAI的芯片设计为内存单元网格,并在其间分布了小型处理器。这些处理器是并行化的,每个处理器同时处理附近内存单元中的数据,从而大大减少了在内存和计算核心之间传输模型数据所消耗的时间和能量。
Untether AI的这一方法在MLPerf的另一个子类别——边缘封闭——中尤为成功。这个类别面向更为实地的应用场景,如工厂车间的机器检测、引导视觉机器人和自动驾驶汽车——这些应用中低能耗和快速处理至关重要。
在图像识别任务中,UntetherAI的speedAI240 Preview芯片在延迟性能上超越了Nvidia L40S 2.8倍,在吞吐量(每秒样本数)上超越了1.6倍。虽然UntetherAI也在这一类别中提交了功耗结果,但其Nvidia加速的竞争对手没有提交,因此难以进行直接比较。然而,UntetherAI的speedAI240 Preview芯片的标称功耗为150瓦,而Nvidia的L40S为350瓦,从而实现了标称2.3倍的功耗减少并改进了延迟。
Cerebras和Furiosa跳过MLPerf但发布了新芯片
昨天在斯坦福大学举行的IEEE Hot Chips会议上,Cerebras推出了自己的推理服务。这家位于加利福尼亚州Sunnyvale的公司制造了尽可能大的芯片,避免了芯片之间的互连,大幅提高了其设备的内存带宽,这些设备主要用于训练大规模神经网络。现在它已经升级了软件堆栈,以使用其最新的CS3计算机进行推理。
虽然Cerebras没有提交MLPerf,但该公司声称其平台在每秒生成的LLM标记数量上比H100高7倍,比竞争AI初创公司Groq的芯片高2倍。“今天,我们处于生成AI的拨号时代,”Cerebras的CEO兼联合创始人Andrew Feldman表示。“这是因为存在内存带宽瓶颈。无论是Nvidia的H100,还是MI 300或TPU,它们都使用相同的离片内存,产生了相同的限制。我们打破了这一限制,因为我们是晶圆级的。”
Hot Chips会议还见证了首尔公司Furiosa发布其第二代芯片RNGD(发音为“renegade”)。Furiosa芯片的特点是其张量收缩处理器(TCP)架构。AI工作负载中的基本操作是矩阵乘法,通常在硬件中作为基本运算实现。然而,矩阵的大小和形状可以广泛变化,更一般地称为张量。RNGD将张量的乘法作为基本运算实现。Furiosa的创始人兼CEO June Paik在Hot Chips会议上表示:“在推理过程中,批处理大小变化很大,因此利用给定张量形状的内在并行性和数据重用非常重要。”
虽然Furiosa没有提交MLPerf,但该公司在内部比较了其RNGD芯片在MLPerf的LLM摘要基准测试中的表现。其性能与Nvidia的面向边缘的L40S芯片相当,而功耗仅为185瓦,相比之下L40S为320瓦。Paik表示,随着进一步的软件优化,性能还会提高。
IBM也宣布了他们的新款Spyre芯片,专为企业生成AI工作负载设计,将于2025年第一季度上市。
至少,在可预见的未来,AI推理芯片市场的购物者不会感到无聊。