Nvidia主导AI推理竞赛,但新兴对手纷纷崭露头角

news2024/9/30 21:25:45

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

虽然Nvidia GPU在AI训练领域的主导地位依然不可撼动,但在AI推理方面,竞争对手似乎正在缩小与这家科技巨头的差距,尤其是在能效方面。然而,Nvidia的新款Blackwell芯片的强大性能可能依然难以超越。

今天,ML Commons发布了最新的AI推理竞赛结果,即ML Perf Inference v4.1。这一轮竞赛首次有使用AMD Instinct加速器、最新的Google Trillium加速器、多伦多初创公司UntetherAI的芯片以及Nvidia新款Blackwell芯片的团队参与。另有两家公司,Cerebras和FuriosaAI,宣布了新款推理芯片,但未提交MLPerf竞赛。

MLPerf竞赛类似于奥运会,有许多类别和子类别。本次提交最多的类别是“数据中心封闭”类别。封闭类别要求参赛者在给定模型上运行推理,不能对软件进行重大修改。数据中心类别则测试参赛者的大批量查询处理能力,而边缘类别则更加关注减少延迟。

在每个类别中,有9种不同的基准测试,涵盖不同类型的AI任务。这些任务包括流行的应用场景,如图像生成(如Midjourney)和大型语言模型问答(如ChatGPT),以及同样重要但不太出名的任务,如图像分类、物体检测和推荐引擎。

本轮竞赛还新增了一个名为“专家混合”的基准测试。这是大型语言模型(LLM)部署中日益流行的趋势,其中一个语言模型被分成多个较小的独立模型,每个模型针对特定任务进行微调,如普通对话、解决数学问题和编程辅助。模型可以将每个查询定向到合适的子模型或“专家”组。这种方法能够减少每个查询的资源使用,从而降低成本并提高吞吐量。

在数据中心封闭基准测试的各项任务中,Nvidia的H200 GPU和GH200超级芯片依然表现最佳,这些芯片将GPU和CPU整合在同一个封装内。然而,细看性能结果时,情况变得更加复杂。一些参赛者使用了多个加速器芯片,而另一些只使用了一个。如果我们将每个参赛者能够处理的每秒查询次数按所用加速器数量归一化,并只保留每种加速器类型中表现最好的提交,就会发现一些有趣的细节(需要注意的是,这种方法忽略了CPU和互连的作用)。

在每个加速器基础上,Nvidia的Blackwell在LLM问答任务上表现出2.5倍的性能提升,超越了此前的所有芯片版本。Untether AI的speedAI240 Preview芯片在其唯一提交的任务——图像识别——中几乎与H200持平。Google的Trillium在图像生成方面表现为H100和H200的一半多一点,而AMD的Instinct在LLM问答任务中的表现与H100大致相当。

Blackwell的强大性能

Nvidia Blackwell取得成功的原因之一是其能够以4位浮点精度运行LLM。Nvidia及其竞争对手一直致力于减少在变压器模型(如ChatGPT)的部分计算中使用的比特数,以加快计算速度。Nvidia在H100中引入了8位数学计算,而此次提交则标志着4位数学计算首次在MLPerf基准测试中得到展示。

使用如此低精度的数字的最大挑战在于保持准确性。Nvidia的产品营销总监Dave Salvator表示,为了保持MLPerf提交所需的高准确性,Nvidia团队在软件上进行了重大创新。

另一个重要的贡献是Blackwell的内存带宽几乎翻倍,从H200的4.8 TB/s提升至8 TB/s。

Nvidia提交的Blackwell芯片使用了单个芯片,但Salvator表示,Blackwell是为网络化和扩展而设计的,结合Nvidia的NVLink互连技术后将表现最佳。Blackwell GPU支持最多18个NVLink 100 GB/s连接,总带宽为1.8 TB/s,约为H100互连带宽的两倍。

Salvator认为,随着大型语言模型的规模不断扩大,即使是推理也将需要多GPU平台来满足需求,而Blackwell正是为此设计的。“Blackwell是一个平台,”Salvator表示。

Nvidia在预览子类别中提交了基于Blackwell芯片的系统,这意味着该芯片尚未上市,但预计将在下次MLPerf发布前(六个月后)上市。

Untether AI在功耗和边缘推理中的表现

在每个基准测试中,MLPerf还包括了一个能量测量部分,系统地测试每个系统在执行任务时消耗的电力。在主赛事(数据中心封闭能量类别)中,本轮只有Nvidia和Untether AI提交了结果。虽然Nvidia参与了所有基准测试,但Untether仅提交了图像识别任务。

Untether AI通过一种称为内存计算的方法实现了这一令人印象深刻的效率。UntetherAI的芯片设计为内存单元网格,并在其间分布了小型处理器。这些处理器是并行化的,每个处理器同时处理附近内存单元中的数据,从而大大减少了在内存和计算核心之间传输模型数据所消耗的时间和能量。

Untether AI的这一方法在MLPerf的另一个子类别——边缘封闭——中尤为成功。这个类别面向更为实地的应用场景,如工厂车间的机器检测、引导视觉机器人和自动驾驶汽车——这些应用中低能耗和快速处理至关重要。

在图像识别任务中,UntetherAI的speedAI240 Preview芯片在延迟性能上超越了Nvidia L40S 2.8倍,在吞吐量(每秒样本数)上超越了1.6倍。虽然UntetherAI也在这一类别中提交了功耗结果,但其Nvidia加速的竞争对手没有提交,因此难以进行直接比较。然而,UntetherAI的speedAI240 Preview芯片的标称功耗为150瓦,而Nvidia的L40S为350瓦,从而实现了标称2.3倍的功耗减少并改进了延迟。

Cerebras和Furiosa跳过MLPerf但发布了新芯片

昨天在斯坦福大学举行的IEEE Hot Chips会议上,Cerebras推出了自己的推理服务。这家位于加利福尼亚州Sunnyvale的公司制造了尽可能大的芯片,避免了芯片之间的互连,大幅提高了其设备的内存带宽,这些设备主要用于训练大规模神经网络。现在它已经升级了软件堆栈,以使用其最新的CS3计算机进行推理。

虽然Cerebras没有提交MLPerf,但该公司声称其平台在每秒生成的LLM标记数量上比H100高7倍,比竞争AI初创公司Groq的芯片高2倍。“今天,我们处于生成AI的拨号时代,”Cerebras的CEO兼联合创始人Andrew Feldman表示。“这是因为存在内存带宽瓶颈。无论是Nvidia的H100,还是MI 300或TPU,它们都使用相同的离片内存,产生了相同的限制。我们打破了这一限制,因为我们是晶圆级的。”

Hot Chips会议还见证了首尔公司Furiosa发布其第二代芯片RNGD(发音为“renegade”)。Furiosa芯片的特点是其张量收缩处理器(TCP)架构。AI工作负载中的基本操作是矩阵乘法,通常在硬件中作为基本运算实现。然而,矩阵的大小和形状可以广泛变化,更一般地称为张量。RNGD将张量的乘法作为基本运算实现。Furiosa的创始人兼CEO June Paik在Hot Chips会议上表示:“在推理过程中,批处理大小变化很大,因此利用给定张量形状的内在并行性和数据重用非常重要。”

虽然Furiosa没有提交MLPerf,但该公司在内部比较了其RNGD芯片在MLPerf的LLM摘要基准测试中的表现。其性能与Nvidia的面向边缘的L40S芯片相当,而功耗仅为185瓦,相比之下L40S为320瓦。Paik表示,随着进一步的软件优化,性能还会提高。

IBM也宣布了他们的新款Spyre芯片,专为企业生成AI工作负载设计,将于2025年第一季度上市。

至少,在可预见的未来,AI推理芯片市场的购物者不会感到无聊。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2087557.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

健康早知道小程序的设计

管理员账户功能包括:系统首页,个人中心,用户管理,医生管理,健康信息管理,健康评估管理,在线留言,系统管理 微信端账号功能包括:系统首页,医学知识&#xff0…

【网络】数据链路层协议——以太网,ARP协议

1.局域网转发 (1)IP提供了将数据包跨网络发送的能力,这种能力实际上是通过子网划分目的ip查询节点的路由表来实现的,但实际上数据包要先能够在局域网内部进行转发到目的主机,只有有了这个能力之后,数据包才…

【问题分析】放大镜影响权限弹窗接收事件【Android14】

1 问题描述 如图,打开google的放大镜功能,然后将该放大镜和权限弹窗部分重合,会发现权限弹窗的按钮如“Allow”,点击无响应。 顺便一提,如果放大镜和权限弹窗完全重合或者完全不重合,是没问题的。 2 问题…

create-react-app 移除 ESLint 语法检查

ESLint 的作用: ESLint 是一个流行的 JavaScript 代码静态检查工具,旨在帮助开发者识别和修复代码中的问题。以下是关于 ESLint 的一些关键信息: 主要功能: 1.代码风格检查:ESLint 可以检查代码是否符合特定的编码风…

基于STM32开发的智能农业监测与控制系统

目录 引言环境准备工作 硬件准备软件安装与配置系统设计 系统架构硬件连接代码实现 系统初始化传感器数据采集与处理自动灌溉与环境控制数据融合与决策算法OLED显示与状态提示Wi-Fi通信与远程监控应用场景 温室环境的智能监控与自动化控制农田土壤与作物生长的实时监测常见问题…

2017年系统架构师案例分析试题四

目录 案例 【题目】 【问题 1】(9 分) 【问题 2】(9 分) 【问题 3】(7 分) 【答案】 【问题 1】解析 【问题 2】解析 【问题 3】解析 相关推荐 案例 阅读以下关于数据库设计的叙述,在答题纸上回答问题 1 至问题 3。 【题目】 某制造企业为拓展网上销售业…

强化学习,第 6 部分:n 步 Bootstrapping

一、介绍 1.1 概述 R强化学习是机器学习中的一个领域,它引入了智能体在复杂环境中学习最佳策略的概念。代理从其操作中学习,从而根据环境的状态获得奖励。强化学习是一个具有挑战性的话题,与机器学习的其他领域有很大不同。 强化学习的显着…

Linux--实现U盘,SD卡的自动挂载

1. 编辑/etc/init.d/rsC或S10mdev文件 在/etc/init.d/rsC或S10mdev中加入以下语句: echo /sbin/mdev > /proc/sys/kernel/hotplug 当有热插拔事件产生时,内核会调用/proc/sys/kernel/hotplug文件里指定的应用程序来处理热插拔事件。把/sbin/mdev写…

数据结构---双向链表---循环链表---栈

目录 一、双向链表 1.1.创建双向链表 1.2.头插法 1.3.尾插法 1.4.查询节点 1.5.修改节点 1.6.删除节点 1.7.打印节点 1.8.销毁链表 二、循环链表 2.1.单循环链表 2.2.双循环链表 三、栈 3.1.顺序栈 1.创建栈 2.判断栈是否满 3.判断栈是否为空 4.进栈 5.出栈…

深度解读SGM41511电源管理芯片I2C通讯协议REG0A寄存器解释

REG0A 是 SGM41511 的第十一个寄存器,地址为 0x0A。这个寄存器包含了只读(R)和可读写(R/W)的位。上电复位值(PORV)为 xxxxxx00,其中 x 表示不确定的初始状态。这个寄存器提供了充电器…

microsoft微软excel或WPS表格打开vivado逻辑分析仪ILA保存的csv文件,自动转换科学计数法损失精度的bug

问题 vivado的逻辑分析仪ILA,可以方便的把数据导出成CSV(Comma-Separated Values)文件,实际是逗号作为分隔符的数据文件。 导出数据文件用文本编辑器打开,第74行有如下数据: 但是使用excel打开这个csv文件,则这个数…

基于Python的机器学习系列(15):AdaBoost算法

简介 AdaBoost(Adaptive Boosting)是一种提升(Boosting)算法,旨在通过组合多个弱分类器来提高整体模型的性能。AdaBoost的核心思想是通过加权结合多个表现较弱的分类器(通常是深度为1的决策树,称…

Spring Boot Web开发实践:响应参数的使用方法、IOC、DI和Bean基本介绍

主要介绍了SpringBootWeb响应参数的基本使用和spring框架的控制反转(IOC)和依赖注入(DI)以及Bean对象的声明、扫描、注入!!! 目录 前言 响应参数 分层解耦 三层架构 分层解耦 IOC & …

MVC与设计模式理解-lnmp学习之路

一、MVC 前言: MVC是一种应用架构模式,也可以说是一种业务架构或是一种应用设计思想,用于组织业务逻辑并分离代码的。 MVC组成结构是Model-View-Controller,Model是管控数据层,View是管控视图层,Controlle…

【Unity-UGUI组件拓展】| ContentSizeFitter 组件拓展,支持设置最大宽高值

🎬【Unity-UGUI组件拓展】| ContentSizeFitter 组件拓展,支持设置最大宽高值一、组件介绍二、组件拓展方法三、完整代码💯总结🎬 博客主页:https://xiaoy.blog.csdn.net 🎥 本文由 呆呆敲代码的小Y 原创,首发于 CSDN🙉 🎄 学习专栏推荐:Unity系统学习专栏 🌲…

图新地球桌面端-给地块贴纹理都是正北方向如何调整

0序 有部分做农保、农业管理的客户,需要结合GIS做一些方案效果,有时候会直接把面对象贴上作物类型的纹理,看上去会比纯色块更好看一些。而又不需要去做复杂的人工建模。 本文的重点是对导入的纹理进行角度调整,让纹理和地块的方向…

UE5开发——射击游戏

1. 枪支拾取动画 创建Text Block 编译保存 在h文件写入 &#xff0c;属性 private:UPROPETY(VisibleAnywhere, Category "Weapon Properties")class UWidgetComponent* PickupWidget; 先写这个&#xff1a; CreateDefaultSubobject<UWidgetComponent>(TEXT(…

JavaWeb——介绍(什么是Web、Web网站的开发模式)、初始Web前端(Web标准、学习内容)

目录 介绍 什么是Web Web网站的开发模式 初识Web前端 Web标准 学习内容 介绍 JavaWeb学习路线 &#xff08;仅用作参考&#xff09; 什么是Web Web&#xff1a;全球广域网&#xff0c;也称为万维网&#xff08;www World Wide Web)&#xff0c;能够通过浏览器访问的…

数据结构之内核链表,栈,队列

今天主要学习了内核链表&#xff0c;顺序栈&#xff0c;链式栈&#xff0c;顺序队列&#xff0c;链式队列的相关内容。 一.内核链表 内核链表和之前的单向&#xff0c;双向链表有所不同的是内核链表的结构是数据包含节点&#xff0c;特点如下&#xff1a; 1.一种链表结构能够操…

系统架构设计师——系统工程学

概述. 系统工程是一种跨学科的方法论&#xff0c;旨在通过系统方法组织管理技术来实现系统的规划、研究、设计、制造、试验和使用。它的核心在于从整体的角度出发&#xff0c;合理地开发、设计、实施和运用系统科学和技术&#xff0c;确保系统能够成功地实现其预定目的。以下是…