英伟达经济学:云服务商在GPU上每花1美元 就能赚7美元

news2025/1/4 15:34:37

NVIDIA超大规模和 HPC 业务副总裁兼总经理 Ian Buck 近日在美国银行证券 2024 年全球技术大会上表示,客户正在投资数十亿美元购买新的NVIDIA硬件,以跟上更新的 AI 大模型的需求,从而提高收入和生产力。

Buck表示,竞相建设大型数据中心的公司将特别受益,并在数据中心四到五年的使用寿命内获得丰厚的回报,“云提供商在购买 GPU 上花费的每一美元,四年内(通过提供算力服务GAAS)都能收回 5 美元。”

“如果用于推理,则更有利可图,每花费 1 美元,在同样的时间段内就能产生 7 美元的营业额,并且这个数字还在增长。” Buck说道。

NVIDIA创始人、总裁兼首席执行官黄仁勋和执行副总裁兼首席财务官Colette Kress此前也曾表达过同样的观点。

他们此前曾表示,借助CUDA算法创新,NVIDIA将H100的LLM推断速度提升至原来的3倍,这可以将Llama 3这类的模型的成本降低到原来的三分之一,而H200在推理性能上较H100几乎翻了一番,为生产部署带来了巨大的价值。

例如,使用7000亿参数的LLama 3,单台HGX H200服务器可以每秒输出24000个Token,同时支持超过2400名用户。

这意味着,按照现有的定价来看,托管Llama3的API供应商每花费1美元在NVIDIAHGX H200服务器上,未来四年内就可从Llama3 token计费中赚取7美元收入。

围绕 Llama、Mistral 或 Gemma 的 AI 推理模型正在不断发展,并由Token提供服务。NVIDIA正在将开源 AI 模型打包到名为 Nvidia 推理微服务 (NIM) 的容器中。

NVIDIA最新推出的Blackwell 针对推理进行了优化,支持 FP4 和 FP6 数据类型,在运行低强度 AI 工作负载时可进一步提高能效。

根据官方的数据,与Hopper相比,Blackwell 训练速度比H100快4倍,推断速度快30倍,并且能够实时运行万亿参数大语言模型生成式AI,可进一步将成本和能耗降低到原来的25分之一。

这似乎呼应了黄仁勋多次喊出的“买的越多,省的越多”的口号,但不可忽视的是,NVIDIA GPU价格也在快速上涨。

在这里插入图片描述

为 Rubin GPU做准备

很多云提供商提前两年就已经开始规划新的数据中心,并希望了解未来的AI GPU 架构会是什么样子。

NVIDIA在6月初的Computex 2024展会上宣布,Blackwell芯片现已开始投产,即将替代Hopper芯片。2025年将会推出Blackwell Ultra GPU芯片。

NVIDIA还公布了下一代集成HBM4的名为“Rubin”的AI平台,该GPU将于2026年发布,以替代Blackwell和Blackwell Ultra GPU。

“对我们来说,做到这一点真的很重要——数据中心不是凭空而来的,它们是大型建设项目。他们需要了解Blackwell 数据中心会是什么样子,它与Hopper数据中心有何不同。”Buck说。

Blackwell 提供了一个转向更密集的计算形式和使用液体冷却等技术的机会,因为空气冷却效率不高。

NVIDIA已经宣布每年都会推出一款新的 GPU的节奏,这有助于公司跟上 AI 发展的步伐,进而帮助客户规划产品和 AI 战略。

Buck说:“NVIDIA已经与那些最大的客户针对Rubin GPU探讨了一段时间——他们知道我们的目标和时间表。”

AI 的速度和能力与硬件直接相关。在 GPU 上投入的资金越多,AI公司就能训练出更大的模型,从而带来更多收入。

微软和谷歌将自己的未来寄托在人工智能上,并竞相开发更强大的大型语言模型。微软严重依赖新的 GPU 来支撑其 GPT-4 后端,而谷歌则依赖其 TPU 来运行其人工智能基础设施。

Blackwell供不应求

NVIDIA目前正在生产 Blackwell GPU,样品很快就会发布。但客户可以预料,首批 GPU(将于年底发货)将供不应求。

“每一项新技术的转型都会带来……供需方面的挑战。我们在 Hopper 上就经历过这种情况,Blackwell 的产能提升也将面临类似的供需限制……今年年底到明年。” Buck 说道。

Buck还表示,数据中心公司正在淘汰 CPU 基础设施,为更多 GPU 腾出空间。Hopper GPU 可能会被保留,而基于旧 Ampere 和 Volta 架构的旧 GPU 则会被转售。

NVIDIA将保留多个级别的 GPU,随着 Blackwell 的不断发展,Hopper 将成为其主流 AI GPU。NVIDIA已经进行了多项硬件和软件改进,以提高 Hopper 的性能。

未来所有云提供商都将提供 Blackwell GPU 和服务器。

在这里插入图片描述

专家模型

Buck 表示,GPT-4 模型大约有 1.8 万亿个参数,由于 AI 扩展尚未达到极限,参数数量还将继续增长。

“人类大脑的规模大概相当于 1000 亿到 150 万亿个参数,具体数量取决于个人,取决于大脑中的神经元和连接。目前,人工智能的参数规模约为 2 万亿……我们尚未进行推理。”Buck说道。

未来将会有一个包含数万亿个参数的大型模型,在此基础上会构建更小、更专业的模型。参数数量越多对NVIDIA越有利,因为它有助于销售更多 GPU。

NVIDIA正在调整其 GPU 架构,从原来的基础模型方法转向混合专家模型。专家混合涉及多个神经网络通过相互参考来验证答案。

Buck说:“1.8 万亿参数的 GPT 模型有 16 个不同的神经网络,它们都试图回答各自层的部分问题,然后商讨、会面并决定正确答案是什么。”

即将推出的 GB200 NVL72 机架式服务器配备 72 个 Blackwell GPU 和 36 个 Grace CPU,专为混合专家模型而设计。多个 GPU 和 CPU 相互连接,从而支持混合专家模型。

“这些家伙都可以相互通信,而不会在 I/O 上受阻。这种演变在模型架构中不断发生,”Buck 说。

锁定客户的技巧

NVIDIA首席执行官黄仁勋本月在 HPE 的 Discover 大会上发表了一些激烈的言论,呼吁人们购买更多该公司的硬件和软件。

NVIDIA和 HPE 宣布推出一系列新产品,其名称简单明了,为“Nvidia AI Computing by HPE”。

“我们设计了小号、中号、大号和特大号,你可以选择,而且正如你所知,你买得越多,省得越多。” 黄在 Discover 的舞台上说道。

黄仁勋今年早些时候还发表了另一条备受争议的言论,当时他说未来的程序员不需要学习如何编写代码,但在 Nvidia GPU 上加载 AI 模型需要了解命令行和脚本,以创建和运行 AI 环境。

NVIDIA的专有言论和在人工智能市场的完全主导地位使其成为反垄断调查的目标。

当 Buck 试图淡化人们对 CUDA 的担忧时,他必须小心谨慎,他表示“护城河是一个复杂的词”。

NVIDIA两位高管都表示,CUDA 是其 GPU 的必备软件——要最大限度地发挥 GPU 的性能,就需要 CUDA。开源软件可以与 Nvidia GPU 配合使用,但无法提供 CUDA 库和运行时的强大功能。

向下兼容性和连续性是NVIDIA的独特优势,NVIDIA对AI 模型和软件的支持可以延续到下一代 GPU。但对于英特尔的 Gaudi 等 ASIC 则不然,它们必须针对每个新模型重新进行调整。

我会定期在CSDN分享我的学习心得,项目经验和行业动态。如果你对某个领域感兴趣,或者想要了解更多技术干货,请关注我的账号,一起成长!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1884642.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

flask中解决图片不显示的问题(很细微的点)

我在编写flask项目的时候,在编写html的时候,发现不管我的图片路径如何变化,其就是显示不出来。如下图我框中的地方。 我尝试过使用浏览器打开,是可以的。 一旦运行这个flask项目,就无法显示了。 我查阅资料后。发现…

Kafka-时间轮和延迟操作-源码流程

TimingWheel 字段: buckets:Array.tabulate[TimerTaskList]类型,其每一个项都对应时间轮中的一个时间格,用于保存 TimerTaskList的数组。在TimingWheel中,同一个TimerTaskList中的不同定时任务的到期时间可能 不同&a…

【Dison夏令营 Day 06】用 Python 和 Rich 制作 Wordle克隆(中篇)

在大流行期间,Wordle 在 Twitter 上还算比较流行的一款基于网络的益智游戏,要求玩家每天在六次或更短时间内猜出一个新的五个字母的单词,每个人得到的单词都是一样的。 在本教程中,你将在终端上创建自己的 Wordle 克隆。自 2021 …

【Qt】认识Qt界面Hello world小程序

一.认识Qt界面 1.左边栏 在编辑模式下,左边竖排的两个窗⼝叫做 "边栏" 。 ① 是项⽬⽂件管理窗⼝ ② 是打开⽂件列表窗⼝。 边栏⾥的窗⼝数⽬可以增加,边栏⼦窗⼝标题栏有⼀排⼩按钮,最右边的是关闭按钮,倒数第⼆个是 …

分布式限流:Spring Cloud Gateway 限流

分布式限流:Spring Cloud Gateway 限流 在现代微服务架构中,流量控制是一个至关重要的部分。分布式限流作为一种有效的流量控制手段,能够帮助我们保护系统不被突发的流量冲垮。Spring Cloud Gateway支持多种限流方式。 什么是分布式限流 分…

电影交流平台小程序的设计

管理员账户功能包括:系统首页,个人中心,电影类型管理,留言反馈管理,电影中心管理,系统管理 微信端账号功能包括:系统首页,电影中心,留言反馈 开发系统:Window…

适用于高海拔地区的工业路由器产品

1、西藏背景 西藏,这个位于中国西南部的神秘之地,以其雄伟壮观、神奇瑰丽的自然风光和深厚的文化底蕴,被无数人视为心中的圣地。这里属于高原性气候,具有气温低、气压低,降水少,生态环境十分恶劣。西藏被誉…

Spring Boot集成DeepLearning4j实现图片数字识别

1.什么是DeepLearning4j? DeepLearning4J(DL4J)是一套基于Java语言的神经网络工具包,可以构建、定型和部署神经网络。DL4J与Hadoop和Spark集成,支持分布式CPU和GPU,为商业环境(而非研究工具目的…

《Windows API每日一练》7.4 状态报告上使用计时器

这一节我们使用计时器,每隔一秒获取当前鼠标坐标位置的像素值,并显示在窗口,这就相当于是一个简单的取色器了。 本节必须掌握的知识点: 第47练:取色器 7.4.1 第47练:取色器 /*----------------------------…

商家团购app微信小程序模板

手机微信商家团购小程序页面,商家订餐外卖小程序前端模板下载。包含:团购主页、购物车订餐页面、我的订单、个人主页等。 商家团购app微信小程序模板

昇思25天学习打卡营第13天|ResNet50图像分类

1. 学习内容复盘 图像分类是最基础的计算机视觉应用,属于有监督学习类别,如给定一张图像(猫、狗、飞机、汽车等等),判断图像所属的类别。本章将介绍使用ResNet50网络对CIFAR-10数据集进行分类。 ResNet网络介绍 ResNet50网络是2015年由微软…

使用Git从Github上克隆仓库,修改并提交修改

前言 本次任务主要是进行github提交修改的操作练习实践,本文章是对实践过程以及遇到的问题进行的一个记录。 在此之前,我已经简单使用过github,Git之前已经下好了,所以就省略一些步骤。 步骤记录 注册github账号,gi…

PS系统教程31

调色之色阶 调色与通道最基本的关系通道是记录颜色最基本的信息有些图片可以用通道去改变颜色信息的说明这些图像是比较高级的PS是一款图像合成软件,在合成过程中需要处理大量素材,比如要用这些素材进行抠背景,就要用到图层蒙版以及Alpha通道…

Go语言--格式化输出输入、类型转换

格式说明 %T操作变量所属类型自动匹配格式的不一定很正确,尤其是字符类型,本应该是整型,实际上他会输出数字 输入 阻塞等待用户的输入 fmt.Scanf("%d", &a)fmt.Scan(&b)不需要写格式,自动匹配 类型转换 类…

深入学习 Kafka(1)- 核心组件

组件概述 1. Producer(消息生产者) 核心作用:生成数据源,将消息发送至指定Topic。关键特性:支持批量发送、分区策略选择,以及可配置的重试逻辑,提高了数据传输效率和可靠性。 2. Topic&#x…

iptable精讲

SNAT策略 SNAT策略的典型应用环境 局域网主机共享单个公网IP地址接入Internet SNAT策略的原理 源地址转换,Source Network Address Translantion 修改数据包的源地址 部署SNAT策略 1.准备二台最小化虚拟机修改主机名 主机名:gw 主机名&#xff1…

SpringBoot 项目整合 MyBatisPlus 框架,附带测试示例

文章目录 一、创建 SpringBoot 项目二、添加 MyBatisPlus 依赖三、项目结构和数据库表结构四、项目代码1、application.yml2、TestController3、TbUser4、TbUserMapper5、TestServiceImpl6、TestService7、TestApplication8、TbUserMapper.xml9、MyBatisPlusTest 五、浏览器测试…

云服务出现故障这样处理

无法连接云服务器 服务器远程无法连接时,可通过7ECloud控制台进行连接。 常见故障现象 1、ping不通 2、ping丢包 3、部分端口telnet不通 4、全部端口telnet不通 5、广告、弹窗植入 6、域名无法访问IP访问正常 常见故障原因 1、云服务器过期、关机或者EIP被…

【技巧】ArcgisPro 字段计算器内置函数方法的调用

在arcgisPro中,内置了常用的几种函数方法,如顺序编号,重分类等;调用方法如下:

YOLOv3分析

参考链接:霹雳吧啦b站 主要参考了b站霹雳吧啦的视频《深度学习目标检测篇》。 目录 前言YOLOv3网络结构 YOLOv3 SPP 前言 YOLOv3的精度虽然已经过时,但思想仍旧值得学习,本帖记录所需所想的一些内容。 YOLOv3 网络结构 一共53层&#xff0…