GPU短缺:人工智能行业的可持续发展问题

news2024/9/24 19:13:25

原创 | 文 BFT机器人 

图片

2023年8月,人工智能似乎会受到GPU供应的瓶颈。

“人工智能热潮被低估的一个原因是GPU/TPU短缺。这种短缺导致了产品推出和模型培训的各种限制,但这些都不明显。相反,我们看到的是英伟达的股价飙升。一旦供给满足需求,事情就会加速发展。”——Adam D’angelo, Quora首席执行官,Poe.com,前Facebook首席技术官

01

GPU是造成人工智能发展的瓶颈吗?

埃隆·马斯克表示:“在这一点上,GPU比药物要难得多。”Sam Altman说OpenAI的GPU有限的,它推迟了他们的短期计划。

小型和大型云提供商的大规模H100集群的容量正在耗尽。

“每个人都希望英伟达能生产更多的A/H100”——来自云提供商高管的消息

“我们的gpu太少了,使用我们产品的人越少越好”

“如果他们少使用我们的产品我们就会很高兴,因为我们没有足够的GPU”——Sam Altman, OpenAI的首席执行官

简而言之:是的,H100 gpu存在供应短缺。有人告诉我,对于那些需要100个或1000个H100的公司来说,Azure和GCP实际上已经没有容量了,AWS也快不行了。

这种“容量不足”是基于Nvidia给他们的分配。

02

GPU的供需情况,谁需要/拥有Has1000 + H100或A100

• 初创公司

OpenAI (Azure), Anthropic, Inflection (Azure与CoreWeave), Mistral AI

• CSP(云服务提供商)

三大巨头:Azure、GCP、AWS

其它公共云:Oracle

大型私有云:如CoreWeave, Lambda

• 其他大公司

Tesla

对于使用私有云的公司(CoreWeave, Lambda),拥有数百或数千H100的公司,几乎都是大型语言模型LLM,一些扩散模型可以工作。其中一些是对现有模型的微调,但大多数是你可能还不知道的新初创公司,他们正在根据H100 GPU的需求构建新模型。他们在3年内将使用几百到几千个GPU。

对于使用按需H100和少量GPU的公司来说,它仍然可能有>50%的LLM相关使用。

03

人们需要哪种GPU?

主要是H100s。为什么?无论是为LLM的推理还是训练,它都是最快的。(H100在推理方面的性价比也是最好的)

04

训练LLM最常见的需求是什么?

3.2Tb/s 无限带宽的H100。

05

企业LLM训练和推理的需求是什么?

对于训练,他们倾向于要H100,对于推理,更多的是关于每美元的表现。

H100和A100仍然是一个性价比问题,但H100通常更受青睐,因为它们可以使用更多的GPU进行更好的扩展,并提供更快的训练时间,并且加快/压缩启动或训练或改进模型的时间对初创公司来说至关重要。

“对于多节点培训,他们都要求配备无限带宽的A100或H100。我们只看到非A/H100请求是针对单GPU或单节点工作负载的推断。” ——私有云执行官

“H100是首选,因为它的效率高达3倍,但成本只有(1.5-2倍)。结合整体系统成本,H100每美元的性能要高得多(如果您查看系统性能,每美元的性能可能要高出4-5倍)”——深度学习研究员

06

市场上除了Nvidia,还有AMD,是什么原因令LLM公司不怎么使用AMD GPU?

“从理论上讲,一家公司可以购买一堆AMD的GPU,但要让所有的东西都工作起来需要时间。开发时间(即使只有2个月)可能意味着比竞争对手更晚进入市场。所以CUDA现在是英伟达的护城河。”——私有云执行官

“谁会冒险部署1万块AMD GPU或1万块随机初创公司的芯片呢?那几乎是3亿美元的投资。” ——私有云执行官

“MosaicML/MI250 -有人问过AMD的可用性吗?AMD似乎并没有为Frontier开发出他们需要的产品,现在台积电的CoWoS产能被英伟达吸走了。MI250可能是一个可行的选择,但不可获得。”——退休半导体行业专业人士

07

市场上除了Nvidia,还有AMD,是什么原因令LLM公司不怎么使用AMD GPU?

16位推理快3.5倍,16位训练快2.3倍。

图片

图片

图片

大多数人会想购买H100并将其用于训练和推理,而将他们的A100转换为主要用于推理。但是,有些人可能会因为成本、容量、使用和设置新硬件的风险以及他们现有的软件已经针对A100进行了优化而犹豫不决。

08

H100, GH200s, DGX GH200s, HGX H100和DGX H100之间的区别是什么?

• H100 = 1 × H100 GPU。

• HGX H100 = Nvidia服务器参考平台,oem厂商使用该平台构建4-GPU或8-GPU服务器。由美超微等第三方oem厂商制造。

• DGX H100 = Nvidia官方H100服务器,有8个H100。英伟达是唯一的供应商。

• GH200 = 1x H100 GPU + 1x Grace CPU。

• DGX GH200 = 256x GH200,到2023年底可用。可能只有英伟达提供。

09

这些GPU要花多少钱?

• 1x HGX H100(SXM)配备8x H100 GPU的售价在30万至38万美元之间,取决于规格(网络、存储、内存、CPU)以及销售商的利润和支持水平。

• 高端价格范围是36万至38万美元,包括支持,与DGX H100的相同规格相符。

• 1x HGX H100(PCIe)配备8x H100 GPU的售价约为30万美元,根据规格可能有所变动,包含支持。

• PCIe卡的市场价格约为3万至3.2万美元。

• SXM卡通常作为4-GPU和8-GPU服务器销售,难以给出单卡的定价。

• 大约70-80%的需求是针对SXM H100,其余部分是针对PCIe H100。

• SXM部分的需求趋势上升,因为最初几个月只有PCIe卡可用。

• 由于大多数公司购买8-GPU HGX H100s(SXM),每购买8个H100s的大致支出为36万至38万美元,包括其他服务器组件。

• DGX GH200(提醒一下,其中包含256个GH200,每个GH200包含1个H100 GPU和1个Grace CPU)的价格可能在1500万至2500万美元范围内,尽管这只是猜测,没有基于定价表。

10

GPU的需求数量

• GPT-4可能是在1万到2.5万块A100 GPU上进行训练的。

• Meta拥有约2.1万块A100 GPU,特斯拉拥有约7,000块A100 GPU,Stability AI拥有约5,000块A100 GPU。

• Falcon-40B模型是在384块A100 GPU上进行训练的。

• Inflection公司在其等效的GPT-3.5模型训练中使用了3,500块H100 GPU。

在供应有限的情况下,Nvidia可以纯粹地提高价格以找到一个市场均衡价格,他们在一定程度上正在这样做。但重要的是要知道,最终H100 GPU的分配取决于Nvidia更倾向于将分配权给谁。

11

展望与预测

英伟达透露,他们在今年下半年有更多的供应,但除此之外,他们没有透露更多,也没有量化。

“我们正在着手处理本季度的供应问题,同时我们也已经为下半年采购了大量的供应。”

“我们相信下半年我们将拥有的供应量将远远大于上半年。” ——英伟达首席财务官科莱特·克雷斯在2023年2月至4月的财报电话会议上说

什么时候会有H100的后继机型?

可能要到2024年底(2024年中期到2025年初)才会公布,这是基于英伟达在不同架构之间的历史时间。

在此之前,H100将是英伟达GPU的顶级产品。(GH200和DGX GH200不算,它们不是纯GPU,它们都使用H100作为GPU)

会有更高VRAM容量的H100 GPU吗?

也许是液冷120GB H100。

短缺何时结束?

2023年底前的产品已经售罄。

作者 | LJH

排版 | 居居手

更多精彩内容请关注公众号:BFT机器人

本文为原创文章,版权归BFT机器人所有,如需转载请与我们联系。若您对该文章内容有任何疑问,请与我们联系,将及时回应。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/890318.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

c语言——字符转ASCLL码

//字符转ASCLL码 #include<stdio.h> #include<stdlib.h> int main() {char c;printf("输入字符&#xff1a;");scanf("%c",&c);printf(" %c 的ASCLL为: %d \n",c,c);system("pause");return 0;}

修改文件内容

修改文件内容 按照下方所述&#xff0c;创建一个名为 /home/curtis/ansible/issue.yml 的 playbook &#xff1a; 该 playbook 将在所有清单主机上运行 该 playbook 会将 /etc/issue 的内容替换为下方所示的一行文本&#xff1a; 在 dev 主机组中的主机上&#xff0c;这行文本…

通过模拟考试系统培养学生应对压力的能力

随着现代社会竞争的加剧&#xff0c;学生面临着越来越大的考试压力。为了培养学生应对压力的能力&#xff0c;许多学校开始采用模拟考试系统。模拟考试系统通过模拟真实考试环境和考试内容&#xff0c;帮助学生逐渐适应考试压力&#xff0c;并提供相应的培训和指导。 模拟考试…

pytorch2.0.1 安装部署(cpu+gpu) linux+windows

官网打开可能较慢&#xff0c;耐心等待 pytorch官网 以下操作在默认网络环境即可使用 一、说明和前期准备 1.pytorch是一个和tensorflow类似的框架 如果需要安装tensorflow&#xff0c;可以参考&#xff1a; tensorflow 1&#xff0c;2 cpugpu&#xff08;windowslinux&…

演讲与口才能力培训的实践案例分析

演讲与口才能力培训的实践案例分析 摘要&#xff1a; 演讲与口才能力是一项重要的沟通技巧&#xff0c;对于个人和职业发展都具有重要意义。本文通过案例分析的方式&#xff0c;探讨了演讲与口才能力培训的实践&#xff0c;以及培训对于个人能力提升的影响。通过对不同案例的研…

12、缓存双写一致性之更新策略探讨

缓存双写一致性之更新策略探讨 1、 面试题 只要双写&#xff0c;就一定会有数据一致性问题&#xff0c;那么如何解决一致性问题&#xff1f; 双写一致性&#xff0c;你先动缓存redis还是数据库&#xff1f;为什么&#xff1f; 延时双删做过吗&#xff1f;会有哪些问题&#xf…

《算法竞赛·快冲300题》每日一题:“立方体表面距离”

《算法竞赛快冲300题》将于2024年出版&#xff0c;是《算法竞赛》的辅助练习册。 所有题目放在自建的OJ New Online Judge。 用C/C、Java、Python三种语言给出代码&#xff0c;以中低档题为主&#xff0c;适合入门、进阶。 文章目录 题目描述题解C代码Java代码Python代码 “ 立…

作为spring框架的另外的重点AOP的介绍(详细篇)

一.Aop介绍&#xff0c;以及作用范围&#xff0c;和其专业名词的解释 1.什么是Aop&#xff1f; Java Spring中的AOP&#xff08;面向切面编程&#xff09;是一种编程范式&#xff0c;用于通过将与核心业务逻辑无关的横切关注点&#xff08;如日志记录、性能统计、安全控制等&…

BOXTRADE-天启量化分析平台 系统功能预览

BOXTRADE-天启量化分析平台 系统功能预览 系统功能预览 1.登录 首页 参考登录文档 2. A股 行情与策略分析 2.1 A股股票列表 可以筛选和搜索 2.2 A股行情及策略回测 2.2.1 行情数据提供除权和前复权&#xff0c;后复权数据&#xff1b;外链公司信息 2.2.2 内置策略执行结果…

使用 PyTorch 进行高效图像分割:第 2 部分

一、说明 这是由 4 部分组成的系列的第二部分&#xff0c;旨在使用 PyTorch 中的深度学习技术从头开始逐步实现图像分割。本部分将重点介绍如何实现基线图像分割卷积神经网络&#xff08;CNN&#xff09;模型。 图 1&#xff1a;使用 CNN 运行图像分割的结果。按从上到下的顺序…

建筑结构健康监测系统,解锁建筑安全监测新模式

随着现代建筑技术的发展&#xff0c;高层、超高层、大型公共建筑以及桥梁等复杂结构的数量不断增加&#xff0c;对建筑结构监测的要求也日益迫切。万宾建筑结构健康监测系统通过先进的传感技术和和数据分析技术来持续监测建筑的结构健康&#xff0c;这种监测的目的是可以识别建…

Cat(4):API介绍—Transaction

1 基本用法 Transaction 适合记录跨越系统边界的程序访问行为,比如远程调用&#xff0c;数据库调用&#xff0c;也适合执行时间较长的业务逻辑监控&#xff0c;Transaction用来记录一段代码的执行时间和次数。 现在我们的框架还没有与dubbo、mybatis做集成&#xff0c;所以我…

网络协议的定义、组成和重要性?

什么是网络协议&#xff1f; 网络协议是在计算机网络中&#xff0c;用于规定通信实体之间进行数据传输和通信的规则集合。网络协议涵盖了各种通信细节&#xff0c;包括数据包格式、错误处理、数据传输速率等&#xff0c;是用于分组交换数据网络的一种协议&#xff0c;其任务仅…

Linux:shell脚本:基础使用(4)《正则表达式-grep工具》

正则表达式定义&#xff1a; 使用单个字符串来描述&#xff0c;匹配一系列符合某个句法规则的字符串 正则表达式的组成&#xff1a; 普通字符串: 大小写字母&#xff0c;数字&#xff0c;标点符号及一些其他符号 元字符&#xff1a;在正则表达式中具有特殊意义的专用字符 正则表…

发掘Win10神奇工具:计划任务程序的自动化魔力

在Windows 10系统中&#xff0c;隐藏着许多不为人知的神奇工具&#xff0c;您了解多少呢&#xff1f;想象一下&#xff0c;如果有一种工具&#xff0c;能够像机器人一样在您设定的时间自动执行各种任务&#xff0c;您会不会觉得它是一件非常实用的利器&#xff1f;今天&#xf…

算法通关村第4关【黄金】| 表达式问题

1. 计算器问题 思路&#xff1a;此题不考虑括号和负数情况&#xff0c;单纯使用栈即可解决。注意的是数字可能是多位数需要保留完整的num&#xff0c; 保留数字的前缀符号&#xff0c;当碰到加号&#xff0c;存进去&#xff1b;当碰到减号&#xff0c;存相反数进去&#xff1b;…

【算法系列篇】双指针

文章目录 前言什么是双指针算法1.移动零1.1 题目要求1.2 做题思路1.3 Java代码实现 2.复写零2.1 题目要求2.2 做题思路2.3 Java代码实现 3.快乐数3.1 题目要求3.2 做题思路3.3 Java代码实现 4.盛最多水的容器4.1 题目要求4.2 做题思路4.3 Java代码实现 5.有效三角形的个数5.1 题…

Windows 10 20H2升级至Windows 11

关于Windows 10 20H2和21H1版本结束支持 在Windows 10中&#xff0c;20H2版本是Windows 10的第十个主要更新。此次升级于2020年10月20日上线。 2020年10月更新中的显著变化包括开始菜单、Microsoft Edge的改进、新的可自定义体验、通知体验的增强等。 然而&#…

Windows防火墙屏蔽恶意TCP连接

关闭所有软件(except 安全)&#xff0c;wireshark抓包 set filtertcp&#xff0c;抓取所有tcp包&#xff0c; 抓包文件导出为tcp.txt 过滤出ip address 去掉文件头尾&#xff0c;执行以下程序获得ip address #cut_file.py def copy_first_10_chars(input_file, output_fil…

展会预告 | 图扑与您相约用友 2023 全球商业创新大会

为汇聚商业智慧&#xff0c;释放企业潜能&#xff0c;深入推动企业数智化转型升级&#xff0c;创新客户价值&#xff0c;让数智化在更多的企业成功&#xff0c;由用友主办的“2023 全球商业创新大会”&#xff0c;将于本月 8 月 18 日至 20 日&#xff0c;在上海市“国家会展中…