科技云报道:算力之战,英伟达再度释放AI“炸弹”

news2024/10/5 15:27:50

科技云报道原创。

近日,在计算机图形学顶会SIGGRAPH 2023现场,英伟达再度释放深夜“炸弹”,大模型专用芯片迎来升级版本。

英伟达在会上发布了新一代GH200 Grace Hopper平台,该平台依托于搭载全球首款搭载HBM3e处理器的新型Grace Hopper超级芯片——GH200,专为处理大语言模型、推荐系统、矢量数据库等全球最复杂的生成式AI工作负载而构建。

据悉,GH200芯片将成为世界上第一个配备HBM3e(High Bandwidth Memory 3e)内存的GPU芯片。

与当前一代产品相比,最新版本的GH200超级芯片内存容量增加了3.5倍,带宽增加了3倍;相比最热门的H100芯片,其内存增加1.7倍,传输频宽增加1.5倍。

在当前生成式AI不断激增的需求下,GH200超级芯片的推出,进一步吹响了AI算力之战的号角。

性能更高的GH200芯片

据介绍,GH200 Grace Hopper平台的HBM3e内存比当前HBM3快50%,可提供总计10TB/s的带宽。这使得新平台能够运行比上一版本大3.5倍的模型,同时凭借快3倍的内存带宽提升性能。

同时,该平台采用双配置,包括一个拥有144个Arm Neoverse内核、8 petaflops的AI性能和282GB最新HBM3e内存技术的单个服务器。

英伟达创始人兼首席执行官黄仁勋表示:“为了满足对生成式 AI不断激增的需求,数据中心需要能够满足特定需求的加速计算平台。全新GH200 Grace Hopper超级芯片平台以出色的内存技术和带宽,提高了吞吐量,在不影响性能的情况下可连接多GPU以整合性能,并且具有可以轻松部署到整个数据中心的服务器设计。”

据英伟达公布信息,新平台可以通过 NVIDIA NVLink™ 与其他超级芯片连接,使它们能够协同工作,从而部署当下大型生成式AI模型。这种高速、一致性技术使GPU可以完全访问CPU 内存,在双配置中可提供总计1.2TB的快速内存。
在这里插入图片描述

值得注意的是,新平台采用的新款超级芯片GH200与此前发布的H100相比,二者使用同样的GPU,但GH200将同时配备高达141G的内存和72核ARM中央处理器,每秒5TB带宽,内存增加了1.7倍,带宽增加了1.5倍。

新平台和芯片的加持,也让大模型训练的成本得到有效降低。黄仁勋表示,一台服务器可以同时装载两个GH200超级芯片,大型语言模型的推理成本将会大幅降低。

据介绍,投资800万美元Grace Hopper,就相当于8800个价值1亿美元的x86 GPU,意味着成本降低12倍,能耗降低20倍。

英伟达称,GH200已于5月全面投产,基于GH200 Grace Hopper平台的新系统将于2024年第二季度交付。

不过一个关键的问题是,英伟达没有透露超级芯片GH200的价格,这对计算成本高昂的大模型来说尤为重要,H100系列目前售价约为4万美元。

为什么内存对大模型重要?

事实上,GH200超级芯片本身并不是一个新产品,而是今年5月在中国台北Computex展上发布的GH200芯片的更新版。

英伟达超大规模和高性能计算副总裁兼总经理伊恩·巴克(Ian Buck)表示:“我们对这款新的GH200感到非常兴奋。HBM3e不仅增加了GPU的容量和内存量,而且速度也更快。”

但为什么GPU内存这么重要?

这是因为随着支撑生成式人工智能应用程序的基础AI模型尺寸的增加,为了能够在不连接独立芯片和系统的情况下运行,大模型需要更大的内存量,以避免性能下降。

拥有更大的内存允许模型保留在单个GPU上,并且不需要多个系统或多个GPU来运行,而额外的内存只会提高 GPU的性能。

目前即使使用英伟达最顶级的H100芯片,有些模型也必须在其他GPU中“分解”模型才能运行。

据英伟达介绍,最新版本GH200配备141GB的HBM3e内存,旨在处理“世界上最复杂的生成式人工智能工作负载,涵盖大型语言模型、推荐系统和矢量数据库”。

对AI领域的影响

英伟达的GH200超级芯片和DGX GH200超级计算机是AI领域的重大突破,它们为大规模生成式AI工作负载提供了前所未有的性能和内存空间,使得训练千亿甚至万亿参数的巨型模型成为可能。

这些模型可以在自然语言处理、计算机视觉、推荐系统、图形分析等领域实现更高的精度和效率,为人类解决更复杂的问题提供了强大的工具。

在多位AI从业者看来,当前大模型的训练需求过于迫切,对性能的要求也很高,而GPU的适配和生态转移都需要很长时间,因此目前大家都优先选择英伟达,和其他厂商的测试验证也在进行中。

一场新的算力之战已经拉开帷幕,如果说算力是一个江湖,那么此刻英伟达就是一名绝世高手。

它身怀加速计算的绝技,尤其在AI战场上一骑绝尘,似乎每一次都能精准地踏在浪潮的节奏上。从游戏PC市场、到深度学习的崛起、到云计算的普及、再到生成式AI的降临,英伟达的技术所向披靡。

回头看,英伟达早已超越了GPU本身的概念,AI成为最大的标签,算力的绝世武功撑起了新的万亿帝国。

2022年,英伟达推出了多款重磅产品,分别是基于全新Hopper架构的H100 GPU、CPU和GPU的合体Grace Hopper、两个CPU组合的Grace CPU Superchip,CPU的产品在2023年上市。

其中,设计GPU新架构Hopper时,英伟达增添了一个Transformer引擎,专门为Transformer算法做了硬件优化,加快AI计算的效率。

一位国内芯片从业者直言:“H100出来,其实就是一个新时代了,Grace-Hopper再一个组合,加上高配的互联,完全不给活路,英伟达赢家通吃,AMD、Intel继续苦追。”

同时他也表示:“目前国内一些企业还是在盯着CNN做优化,英伟达已经有Transformer引擎,然后AIGC火热,恰好能做支持。这个眼光,只能佩服他们的科学家们对这个领域深刻的认识。”

一位学术界人士也分析道:“从H100上,包括专用的Transformer引擎以及对FP8格式的支持,可以看到计算硬件在向应用定制的方向前进。Grace CPU说明了整合异构计算系统的重要性。单纯的加速器优化和设计已经不能够满足现在对于计算系统的算力和能效比的要求,需要各个部分的协同优化和设计。”

他还表示,Grace CPU通过提高通信带宽和在CPU和GPU之间建立一致(coherent)的内存模型来解决运算中的瓶颈,这也和学界(近存计算,存内计算)与业界(CXL,CCI等等系统互联协议)一直在关注的方向是一致的。

总而言之,在GPU和CPU的各种排列组合中,英伟达又将算力提升到了新高度。正如黄仁勋所言:“我们正在重新发明计算机,加速计算和人工智能标志着计算正在被重新定义。”

黄仁勋在采访中还提到,数据中心需要用的CPU越来越少,不再是传统上购买数百万个CPU,而是转而购买数百万个GPU。换言之,在他看来,AI算力江湖已经是GPU的主场。

英伟达的野心

事实上,随着ChatGPT引发AI大模型需求热潮,作为加速计算领导者,英伟达今年以来股价累计涨幅已超过210%,近三个月内涨幅就达56%,过去7年股价增长超40倍,目前市值冲破1.1万亿美元。

公开数据显示,英伟达占据全球80%以上的GPU服务器市场份额,同时拥有全球91.4%的企业GPU市场份额。

据投资者服务公司穆迪今年5月份发布的一份研究报告,英伟达在未来几个季度将实现“无与伦比”的收入增长,其数据中心业务的收入将超过竞争对手英特尔和AMD的总和。

但摩根士丹利策略分析师斯坦利(Edward Stanley)在最新报告中称,根据历史背景,英伟达的股价飙升处于“后期”阶段,摩根士丹利认为这标志着 AI 行业的“泡沫”。

GPU持续紧缺下,如今英伟达产品价格已同比上涨超30%,英伟达A800单卡现货近13万元一颗,eBay上H100售价高达4.5万美元。

同时,OpenAI的GPT-4大模型需要至少2.5万张英伟达A100 GPU芯片,而该公司目前至少已拥有1000万颗GPU芯片。

正如黄仁勋常说的,“你GPU买得越多,你越省钱”。主要原因是新的GPU产品能显著提升加速计算,比CPU性能更强、算力更大、功耗更低。

但英伟达的布局还不止于此。

一个现实问题是,高性能的算力也意味着高昂的价格。大模型训练成本动辄成千上百万美元,并不是所有公司都能承受。

而英伟达同时提出了云服务的解决方案NVIDIA AI foundations,黄仁勋表示要做“AI界的台积电”。台积电大大降低了芯片设计公司生产门槛,英伟达也要做代工厂的角色,通过和大模型厂商、云厂商合作提供高性价比的云服务。

在帮助下游企业降低大模型训练成本的同时,英伟达还在逐步参与到上游的产业链升级中。今年,英伟达牵手台积电、ASML、新思,发布了计算光刻库cuLitho。

计算光刻是在芯片设计和制造领域的关键步骤,也是最大的计算负载之一。计算光刻库的技术突破就在于,可以通过部署有大量GPU的DGX AI计算系统对计算光刻进行加速,使其达到原有的基于CPU的计算速度的几十倍,同时降低计算过程的总能耗。

这将有助于晶圆厂缩短原型周期时间、提高产量、减少碳排放,为2nm及更先进的工艺奠定基础,并为曲线掩模、高数值孔径极紫外、亚原子级光刻胶模型等新技术节点所需的新型解决方案和创新技术提供更多可能性。

在多位产业界人士看来,虽然短期内不会影响到下游的应用方面,但是这些上游的研发和升级将长期影响产业的发展,累积形成代际差。

“英伟达在GPU架构的迭代上,一直都有属于自己的发展路径,这几年的发展,也让英伟达跃居AI算力芯片领域的领导者,也因为领先,所以英伟达会思考如何做更多元的布局与行业内的深度合作,这样更能了解行业的需求,比方和台积电等合作便是很好的例子”,某芯片行业专家表示。

当然,英特尔和AMD都已经吹响反攻的号角。

7月,英特尔面向中国市场推出了AI芯片Habana Gaudi 2;6月,AMD推出AI芯片Instinct MI 300X,两者都直接对标英伟达100系列。

目前,在数据中心市场,英伟达和Intel、AMD形成三足鼎立之势。但随着GH200的正式发布,Grace CPU正式登台争角,最应该感到如芒在背的应该是Intel、AMD。虽说大家都知道GH200迟早发布,但等真正发布了,还是有所触动。

围绕着算力的权力游戏还将继续。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/879122.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java并发之ReentrantLock

AQS AQS(AbstractQueuedSynchronizer):抽象队列同步器,是一种用来构建锁和同步器的框架。在是JUC下一个重要的并发类,例如:ReentrantLock、Semaphore、CountDownLatch、LimitLatch等并发都是由AQS衍生出来…

ElementUI的MessageBox的按钮置灰且不可点击

// this.$confirmthis.$alert(这是一段内容, 标题名称, {confirmButtonText: 确定,confirmButtonCLass: confirmButton,beforeClose: (action,instance,done) > {if (action confirm) {return false} else {done()}});}.confirmButton {background: #ccc !important;cursor…

淘宝API接口的实时数据和缓存数据区别

电商API接口实时数据是指通过API接口获取到的与电商相关的实时数据。这些数据可以包括商品库存、订单状态、销售额、用户活跃度等信息。 通过电商API接口,可以实时获取到电商平台上的各种数据,这些数据可以帮助企业或开发者做出及时的决策和分析。例如&…

16.3.1 【Linux】程序的观察

既然程序这么重要,那么我们如何查阅系统上面正在运行当中的程序呢?利用静态的 ps 或者是动态的 top,还能以 pstree 来查阅程序树之间的关系。 ps :将某个时间点的程序运行情况撷取下来 仅观察自己的 bash 相关程序: p…

安达发APS|APS排产软件之计划甘特图

在当今全球化和竞争激烈的市场环境下,制造业企业面临着巨大的压力,如何在保证产品质量、降低成本以及满足客户需求的同时,提高生产效率和竞争力成为企业需要迫切解决的问题。在这个背景下,生产计划的制定和执行显得尤为重要。然而…

Spring Boot 集成 XXL-JOB 任务调度平台

一、下载xxl-job并使用。 二、将xxl-job集成到springboot里 一、 下载xxl-job并使用。 这一步没完成的请参考这个博客&#xff1a;http://t.csdn.cn/lsp4r 二、将xxl-job集成到springboot里 1、引入依赖 <dependency><groupId>org.springframework.boot</group…

单模光纤模场强度分布以及高斯近似的MATLAB仿真

已知纤芯半径5um&#xff0c;数值孔径NA 0.1&#xff0c;波长 用波长和数值孔径计算归一化常数V 之前我们在单模光纤特征方程及其MATLAB数值求解中&#xff0c;用线性关系拟合过V和W&#xff0c;这里直接用拟合结果 U用V和W计算 clc clear close alla 5e-6;%纤芯半径 NA …

ssm+vue小型企业办公自动化系统源码和论文PPT

ssmvue小型企业办公自动化系统源码和论文PPT013 开发工具&#xff1a;idea 数据库mysql5.7(mysql5.7最佳) 数据库链接工具&#xff1a;navcat,小海豚等 开发技术&#xff1a;java ssm tomcat8.5 摘 要 互联网发展至今&#xff0c;无论是其理论还是技术都已经成熟&#xf…

Web服务器项目一

文章目录 是什么HTTP协议——应用层协议服务器基本框架两种高效的处理模式线程池 是什么 Web服务器是一个服务器软件程序&#xff0c;主要功能是通过HTTP协议与客户端&#xff08;通常是浏览器Browser)进行通信&#xff0c;来接收&#xff0c;存储&#xff0c;处理来自客户端的…

npm run xxx 的时候发生了什么?(以npm run dev举例说明)

文章目录 一、去package.json寻找scripts对应的命令二、去node_modules寻找vue-cli-service三、从package-lock.json获取.bin的软链接1. bin目录下的那些软连接存在于项目最外层的package-lock.json文件中。2.vue-cli-service文件的作用3.npm install 的作用 总结 一、去packag…

java springboot驾校管理系统

开发技术&#xff1a; SpringBootspringmvcMybitis-Puls mysql5.x html ajax数据交互 开发工具&#xff1a; idea或eclipse jdk1.8 maven (1) 管理员登陆 (2) 所有学员信息列表查询 &#xff08;3&#xff09;所有学生考试信息 &#xff08;4&#xff09;学员…

Datawhale Django入门组队学习Task01

Task01 一.创建虚拟环境 python -m venv django_learn &#xff08;django_learn那里是自己定的环境名字&#xff09; 之前一直用conda管理虚拟环境&#xff0c;没咋用过virtualenv&#xff0c;然后我的powershell之前也设置了默认启动了base环境&#xff0c;然后输入activat…

目标检测(Object Detection)

文章目录 1. 目标检测1.1 目标检测简要概述及名词解释1.2 IOU1.3 TP TN FP FN1.4 precision&#xff08;精确度&#xff09;和recall&#xff08;召回率&#xff09; 2. 边框回归Bounding-Box regression3. Faster R-CNN3.1 Faster-RCNN&#xff1a;conv layer3.2 Faster-RCNN&…

如何搭建个人邮件服务hmailserver并实现远程发送邮件

文章目录 1. 安装hMailServer2. 设置hMailServer3. 客户端安装添加账号4. 测试发送邮件5. 安装cpolar6. 创建公网地址7. 测试远程发送邮件8. 固定连接公网地址9. 测试固定远程地址发送邮件 hMailServer 是一个邮件服务器,通过它我们可以搭建自己的邮件服务,通过cpolar内网映射工…

Destination Host Unreachable

背景&#xff1a;物理机的IP地址是192.168.31.189&#xff0c;虚拟机的IP地址是192.168.194.130 物理机ping得通虚拟机 虚拟机ping得通外网 可是虚拟机ping不通物理机 1、报错信息 Destination Host Unreachable 2、原因 用route -n命令查看路由表发现192.168.194.0没有走网…

设计HTML5图像和多媒体

在网页中的文本信息直观、明了&#xff0c;而多媒体信息更富内涵和视觉冲击力。恰当使用不同类型的多媒体可以展示个性&#xff0c;突出重点&#xff0c;吸引用户。在HTML5之前&#xff0c;需要借助插件为网页添加多媒体&#xff0c;如Adobe Flash Player、苹果的QuickTime等。…

R语言画图的-- ggplot2(实现图例的精细修改)

文章目录 1. 图的精确修改theme函数实现图的精细修改实现一页多图具体作图中的参数修改(某些特殊的参数)柱状图的参数修改 ggplot2是R中用来作图的很强的包&#xff0c;但是其用法比较大且各种参数比较复杂&#xff0c;我自己使用的时候还经常需要查阅一些关键参数等&#xff0…

Stable Diffusion + Deform制作指南

1.安装sd以及deform插件,更新后记得重启 需要安装ffmpeg https://ffmpeg.org/download.html 选择对应版本然后安装 如果是windows需要解压后将ffmpeg的bin目录配置在电脑的环境变量里面。 2.准备一张初始开始图片 3.填写参数,这里面参数要注意,宽高一定是32的倍数。如果填写…

R语言生存分析算法的简单组合

library(survival) library(randomForestSRC)# 生成模拟数据 set.seed(123) n <- 200 time <- rexp(n, rate 0.1) status <- rbinom(n, size 1, prob 0.7) var1 <- rnorm(n) var2 <- rnorm(n) var3 <- rnorm(n) data1 <- data.frame(time time, statu…