AI推理硬件成本分析:AMD Instinct MI300X与Nvidia GPU比较

news2024/9/9 5:42:04

随着AI模型训练成本的上升,人们越来越关注推理硬件的成本,尤其是在需要低延迟响应的应用中。Transformer模型需要强大的硬件支持,例如200毫秒以下的响应时间。Artificial Analysis最近分析了AI模型性能和定价,特别指出AMD的“Antares” Instinct MI300X GPU加速器在运行Meta Platforms最新发布的Llama 3.1 405B模型方面可能会优于Nvidia的硬件。
在这里插入图片描述
考虑到开源PyTorch框架和Llama模型的优势,我们认为PyTorch/Llama组合将会非常流行。AMD的技术团队显然已经针对这一技术栈对Antares GPU进行了优化。

首先我们需要针对这个来分析:需要多少GPU才能存储Llama 3.1 405B参数模型的权重,包括权重和内存开销?

这次比较仅涉及AMD MI300X与最初的Nvidia “Hopper” H100,并且提到了2023年11月宣布的未来产品Hopper H200 GPU以及3月宣布的“Blackwell” GPU,由于没有大规模出货,所以没有出现在图表中。

据Artificial Analysis称,需要810 GB来加载Llama 3.1 405B模型的权重,另外243 GB用于留出30%的FP16处理开销空间,总计1053 GB的总容量。

如果降低到FP8精度,数据量减半,需要405 GB用于权重和121.5 GB用于开销,这意味着可以减少所需的计算引擎数量。如果进一步降低到FP4精度,数据量再次减半,所需HBM内存和GPU数量也将减半。不过,这样做会牺牲一些LLM的响应精度以换取数据精度的降低。

在这里插入图片描述
使用Nvidia的Hopper H100 GPU,每个拥有80 GB的HBM内存,需要两个八路HGX卡才能适应Llama 3.1 405B的权重和开销。如果降低到FP8精度,可以全部装在一台服务器上,使用一个带有八个Hopper GPU的HGX板。

使用AMD MI300X八路GPU板的系统可以轻松容纳Llama 3.1 405B模型的权重。实际上,如果可能的话,只需要5.5个GPU。另一个角度来看,正确的MI300X GPU可以让我们在八路系统板共享内存内运行参数约为590亿的Llama模型的未来版本。

除了性能和内存容量外,成本也是一个必须考虑的因素。上述的对比中同样没有出现B100和B200 GPU,所以,我们综合Artificial Analysis的想法整理了以下表格:
在这里插入图片描述
整理过程中,我们发现了Nvidia B100和B200规格中一些奇怪的地方。Nvidia架构技术简报显示,HGX B100和HGX B200系统板将拥有高达1536 GB的内存,即每个B100 GPU有192 GB。但DGX B200规格表说它将只有1440 GB的HBM内存,即每个B100 GPU有180 GB。(我们找不到DGX B100服务器的规格表。)我们认为B100和B200将具有不同的内存容量,就像Hopper一代的H100和H200一样,我们不认为B200的内存容量会低于B100。因此,我们预测B100在HGX B100系统板上将各有180 GB,B200在HGX B200系统板上将各有192 GB,并以此来配置我们的GPU系统。
在这里插入图片描述

考虑到目前GPU的价格,我们认为装满GPU的机器将同时用于LLM推理和LLM训练。因此,我们构建的任何八路GPU主板服务器的基本配置都相当强大,配备双X86 CPU、许多核心和大量主存(2 TB)、大量东西向流量的网络带宽(八个200 Gb/s卡)和大量本地闪存存储(6.9 TB)。除去GPU,这样配置的基础机器成本约为150,000美元。

关于GPU定价,我们使用了以下价格标准:
AMD MI300X 192 GB: $20,000
Nvidia H100 80 GB: $22,500
Nvidia H200 141 GB: $30,000
Nvidia H100 180 GB: $35,000
Nvidia H200 192 GB: $40,000

这里将GPU板添加到基础X86硬件的系统价格,只是想说明问题,并不能作为购物指南。实际价格受需求压力和时间问题的影响,通常会有很多溢价。相对推理,训练对网络,内存和闪存的要求会比较高,配置太低会受到限制。

考虑到成本和未来的可扩展性,选择具有更高HBM内存容量的GPU(如AMD的MI300X)可能更为明智。这样,不仅可以在当前满足推理需求,还能为未来可能的模型扩展预留足够的资源,同时避免了因轻量级配置而在训练过程中遇到的性能瓶颈。

一些AI工作负载对内存带宽的敏感度将高于对内存容量或计算能力的敏感度,这取决于给定的精度。在这方面,我们预计基于MI300X的系统在每单位内存带宽的成本方面将与使用Nvidia B200 GPU加速器的系统相当。基于Nvidia HGX B200板卡的系统将在相同的1.5TB内存下提供高出51%的带宽,但价格也高出51%。(这两个数字是我们独立得出的。我们并没有猜测价格涨幅会与内存带宽涨幅相匹配。我们将拭目以待Nvidia和市场的实际表现。)

有趣的是,如果定价如我们所预期,使用B100的系统将在内存容量和内存带宽方面提供更高的性价比,但B100预计不会提供相应水平的计算性能。B100和B200的FP4数字是真实的,B200预计将比B100有28.6%的更高性能,Nvidia尚未解释原因。B200可能比B100多出的6.7%的内存容量将有所帮助,但看起来B100在开始发货时将比B200激活较少的流多处理器。

从原始峰值浮点性能规格来看,Nvidia的B100将远超MI300X,而B200的表现将更为出色。在峰值FP16性能水平上,将B100/B200与MI300X进行比较,Nvidia大约提供了两倍的性价比优势。

然而,AMD MI300X,与Nvidia H100和H200一样,现在已经开始出货,,其每美元的性能比H200高出41%至66%。但请注意,在真实的Llama 2 70B推理测试中,根据Nvidia在H200发布期间公布的基准测试结果,H200的性能是H100的1.9倍。因此,在购买GPU时,需综合实际需求,注意分析浮点运算次数与内存容量和内存带宽之间的比例。
在这里插入图片描述

AMD MI300X和Nvidia H100和H200在这两个比率上大致处于同一水平,但Nvidia B100和B200每单位内存容量和每单位内存带宽拥有更多的FLOPs,并且有可能由于内存限制,在实际工作负载中,性能可能无法实现。

同样,对于AMD即将在今年晚些时候推出的MI325X(具有288GB内存和6TB/s带宽)、明年推出的MI350(具有288GB内存和未知带宽)以及2026年推出的MI400X,也建议采取同样的谨慎态度。在购买之前,请确保通过充分的测试来评估它们是否满足您的性能需求和预算要求。
在这里插入图片描述
**赋创(EMPOWERX)**作为高性能计算领域的先锋,一直致力于推动技术创新,我们会及时关注最前沿的科技动态,为客户提供高效、可靠的计算解决方案。
在这里插入图片描述
​如果您有服务器相关的问题或需要进一步了解更详细的信息,请随时私信我们【4006-997-916 / 0755-86936235】。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1961750.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

「豆包Marscode体验官」AI加持的云端IDE——三种方法高效开发前后端聊天交互功能

豆包 MarsCode 是一个集成了AI功能的编程助手和云端IDE,旨在提高开发效率和质量。它支持多种编程语言和IDE,提供智能代码补全、代码解释、单元测试生成和问题修复等功能,同时具备AI对话视图和开发工具。 豆包 MarsCode 豆包 MarsCode 编程助…

跟着动脑学院学习Android 开发基础

跟着动脑学院up主学习Android开发,记录学习笔记 2022 最新 Android 基础教程,从开发入门到项目实战,看它就够了,更新中_哔哩哔哩_bilibili (弱弱地说一句,绝大部分内容都是up主为我们准备好的资料里摘抄下…

机器学习 | 评估原理——模型评估与交叉验证

Hi,大家好,我是半亩花海。学完分类算法原理的知识,我们进入评估相关知识的学习,继续更新《白话机器学习的数学》这本书的学习笔记,在此分享模型评估与交叉验证相关评估原理。本章的基于前几节已建立的模型进行评估知识…

【C语言】Linux 飞翔的小鸟

【C语言】Linux 飞翔的小鸟 零、环境部署 安装Ncurses库 sudo apt-get install libncurses5-dev壹、编写代码 代码如下&#xff1a; bird.c #include<stdio.h> #include<time.h> #include<stdlib.h> #include<signal.h> #include<curses.h>…

LeetCode:相同的树(C语言)

1、问题概述&#xff1a;给2个二叉树的根节点p和q&#xff0c;如果2个树在结构和数值上都相同才为true&#xff0c;否则为false 2、示例 示例 1&#xff1a; 输入&#xff1a;p [1,2,3], q [1,2,3] 输出&#xff1a;true 示例 2&#xff1a; 输入&#xff1a;p [1,2], q […

做知识付费项目还能做吗?知识付费副业项目如何做?能挣多少钱?

hello,我是阿磊&#xff0c;一个20年的码农&#xff0c;6年前代码写不动了&#xff0c;转型专职做副业项目研究&#xff0c;为劳苦大众深度挖掘互联网副业项目&#xff0c;共同富裕。 现在做知识付费项目还能做吗&#xff1f; 互联网虚拟资源项目我一直在做&#xff0c;做了有…

AI绘画模型之:UNet、Imagen 与 DeepFloyd IF

重磅推荐专栏: 《大模型AIGC》 《课程大纲》 《知识星球》 本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域,包括但不限于ChatGPT和Stable Diffusion等。我们将深入研究大型模型的开发和应用,以及与之相关的人工智能生成内容(AIGC)技术。通过深入的技术解析和实践经…

spring boot(学习笔记第十五课)

spring boot(学习笔记第十五课) Spring boot的websocket(广播) 学习内容&#xff1a; Spring boot的websocket&#xff08;广播&#xff09; 1. Spring boot的websocket&#xff08;广播&#xff09; 回顾下web server的进化 第一代Web程序&#xff0c;使用整体页面刷新技术…

GPT-4o mini- 开发者的新宠儿

在人工智能的浪潮中,一颗新星正在冉冉升起。OpenAI最新发布的GPT-4o mini模型以其惊人的性能和极具竞争力的价格,正在成为开发者们的新宠儿。作为一名大数据开发者,我深深被这个"迄今为止最具成本效益的小模型"所吸引。让我们一起探索GPT-4o mini的魅力,看看它如何改…

一些问题 7/28

get post可以public吗 在Java Servlet中&#xff0c;doGet()和doPost()方法的访问修饰符通常是public&#xff0c;因为这些方法需要被Servlet容器&#xff08;如Tomcat&#xff09;调用。 如果将这些方法声明为private或protected&#xff0c;Servlet容器将无法访问它们&…

RocketMQ Server Windows安装

RocketMQ阿里开发 开源给apache 官网:RocketMQ 官方网站 | RocketMQ 下载后解压 配置环境变量 注意启动顺序 双击 注意 4.9.0这个版本必须 jdk 8 高了用不了 namesrv是注册中心的作用 broke是核心用于接收生产者消息 存储消息 发送给消费者消息 类似DubboZookeeper…

C++ 绘制画布标尺

目标 关键代码 CRulerDrawer::CRulerDrawer(QPainter& painter, QRect rect, int scalePercent): m_painter(painter), m_rect(rect), m_scalePercent(scalePercent) {m_palette qApp->palette();m_scaleUnitSize PixelRuler::Instance()->GetScaleUnitSize(); }vo…

【JS|第22期】深入理解跨域

日期&#xff1a;2024年7月6日 作者&#xff1a;Commas 签名&#xff1a;(ง •_•)ง 积跬步以致千里,积小流以成江海…… 注释&#xff1a;如果您觉得有所帮助&#xff0c;帮忙点个赞&#xff0c;也可以关注我&#xff0c;我们一起成长&#xff1b;如果有不对的地方&#xff…

Vue开发环境搭建

文章目录 引言I 安装NVM1.1 Windows系统安装NVM,实现Node.js多版本管理1.2 配置下载镜像1.3 NVM常用操作命令II VUE项目的基础配置2.1 制定不同的环境配置2.2 正式环境隐藏日志2.3 vscode常用插件引言 开发工具: node.js 、npm 开发编辑器:vscode 开发框架:VUE I 安装NVM…

react中zuStand状态管理工具使用

一、zuStand的基本使用 1.安装工具 npm install zustand 2.新建文件 在src下新建store文件夹&#xff0c;在store文件夹下新建zuStand.js文件 3.配置zuStand.js // 1.引入创建方法 import { create } from "zustand";// 2.创建store const useStore create((s…

未来不会使用 AI 的人真的会被淘汰吗?

AI 是今年大火的一个话题&#xff0c;随着 ChatGPT 之类的一系列大模型开始流行以后&#xff0c;有不少的培训机构宣称这样的口号: “未来不会使用 AI 的人将会被淘汰”。我觉得这个观点本身并没有错&#xff0c;但是关键在于那些培训机构出于自身的利益&#xff0c;故意忽略了…

(源码分析)springsecurity认证授权

了解 1. 结构总览 SpringSecurity所解决的问题就是安全访问控制&#xff0c;而安全访问控制功能其实就是对所有进入系统的请求进行拦截&#xff0c;校验每个请求是否能够访问它所期望的资源。 根据前边知识的学习&#xff0c;可以通过Filter或AoP等技术来实现&#xff0c;Spr…

Sparse Vector Coding稀疏矢量码介绍

需要MATLAB代码的小伙伴请通过微信公众号私信我~ 更多精彩内容请关注微信公众号 ‘优化与算法’ 前言 5G和6G无线通信期望带来更高的频谱效率和能量效率&#xff0c;为了达到这些目标&#xff0c;近年来已经提出了各种新技术。其中&#xff0c;索引调制IM&#xff08;Index …

「树形结构」基于 Antd 实现一个动态增加子节点+可拖拽的树

效果 如图所示 实现 import { createRoot } from react-dom/client; import React, { useState } from react; import { Tree, Input, Button } from antd; import { PlusOutlined } from ant-design/icons;const { TreeNode } Tree; const { Search } Input;const ini…

优选算法之位运算

目录 一、常见位运算总结 1.基础位运算 2.给定一个数 n&#xff0c;确定它的二进制表示中的第 x 位是 0 还是 1 3.将一个数 n 的二进制表示的第 x 位修改成1 4.将一个数 n 的二进制表示的第 x 位修改成 0 5.提取一个数 n 二进制表示中最右侧的1 6.干掉一个数 n 二进制表示…