利用 PCI-Express 交换机实现面向未来的推理服务器

news2025/4/2 22:34:48

在数据中心系统的历史上,没有比被 Nvidia 选为其 AI 系统的组件供应商更高的赞誉了。

这就是为什么新兴的互连芯片制造商 Astera Labs 感到十分高兴,因为该公司正在 PCI-Express 交换机、PCI-Express 重定时器和 CXL 内存控制器方面与 Broadcom 和 Marvell 等公司展开竞争。当 Nvidia 批准即将推出的服务器节点使用“Blackwell”GPU 加速器时,该公司感到十分高兴,该加速器使用 PCI-Express 6.0 交换机和重定时器将 X86 GPU 连接到其 Blackwell GPU,在某些情况下还包括网络接口卡和存储。

MGX 是一套服务器参考设计,包括 Nvidia 自己的 AI 野兽的基本构建块以及 OEM 和 ODM 创建的克隆,以便他们能够分得一杯羹。

在上周举行的 2025 年 GPU 技术大会上,Astera Labs 做了两件事。首先,它展示了其“Scorpio”P 系列 PCI-Express 6.0 结构交换机和“Aries”PCI-Express 6.0 重定时器与 Nvidia 的“Hopper”H100 和 H200 GPU 以及 HGX 设置中使用的各种 Blackwell B100 和 B200 GPU 的互操作性(熟悉的 2 CPU 乘以 8 GPU 设计,现在称为 Hoppers 的 HGX NVL8 和 Blackwells 的 DGX NVL16)。其次,Astera 展示了由 ODM 服务器制造商 Wistron 设计的基于 Hopper GPU 的推理服务器,并使用其交换机和重定时器将组件连接在一起。

目前还不清楚 Nvidia 本身在其系统中使用 Astera 芯片的情况,我们只是利用这次公告作为研究 Astera 提供的产品的机会,但 Nvidia 硬件工程副总裁 Andrew Bell 在一份声明中表示,Scorpio 交换机与“基于 Blackwell 的 MGX 平台”集成,所以你明白了。基于 DSP 的 Aries 重定时器没有被提及,但如果您需要扩展 PCI-Express 5.0 或 6.0 链路以将组件空间稍微拉远一些,您也需要这些东西。

从概念上来说,一切看起来是这样的:

在上图的中间,结构可以是任何 PCI-Express 交换机,但 Astera 无疑更希望它是自己的 Scorpio 交换机,它也显示了这一点。使用来自两个不同供应商的交换机和重定时器可能会带来麻烦。

如您所见,您可以使用重定时器将 GPU 链接到网络或存储结构,以及用于将 GPU 直接绑定在一起的不同 PCI-Express 结构,就像 Nvidia 使用 NVLink 端口和 NVSwitch 交换机所做的那样。目前,GPU 加速器还没有跨此 PCI-Express 结构的内存寻址,但这正是由 AMD、Broadcom、思科系统、谷歌、惠普企业、英特尔、Meta Platforms 和微软牵头的超级加速器链接 (UALink) 工作的目的所在。

虽然 Scorpio P 系列交换机用于将 CPU 连接到 GPU、网络接口和存储,但 Scorpio 交换机还有另一种变体,称为 X 系列,用于创建 GPU 网格,就像 Nvidia 的 NVSwitch 一样 - 显然带宽要少得多。这款 X 系列芯片需要定制参与,正如您所预料的那样,Astera 在 GTC 2025 上肯定没有谈论这款芯片。

P 系列和 X 系列交换机均向后兼容 PCI-Express 1.0 之前的设备。

以下是 Astera 就 PCI-Express 6.0 与 Nvidia 配合使用所进行的测试:

在这种情况下,它是一个 PCI-Express 6.0 x16 链路,它将 Aries 重定时器连接到 Blackwell GPU,以扩展 PCI-Express 链路的范围。盒子中的 Scorpio P 系列交换机链接到 Intel Xeon 5.0 处理器和 Nvidia ConnectX-7 网络接口,降级到 PCI-Express 5.0。Micron Technology 闪存驱动器使用以 PCI-Express 6.0 速度运行的单个 x1 通道进行存储。Scorpio 交换机有 64 个 PCI-Express 6.0 信号通道,此设置使用其中的 49 个通道,其中 32 个以 PCI-Express 5.0 半速运行。

Scorpio P 系列交换机于 2024 年 9 月开始提供样品,目前正在加速生产。

Astera 与 ODM 合作伙伴 Wistron 展示的机器是 Nvidia MGX H100/H200 NVL 推理服务器的实现。MGX模块化机器系列于 2023 年 5 月推出,其理念是将 GPU 加速应用于具有适合用途的外形尺寸的不同类型的工作负载。

从概念上讲,MGX 推理服务器如下所示:

这是一个 4U 机架式机箱,后面有一台双插槽 X86 服务器作为系统主机,配有 PCI-Express 交换机,用于连接到两个 BlueField 3 DPU(前面右侧)和八个 H100 或 H200 PCI-Express 5.0 GPU(前面占用了大部分空间)。没有 NVSwitch 内存互连,但每个 GPU 卡上都有 NVLink 内存端口,可以使用桥接器将两个或四个相邻的 GPU 连接起来,形成共享内存配置,以共享内存并利用更大的内存进行计算。

该 MGX 参考架构的配置为每对 GPU 配备一个 BlueField 3 DPU 和四个 ConnectX-7 SmartNIC。

以下是每个 Scorpio 交换机有两个 GPU 和一个 NIC 的 MGX 推理系统的示意图:

每对 GPU 都通过 NVLink 桥连接,它们都拥有一个 ConnectX-7 NIC,它们与外界共享并通过 Scorpio P 系列交换机进行通信。我们推测,这对 GPU 还可以通过 Scorpio 交换机以 PCI-Express 6.0 速度进行通信,如果 GPU 可以使用 6.0,则 x16 通道的速度为 256 GB/秒,如果 GPU 只能使用 5.0,则速度仅为 128 GB/秒。

主机 CPU 和 GPU 之间需要多少带宽,以及 NVLink NUMA 的级别(NVL2 或 NVL4)取决于您正在进行的 AI 类型。

关于这款 MGX 推理服务器设计的一个重要特点是它是模块化的。(因此 MGX 名称中带有模块化 GPU——我们不确定 X 代表什么,但它可能不是一个吻,也不是足球队的防守队员......)

后面的主机计算和内存板可以独立于前面的 GPU/NIC/DPU 板进行升级。因此,例如,如果您在 GPU 计算板中使用 Scorpio P 系列 PCI-Express 6.0 交换机,那么您现在可以在 PCI-Express 5.0 模式下运行它,并立即链接到任何 X86 或 Arm 服务器节点,并在此类处理器上市时将其换成带有 PCI-Express 6.0 插槽的新服务器卡。如果您现在有带有 PCI-Express 5.0 x16 插槽的旧款 Hopper GPU,您可以在今天的 MGX 设计中使用它们,并在将来的某个时间换上新的 Blackwell PCI-Express 6.0 GPU。

以下是纬创公司实际的 xWing 推理服务器 GPU 系统板:

该设计每个 Scorpio 交换机有两个 GPU,并且在主板左侧有一个 NIC 插槽。

任何 MGX 推理服务器设计都无法对具有数万亿个参数的 GenAI 模型进行推理。但它们的大小适合大量 AI 推理工作负载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2324982.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python if else while for 学习笔记

一.if,else if语句用于根据条件执行代码块 else语句可与if语句结合,当if判断为假时执行else语句 x10 if x>5:print("x大于5") y3 if y>5:print("y大于5") else:print("y小于等于5")结果: 二.while循环…

正则化是什么?

正则化(Regularization)是机器学习中用于防止模型过拟合(Overfitting)的一种技术,通过在模型训练过程中引入额外的约束或惩罚项,降低模型的复杂度,从而提高其泛化能力(即在未见数据上…

搜索-BFS

马上蓝桥杯了,最近刷了广搜,感觉挺有意思的,广搜题类型都差不多,模板也一样,大家写的时候可以直接套模板 这里给大家讲一个比较经典的广搜题-迷宫 题目问问能否走到 (n,m) 位置,假设最后一个点是我们的&…

《边缘计算风云录:FPGA与MCU的算力之争》

点击下面图片带您领略全新的嵌入式学习路线 🔥爆款热榜 88万阅读 1.6万收藏 文章目录 **第一章:边城烽烟——数据洪流压境****第二章:寒铁剑匣——FPGA的千机变****第三章:枯木禅杖——MCU的至简道****第四章:双生契…

R-GCN-Modeling Relational Data with GraphConvolutional Networks(论文笔记)

CCF等级:B 发布时间:2018年6月 25年3月31日交 目录 一、简介 二、原理 1.整体 2.信息交换与更新 2.1基分解 2.2块对角矩阵 3.实体分类或链接预测 3.1实体分类 3.2链接预测 三、结论和未来工作 一、简介 RGCN通过允许不同关系类型之间的信息…

【C++初阶】----模板初阶

1.泛型函数 泛型编程:编写与类型无关的通用代码,是代码复用的一种手段。模板是泛型编程的基础。 2.函数模板 2.1函数模板的概念 函数模板代表了一个函数家族,该函数模板与类型无关,在使用时被参数化,根据实参类型…

Pycharm(七):几个简单案例

一.剪刀石头布 需求:和电脑玩剪刀石头布游戏 考察点:1.随机数;2.判断语句 import random # numrandom.randint(1,3) # print(num) # print(**30) #1.录入玩家手势 playerint(input(请输入手势:(1.剪刀 2.石头 3&…

gnvm切换node版本号

1. gnvm下载官网 GNVM - Node.js version manager on Windows by Go 2. 安装 2.1 不存在 Node.js 环境 下载并解压缩 gnvm.exe 保存到任意文件夹,并将此文件夹加入到环境变量 Path。 2.2 存在 Node.js 环境 下载并解压缩 gnvm.exe 保存到 Node.js 所在的文件夹。 2.…

PyTorch 深度学习实战(29):目标检测与 YOLOv12 实战

在上一篇文章中,我们探讨了对比学习与自监督表示学习。本文将深入计算机视觉的核心任务之一——目标检测,重点介绍最新的 YOLOv12 (You Only Look Once v12) 算法。我们将使用 PyTorch 实现 YOLOv12 模型,并在 COCO 数据集上进行训练和评估。…

【区块链安全 | 第五篇】DeFi概念详解

文章目录 DeFi1. DeFi 生态概览2. 去中心化交易所(DEX)2.1 AMM(自动做市商)模型2.2 订单簿模式(现货交易) 3. 借贷协议3.1 Aave3.2 使用闪电贷(Flash Loan) 4. 稳定币(St…

【初探数据结构】归并排序与计数排序的序曲

💬 欢迎讨论:在阅读过程中有任何疑问,欢迎在评论区留言,我们一起交流学习! 👍 点赞、收藏与分享:如果你觉得这篇文章对你有帮助,记得点赞、收藏,并分享给更多对数据结构感…

基于ruoyi快速开发平台搭建----超市仓库管理(修改记录1)

一、数据库的设计一定注意不要用关键字 数据库是同学设计的,但是在实践过程中,发现,生成的代码一直报错,结果发现数据库里面商品表里面的商品类别竟然设置成class, 注意:: class 是 Java 中的关键字&…

Springboot学习笔记3.20

目录 1.实战篇第一课 我们将会在本次实战中学习到哪些知识点? 开发模式和环境搭建: 注册接口 1.Lombok 2.开发流程 1.controller层,这个层会指明访问路径和要执行的逻辑: 2.我们把返回结果根据接口文档包装成一个类result&a…

Ubuntu和Windows实现文件互传

1.开启Ubuntu下的FTP服务: (1)终端输入: sudo apt-get install vsftpd(2)安装完成后: 终端输入: /etc 是 Linux 系统的全局配置文件目录,存储系统和应用程序的配置信息…

java面向对象从入门到入土

面向对象进阶 (写程序的套路) 面向:拿,找 对象:能干活的东西 面向对象编程:拿东西过来做对应的事情 (写程序的套路) 面向:拿,找 对象:能干活的东西 面向对象编程:拿东西过来做对应的事情 重点学习:学习已有对象并使用,学习如何自己设计对象并使用 设计对…

linux ACL权限控制之用户权限控制程序设计

linux中的ACL(Access Control List,访问控制列表)是一种比传统UNIX权限更细粒度的权限控制机制,允许为文件和目录设置更为具体的用户和组权限。本文介绍使用acl命令和程序api对文件进行更精细的用户权限控制。 1. 命令行示例 使…

Java多线程与JConsole实践:从线程状态到性能优化!!!

目录 一、前言二、JConsole 使用教程二、线程的基本状态2.1新建状态(New)2.2就绪状态(Ready)2.3运行状态(Running)2.4 阻塞状态(Blocked)2.5. 等待状态(Waiting&#xff…

Stable Diffusion vue本地api接口对接,模型切换, ai功能集成开源项目 ollama-chat-ui-vue

1.开启Stable Diffusion的api服务 编辑webui-user.bat 添加 –api 开启api服务,然后保存启动就可以了 2.api 文档地址 http://127.0.0.1:7860/docs3. 文生图 接口 地址 /sdapi/v1/txt2img //post 请求入参 {enable_hr: false, // 开启高清hrdenoising_stre…

第十四届蓝桥杯真题(PWM输出)

一.LED 先配置LED的八个引脚为GPIO_OutPut,锁存器PD2也是,然后都设置为起始高电平,生成代码时还要去解决引脚冲突问题 二.按键 按键配置,由原理图按键所对引脚要GPIO_Input 生成代码,在文件夹中添加code文件夹&#…

【Qt】ffmpeg编码—存储(H264)

目录 一、编码分析 1.解码线程: ​编辑2.编码线程: ​编辑 ​编辑 二、ffmpeg编码 1.注册所有组件 2.编码初始化函数 (2)打开视频流 4.查找编码器 5. 写文件头信息,写到formatContex中 6.发送一帧数据给编码器…