互连芯片浪潮席卷AI服务器:突破瓶颈,再创辉煌

news2024/11/15 21:27:59

 

改变AI服务器:互连芯片技术创新和突破

   

b606f2efe9199051363a02e7f1d0c846.jpeg


AI服务器崛起,引领未来创新
根据TrendForce数据,AI服务器出货量达130,000台,占服务器总出货量的1%。主要制造商推出生成式AI产品,推动订单激增。
ChatGPT等应用的需求持续增长,预计2023-2027年,AI服务器市场将以12.2%的复合年增长率扩张。这一增长势头突显了AI服务器在未来创新中的至关重要性。


DGX H100:开拓AI领域的先驱性进展

DGX H100是英伟达(NVIDIA) DGX系统于2022年发布的最新版本,也是英伟达(NVIDIA) DGX SuperPOD的核心。该系统采用8个H100 GPU和6400亿个晶体管,其AI性能是上一代的6倍,尤其是在新的FP8精度方面表现出色。此外,DGX服务器还可提供900GB/s带宽,彰显了AI能力的显著提升。

DGX H100服务器采用IP网卡,既可作为网卡,又可作为PCIe扩展交换机,符合PCIe 5.0标准。此外服务器还包括CX7,以2张卡的形式提供,每张卡含有4个CX7芯片,并提供2个800G OSFP光模块端口。对于GPU互连(H100),NVSwitch芯片起到关键作用。每个GPU向外扩展18个NVLink,实现每个链路双向带宽达到50GB/s,总共达到900GB/s的双向带宽。这些带宽分布在4个内置的NVSwitch芯片上,每个NVSwitch对应4-5个OSFP光模块。每个OSFP光模块使用8个光通道,传输速率为100Gbps/通道,因此总速率达到800Gbps,实现高速数据传输。126c2aa5b420b6a0f4915f22df7f7966.jpeg

CPU、GPU等组件互连:采用PCIe交换机和重定时芯片进行连接

PCIe交换机技术的演进:克服通道限制

PCIe交换机(也称为PCIe集线器)是一个关键组件,用于通过PCIe通信协议连接PCIe设备。它通过扩展和聚合功能,使多个设备能够连接到1个PCIe端口,可在很大程度上克服PCIe通道数量局限的问题。目前,PCIe交换机广泛应用于传统存储系统,并在各种服务器平台上越来越受欢迎,为系统内的数据传输速率提供显著改善。随着时间的推移,PCIe总线技术的进展意味着PCIe交换机速率的逐渐增加。

最初由英特尔于2001年作为第三代I/O技术以"3GIO"的名义推出,经过PCI-SIG的评估后在2002年更名为"PCI Express"。2003年正式发布的PCIe 1.0成为一个重要的里程碑,支持每通道传输速率为250MB/s,总传输速率为2.5 GT/s。在2022年,PCI-SIG正式发布了PCIe 6.0规范,将总带宽提升至64 GT/s。9dbf60ac644623fc5a7cac7a66c1927d.jpeg

PCIe重定时行业的主导趋势

在AI服务器中,为了确保GPU和CPU连接时的信号质量,至少需要使用一个重定时芯片。一些AI服务器选择使用多个重定时芯片,比如Astera Labs就在其AI加速器配置中集成了4个重定时芯片。4243a6a7394d62c4e12fd5013df9e926.jpeg目前,PCIe重定时市场具有巨大的潜力,有三家领先品牌和许多潜在竞争对手。目前,Parade Technologies、Astera Labs和澜起科技是这个蓬勃发展市场的主要参与者,占据重要的地位。值得注意的是,作为PCIe部署的早期使用者,澜起科技是中国内地唯一能够大规模生产PCIe 4.0重定时的供应商。此外,澜起科技在PCIe 5.0重定时的开发方面也取得了稳步进展。419d2d04729f910b5742c37869cd91d6.jpeg此外,Renesas、TI和微芯科技等芯片制造商也积极参与PCIe重定时产品的开发。根据官网站信息,Renesas提供2款PCIe 3.0重定时产品,分别是89HT0816AP和89HT0832P。TI提供了一款16Gbps 8通道PCIe 4.0重定时产品- DS160PT801。此外,微芯科技在2020年11月推出了XpressConnect系列的重定时芯片,旨在实现PCIe 5.0的32GT/s速率。

GPU之间的互连:NVLink和NVSwitch

全球主要芯片制造商非常重视推广高速接口技术。其中,英伟达(NVIDIA)的NVLink、AMD的Infinity Fabric和英特尔的CXL都做出了重要贡献。NVLink是由英伟达(NVIDIA)开发的高速互连技术。它旨在加速CPU与GPU、GPU与GPU之间的数据传输速率,提升系统性能。

从2016年到2022年,NVLink经历多次升级,已经发展到第四代。2016年,英伟达(NVIDIA)配合Pascal GP100 GPU的发布推出第一代NVLink。NVLink采用了高速信号互连(NVHS)技术,主要用于GPU之间和GPU与CPU之间的信号传输。GPU之间通过差分阻抗电信号以NRZ(不归零)形式进行编码传输。第一代NVLink单链路实现了40GB/s的双向带宽,单个芯片可以支持4个链路,总双向带宽达到160GB/s。00551750f8876e606c6a299a75cfcadb.jpeg

NVLink不同阶段的发展

NVLink技术经历多次迭代,推动了高速互连的创新。2017年,基于Volta架构推出第二代NVLink。它实现每个链路50GB/s的双向带宽,每个芯片支持6个链路,总双向带宽达到300GB/s。2020年,基于Ampere架构的第三代发布,总双向带宽达到600GB/s。在2022年,基于Hopper架构的第四代推出。这一迭代转向使用PAM4调制的电信号,每个链路保持50GB/s的双向带宽,每个芯片支持18个链路,总双向带宽达到900GB/s。

NVSwitch的发展推动实现高性能GPU互连

在2018年,英伟达(NVIDIA)推出NVSwitch的最初版本,为增强带宽、减少延迟和促进服务器内多个GPU之间的通信提供解决方案。第一代NVSwitch采用TSMC的12nm FinFET工艺制造,拥有18个NVLink 2.0接口。通过部署12个NVSwitch,1个服务器可以容纳和优化16个V100 GPU之间的互连速率。6352a1b84af1fbbe5f26debc407e0bc1.jpeg目前,NVSwitch已经发展到第三代,采用TSMC的4N工艺制造。每个NVSwitch芯片配备了64个NVLink 4.0端口,使GPU之间的通信速率达到了900GB/s。通过NVLink Switch互连的GPU可以集体作为一个具有深度学习能力的高性能加速器运行。

总结

接口互连技术(PCIe芯片、重定时芯片和NVSwitch)增强了CPU和GPU之间的互联能力,提升了人工智能服务器的动态性。这些相互作用促进了高性能计算的发展,为人工智能应用提供了强大的基础。

e2ac1cc73cfa552a64b294b46f1f184a.jpeg 

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1612502.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

windows ubuntu 子系统:肿瘤全外篇,2. fq 数据质控,比对。

目录 1.质控 2.比对并排序 3.标记PCR重复,使用picard 4.samtools建立索引 首先我们先下载一组全外显子测序数据。nabi sra库,随机找了一个。 来自受试者“16177_CCPM_1300019”(SRR28391647, SRR28398576)的样本“16177_CCPM_1300019_BB5”的基因组DNA配对端文库…

VisionPro 脚本教程专栏:深入理解与实践

文章目录 VisionPro 脚本教程专栏:深入理解与实践。目录1. 脚本简介1.1 VisionPro 项目组成1.2 脚本的作用 2. 脚本类与方法2.1 ToolGroup 脚本类2.2 ToolBlock 脚本类2.3 Job 脚本类 3. 脚本使用案例3.1 Job脚本:自动调节曝光时间3.2 ToolBlock脚本&…

C++:面向对象三大特性之一:继承

继承 1.继承理解2.继承方式引起访问变化表格表格理解 3.赋值转换1.普通对象赋值2.继承对象赋值:赋值转换注意 4.继承的作用域5.派生类默认成员函数1.构造函数2.析构函数3.拷贝构造4.赋值重载 6.继承与友元7.继承与静态成员 1.继承理解 继承机制是面向对象程序设计使…

驶向成功:如何选择适合国际拓展的完美CRM

一、出海企业应该怎么选择CRM? 出海企业在选择CRM系统时,需要考虑行业特性以及在对外业务过程中可能遇到的问题。接触了一些出海企业客户,总结了以下出海企业在选择CRM时的诉求。 1、合法合规风险 出海企业的业务遍布不同国家地区&#xff…

【考研数学】基础跟武忠祥,同步刷《660》的正确方法

听我的,现在立刻马上停下来 你这不是在做题,你这是在看题,效果最差的那种,做完过两天就忘的一干二净了 我不敢说我特别会学习考研数学,但是我考研的时候,最后数学一的成绩是120,不算特别好&am…

搞定这些python自动化测试面试题与答案汇总,offer拿到手软!

1、什么项目适合做自动化测试? 关键字:不变的、重复的、规范的 1)任务测试明确,需求不会频繁变动 2)项目周期要足够长 3)自动化测试脚本可重复使用,比如:比较频繁的回归测试 4&…

01-大语言模型发展

AI大模型的相关的一些基础知识,一些背景和基础知识。 多模型强应用AI 2.0时代应用开发者的机会。 0 大纲 AI产业的拆解和常见名词应用级开发者,在目前这样一个大背景下的一个职业上面的一些机会实战部分的,做这个agent,即所谓智…

基于pytest自动化测试框架分享

一、pytest运行方式与基本规范 1.简单介绍 pytest是一个非常成熟的全功能的Python测试框架,主要有以下几个特点: 简单灵活,容易上手支持参数化能够支持简单的单元测试和复杂的功能测试,还可以用来做Web UI自动化测试&#xff0…

第 7 章 导航实现(自学二刷笔记)

重要参考: 课程链接:https://www.bilibili.com/video/BV1Ci4y1L7ZZ 讲义链接:Introduction Autolabor-ROS机器人入门课程《ROS理论与实践》零基础教程 准备工作 请先安装相关的ROS功能包: 安装 gmapping 包(用于构建地图): sudo apt inst…

详细UI色彩搭配方案分享

UI 配色是设计一个成功的用户界面的关键之一。UI 配色需要考虑品牌标志、用户感受、应用程序的使用场景,这样可以帮助你创建一个有吸引力、易于使用的应用程序。本文将分享 UI 配色的相关知识,帮助设计师快速构建 UI 配色方案,以满足企业的需…

webgl canvas系列——animation中基本旋转、平移、缩放(模拟冒泡排序过程)

文章目录 ⭐前言⭐canvas绘制图片💖状态保存和恢复💖移动、旋转、缩放、变形💖移动绘制一个渐变的box💖旋转💖缩放 ⭐模拟冒泡排序过程⭐结束 ⭐前言 大家好,我是yma16,本文分享webgl canvas系…

EMD分解

ref:【EMD经验模态分解-哔哩哔哩】 https://b23.tv/LfepZjU 流程: IMF 固有模态函数 imf1 迭代直到是一个imf 8次迭代后,满足是一个imf residual的得到:原始信号-均值(上下包络线的均值) imf2 为什么时序…

【公司UI自动化学习】

公司课程链接:https://l.jd.com/student/project/project.du?project_id697509403 公司的课程,是给一个学习方向。 一、 PC自动化 1)什么项目适合 2)PC自动化介入时间点 3)自动化率: 频繁改动的&…

【Harmony3.1/4.0】笔记二

概述 列表是一种复杂的容器,当列表项达到一定数量,内容超过屏幕大小时,可以自动提供滚动功能。它适合用于呈现同类数据类型或数据类型集,例如图片和文本。在列表中显示数据集合是许多应用程序中的常见要求(如通讯录、…

深度学习500问——Chapter08:目标检测(2)

文章目录 8.2.4 R-FCN 8.2.5 FPN 8.2.6 Mask R-CNN 8.2.4 R-FCN R-FCN 有哪些创新点 R-FCN仍然属于two-stage目标检测算法:RPN R-FCN Fully convolutional位置敏感得分图(position-sentive score maps) our region-based detector is ful…

java-Spring-入门学习-第二天(单例模式和多例模式)

目录 Bean作用域 单例模式(默认可以不写) Spring下的 AutoWired 依赖注入 JaveEE下的 Resource 依赖注入 多例模式 Bean作用域 ​在Spring框架中,Bean是按照作用域来创建的,常见的作用域有两种:Singleton 和 Prototype。Singleton (单例…

6.SpringBoot 日志文件

文章目录 1.日志概述2.日志作用3.使用和观察日志3.1如何观察日志3.2使用日志3.3日志级别3.4日志持久化3.5日志分割 4.日志框架4.1门面模式(外观模式)4.2 SLF4J框架介绍4.3 日志格式的说明4.3.1日志名称 5.日志颜色设置6.总结 大家好,我是晓星航。今天为大家带来的是…

【Java】HashMap、HashTable和ConcurrentHashMap的区别

文章目录 区别一、HashMap1.1基本定义与特性1.2工作原理与实现1.3常用方法1.4性能与优化 二、HashTable三、ConcurrentHashMap3.1基本特点3.2实现原理3.3常用方法3.4适用场景3.5性能优化 HashTable、HashMap和ConcurrentHashMap之间的区别主要体现在线程安全、继承关系与实现接…

(2024|ICLR,变分扩散模型(VDM),可学习编码器,时间相关的均值函数)DiffEnc:使用学到的编码器进行变分扩散

DiffEnc: Variational Diffusion with a Learned Encoder 公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群) 目录 0. 摘要 2. 变分扩散模型的基础 3. DiffEnc 4. 编码器和生成模型的参数化 …

Linux--地址空间

目录 看一个现象 基本概念 细节问题--理解它 1.如何理解地址空间? 2.为什么要有地址空间? 3. 进一步了解页表和写时拷贝 4.如何理解虚拟地址? 看一个现象 先通过一段代码,看一看现象 int g_val 100;int main() {printf(&quo…