智能算力中心万卡GPU集群架构深度解析

news2024/10/19 2:44:49

5e2f57d7f2f58ac903d41d22c90f6f1b.jpeg

 

智能算力中心万卡GPU集群架构深度分析 

   

自ChatGPT发布,科技界大模型竞赛如火如荼。数据成新生产要素,算力成新基础能源,大模型成新生产工具,“AI+”转型势不可挡。模型参数量突破万亿,对算力需求升级,超万卡集群成基建竞赛标配。超万卡集群缩短训练时间,加速迭代,助力市场趋势应对。

在超万卡集群中,高效稳定地训练大模型面临双重挑战:确保集群算力最大化、网络稳定及快速故障处理。这些问题已成为行业关注焦点。

第一章: 超万卡集群背景与趋势

1.1 大模型驱动智能算力爆发式增长


自ChatGPT亮相,大模型时代风起云涌,模型更迭迭起,Scaling Law验证不断,AI发展赋能数字经济。数据量与参数规模呈指数级增长:BERT的1.1亿参数,在GPT-3的1750亿参数下显得渺小。

先进模型如MOE引领参数规模迈向万亿,未来2-3年,AI技术进步与算力提升将推动Scaling Law延续,助力参数规模冲击十万亿级!

大模型技术飞速发展,催生超长序列应用、文生视频等创新应用,多领域智能化能力显著,"Al+"革命性影响生产生活。

大模型新纪元开启,ChatGLM、LLaMA、Gemini 等领军发布,激荡科技界探索新高。Sora 多模态文生视频模型横空出世,点燃行业热浪,推动技术、规模与应用创新,迈向新爆点!

AI革命推动产业飞跃,却呼唤巨量算力与能源。GPT-3训练,其电力消耗相等于121个美国家庭全年用电。

GPT-4,拥有16个专家模型及1.8万亿参数,训练需25000个A100,耗时90-100天。其大模型对算力、空间、能源需求巨大,推动新一代智算设施设计升级。新型智算中心(NICC)将实现更高密度算存、无阻塞网络连接及并行计算,相关技术迈向新高峰。

1.2 超万卡集群的建设正在提速

在人工智能新时代,算力助力企业创新与转型。顶尖科技公司积极构建千卡至超万卡的强大计算集群,这不仅彰显其在前沿领域的科技实力,更昭示其对未来科技趋势的深远布局。

全球科技巨头如Google、Meta、Microsoft,正借助超万卡集群,加速基座大模型、智能算法研发和生态服务创新,引领技术前沿。

Google全新A3虚拟机,搭载26000块Nvidia H100 GPU,并构建TPUv5p 8960卡集群,打造超级计算机实力。

Meta于2022年发布16,000块Nvidia A100的AI研究超级集群,2024年初再添两个24576块Nvidia H100集群,助力下一代生成式AI模型训练。

国内通信巨头、头部互联网企业及AI企业共同推动超万卡集群技术革新。作为算力基建主力,运营商凭借强大机房资源,加速建设智算中心,引领行业升级。

此举措为运营商大模型研发提供坚实算力,并带来高品质智算服务,助力政府、高校及企业。随着智算中心发展,运营商在连接技术创新与行业应用中扮演关键角色,引领社会数字化与智能化转型。

头部互联网巨头如字节跳动、阿里巴巴、百度等,正引领技术创新,加速构建超万卡集群,以推动云计算、大数据分析和人工智能等领域的突破。字节跳动打造了12288卡Ampere架构集群,研发MegaScale系统训练大语言模型。这些集群的强大算力不仅加速企业自身数字化,更助力国内科技产业创新升级。

AI巨头正加速建设超万卡集群,以应对大规模模型训练与复杂算法的挑战。以科大讯飞为例,2023年已建成首个支持大模型训练的超万卡集群“飞星一号”,为AI研究提供强大算力,并在智算服务商业应用上抢占先机。

AI初创企业青睐灵活租用模式,借助超万卡集群强大计算力,实现应用投入平衡,降低投资门槛,加速产品研发与迭代。

无论是通信巨头、互联网翘楚、AI研发巨擘还是初创新贵,都在借助超万卡集群加速AI技术革新。随着集群建设深入,这一趋势将深刻塑造智算产业未来。

第二章: 超万卡集群面临的挑战

超万卡集群建设正起步,英伟达GPU助力,但国产Al芯片性能与生态构建待提升。构建领先国产生态的超万卡集群,挑战重重。

2.1 极致算力使用效率的挑战

实证研究显示,在大模型分布式训练中,集群规模线性增加不必然导致算力线性提升。优化卡间、节点间网络及软硬件适配,是提升集群极致算力的核心挑战。

我们评估集群有效算力,关键在于“GPU 利用率”与“集群线性加速比”。GPU利用率受制于芯片架构、内存瓶颈、互联带宽等多因素;而线性加速比则取决于节点通信、并行框架与资源调度。优化两者,将显著提升训练效率,降低成本。在超万卡集群,需采用系统工程,精细化网络设计,软硬件整合优化,以全面提升算力效率。

2.2 海量数据处理的挑战

训练千亿模型需PB级数据集多协议处理,万亿模型训练对checkpoint性能需求高达10TB/s。现有智算存储系统在协议、数据管理和吞吐性能上挑战重重。

在协议处理层面,传统智算存储系统依赖分立存储池,按块、文件、对象等协议构建,导致数据频繁拷贝,拖慢处理效率,消耗存储空间,并提升运维复杂度。

在数据管理层面,传统智算存储依赖人工冷热分类及集群迁移,导致跨系统数据迁移效率低下,额外占用带宽和计算资源。为应对超万卡集群大模型训练需求,需采用协议融合、自动分级等技术,实现高效数据共享与处理。

2.3 超大规模互联的挑战

在模型规模突破万亿量级后,数据处理和计算需求远超单机单卡极限,多机多卡协同训练成为关键。以部署1.8万亿GPT-4的超万卡集群为例,大模型训练中的每轮迭代都需前向和反向传播算法,这对集群的扩展性和网络性能提出了严峻挑战。

在Scale Out互联层面,网络需承载DP和PP流量,参数面带宽需达200-400Gbps,数据面需配置100Gbps带宽,确保数据读取不拖训练后腿。

此外,参数面网络还需要应对因多租户多任务并行训练通信特征不规整、上下行 ECMP (Equal Cost Multi Path) 选路不均衡而引发的高速大象流的交换冲突和拥塞在 Scale up 互联层面,由于 MoE 专家并行和张量并行 (Tensor Parallel,TP)的通信无法被计算掩盖,不仅要求卡间互联带宽达到几百甚至上千 GB的量级,而且应突破当前单机8卡的限制,以支持更大参数量的模型训练。此外,Scaleup 互联还需要保持高频度、低时延、无阻塞的通信模式。

2.4 集群高可用和易运维挑战

维护千万器件挑战重重:超万卡集群由数千台服务器、交换机与存储设备,及数万光纤与光模块构建。训练任务中千万元器件高速运转,硬件失效率与规模导致故障频发,故障模式复杂,管理难度大。系统故障定位复杂,万亿模型训练需精密配合,问题定界定位尤为困难。

硬件故障定位耗时1-2天,复杂应用故障或需数十天。提升快速定位能力,需结合运维经验,系统积累与持续改进。

高负荷运行下故障频发:万亿大模型训练耗时百天,需7x24小时满负荷。硬件MTBF随集群扩大而缩短,导致训练中断频仍。业界超万卡集群稳定运行仅数日,断点续训恢复慢,严重影响效率。超万卡集群亟需高效、快速、低影响的自动断点续训功能。

2.5 高能耗高密度机房设计的挑战

随着芯片TDP功率升至400~700W,单柜功率激增至40KW甚至60KW,集群功耗跃至数十至上百MW,机房亟需升级功率及散热能力。

在超万卡集群中,高速光模块的集成度高,易受灰尘影响。为保障设备稳定运行,机房需优化制冷通风,确保设备侧高洁净度,降低故障率。

以1.8万卡智算集群为例,布线需求高达10万级,对走线架提出全新挑战。超万卡集群迫切需求高压直流供电、高效液冷散热及超大规模网络技术。机房建设需提前规划供电制冷、承重等配套设施,确保超万卡集群快速部署与稳定运行。

第三章: 超万卡集群的核心设计原则和总体架构

3.1 超万卡集群的核心设计原则

在算力与大数据融合的大模型时代,构建超万卡集群非算力简单堆叠,需实现数万GPU卡如超级计算机般高效协同。

超万卡集群的总体设计应遵循以下五大原则: 

致力于构筑顶尖集群算力:融合Scale-up与Scale-out技术,单节点峰值卓越,单集群规模突破万卡,构建超万卡集群,奠定强大算力基石。

依托庞大算力集群,采用DP/PP/TP/EP等并行策略,持续优化算力,实现卓越计算通信比,显著提升模型开发效率。

实现长稳可靠训练:自动检测修复软硬件故障,千万器件满载运行系统。持续提升平均故障间隔时间,降低平均修复时间,自动续训。支持千亿稠密、万亿稀疏大模型百天稳定训练,确保系统稳定与鲁棒。

坚守灵活算力供应:赋能集群智能调度,确保弹性算力与隔离技术并行,精准调配训练与推理资源,保障单集群大作业与多租户并行训练性能均衡。

引领绿色低碳新潮流:全面应用液冷技术,实现万卡集群高效能,FLOPs/W能效比突破,PUE降至1.10以下。

3.2 超万卡集群的总体架构设计

四层一域架构,万卡集群高效运营:机房配套、基础设施、智算平台、应用使能,智算运营与运维域协同,打造卓越计算环境。

93f8b58cc7027a0c135fae09e09f25f6.jpeg

图1面向超万卡集群的新型智算总体架构设计

基础设施层: 算、网、存三大硬件资源有机配合,达成集群算力最优。

面向算力,CPU、GPU、DPU 三大芯片协同,最大化发挥集群计算能力;

网络独立组网,参数、数据、业务、管理全面覆盖。大带宽RoCE交换及二层无阻塞CLOS组网,满足大象流需求。负载均衡、多租安全隔离,安全高效。

面向存储,引入融合存储和分级存储支持无阻塞数据并发访问。

智算平台,以K8s为核心,支持裸金属与容器集群资源。纳管集群资源,实现大规模自动化故障管理,确保高效训练与稳定运行。

应用使能层:融合开源框架,优化分布式训练,面向未来自动框架设计,实现通信与计算优化、算子融合与网络高效调优。

 

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2217339.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Docker学习笔记(2)- Docker的安装

1. Docker的基本组成 镜像(image):Docker镜像就像是一个模板,可以通过这个模板来创建容器服务。通过一个镜像可以创建多个容器。最终服务运行或者项目运行就是在容器中。容器(container):Docker…

Ansible概述

目录 一、ansible简介 二、absible的特点 三、ansible的工作原理以及流程 四、ansible环境安装部署 五、ansible命令行模块 六、inventory 主机清单 一、ansible简介 Ansible是一个基于Python开发的配置管理和应用部署工具,现在也在自动化管理领域大放异彩。…

MT1341-MT1350 码题集 (c 语言详解)

MT1341反比例函数 c 语言实现代码 #include <stdio.h>double f(double x) { return 1.0 / x; }double trapezoidal_integration(double a, double b, int n) {// computer step lengthdouble h (b - a) / n;// computer points valuedouble sum (f(a) f(b)) / 2.0;//…

初阶数据结构【2】--顺序表(详细且通俗易懂,不看一下吗?)

本章概述 线性表顺序表顺序表问题与思考彩蛋时刻&#xff01;&#xff01;&#xff01; 线性表 概念&#xff1a;一些在逻辑上成线性关系的数据结构的集合。线性表在逻辑上一定成线性结构&#xff0c;在物理层面上不一定成线性结构。常见的线性表&#xff1a;顺序表&#xff0…

Origin画图——百分比堆积柱状图(深度学习篇)

1.当数据有以下特征&#xff0c;不同特征在不同情况下的数值的时候就可以使用百分比柱状图表示。 1 2.将自己的数据导入到Origin中&#xff0c;本示例中以不同机器学习的方法的在不同测试集下的R2作为示例。数据如下所示。绘图百分比柱状图&#xff0c;两种都可以。 3.生成的…

推荐一个可以免费上传PDF产品图册的网站

​在数字化时代&#xff0c;企业将产品图册以PDF格式上传至网络&#xff0c;不仅便于客户浏览和下载&#xff0c;还能提升企业的专业形象。今天&#xff0c;就为您推荐一个可以免费上传PDF产品图册的网站——FLBOOK&#xff0c;轻松实现产品图册的在线展示。 1.注册登录&#x…

【xilinx-versal】【Petalinux】添加TMP75温度传感器Linux驱动

Xilinx versal添加TMP75温度传感器Linux驱动 I2C总线的内核配置打开Cadence I2C 控制器配置xilinx I2C配置(不使用)添加设备树总结I2C总线的内核配置 TMP75挂载第一个i2c总线上,地址是0x48。 petalinux-config -c kernel打开内核配置界面。 打开Cadence I2C 控制器配置 │…

Linux——用户/用户组

创建用户组groupadd groupadd 用户组 删除用户组groupdel groupdel 用户组 创建用户useradd useradd 用户名 - g 用户组 useradd 用户名 -d HOME路径 删除用户userdel userdel 用户 userdel -r 用户 &#xff08;删除用户的 HOME 目录&#xff0c;不使用 -r &#xff0…

FlinkCDC 实现 MySQL 数据变更实时同步

文章目录 1、基本介绍2、代码实战2.1、数据源准备2.2、代码实战2.3、数据格式 1、基本介绍 Flink CDC 是 Apache Flink 提供的一个功能强大的组件&#xff0c;用于实时捕获和处理数据库中的数据变更。可以实时地从各种数据库&#xff08;如MySQL、PostgreSQL、Oracle、MongoDB…

结构体通讲——数据结构解惑

文章目录 一.第一种写法二.第二种三.第三种四.-> 结构&#xff1a;一个变量里包含很多变量 一.第一种写法 int a[]&#xff1b;//一个数组中可以包含许多相同类型的数组 想让一个数组中包含很多不同类型的变量用结构 struct {int a;char bc; }t,ti;//t和ti拥有了前面所定…

谷歌审核放宽,恶意软件不再封号?是反垄断案影响还是开发者们的错觉

最近&#xff0c;谷歌因其“垄断”案而成为科技行业的焦点&#xff0c;这个案件可能导致谷歌业务的重大调整。同时&#xff0c;在Google Play上&#xff0c;一些开发者发现谷歌审核好像放宽了不少&#xff0c;这是不是与反垄断有关&#xff0c;谷歌应用上架或将迎来春天&#x…

MySQL-12.DQL-条件查询

一.DQL-条件查询 -- DQL:条件查询 -- 1.查询 姓名 为 杨逍 的员工 select id, username, password, name, gender, image, job, entrydate, create_time, update_timefrom tb_emp where name 杨逍;-- 2.查询 id小于等于5 的员工信息 select * from tb_emp where id < 5;-…

HT3382 2x75W D类立体声音频功放

1、特点 输出功率(BTL) 2x60W (VDD24V,RL4Ω,THDN1%) 2x75W(VDD24V,RL4Ω,THDN10%) 输出功率(PBTL) 115W(VDD24V,RL2Ω,THDN1%) 140W(VDD24V,RL2Ω,THDN10%) 单电源系统&#xff0c;4.5V-26V宽电压输入范围 超过93%效率&#xff0c;需散热器 扩频功能 MUTE功能 模拟差分/单端输…

LLM - 使用 Neo4j 可视化 GraphRAG 构建的 知识图谱(KG) 教程

欢迎关注我的CSDN&#xff1a;https://spike.blog.csdn.net/ 本文地址&#xff1a;https://spike.blog.csdn.net/article/details/142938982 免责声明&#xff1a;本文来源于个人知识与公开资料&#xff0c;仅用于学术交流&#xff0c;欢迎讨论&#xff0c;不支持转载。 Neo4j …

中科大科大讯飞开源OpenMusic:音乐生成更高质量,更有乐感

文章链接&#xff1a;https://arxiv.org/pdf/2405.15863 代码链接&#xff1a;https://github.com/ivcylc/qa-mdt Huggingface链接&#xff1a;https://huggingface.co/spaces/jadechoghari/OpenMusic Demo链接&#xff1a;https://qa-mdt.github.io/ &#xff08;chatgpt * 3…

苹果 AI 及国产大模型之争:悬念不再?

AI基本盘&#xff0c;牢牢把握在苹果手里 苹果终于公布了最新的AI进程。 一个月前&#xff0c;正如此前预期的那样&#xff0c;人工智能是今年 WWDC 发布会的焦点。全程105分钟的主题演讲&#xff0c;就有40多分钟用于介绍苹果的AI成果。 苹果似乎还有意玩了一把“谐音梗”&…

人脸识别-特征算法

文章目录 一、LBPH算法1.基本原理2.实现步骤3.代码实现 二、Eigenfaces算法1.特点2.代码实习 三、FisherFaces算法1.算法原理2.算法特点3.代码实现 四、总结 人脸识别特征识别器是数字信息发展中的一种生物特征识别技术&#xff0c;其核心在于通过特定的算法和技术手段&#xf…

跟李沐学AI—pytorch版本锚框代码解析

网上大佬的解释 https://fkjkkll.github.io/2021/11/23/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8BSSD/?highlight%E9%94%9A%E6%A1%86 w torch.cat((size_tensor * torch.sqrt(ratio_tensor[0]),sizes[0] * torch.sqrt(ratio_tensor[1:])))\* in_height / in_widthh torch.cat((…

当贝投影双十一战报揭晓:天猫投影品类销量稳居首位

相比往年&#xff0c;2024年双11提前了10天&#xff0c;于10月14日正式拉开帷幕。其中&#xff0c;作为国内智能投影头部品牌之一的当贝投影&#xff0c;首战告捷&#xff0c;迎来开门红&#xff0c;战绩相当喜人&#xff01; 根据当贝投影官方数据显示&#xff0c;10月至今当贝…

基于SpringBoot的在线视频教育平台的设计与实现(论文+源码)_kaic

摘 要 随着科学技术的飞速发展&#xff0c;各行各业都在努力与现代先进技术接轨&#xff0c;通过科技手段提高自身的优势&#xff1b;对于在线视频教育平台当然也不能排除在外&#xff0c;随着网络技术的不断成熟&#xff0c;带动了在线视频教育平台&#xff0c;它彻底改变了过…