AI需求海量涌现,Scaleway如何用Spectrum-X 网络从容应对?

news2024/9/17 7:26:57

“没有好网络,别玩AIGC。”

如今,随着AI需求的大量涌现,越来越多用户意识到网络在AI集群中的重要性。一个超大规模、超高带宽、超强可靠的网络,可以为AI训练提供强有力支撑,从而节约训练成本、缩短训练时间,加速各类AI应用走向落地。

那么,如何构建一个面向AI集群环境的强大网络?

法国云服务提供商 Scaleway带来它的答案。Scaleway基于 NVIDIA 的 Hopper GPU 和 Spectrum-X 以太网网络平台构建区域性 GPU 集群,成功为用户提供 AI 按需服务业务。

Scaleway 是法国的一家拥有高性能基础设施的云服务提供商,创立于 1999 年,拥有 80+ 云产品及服务,为全球 25,000+ 客户提供云服务,客户包括 Mistral AI、Aternos、Hugging Face、Golem.ai 等。

Scaleway 提供一站式的云服务,以开发创新解决方案并帮助用户从零开始构建和扩展 AI 项目,目前 Scaleway 正在构建区域 AI 云,提供 GPU 基础设施,用于大规模的 AI 模型训练、推理及部署。

愈发严峻的AI网络挑战

云 AI 工作负载需求正以前所未有的速度增长,同时生成式 AI 应用也在激增。为满足客户部署生成式 AI 应用程序、训练基础 AI 大模型的需求,云服务提供商面临巨大挑战,需要构建 AI 云,使用加速计算技术和高性能网络来支持 AI 业务。Scaleway 的核心需求包括:

● 对于分布式 AI 训练任务,单个任务的训练时间由最慢的计算节点的运行时间决定,这使得尾部延迟至关重要。AI 云需要一个高吞吐、低延迟、低抖动、易扩展的高性能网络,来确保 GPU 间快速、高效的通信,尤其是在大规模部署的场景下。

● 在多个 AI 任务同时运行的多租户环境中,性能隔离对于保护一个租户的 AI 任务免受其他租户业务的影响是必不可少的。由此提出了对多租户多任务场景下性能隔离的需求。

● 对于复杂的 AI 云环境,需要专门适用于 AI 网络的监控管理工具,提供细粒度的网络可视化功能、同时具备网络监控和故障定位能力。

● 为实现 AI 云数据中心的高效、快速部署,需要强大的网络仿真及自动化平台。

● 随着云上用户、数据、应用的快速增长,网络安全威胁不容忽视,需要提供私有的、安全的零信任基础设施,保障用户的业务安全。

Spectrum-X 重塑网络

Scaleway 采用了 NVIDIA 的Hopper GPU 和Spectrum-X 网络平台应对以上挑战。

Scaleway 将 HGX Hopper GPU 服务器加入其 GPU 集群阵容中,以覆盖广泛的计算需求,利用 GPU 的速度和效率加速 AI 分布式工作负载。

对于 Scale-Out AI 网络,Scaleway 采用了基于 BlueField-3 SuperNIC 和 Spectrum SN5600 交换机构建的 Spectrum-X 网络平台。NVIDIA 的 Spectrum-X 网络平台是全球首个专为 AI 构建的以太网端到端解决方案,与传统以太网相比,其生成式 AI 训练的网络通信效率提高了 1.6 倍。同时 Spectrum-X 部署将利用以下网络软件堆栈:

● NVIDIA Air 用于 AI 网络仿真,NVIDIA Air 是一个云托管的数据中心网络仿真平台,其行为类似于真实世界的生产环境。使用 NVIDIA Air 创建数据中心的数字孪生,可以验证网络配置、网络功能以及自动化部署代码,提升数据中心的部署效率。

● NetQ 用于 AI 网络监控,通过高频遥测技术监控 AI 工作负载,NetQ 提供有关数据中心运行状况的数据和统计信息,关联配置和运行状态,并跟踪状态变化。基于遥测信息,NetQ 提供动态路由监控,RoCE 流量计数器,交换机队列直方图等功能,以识别和应对网络微突发、拥塞场景,方便网络故障定位。

● Cumulus Linux 用于软件驱动的数据中心网络自动化,Cumulus Linux 是创新的开放网络操作系统,支持 BGP/OSPF 路由协议,以太网虚拟专用网络 EVPN,虚拟路由和转发。

● DOCA SDK 和库用于增强 BlueField-3 SuperNIC 性能,DOCA SDK 提供行业标准的开放 API 和软件框架,包括针对 RDMA、网络、安全、存储、数据路径加速的 SDK,帮助开发者快速创建软件定义、SuperNIC 加速的服务。

使用的NVIDIA产品

● 硬件:

o NVIDIA HGX Hopper 服务器

o NVIDIA Spectrum-4 SN5600 以太网交换机

o NVIDIA BlueField-3 B3140H SuperNICs

● 软件:

o Cumulus Linux 网络操作系统

o NetQ 监控管理平台

o NVIDIA Air 仿真平台

o DOCA SDK

让AI按需服务走向现实

采用 NVIDIA 的整体解决方案后,极大地提升了 AI 计算能力,缩短了 AI 训练时间,同时加速了 AI 解决方案的开发、部署和上市时间,有效提高了投资回报率。

● Scaleway 客户可以从几个 GPU 扩展到几千个 GPU,以适应任何 AI 用例。

● Spectrum-X 提供多租户、多任务的 AI 环境所需的高性能和安全性, 借助动态路由、拥塞控制、全局共享缓冲区等多种机制,实现了多任务的性能隔离。

● NetQ 提供对 AI 网络健康状况的深度可视性,具有 RoCE 流量计数器、事件和WJH(What Just Happened)警报等丰富的仪表板,实现 AI 网络可视化、故障排除和验证功能。

● NVIDIA Air 和 Cumulus Linux 支持 API 原生网络环境,该环境可集成到 DevOps 工具链中,实现了第 0 天、第 1 天 和第 2 天操作的无缝衔接。

NVIDIA 网络高级副总裁 Gilad Shainer 表示:“生成式 AI 等开创性技术的飞速发展,使每家企业都必须把网络创新放在第一位,从而获得竞争优势。NVIDIA Spectrum-X 是对以太网络的一次革命,让企业能够充分利用其 AI 基础设施的强大力量来改变其运营方式,甚至颠覆他们的行业。”

Scaleway 首席执行官 Damien Lucas 表示:“NVIDIA Spectrum-X 网络技术为我们的 ‘ GPU 集群按需服务’ 提供了更快的网络连接和更高效的 GPU 通信,使我们的客户能够加速开发和部署他们的 AI 解决方案。”

综合观察

NVIDIA创始人兼首席执行官黄仁勋认为:人工智能和加速计算的交汇将重新定义未来。毫无疑问,随着生成式AI、多模态AI等AI技术浪潮的到来,数据中心走向智算中心成为大势所趋,一个面向AI集群的高性能、高效、可靠的网络将成为数据中心发展的必需。

而面向生成式AI市场的Spectrum-X 网络,拥有无损网络、动态路由、流量拥塞控制、多业务性能隔离等优秀特性,正在成为像Scaleway 等各种类型用户在数据中心部署AI或者构建AI按需服务的首选。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1958452.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

VBA快速对比数据行

实例需求:对于存在多行数据(示例中为双行)的项目,对比同一个项目的每列数据,高亮显示数据不同的单元格。 示例代码如下。 Function GetDiff(ByRef rng1 As Range, ByRef rng2 As Range) As RangeDim i As LongFor i …

dpdk发送udp报文

dpdk接收到udp报文后,自己构造一个udp报文,将收到的报文中的源mac,目的mac,源ip,目的ip,源端口和目的端口交换下顺序填充到新的udp报文中,报文中的负载数据和收到的udp保持一致。 注&#xff1…

CATIA V5R21安装包下载及图文安装教程

大家好,今天给大家分享下catia安装教程 注意安装前请退出杀毒软件,防止误报影响安装进程 下载链接:百度网盘 请输入提取码 提取码:ypc6 01 在电脑D盘新建文件夹命名为CATIA,将下载的软件压缩包放置在该文件夹。 鼠标右击【C…

进行良好的文献综述能否提高学术研究的可信度

VersaBot一键生成文献综述 进行良好的文献综述 对于从多个方面提高学术研究的可信度至关重要; 1. 展示专业知识: 全面的回顾表明您对您所在领域的现有知识和相关理论有深入的了解。这将使您成为权威,并将您的研究置于更广泛的背景下。 2.…

初步入门C ++之类的概念

文章目录 0 Hello World!1 编译过程2 类2.1 类的概念2.2 构造函数与析构函数 0 Hello World! #include <iostream> //相当于#include <stdio.h>int main(int argc, char argv[]) {char c;std::cout << "Hello World!\n" <<…

入门 PyQt6 看过来(案例)14~ 分组

本文分享一个分组框功能&#xff0c;采用pyqt6里的QGroupBox​控件&#xff0c;效果如下&#xff1a;性别和专业分开为两个分组框内&#xff1a; ​ 1 功能实现思路 ui页面布局设计 性别和专业要设计成两个分组框&#xff1a; ​ 逻辑实现 引入信号和槽函数来实现点击单选…

Cybersecurity ASPICE实施策略-基于ISO/SAE 21434-亚远景科技

近几年&#xff0c;随着软件定义汽车和汽车的智能化和网联化&#xff0c;使得汽车融合了现代通信与网络通信技术&#xff0c;实现了车与人、车与车、车与道路、车与云端等智能信息交互和共享&#xff0c;也让车具备了环境感知、协同控制、智能决策等功能&#xff1b;与此同时&a…

构建可定制的表情选择器组件

你好呀&#xff0c;我是小邹。 概述 在当今的交互式Web应用中&#xff0c;表情符号&#xff08;Emoji&#xff09;已成为一种流行的沟通方式。为了提升用户体验并简化开发流程&#xff0c;本教程将引导您如何构建一个可高度定制的表情选择器组件。此组件将允许用户在Web表单中…

力扣621.任务调度器

力扣621.任务调度器 桶思想当桶放不满时 答案为桶面积 maxcount(最后一行) (max - 1)(n1)当桶放的满时 答案为任务总数 tasks.size()最终两者取大即可 class Solution {public:int leastInterval(vector<char>& tasks, int n) {int len tasks.size();vector<…

QT--聊天室

一、设计要求 用QT做一个聊天室&#xff0c; 制作一个服务器和客户端。可以进行注册、登录&#xff0c; 登陆成功后可以使用昵称进行发送、接收消息。 能根据昵称、聊天内容查询历史记录&#xff0c;也可以查询全部聊天记录。 。 二、客户端三级ui界面 三、项目代码 //在…

测试用例:确保软件质量的基石

大家好&#xff0c;我是一名测试开发工程师&#xff0c;已经开源一套【自动化测试框架】和【测试管理平台】&#xff0c;欢迎大家联系我&#xff0c;一起【分享测试知识&#xff0c;交流测试技术】 在当今这个数字化时代&#xff0c;软件已经成为人们日常生活、工作和学习中不可…

Hive3:Centos7环境部署Hive服务

一、安装说明 1、Hadoop集群情况 3台机器&#xff1a;4G2C、2G2C、2G2C 安装教程&#xff1a;Centos7环境安装Hadoop集群 2、安装MySQL&#xff0c;用于存储Hive的元数据 在102机器上安装MySQL 安装MySQL使用服务器的root账号 3、最后安装Hive 安装hive过程使用服务器的atgu…

fatal: Could not read from remote repository. 解决方法

问题描述&#xff1a; Git : fatal: Could not read from remote repository. Please make sure you have the correct access rights and the repository exists。 解决方法&#xff1a; 当在网上尝试大量方法仍然失败的时候&#xff0c;不妨试试这个方法。 在 github 上&…

ROUND() Function in SQL(四舍五入)

ROUND() Function in SQL ROUND() 函数用于将数值四舍五入到指定的小数位数或者整数位数。 不同的数据库系统可能会有一些细微的语法差异&#xff0c;但基本功能都是一致的。 1. 基本语法 ROUND(number, decimal_places)number: 要进行四舍五入的数值。decimal_places: 可选参…

2024年7月30日 十二生肖 今日运势

小运播报&#xff1a;2024年7月30日&#xff0c;星期二&#xff0c;农历六月廿五 &#xff08;甲辰年辛未月乙未日&#xff09;&#xff0c;法定工作日。 红榜生肖&#xff1a;兔、马、猴 需要注意&#xff1a;狗、鼠、牛 喜神方位&#xff1a;西北方 财神方位&#xff1a;…

基于SpringBoot+Vue的游戏攻略分享平台(带1w+文档)

基于SpringBootVue的游戏攻略分享平台(带1w文档) 本系统为了数据库结构的灵活性所以打算采用MySQL来设计数据库&#xff0c;而java技术&#xff0c;B/S架构则保证了较高的平台适应性。本文主要介绍了本系统的开发背景&#xff0c;所要完成的功能和开发的过程&#xff0c;主要说…

大数据-54 Kafka 安装配置 环境变量配置 启动服务 Ubuntu配置 ZooKeeper

点一下关注吧&#xff01;&#xff01;&#xff01;非常感谢&#xff01;&#xff01;持续更新&#xff01;&#xff01;&#xff01; 目前已经更新到了&#xff1a; Hadoop&#xff08;已更完&#xff09;HDFS&#xff08;已更完&#xff09;MapReduce&#xff08;已更完&am…

零基础入门转录组数据分析——加权基因共表达网络分析(WGCNA,Weighted correlation network analysis)

零基础入门转录组数据分析——加权基因共表达网络分析&#xff08;WGCNA&#xff0c;Weighted correlation network analysis&#xff09; 目录 零基础入门转录组数据分析——加权基因共表达网络分析&#xff08;WGCNA&#xff0c;Weighted correlation network analysis&#…

c语言代码运行不成功,如何解决?

&#x1f3c6;本文收录于《CSDN问答解惑-专业版》专栏&#xff0c;主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案&#xff0c;希望能够助你一臂之力&#xff0c;帮你早日登顶实现财富自由&#x1f680;&#xff1b;同时&#xff0c;欢迎大家关注&&收…

GEE数据:Sentinel-2数据更新新增两个云和雪波段(MSK_CLDPRB和MSK_SNWPRB)

目录 简介 数据时间 数据提供者 Collection Snippet 波段名称 Class Table: SCL 影像属性 代码 结果 简介 2022年1月25日之后&#xff0c;PROCESSING_BASELINE为“04.00”或以上的Sentinel-2场景的DN&#xff08;值&#xff09;范围移动了1000。HARMONIZED集合将新场…