选以太网不选IB?AI网络构建未来趋势预测

news2025/2/22 21:08:24

据美国媒体Information报道,OpenAI和微软计划用千亿美金打造一款名为“Stargate”的超级计算机。

在选择网络方案时,即便微软是Infiniband的用户,OpenAI还是更加倾向使用以太网电缆而不是Infiniband电缆(简称IB),是什么让AI行业巨头弃用成熟的IB,选择以太网呢?

性价比

虽然Stargate的投资额巨大,但谁让以太网技术远比IB更具性价比呢?苍蝇腿儿再小也是肉,更何况IB交换机是真贵,光价格一项就足以劝退很多厂商。

对于一些预算有限的企业或者初创公司来说,构建大规模的IB网络导致的成本过于高昂,承担不起。

可扩展性

IB技术的优越性自不必多提,但它的规模不易扩展。IB使用基于树状或者多层拓扑结构的架构,导致网络可扩展性受到限制,这是不能忽视的巨大缺陷。

在构建大规模的AI集群时,如果节点数量超过了IB网络的扩展能力,可能需要考虑其他网络技术或者拓扑结构进行补充,IB技术是一种专有的高性能网络技术,自成一套的通信协议与通用的以太网协议不兼容,这增加了部署和管理网络的复杂性。

AI应用构建网络正如发展中的城市构建交通网络一般,一开始车流量(网络流量)并不大,但随着城市发展(AI技术日新月异,产品迭代迅速),原有的(网络)基础设施必将承载更多压力,急需扩建。如果可扩展性差,不仅会增加扩建成本,也对日后的流量管理、其他服务集成造成麻烦,网络不足容易造成交通堵塞,在网络流量上的表现就是增加时间损耗,IB的低延迟性能将会受影响。

市场趋势

根据2024年年初Dell’Oro 的预测,部署交换机的支出人工智能后端网络的应用预计将使数据中心交换机市场扩大 50%,虽然IB预计将保持领先地位,但以太网预计将取得实质性进展,例如到2027年收入份额将增加20个百分点,3年内收入份额翻番,留给以太网的未来发展空间可观。

虽然大部分市场需求将来自一级云服务运营商,但预计2/3级和大型企业的需求量将很大,以头部公司为例,除了微软以外,亚马逊、Meta、腾讯这些头部公司机器学习场景用的都是以太网而非IB,当Stargate这么大规模的AI集群搭建也选择以太网技术,已然表明了大厂们对以太网的青睐。

在AI厂商最关心的网络性能领域,人工智能网络将加速向更高速度过渡,比如预计到2025年,人工智能后端网络大部分端口将达到800G。不同供应商将在AI应用这一巨大市场面前不断推出新的解决方案,让以太网技术更好地满足AI发展的需要,比如星融元就能提供性能媲美IB交换机的CX-N超低时延交换机,可以满足AI场景下低时延高带宽无损网络的需求。

不可否认,目前IB依旧是AI厂商构建网络的主要选择,但是对比IB,以太网低成本、易扩展、不易被厂商绑定的优势愈发明显。对于考虑部署网络的AI厂商来说,选择跟随大厂一起选择以太网,根据市场需求不断实现技术的更新迭代,会比选择大笔资金入手IB更划算。万一业务增加,选择IB意味着市场扩张后又得继续增加大笔资金、等待漫长的供货周期再对网络进行扩容,会增加部署和管理网络的复杂性。

参考资料:

https://www.delloro.com/news/ai-workloads-require-new-network-buildouts-expanding-data-center-switch-market-by-50-percent/

https://mp.weixin.qq.com/s/GM4H9SgBkhnq0Z7HXzh6tA

关注vx公号“星融元Asterfusion”,获取更多技术分享和最新产品动态。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1586210.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LangChain-10(2) 加餐 编写Agent获取本地Docker运行情况 无技术含量只是思路

可以先查看 上一节内容,会对本节有更好的理解。 安装依赖 pip install langchainhub编写代码 核心代码 tool def get_docker_info(docker_name: str) -> str:"""Get information about a docker pod container info."""result…

Python 复杂密码图形化生成工具,支持选择生成10位和12位复杂密码(初版)

代码 #!/usr/bin/env python # -*- coding: utf-8 -*- # Time : 2024/3/26 15:22 # Author : wyq # File : 部署测试.py import random import string from tkinter import *def generate_password(length):characters string.ascii_letters string.digits string.p…

Java二叉树(2)

一、二叉树的链式存储 二叉树的存储分为顺序存储和链式存储 (本文主要讲解链式存储) 二叉树的链式存储是通过一个一个节点引用起来的,常见的表示方式有二叉三叉 // 孩子表示法 class Node { int val; // 数据域 Node left; // 左孩子的引用…

【网站项目】校园订餐小程序

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

寻找可用API中的错误解决

目的:通过API调用大模型提取图像特征 百度 API 1.用百度的api调用llama时报错 Max retries exceeded with url,Caused by SSLError(SSLEOFError(8, EOF occurred in violation of protocol (_ssl.c:1131)))) 解决:试了关闭多余链接等方法…

信号完整性之哪来的串扰?

原文来自微信公众号:工程师看海,与我联系:chunhou0820 看海原创视频教程:《运放秘籍》 大家好,我是工程师看海。 我们经常听说PCB走线间距大于等于3倍线宽时可以抑制70%的信号间干扰,这就是3W原则&#…

大恒相机-程序异常退出后显示被占用

心跳时间代表多久向相机发送一次心跳包,如果超时则设备会认为断开了,停止工作并主动释放占用资源。 在相机打开后添加代码: #ifdef _DEBUG//设置心跳超时时间 3sObjFeatureControlPtr->GetIntFeature("GevHeartbeatTimeout")-&…

Spring Cloud学习笔记:Eureka简介,Eureka简单样例

这是本人学习的总结,主要学习资料如下 - 马士兵教育 [TOC](目录)1、Eureka 1.1、架构 Eureka是SpringCloud Nexflix的核心子模块,其中包含Server和Client。 Server提供服务注册,存储所有可用服务节点。 Client用于简化和Server的通讯复杂…

适用于W波段GaAs开关设计的可扩展p-i-n二极管建模与参数提取技术

来源:Scalable p-i-n Diode Modeling and Parameter Extraction for Use in the Design of W-Band GaAs Switch(TIE 21年) 摘要 本文介绍了一种针对W波段开关设计的基于毫米波GaAs的p-i-n二极管的可扩展建模与参数提取方法。采用基于晶圆上…

深入理解图形处理器(GPU):加速人工智能和大数据计算的引擎

文章目录 1. 什么是GPU?2. GPU的工作原理3. GPU的应用领域4. GPU与CPU的比较参考与推荐 前言: 图形处理器(GPU)不再仅仅是用于图形渲染的硬件设备。如今,GPU已经成为加速人工智能、大数据计算和科学研究的关键引擎。本…

基因查询常用汇总网(自备)

目录 NCBI genecards HPA数据库 gepia2 cbioporta kmplot生存分析 ualcan ​​​​​​​ 进行一些常用的基因功能蛋白及表达的网站查询汇总,方便个人使用 NCBI National Center for Biotechnology Information (nih.gov) 查询基因的曾用名和其他ID&…

【c语言】声明变量和初始化变量的区别

🎈个人主页:豌豆射手^ 🎉欢迎 👍点赞✍评论⭐收藏 🤗收录专栏:C语言 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进步&…

libVLC 提取视频帧使用QWidget渲染

在前面的文章中,我们使用libvlc_media_player_set_hwnd设置了视频的显示的窗口。 libvlc_media_player_set_hwnd(vlc_mediaPlayer, (void *)ui.widgetShow->winId()); 如果我们想要提取每一帧数据,将数据渲染到QWidget上,该如何操作呢&a…

Java前置一些知识

文章目录 搭建Java环境安装path环境变量Java技术体系 Java执行原理JDK组成跨平台Java内存分配 IDEA管理Java程序 搭建Java环境 安装 oralce官网下载 JDK17 Windows 傻瓜式的点下一步就行,注意:安装目录不要有空格、中文 java 执行工具 javac 编译工具…

AS5047P STM32CubeMX HAL库 调试

AS5047P STM32CubeMX HAL库 调试 1. AS5047使用说明1.1 电源连接1.2 SPI数据格式1.3 AS5047P相关寄存器 2. STM32CubeMX 配置SPI2.1 两种SPI读取方式参考 1. AS5047使用说明 1.1 电源连接 可以选择两种供电方式:3.3V或者5V 1.2 SPI数据格式 1.3 AS5047P相关寄存…

高程-类和对象

面向对象编程(OOP) 特征:抽象、多态、封装、继承 类 既然有结构体struct了,那么使用类class的好处是什么呢?C中struct的成员可以任意访问,对于一些隐私信息是不允许的。为了保护类中的数据安全&#xff…

Ubuntu系统使用Docker本地部署Android模拟器并实现公网访问

文章目录 1. 虚拟化环境检查2. Android 模拟器部署3. Ubuntu安装Cpolar4. 配置公网地址5. 远程访问小结 6. 固定Cpolar公网地址7. 固定地址访问 本文主要介绍如何在Ubuntu系统使用Docker部署docker-android安卓模拟器,并结合cpolar内网穿透工具实现公网远程访问本地…

为什么要纯C语言手搓GPT-2,Karpathy回应网友质疑

ChatGPT狂飙160天,世界已经不是之前的样子。 新建了免费的人工智能中文站https://ai.weoknow.com 新建了收费的人工智能中文站https://ai.hzytsoft.cn/ 更多资源欢迎关注 几天前,前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 发布了一个仅…

RAGFlow:基于OCR和文档解析的下一代 RAG 引擎

一、引言 在人工智能的浪潮中,检索增强生成(Retrieval-Augmented Generation,简称RAG)技术以其独特的优势成为了研究和应用的热点。RAG技术通过结合大型语言模型(LLMs)的强大生成能力和高效的信息检索系统…

消息队列之-----------------zookeeper机制

目录 一、ZooKeeper是什么 二、ZooKeeper的工作机制 三、ZooKeeper特点 四、ZooKeeper数据结构 五、ZooKeeper应用场景 5.1统一命名服务 5.2统一配置管理 5.3统一集群管理 5.4服务器动态上下线 5.5软负载均衡 六、ZooKeeper的选举机制 6.1第一次启动选举机制 6.2非…