星融元加入超以太网联盟(UEC),推动智算网络创新实践

news2024/12/23 13:23:57

近日,星融元正式加入超以太网联盟(Ultra Ethernet Consortium,UEC),该联盟是在 Linux 基金会的牵头下由多家全球头部科技企业联合成立,目标是突破传统以太网性能瓶颈,使其适用于人工智能(AI)和高性能计算(HPC)网络。

星融元加入UEC,将参与到制定以太网的下一代通信堆栈架构的进程中,推动以太网在人工智能和高性能计算领域的应用,为用户提供更高效、更强大的网络解决方案。

随着AI大模型规模的扩大以及通信模式和计算方法的多样化,传统基于 RoCE(RDMA over Converged Ethernet)的 RDMA方案存在拥塞控制算法阻碍等问题,造成运维困难;AI和HPC 对分布式计算资源的规模和有效利用需求高度相似,都对时延要求高。

UEC致力于改造以太网上的RDMA(Remote Direct Memory Access,远程直接内存访问)操作来优化AI和HPC工作负载,从物理层、链路层、传输层、软件层不断提升以太网的转发性能。超以太网传输工作组 (UEC Transport ,UET)通过多种创新来实现更高的网络利用率和更低的尾部延迟,从而减少AI和HPC作业完成时间。

针对上述问题,星融元正和UEC成员们基于端点的可靠性和拥塞控制的成熟路径,提供AI和HPC应用所需的性能,同时保留以太网/IP生态系统的优势,构建成本可控、运维简化、更易扩展的未来网络。

以下是超以太网传输工作组 (UET) 实现UEC1.0白皮书中规定的关键目标:

1.多路径和报文散传:

  • 传统以太网网络基于生成树,确保从源到目的地的一条路径,以避免网络中的环路。
  • UET 引入了多路径和报文散传技术,充分利用高带宽通信网络,无需负载平衡算法。这使得数据包可以同时使用到达目的地的所有路径,从而更平衡地利用网络资源。

2.灵活传递顺序:

  • 传统的数据包排序方式限制了数据包的效率,UET 支持灵活的传递顺序,有效地完成数据包传输。
  • 在 AI 工作负载中,这对于高吞吐量的集合操作(如 All-Reduce 和 All-to-All)至关重要。

3.现代拥塞控制机制:

  • UET 引入了现代拥塞控制算法,以更好地管理网络拥塞。
  • 这些算法考虑了从发送方到接收方的多个链路上的拥塞情况,以实现更高效的数据传输。

4.端到端遥测:

  • UET 利用端到端遥测方案,从网络源头获取拥塞信息,以实现更快的拥塞控制响应。

总之,UET通过保留IP协议、支持多路径、改进数据包排序和拥塞控制,满足不断增长的工作负载需求,为未来的AI和HPC网络提供更简单、更高效的RDMA互连。

星融元的AI/HPC网络中的创新实践

面对AI/HPC对网络环境的高要求,星融元通过提供以太网络无损方案,支撑大规模算力集群建设:

  • 发布星智AI网络解决方案(Rail-only fabric),在不损失训练性能的前提下,削减服务器间链路,单pod里用更少交换机连接了更多GPU服务器,便于扩展规模,整体降低TCO。
  • 简化运维,推出“一键RoCE”方案,一键便可启用PFC和ECN,完成无损网络配置,还能快速定位无损网络的瓶颈与故障。
  • 基于超低时延交换机,面向分布式存储和HPC应用上的时延优化,现场测试中,端到端时延媲美IB。

作为领先的开放网络解决方案提供商,未来星融元将与UEC共同致力于为下一代AI和HPC网络提供优化的传输解决方案,帮助各行业用户构建AI时代中立、透明、高性价比的基础网络。

关注vx公号“星融元Asterfusion”,获取更多技术分享和最新产品动态。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1627889.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux下基本指令-掌握

目录 为什么要学命令行 Linux下基本指令-掌握 ls 指令 pwd命令 cd 指令 touch指令 mkdir指令(重要): rmdir指令 && rm 指令(重要): man指令(重要): cp指…

ARCGIS PRO3 三维模型OSGB转SLPK场景数据集

1.前言 因项目工作,需要将三维模型发布到arcgisserver上,但arcgisserver只支持slpk格式的模型,于是我开启了漫长的三维模型格式转换之旅,在这里记录下本人踩过的坑。 2.三维模型数据情况 2.1 模型大小:在20GB以上&a…

施耐德 Unity Pro 编程软件导入导出变量

适用范围 施耐德中高端PLC,使用的编程软件为 UnityPro (最新版更名为 Ecostructure Control Expert) 中端 PLC:Premium,M340高端 PLC:Quantum,M580 导出/导入变量 导出变量可导出【变量和 FB…

表演型人格的症状和起因,表演型人格测试和应对方法

都说人生不易,全靠演技,在生活这个大舞台上,每个人都在诠释自己的角色,在不同的人面前展现出了不一样的形象。面对父母,面对孩子,面对老板,面对同事,面对朋友,他们好像有…

BIM为电力、供水和道路工程无缝集成,助力智慧城市计划

在道路和公用事业工程中利用 Bentley Open 系列应用程序,项目进度加快 10%,节省成本 1,000 万印度卢比 推动基础设施现代化,实现智慧城市愿景 Dholera特别投资区位于印度艾哈迈达巴德西南 100 公里处,毗邻古吉拉特邦的贸易中心&a…

目标检测的mAP、PR指标含义

基本概念 什么是一个任务的度量标准。对于目标检测任务来说,它的首要目标是确定目标的位置并判别出目标类别。这里已医学图像为例,我们需要计算出血液红细胞(RBC)、白细胞(WBC)和血小板的数量。为了实现这一…

【目标检测】FPN特征金字塔完整流程详解

学习视频:1.1.2 FPN结构详解 对比 可以看到FPN是自上而下、自下而上并且可以进行多尺度特征融合的的层级结构。 具体结构 1x1 conv: 对通道数进行调整,不同大小的特征图通道数不同,越高层次的特征图通道数越大,论文中使用256个1…

上位机图像处理和嵌入式模块部署(树莓派4b用skynet实现进程通信)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 前面我们说过,在工业系统上面一般都是使用多进程来代替多线程。这后面,主要的原因还是基于安全的考虑。毕竟一个系统里面&a…

Docker常用命令(镜像、容器)

一、镜像 1.1 存出镜像 1.2 载入镜像 1.3 上传镜像 二、容器 2.1 容器创建 2.2 查看容器的运行状态 ​2.3 启动容器 2.4 创建并启动容器 2.5 在后台持续运行 docker run 创建的容器 2.6 终止容器运行 2.7 容器的进入 ​2.8把宿主机的文件传入到容器内部 2.9 从容器…

Swift-31-泛型和类型操作

泛型 Swift泛型(generics) 让我们写出的类型和函数可以使用对于我们或编译器都未知的类型。 很多内建类型(包括可空类型、数组和字典)都是用泛型实现的,比如数组和一些集合就是用泛型方式来实现的。 一种运行时进行类型检查的技术,效率高但是不安全。在…

11.JAVAEE之网络原理1

1.应用层(和程序员接触最密切) 应用程序 在应用层这里,很多时候, 都是程序员"自定义"应用层协议的,(当然,也是有一些现成的应用层协议)(这里的自定义协议,其实是非常简单的~~协议 >约定,程序员在代码中规定好,数据如何进行传输) 1.根据需求, 明确要传…

使用mapinfo软件的在线地图插件运行错误解决

使用mapinfo软件的在线地图插件运行错误解决 一、如何解决win10/win11家庭版运行MapInfo中的在线地图插件报错【unexpected error;quitting】问题?二、如何解决在线地图切换地图源时的报错问题? 一、如何解决win10/win11家庭版运行MapInfo中的…

C# WinForm —— 10 单选按钮与复选框的介绍与使用

单选按钮 RadioButton 一组单选按钮中,只能选择一个,互相排斥 常用属性、事件: 属性用途(Name)单选按钮的ID,在代码里引用的时候会用到,一般以 rb开头Text单选按钮旁边显示的 文本信息Checked单选按钮的勾选状态Appearance控制单…

JetBrains CLion v2023.3.4 激活版 (C/C++ 集成开发IDE)

前言 JetBrains CLion是一款跨平台的C/C集成开发环境,由JetBrains公司推出。其最新版本支持C14几乎完全,并初步支持C17,使得编写代码更加便捷。CLion还提供了Disassembly view(反汇编视图),即使没有源代码…

Unity类银河恶魔城学习记录15-1,2 p153 Audio Manager p154 Audio distance limiter

Alex教程每一P的教程原代码加上我自己的理解初步理解写的注释,可供学习Alex教程的人参考 此代码仅为较上一P有所改变的代码 【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili AudioManager.cs using System.Collections; using System.Collections.Gen…

Python游戏工具包pygame

当你涉及游戏开发时,Pygame是一个强大的工具包,它提供了一系列功能丰富的模块和工具,让你可以轻松地创建各种类型的游戏。在本文中,我将介绍Pygame的依赖以及其详细属性,同时提供一些示例代码来说明其用法。 目录 一…

关于discuz论坛网址优化的一些记录(伪静态)

最近网站刚上线,针对SEO做了些操作,为了方便网站网页被收录,特此记录下 1.开启伪静态 按照操作勾选所有项,然后点击查看伪静态规则 2.打开宝塔,找到左侧列表的网站,然后找到相应站点的设置。把discuz自动…

1、Qt简介

文章目录 前言一、pySide2 / pySide6 ,PyQt5 / PyQt6二、安装包1 安装pyside22 安装pyqt5三、从一个简单的例子开始三、界面动作处理---信号(signal)与槽(slot)(Qt最核心的机制)--- 绑定事件封装到类中总结前言 参考文章:Qt简介 本文开始就开始进入到qt的开发笔记书写…

前缀和、差分模板(C++ 一维、二维)

前缀和(Prefix Sum)和差分(Difference)是两种常用的数组操作,用于解决一些求和、求区间和、区间修改等问题。 前缀和是指一个数组中每个位置上的元素与它前面位置上所有元素的和。例如,数组nums[1, 2, 3, 4…

打造智能语音机器人-用语音控制机器人

人工智能现已成为国家发展重大战略,智能语音技术作为人工智能产业链上的关键一环,AI应用成熟的技术之一,人工智能的发展也进入了一个崭新的阶段。那么打造智能语音机器人怎样实现用语音控制机器人呢?和小编一起来看看。 选择合适的…