以 RoCE+软件定义存储同时实现信创转型与架构升级

news2024/11/20 2:30:14

目前,不少企业数据中心使用 FC 交换机和集中式 SAN 存储(以下简称“FC-SAN 架构”),支持核心业务系统、数据库、AI/ML 等高性能业务场景。而在开展 IT 基础架构信创转型时,很多用户受限于国外交换机:FC 交换机市场几乎被 Broadcom 和 Cisco 等国外厂商垄断,很难找到成熟的国产替代方案。

而随着 RoCE(RDMA over Converged Ethernet) 这一高性能网络技术的日渐成熟,以太网交换机 + NVMe-oF 或成为破局关键:由于 RoCE 通过以太网使用 RDMA(Remote Direct Memory Access)网络协议,用户可以使用国产以太网交换机替代 FC 交换机;搭配支持 NVMe over RDMA(RoCE v2)和信创 CPU 架构的分布式存储,即可同步实现 IT 基础架构的信创转型与架构升级,满足核心业务应用“高性能、低延迟”的需求。

以下将结合权威机构趋势报告和行业用户实践,讨论这一转型方案的可行性。

替代可行性:技术成熟度与信创实践难度分析

技术成熟度:RoCE 成主流 RDMA 实现方案,NVMe-oF(RoCE)获多厂商与权威机构青睐

传统以太网采用 TCP/IP 作为网络传输协议。由于 TCP/IP 协议栈处理带来的延迟较长、服务器 CPU 消耗更高,本质上属于有损网络,其性能一直比不过 FC 网络,这也是为什么企业多采用 FC-SAN 架构支持高性能应用场景。而 RDMA 技术的出现,为解决 TCP/IP 的缺陷,提供了一种全新且高效的解决思路:通过直接内存访问技术,数据从一个系统快速移动到远程系统的内存中,无需经过内核网络协议栈,无需双方操作系统的介入,最终达到高带宽、低延迟和低 CPU 资源占用的效果。

RoCE 正在成为主流的 RDMA 实现方案。相比更早出现的 InfiniBand 技术,RoCE 支持无损以太网部署,无需使用专有网络(IB),成本也更低。虽然 RoCE 在诞生之初有诸多不足, 但经过 10 多年的发展,目前的 RoCE v2 技术已具备路由能力,且在性能表现上已经达到与 InfiniBand 相同甚至更高的水平。Mellanox 发布的《RoCE in the Data Center》白皮书明确表示,直到 RoCE 的出现与成熟,RDMA 才在基于以太网的数据中心得到大规模的应用,为数据中心业务带来低延迟、高性能的体验。中国移动发布的《以太无损网络测试技术白皮书》也指出,“在高性能计算和存储场景中,基于 RoCE 技术构建数据中心网络已成为主流解决方案之一,该方案融合了 RDMA 和以太网的优势”。

roce-sds-ethernet-switch-xc-1.png

RDMA 三种实现方案对比

目前国际主流的网卡与适配器制造商,如 Intel、Mellanox、Cisco、Broadcom 等,均提供以 RoCE v2 技术实现 RDMA 能力的产品和方案。众多主流云服务商,如 Microsoft – Azure 和 Orcale – Oracle Cloud Infrastructure(OCI)也利用 RoCE 提升方案网络性能。例如,OCI 利用英伟达 ConnectX SmartNICs 和 RoCE 技术构建支持弹性扩展与低延迟的高性能网络,为高性能计算、GPU、AI/ML、Oracle 数据库等场景提供高性能网络能力。国内厂商浪潮也帮助用户基于 Kubernetes 和 RoCE v2 构建 AI 训练集群,提升整体运算性能。可以看出,以 RoCE 支持核心业务场景(尤其是高性能业务场景),已得到业内广泛认可。

虽然 RoCE 对以太网交换机没有能力要求(仅要求网卡支持 RoCE),但要求存储产品提供 RDMA/RoCE 支持。其中应用最广泛的技术之一就是 NVMe-oF(NVMe over Fabrics)。NVMe-oF 是一种数据接入协议,将 NVMe 在单系统内部提供的高性能、低延迟和极低的协议开销等优势,进一步发挥到客户端与存储系统互联的网络结构当中。

Gartner 在《Top Trends in Enterprise Data Storage 2023》报告中指出,NVMe-oF 是块存储领域未来发展的三大重点之一:“NVMe-oF 方案适用于基于 NVMe 硬盘的低延迟应用场景 … 该技术可充分满足应用对高性能和灵活扩展的存储能力要求。同时,在分布式和软硬件解耦的平台上, NVMe-oF 可进一步发挥和增强存储系统的能力。”

根据 Gartner 的预测,到 2027 年,至少 25% 的企业都会使用 NVMe-oF 进一步提升存储性能,以支持 AI/ML、HPC、数据库、金融核心交易系统等高性能应用场景NVMe-oF 支持多种传输层协议,包括 FC(NVMe over FC)、RDMA(NVMe over RDMA)和 TCP(NVMe over TCP)。其中,NVMe over FC 基于传统的 FC 网络,并不适合信创采用。Gartner 在《Competitive Landscape: Innovative All-Flash Array Offerings Architected for the Data-Centric Era》调研中也发现,大部分存储厂商对 NVMe-oF 的支持集中在 NVMe over RDMA/RoCE 和 NVMe over TCP 这两种方案上。而相比 TCP 而言,RDMA/RoCE 可以提供更好的性能,因此数据中心更适合采用 NVMe over RDMA/RoCE,支持对性能和延迟敏感的业务。

现阶段,NVMe over RDMA/RoCE 的应用情况如何?目前,国内用户常见的主流存储厂商,包括 VMware vSphere+vSAN、Dell EMC、IBM、华为 OceanStor、志凌海纳 SmartX 等,均提供支持 NVMe over RDMA/RoCE 的方案/版本,且在国内已具备实践案例(在下文展开解读),充分证明了技术的成熟与可靠性。

信创实践难度:信创以太网交换机与存储方案成熟,行业头部用户已实现转型

“以太网交换机+支持 RoCE 的存储”在技术上可以实现 FC 交换机的信创替代,在实践层面可行吗?有信创方案和实践支持吗?

  • 以太网交换机:国产以太网交换机已经比较成熟了,国内厂商如华为、H3C、锐捷等均可提供国产替代方案。
  • 支持 RoCE 的网卡:国内品牌如华为可提供 25GbE 支持 RoCE v2 的自研网卡产品,但对于更高带宽的使用场景,目前的主流选择还是 Intel、Mellanox 等厂商产品。不过这些非国产品牌的网卡,目前仍在信创场景中普遍使用,且可通过信创验收,因此暂不影响用户的选择和使用。
  • 支持 RoCE 的 SAN 存储:国内厂商如华为 OceanStor 的部分高端集中式存储可支持 NVMe over RDMA(RoCE v2)。

另外可以看到,一些国内企业,如中国工商银行、中国移动、中国银行等行业头部用户,已经先行一步,基于 NVMe over RoCE 技术开展了高性能存储网络转型。例如,中国工商银行在深入调研高性能网络、存储基础设施等技术及产业应用发展情况后,选定 NVMe over RoCE 技术作为金融高性能存储网络的技术路线,率先建成 RoCE-SAN 高性能存储网络体系的“多地多中心”高可用架构,并进入规模化推广应用阶段,有效缓解金融广域骨干网流量压力并降低成本。详细实践经验可参考:工商银行率先完成金融高性能存储网络体系重构。

不过类似工行的转型实践,是将 FC-SAN 架构替换为 RoCE-SAN,即不改变底层集中式存储架构,利用 RoCE-SAN 插件实现以太网交换机的替代。还有一种方式是采用软件定义的存储——存算分离架构的分布式存储或超融合。这种“新一代数据基础设施”搭配 RoCE,同样能实现 FC 交换机的信创转型,同时提供更好的性能和灵活扩展能力,为高性能应用和新业务的快速上线提供敏捷支持。

RoCE + 软件定义的分布式存储:补齐短板,相辅相成

作为一种现代化存储,软件定义的分布式存储将存储资源池化,并将数据分散放置在多个节点中,节点通过网络互连提供存储服务,从而充分与存储硬件解耦,并提升存储资源利用率和扩展能力。虽然分布式架构消除了集中式存储控制器瓶颈,使得并发性能能够随节点的增加而线性增长,但由于基于 TCP/IP 协议栈的 iSCSI 依然是分布式存储主流的接入方法之一,其对 NVMe 新型存储介质的支持已略显疲态,难以充分满足高性能应用对“低延迟”的要求。

以 NVMe over RDMA(RoCE)搭配软件定义的分布式存储,不仅可以实现低延迟极速网络传输,还可以充分发挥分布式存储高性能、易扩展的优势,让用户在开展 IT 基础架构信创转型的同时,实现基础设施的现代化转型。

国内已有不少用户基于这种方案构建信创基础设施,为前沿应用提供高性能、低延迟支持。例如,复旦大学为了构建云上科研智能计算平台,利用支持 RDMA(RoCE)的信创超融合平台(基于分布式存储)提升性能与数据传输效率。经测试,配置 RDMA 后,流量带宽从 6GB 提升至 19GB(提升 217%),可充分满足科学计算的性能需求。详细实践经验可参考:复旦大学 CFFF 计算平台项目高速数据交换平台实践。

替代方案优势总结

  • 同时实现信创转型与架构升级:以标准以太网交换机和支持 NVMe over RDMA(RoCE)的存储方案替代 FC 交换机,可避免 FC 交换机使用问题;同时以更精简的分布式存储架构替代集中式 SAN 存储,可进一步实现 IT 基础架构的现代化升级。若采用 SmartX 分布式存储/超融合,用户还可使用 海光、鲲鹏等信创 CPU 和 Kubernetes 平台,完善信创转型与容器化升级。 
  • 提供“高性能”“低延迟”存储支持:软件定义的分布式存储搭配 RDMA 协议,可在提升存储性能的同时降低网络延迟,充分满足高性能业务场景需求。
  • 降低成本与运维压力:以性价比更高的以太网交换机和分布式存储替代 FC 交换机和高端存储,节约成本的同时可有效降低运维压力。SmartX 还提供超融合部署方式,进一步精简架构和运维。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1351493.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2015年AMC8数学竞赛中英文真题典型考题、考点分析和答案解析

今天我们来看2015年的AMC8竞赛真题的典型考题和解析,最后利用碎片化时间冲刺,查漏补缺,理解考试。温馨提示:2024年AMC8比赛现在还可以报名,自由报名截止到1月7日,我这里有官方自由报名通道。 2015年AMC8数学…

对基于深度神经网络的Auto Encoder用于异常检测的一些思考

一、前言 现实中,大部分数据都是无标签的,人和动物多数情况下都是通过无监督学习获取概念,故而无监督学习拥有广阔的业务场景。举几个场景:网络流量是正常流量还是攻击流量、视频中的人的行为是否正常、运维中服务器状态是否异常…

Django Web框架

1、创建PyCharm项目 2、安装框架 pip install django4.2.0 3、查看安装的包列表 4、使用命令创建django项目 django-admin startproject web 5、目录结构 6、运行 cd web python manage.py runserver7、初始化后台登录的用户名密码 执行数据库迁移生成数据表 python man…

自定义指令:让 Vue 开发更有趣(中)

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

一年中ChatGPT使用情况

介绍 本人是独立开源软件开发者,参与很多项目建设,谈下日常使用情况。 我用了一年多,现在已经离不开,我如指挥家,它是我最忠诚的乐手。 编码 GitHub Copilot:GitHub Copilot是GitHub和OpenAI合作开发的一…

unity C# 中通俗易懂LINQ使用案例

文章目录 1. 从数组或列表中查询元素**:2. **排序与分组**:3. **连接多个数据源**:4. **聚合操作**:5. **分页查询**:6. **多条件查询**:7. **转换和投影(Select)**:8. *…

[C#]使用onnxruntime部署Detic检测2万1千种类别的物体

【源码地址】 github地址:https://github.com/facebookresearch/Detic/tree/main 【算法介绍】 Detic论文:https://arxiv.org/abs/2201.02605v3 项目源码:https://github.com/facebookresearch/Detic 在Detic论文中,Detic提到…

SpringBoot整合Elasticsearch报错

本文来记录一下SpringBoot整合Elasticsearch报错 文章目录 报错如下报错原因es7.15.2版本下载 报错如下 报错如下 2024-01-02 15:09:10.349 ERROR 134936 --- [nio-8088-exec-6] o.a.c.c.C.[.[.[/]. [dispatcherServlet] : Servlet.service() for servlet [dispatcherServle…

华清远见作业第十九天——IO(第二天)

思维导图&#xff1a; 使用fread、fwrite完成两个文件的拷贝 代码&#xff1a; #include<stdio.h> #include<string.h> #include<stdlib.h> #include <sys/types.h> #include <sys/stat.h> #include <fcntl.h> int main(int argc, const…

kubeadm来快速搭建一个K8S集群

二进制搭建适合大集群&#xff0c;50台以下的主机 kubeadm更适合中下企业的业务集群 我们采用了二进制包搭建出的k8s集群&#xff0c;本次我们采用更为简单的kubeadm的方式来搭建k8s集群。 二进制的搭建更适合50台主机以上的大集群&#xff0c;kubeadm更适合中小型企业的集群…

如何保障集团下达的政策要求有效落地

随着新一轮国企改革的推进&#xff0c;很多国有企业建立了集团化的管控体系。通过集团化经营管理的模式&#xff0c;帮助国有企业凝聚更强的竞争力&#xff0c;集团企业通过资源整合、反向投资、控股、参股等手法创造业务板块之间的协同、互补效应&#xff0c;从而实现战略联动…

Redis(二)数据类型

文章目录 官网备注十大数据类型StringListHashSetZSetBitmapHyperLogLog&#xff1a;GEOStreamBitfield 官网 英文&#xff1a;https://redis.io/commands/ 中文&#xff1a;http://www.redis.cn/commands.html 备注 命令不区分大小写&#xff0c;key区分大小写帮助命令help…

vue +elementui 项目登录通过不同账号切换侧边栏菜单的颜色

前景提要&#xff1a;要求不同权限账号登录侧边栏颜色不一样。分为 theme&#xff1a;1代表默认样式&#xff0c;theme:2代表深色主题样式。 1.首先定义一个主题文件 theme.js&#xff0c;定义两个主题样式 // 主要是切换菜单栏和菜单头部主题的设计&#xff0c;整体主题样式切…

第4课 FFmpeg读取本地mp4文件并显示

在上节课&#xff0c;我们使用FFmpeg实现了一个最简单的rtmp播放器&#xff0c;它看起来工作正常。这节课&#xff0c;我们尝试让它来播放本地的mp4文件试试。 1.压缩备份上节课工程文件夹为demo3.rar&#xff0c;并修改工程文件夹demo3为demo4&#xff0c;重要的事情再说一遍…

BERT(从理论到实践): Bidirectional Encoder Representations from Transformers【1】

预训练模型:A pre-trained model is a saved network that was previously trained on a large dataset, typically on a large-scale image-classification task. You either use the pretrained model as is or use transfer learning to customize this model to a given t…

认识SpringBoot项目中的Starter

✅作者简介&#xff1a;大家好&#xff0c;我是Leo&#xff0c;热爱Java后端开发者&#xff0c;一个想要与大家共同进步的男人&#x1f609;&#x1f609; &#x1f34e;个人主页&#xff1a;Leo的博客 &#x1f49e;当前专栏&#xff1a; 循序渐进学SpringBoot ✨特色专栏&…

【MySQL四大引擎,数据库管理,数据表管理,数据库账号管理】

一. MySQL四大引擎 查看存储引擎 SHOW ENGINES support 字段说明 defaulti的为默认的引擎 为YES表示可以使用 为NO表示不能使用 四大引擎 InnoDB InnoDB表类型可以看作是对MyISAM的进一步更新产品&#xff0c;它提供了事务、行级锁机制和外键约束的功能&#xff0c;也是目前…

初中数学:一元二次方程和一元二次函数的相关总结

一、一元二次方程 1、定义 只含有一个未知数&#xff0c;且未知数的最高次数是2的整式方程。 表达式&#xff1a;axbxc0 2、常用解法 1、直接开平方法 2、配方法 3、公式法。(常用) x[-b√(b-4ac)]/2a 4、因式分解法&#xff08;十字相乘法&#xff09;(常用) 将方程通过…

This is probably not a problem with npm.

项目场景&#xff1a; 新创建的vue3项目&#xff0c;根据elementplus官网安装步骤进行按需导入安装&#xff0c;运行项目报错 This is probably not a problem with npm.There is likely additional logging output above. 原因分析&#xff1a; 是elementplus安装版本和自动…

kbdnecat.DLL文件缺失,软件或游戏无法启动运营,快速修复方法

“kbdnecat.DLL文件是什么&#xff1f;为什么一起动游戏或软件&#xff0c;Windows就报错“kbdnecat.DLL文件缺失&#xff0c;软件无法启动””&#xff0c;应该怎么修复呢&#xff1f; 首先&#xff0c;先来了解“kbdnecat.DLL文件”是什么&#xff1f; kbdnecat.DLL是一个动…