深度解析 | 什么是超融合数据中心网络?

news2025/1/15 13:34:20

数据中心网络连接数据中心内部通用计算、存储和高性能计算资源,服务器间的所有数据交互都要经由网络转发。当前,IT架构、计算和存储技术都在发生重大变革,驱动数据中心网络从原来的多张网络独立部署向全以太化演进。而传统的以太网无法满足存储和高性能计算的业务需求。超融合数据中心网络以全无损以太网来构建新型的数据中心网络,使通用计算、存储、高性能计算三大种类业务均能融合部署在一张以太网上,同时实现全生命周期自动化和全网智能运维。

Part1为什么会产生超融合数据数据中心网?

1现状:数据中心内有三张网络

数据中心内部有三类典型的业务:通用计算(一般业务)、高性能计算(HPC)业务和存储业务。每类业务对于网络有不同的诉求,比如:HPC业务的多节点进程间通信,对于时延要求非常高;而存储业务对可靠性诉求非常高,要求网络0丢包;通用计算业务规模大,扩展性强,要求网络低成本、易扩展。

由于上述业务对网络的要求不同,当前数据中心内部一般会部署三张不同的网络:

  • 由IB(InfiniBand)网络来承载HPC业务

  • 由FC(Fiber Channel)网络来承载存储网络

  • 由以太网来承载通用计算业务

数据中心内的三张网络

2AI时代的变化1:存储和计算能力大幅提升,网络成为瓶颈

企业数字化过程中将产生大量的数据,这些数据正在成为企业核心资产。通过AI技术从海量数据中挖掘价值成为AI时代不变的主题。通过AI机器学习利用各种数据辅助实时决策,已经成为企业经营的核心任务之一。与云计算时代相比,AI时代企业数据中心的使命正在从聚焦业务快速发放向聚焦数据高效处理转变。

数据中心正在从云计算时代走向AI时代

为了提升海量AI数据处理的效率,存储和计算领域正在发生革命性的变化:

  • 存储介质从机械硬盘(HDD)演进到闪存盘(SSD),来满足数据的实时存取要求,存储介质时延降低了不止100倍。

  • 为了满足数据高效计算的诉求,业界已经在采用GPU甚至专用的AI芯片,处理数据的能力提升了100倍以上。随着存储介质和计算能力的大幅提升,在高性能的数据中心集群系统中,当前网络通信的时延成为应用整体性能进一步提升的瓶颈,通信时延在整个端到端时延中占比从10%上升到60%以上,也就是说,宝贵的存储或计算资源有一半以上的时间是在等待网络通信。

总的来说,随着存储介质和计算处理器的演进,网络的低效阻碍了计算和存储性能的发挥;只有将通信时长降低到与计算和存储接近,才能消除木桶原理中的“短板”,提升应用整体的性能。

3AI时代的变化2:RDMA替代TCP/IP成为大势所趋,但RDMA的网络承载方案存在不足

如下图所示,在服务器内部,由于TCP协议栈在接收/发送报文,以及对报文进行内部处理时,会产生数十微秒的固定时延,这使得在AI数据运算和SSD分布式存储这些微秒级系统中,TCP协议栈时延成为最明显的瓶颈。另外,随着网络规模的扩大和带宽的提高,宝贵的CPU资源越来越地多被用于传输数据。

RDMA(Remote Direct Memory Access)允许应用与网卡之间的直接数据读写,将服务器内的数据传输时延降低到接近1us。同时,RDMA允许接收端直接从发送端的内存读取数据,极大减少了CPU的负担。

RDMA与TCP的对比 根据业务的测试数据, 采用RDMA可以将计算的效率同比提升6~8倍;而服务器内1us的传输时延也使得SSD分布式存储的时延从ms级降低到us级成为可能,(公众号:网络工程师阿龙)所以在最新的NVMe(Non-Volatile Memory express)接口协议中,RDMA成为主流的默认网络通信协议栈。因此,RDMA替换TCP/IP成为大势所趋。

在服务器之间的互联网络中,当前有两种方案来承载RDMA:专用InfiniBand网络和传统IP以太网络,然而,它们都存在不足:

  • InfiniBand网络:架构封闭,采用私有协议,难以与现网大规模的IP网络实现很好的兼容互通;运维复杂,专人运维,OPEX居高不下。

  • 传统IP以太网:对于RDMA来说,大于10-3的丢包率,将导致网络有效吞吐急剧下降,2%的丢包则使得RDMA的吞吐率下降为0。要使得RDMA吞吐不受影响,丢包率必须保证在十万分之一以下,最好为无丢包。而拥塞丢包是传统IP以太网络的基本机制,传统IP以太网中会使用PFC和ECN机制来避免丢包,但其基本原理是通过反压降低发送端速度来保证不丢包,实际上并没有达到提升吞吐率的效果。

因此,RDMA的高效运行,离不开一个0丢包、高吞吐的开放以太网作为承载。

4AI时代的变化3:分布式架构成为趋势,加剧网络拥塞,驱动网络变革

在企业的数字化转型中,以金融和互联网企业为代表,大量的应用系统迁移到分布式系统上:通过海量的PC平台替代传统小型机,带来了成本低廉、易扩展、自主可控等优势,同时也给网络互联带来了挑战:

  • 分布式架构带来了服务器间大量的互通需求。

  • Incast型流量(多点对一点的流量)会在接收端造成流量突发,瞬间超过接收端接口能力,造成拥塞丢包。

分布式架构流量模型示意

  • 随着分布式系统应用复杂度的增加,服务器之间交互的消息长度越来越大,即流量具备“大包”特征,进一步加剧了网络拥塞。

Part2什么是超融合网数据中心网络的核心指标?

从上一节来看,为了满足AI时代的数据高效处理诉求、应对分布式架构挑战,0丢包、低时延、高吞吐成为下一代数据中心网络的三个核心指标。这三个核心指标是互相影响,有跷跷板效应,同时达到最优有很大的挑战。

三个核心指标相互影响

同时满足0丢包、低时延、高吞吐,背后的核心技术是拥塞控制算法。通用的无损网络的拥塞控制算法DCQCN(Data Center Quantized Congestion Notification),需要网卡和网络进行协作,每个节点需要配置数十个参数,全网的参数组合达到几十万;为了简化配置,只能采用通用的配置,导致针对不同的流量模型,常常无法同时满足这三个核心指标。

Part3超融合数据中心网络与HCI有什么异同?

HCI(Hyper-Converged Infrastructure,超融合基础架构)是指在同一套单元设备中不但具备了计算、网络、存储和服务器虚拟化等资源和技术,而且多套单元设备可以通过网络聚合起来,实现模块化的无缝横向扩展(Scale—Out),形成统一的资源池。

HCI将虚拟化计算和存储整合到同一个系统平台。简单地说就是物理服务器上运行虚拟化软件(Hypervisor),通过在虚拟化软件上运行分布式存储服务供虚拟机使用。分布式存储可以运行在虚拟化软件上的虚拟机里也可以是与虚拟化软件整合的模块。广义上说,HCI既可以整合计算和存储资源,还可以整合网络以及其它更多的平台和服务。目前业界普遍认为,软件定义的分布式存储层和虚拟化计算是HCI架构的最小集。

与HCI不同,超融合数据中心网络只专注于网络层面,提供全新的计算、存储互联的网络层方案。使用超融合数据中心网络,不需像HCI那样对计算资源、存储资源进行改造和融合,并且基于以太网很容易实现成低成本的快速扩容。

Part4什么是华为的超融合数据中心网络方案?

华为公司基于多年数据中心网络成功实践的经验,面对动态流量和海量参数调整,提炼出不同的流量特征模型;在交换机中实时采集流量特征和网络状态,使用独创的iLossless智能无损算法,本地实时决策并动态调整网络参数配置,使得交换机缓存被合理高效利用,实现整网0丢包。在网络架构上,基于CLOS组网模型构建基于CloudEngine系列交换机的Spine-Leaf两级智能架构:计算智能和网络智能结合、全局智能和本地智能协同,共同打造无损低时延的数据中心网络。(公众号:网络工程师阿龙)

另外,基于华为的智能分析平台iMaster NCE-FabricInsight,基于全局采集到的流量特征和网络状态数据,结合AI算法,对未来的流量模型进行预测,从全局的视角,实时修正网卡和网络的参数配置,以匹配应用的需求。

华为的超融合数据中心网络,基于开放以太网,通过独特的AI算法,可以使以太网络同时满足低成本,0丢包和低时延的诉求。超融合数据中心网络成为AI时代的数据中心构建统一融合的网络架构的最佳选择。

Part5从独立组网到统一融合的组网

华为超融合数据数据中心网络有什么价值?传统的FC专网和IB专网,价格昂贵,生态封闭,且需要专人运维,也不支持SDN,无法满足云网协同等自动化部署的诉求。

使用华为超融合数据中心网络具有以下价值:

  • 提升端到端业务性能
    使用华为超融合数据中心网络,据权威第三方测试EANTC测试结论,可以在HPC场景下最高降低44.3%的计算时延,在分布式存储场景下提升25%的IOPS能力,且所有场景保证网络0丢包。
    使用华为超融合数据中心网络,可提供25G/100G/400G组网,满足AI时代海量数据对网络大带宽的需求。

  • 降低成本,提升收益
    数据中心投资中网络占比仅10%左右,相对服务器/存储的投资(占比85%),有10倍的杠杆效应,撬动服务器和存储投资的大幅降低;华为超融合数据数据中心网络可以带来25%的存储性能提升,40%的计算效率提升,将带来数十倍的ROI(Return On Investment)能力。

  • 支持SDN自动化和智能运维
    华为超融合数据中心网络支持SDN云网协同的全生命周期业务自动化,OPEX降低至少60%以上。另外,由于华为超融合数据中心网络本质上是以太网,因此传统以太网运维人员就可以管理,且可以依托华为智能分析平台iMaster NCE-FabricInsight,多维度地、可视化地对网络进行运维。

Part6华为超融合数据数据中心网络如何工作?

上文提到,使用以太网来承载RDMA流量,目前使用的协议为RoCE(RDMA over Converged Ethernet)v2。华为超融合数据中心网络,使用iLossless智能无损算法构建无损以太网络,是一系列技术的合集,通过以下三个方面技术的相互配合,真正解决传统以太网络拥塞丢包的问题,为RoCEv2流量提供“无丢包、低时延、高吞吐”的网络环境,满足RoCEv2应用的高性能需求。

  • 流量控制技术
    流量控制是端到端的,需要做的是抑制发送端的发送速率,以便接收端来得及接收,防止设备端口在拥塞的情况下出现丢包。华为提供了PFC死锁检测和死锁预防,提前预防PFC死锁的发生。

  • 拥塞控制技术
    拥塞控制是一个全局性的过程,目的是让网络能承受现有的网络负荷,往往需要转发设备、流量发送端、流量接收端协同作用,并结合网络中的拥塞反馈机制来调节整网流量才能起到缓解拥塞、解除拥塞的效果。在拥塞控制过程中,华为提供了AI ECN(Artificial Intelligence Explicit Congestion Notification)、iQCN(intelligent Quantized Congestion Notification)、ECN Overlay和NPCC(Network-based Proactive Congestion Control)功能,解决了传统DCQCN存在的问题。

  • 智能无损存储网络技术
    为了更好地服务存储系统,华为提供了iNOF(Intelligent Lossless NVMe Over Fabric,智能无损存储网络)功能,实现对主机的快速管控。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1340857.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

简述Redis备份策略以及对应的实现机制

引言 Redis作为高性能的内存数据库,数据的安全性至关重要。一旦数据丢失,可能会对业务造成重大影响。因此,备份Redis数据是每个Redis使用者都必须考虑的问题。本文将介绍Redis的备份策略以及对应的实现机制。 一、备份策略 1.1 定期备份 …

视频编辑软件,视频添加图片水印软件

你是否曾经为了制作一个简单的视频而头痛不已?是否觉得视频编辑软件的操作复杂,让人望而却步?【视频剪辑高手】将彻底改变这一现状!它以简单、高效、创意为核心,为用户提供一站式的视频编辑解决方案。 所需工具&#…

du和df

du 和df 不一致的问题: 情况如下: innode 没有满 同事求助, 他在删掉一个很大的文件后, 磁盘空间依旧没释放。上去一看, 果然 df 看到磁盘空间占用依旧是100%,等等 du 看了一把,磁盘空间剩余很…

什么是MLOps?

人工智能(AI)和机器学习(ML)应用激动人心的发展浪潮也许会让人相信,企业交付ML产品的能力也在迅速提高。但现实情况是,ML内部流程很难跟上行业的整体发展……但若以MLOps的形式则有希望解决此问题&#xff…

基于遗传算法的航线规划

MATLAB2016b可以正常运行 基于遗传算法的无人机航线规划资源-CSDN文库

【网络安全 | 扫描器】御剑安装及使用教程详析

御剑是一款传统的Web网络安全综合检测程序,支持对PHP、JSP、ASPX等文件进行扫描,具备全扫描、网络安全扫描和主机安全扫描能力,方便发现网站漏洞。 文章目录 下载使用教程 本文对御剑的安装及使用教程进行详析 下载 下载地址读者可自行上网…

ARM CCA机密计算软件架构之RMI领域管理接口与RSI领域服务接口

领域管理接口 领域管理接口(RMI)是RMM与正常世界主机之间的接口。 RMI允许正常世界虚拟机监视器向RMM发出指令,以管理领域。 RMI使用来自主机虚拟机监视器的SMC调用,请求RMM的管理控制。 RMI使得对领域管理的控制成为可能&…

Python新手上路:“用Python和Pygame创造你的流星雨”

文章目录 一、前言二、下载安装过程1.官网下载安装包2.安装python过程第一步第二步第三步第四步第五步安装完成 3.简单测试Python3.1 检查 Python 版本号3.2 打开 Python 解释器3.3 输入你的第一个代码3.4 运行 Python 脚本 4.安装Pygame4.1 cmd命令安装Pygame4.2 pip升级4.3 安…

所有逐个位置相加的方法

989. 【加法模板】秒杀所有逐位相加 参考教程

python学习14

前言:相信看到这篇文章的小伙伴都或多或少有一些编程基础,懂得一些linux的基本命令了吧,本篇文章将带领大家服务器如何部署一个使用django框架开发的一个网站进行云服务器端的部署。 文章使用到的的工具 Python:一种编程语言&…

桥接模式-举例

概叙:桥接模式用一种巧妙的方式处理多层继承存在的问题, 用抽象关联取代了传统的多层继承, 将类之间的静态继承关系转换为动态的对象组合关系, 使得系统更加灵活,并易于扩展, 同时有效控制了系统中类的个数…

使用pytorch搭建ResNet并基于迁移学习训练

这里的迁移学习方法是载入预训练权重的方法 net resnet34()# load pretrain weights# download url: https://download.pytorch.org/models/resnet34-333f7ec4.pthmodel_weight_path "./resnet34-pre.pth"assert os.path.exists(model_weight_path), "file {}…

Keras多分类鸢尾花DEMO

完整的一个小demo: pandas1.2.4 numpy1.19.2 python3.9.2 import numpy as np import pandas as pd import matplotlib.pyplot as plt from pandas import DataFrame from scipy.io import loadmat from sklearn.model_selection import train_test_split impor…

硅像素传感器文献调研(三)

写在前面: 引言:也是先总结前人的研究结果,重点论述其不足之处。 和该方向联系不大,但还是有值得学习的地方。逻辑很清晰,易读性很好。 1991年—场板半阻层 使用场板和半电阻层的高压平面器件 0.摘要 提出了一种…

【没有哪个港口是永远的停留~论文简读】Panoptic SegFormer

Panoptic SegFormer 原文:https://arxiv.org/pdf/2109.03814.pdf 代码:GitHub - zhiqi-li/Panoptic-SegFormer: This is the official repo of Panoptic SegFormer [CVPR22] 在全景分割中,图像内容可分为things和stuff两类。 things是可计…

2023.12.28力扣每日一题——收集巧克力

2023.12.28 题目来源我的题解(参考力扣官方题解)方法一 枚举方法二 二次差分 题目来源 力扣每日一题;题序:2735 我的题解(参考力扣官方题解) 嗯……今天不会,就当一次搬运工吧。 方法一 枚举…

去水印软件哪个好用?用他们就够了

随着数字媒体的发展,越来越多的人开始需要处理带有水印的图片或视频。水印不仅是一种版权保护手段,也常常被用来标记图片或视频的来源。然而,在某些情况下,我们可能需要去除水印以实现更好的使用效果。那么,去水印软件…

【C++进阶03】二叉搜索树

一、二叉搜索树的概念和性质 中序遍历二叉搜索树会得到一个有序序列 所以二叉搜索树又称二叉排序树 它可以是一棵空树 也可以是具有以下性质的二叉树: 若它的左子树不为空 则左子树上所有节点的值都小于根节点的值若它的右子树不为空 则右子树上所有节点的值都大于…

技术经验|Java基础之LocalTime类

文章目录 1 背景2 Time包在实际开发中的位置3 本地日期和时间类3.1 LocalTime自带功能3.2 LocalTime继承、重写功能 4 总结 📫 作者简介:「六月暴雪飞梨花」,专注于研究Java,就职于科技型公司后端工程师 🔥 三连支持&a…

【Java系列】多线程案例学习——基于阻塞队列实现生产者消费者模型

个人主页:兜里有颗棉花糖 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 兜里有颗棉花糖 原创 收录于专栏【Java系列专栏】【JaveEE学习专栏】 本专栏旨在分享学习JavaEE的一点学习心得,欢迎大家在评论区交流讨论💌 目录…