阿里云飞天洛神云网络子系统“齐天”:超大规模云网络智能运维的“定海神针”

news2024/9/21 1:33:44

云布道师

在这里插入图片描述

引言:近日,在南京上秦淮国际文化交流中心举办第八届未来网络发展大会上,阿里云凭借“超大规模云网络智能运维系统”一举斩获由中国通信学会专家组评选的“未来网络领先创新科技成果奖”,本次获奖也体现出阿里云在云网络技术领域科技创新实力获得业界的高度认可,评委专家一致认为“本项目针对云网络运维面临的成本、效率、实施性等挑战,突破了高性能运维数据管理、无人值守网络变更、高精度网络监控、全链路异常自愈等关键技术,研制了数智融合的超大规模智能云网络运维系统,提升了云网络系统的可靠性,支撑了阿里云全球 300 多万客户。活动现场由中国工程院院士刘韵洁亲自为各获奖单位颁发了获奖证书。

云计算技术高速发展所释放的技术红利,促使大量传统企业走上了“企业上云”的数字化转型之路。在过去十年间,云网络以每年超过 30% 的速度高速增长,展示了“企业上云”的强劲动力。企业上云规模的高速增长给云厂商带来高收益的同时,也对云厂商的技术能力提出了全新的挑战。阿里洛神云网络经过“十年磨一利剑”实现了全面自研的云网络操作系统,全面的满足了“多租户、大规模、高弹性”的网络性能需求。在满足网络性能需求的基础上,如何高效地运维超大规模云网络仍然是业界面临的难点问题,本文将全面揭秘阿里云洛神云网络子系统“齐天”如何构建“数智融合的一体化大规模云网络运维系统”,成为超大规模云网络高效运维的“定海神针”。

洛神掌河,大圣齐天
在阿里云中,很多系统都有着一个特殊的名字,这些名字诠释着属于工程师自己的浪漫。阿里云的核心是“飞天”操作系统,包含了“计算、存储、网络、安全”四大技术底座,其中云网络有一个属于自己的取自中华传统神话的名字“洛神”,洛神是掌管河水之神,象征着连接、汇聚和流动,这也契合了云网络连接数字世界的定位。洛神云网络的运维子系统取名为“齐天”,寓意着运维系统能够像“齐天大圣”一样会“万般变化”,能够应付云网络中数据管理、网络变更、故障发现以及设备应急等复杂的运维场景,同时也希望“齐天大圣”能够成为云网络稳定性的“定海神针”,为运行在云网络上的百万租户提供可靠的网络服务。为了实现这个目标,齐天历经八年的时间,将数据存储、分析处理、建模推理三大数据管理技术融合,对变更、监控以及应急三大运维场景进行一体化建设,突破了大规模云网络运维的四大核心技术,研制了数智融合的一体化大规模云网络运维系统。下面将对整个系统的核心设计进行全方面的揭秘。

直面天命,“智”斗妖魔
超大规模的云网络运维系统的建设之路,堪比“大圣”的取经之路,历经千难万险,一路降妖除魔,才能最终取得至宝真经。下面具体介绍齐天系统建设之路上遇到的“四大挑战”,如图 1 所示,大规模云网络运维面临“海量运维数据管理、百万设备升级维护、秒级网络异常发现和异构设备故障恢复”四大挑战。
图 1 大规模云网络运维系统面临的挑战
为了解决这些挑战,齐天采用“数智融合,运维一体”的思路,通过将数据存储、分析处理、建模推理三大数据管理技术融合;升级维护、网络监控、故障应急三大运维场景一体建设的方式研制了数智融合的一体化大规模云网络运维系统,系统整体架构如图 2 所示。系统整体包含数据管理、升级维护、网络监控以及故障应急四个核心模块,其中数据管理模块是运维系统的核心数据底座,支撑上面的不同运维场景;升级维护虽然是网络运维中的常规动作,受益于洛神云网络的 SDN 架构以及租户对于云网络功能需求的日益增加,云网络软硬件设备经常处于高频的升级变更过程中,因此齐天研发了无人值守的变更框架来解决云网络高频变更过程中的各类挑战;网络变更完成后,网络监控模块需要对变更后的云网络进行全面的监控来发现网络可能的异常状态;当监控系统发现异常后,为了尽可能降低租户受到网络异常的影响,齐天研发了全链路网络自愈技术来进行快速的故障应急。下面将分小节对每个核心模块进行深度揭秘。
图 2 数智融合的一体化大规模云网络运维系统
存算一体,数智融合
在 SDN 被网络行业全面拥抱之后,网络功能的迭代从主要依赖传统硬件厂商转到了各种由软件编写的转发组件中,并且有一个中心化的控制器来保证了网络配置的大规模高效下发。这个转变的背后是越来越多的网络状态和统计信息可以被转发软件开发者采集出来,从建立连接的速度,到报文经过每张流表的统计,甚至每个流的流量路径及节点/设备处理情况都可以方便的采集出来。丰富的网络状态/统计数据是 SDN 带给网络运维的福利,同时也带来了海量数据管理的挑战。

为了解决运维决策对海量数据的要求与运维系统对成本控制间的矛盾,齐天研制了数智融合的高性能运维数据管理技术,将海量多模态的网络数据统一存储,基于云原生的无状态分析引擎进行高性能处理,从时空多维度进行网络知识建模,实现了PB级海量多模态网络数据的高效率存储,千万级虚拟网络资源的批量建模以及毫秒级高性能网络数据分析。

网络变更,无人值守
针对百万级的设备规模与有限的运维人力间的矛盾,齐天设计并研发了多租户动态编排的无人值守网络变更技术,通过面向多租户的超高维度动态任务编排、基于微集群高速缓存的高性能任务下发以及主被协同的多指标结果评估算法来实现百万级网络设备的无人化零损变更,极大得提升了运维效率,降低了人力投入。

为了能让变更对每台网络设备的业务影响降到最低,齐天基于设备的多租户特性设计了面向多租户的超高维度动态任务编排技术。根据全局网络设备采集的多租户指标进行二阶段建模:第一阶段对每个租户维度指标进行时序预测,第二阶段对网络设备的租户指标按照租户业务权重拟合。通过二阶段建模为每台设备选择拟合后综合业务低谷进行变更任务编排,让每台网络设备的变更带来的综合业务影响最小。

针对网络设备变更后结果难评估的问题,齐天设计了一套基于主被协同的指标多维度结果评估算法,对每台网络设备的历史业务指标进行建模,实现被动指标评估与主动拨测检测相结合的多指标结果评估,及时发现变更异常从而快速阻断,减少变更异常影响。

意图感知,精准监控
针对高动态的网络资源与高实时的状态监控间的矛盾,齐天提出了以基于用户意图的虚拟网络测量技术为基础,通过机器学习对网络测量数据进行智能预测,从而实现高敏高精网络预警的能力,将网络的监控精度提升到报文级,时间精度提升到毫秒级,流量监控提升到实例级,预警精度提升到用户级,克服了由于多租户高动态给监控的精度和准确性带来的挑战。

针对线上环境的复杂性带来的告警准确性问题,齐天提出了基于网络语义解析的深度告警分析算法。通过优化机器学习模型对线上租户的工单和故障问询进行高精度 NLP 语义解析,及时识别业务异常工单,关联对应测量以及流量内部预警,从而精准匹配内部异常与租户反馈,大幅提升线上预警的准确性,为后续快速恢复提供关键数据支撑。

异常识别,全链自愈
针对强异构的网络设备与高效率的异常检测及恢复间的矛盾,齐天创新性地提出了基于多平面异常检测的全链路自愈能力,综合利用形式化验证以及可视化诊断来实现网络异常的全链路检测,通过对检测结果训练建设网络异常库,从而实现异常的快速分类和定位。针对大流量异常,采用可编程网卡辅助的流量反压实现快速自愈;针对分布式设备异常,采用软件调控流量调度的方式进行快速逃逸。

针对云网络内大量异构设备构成的复杂多平面网络链路,齐天采用多平面融合的全链路可视化诊断技术来实现快速问题定位,通过实时分析全链路网络配置及拓扑解析报文的完整流量路径,使用增强型网络决策树对全链路设备进行异常诊断,对物理网络、虚拟网络、租户网络三平面设备进行可视化投影关联,大幅提升了网络异常的诊断效率和效果。

总结过去,展望未来
在过去八年的时间里,阿里云洛神云网络子系统齐天,以数智融合、运维一体的思想贯穿始终,从运维数据、部署升级、网络监控与故障应急四个维度出发,重点突破了数智融合的高性能网络运维数据管理技术、多租户动态编排的无人值守网络变更技术、意图感知的自适应高精度网络监控技术、基于多平面异常检测的全链路自愈技术四个核心技术,研制出数智融合的一体化大规模云网络运维系统,支持了阿里云网络全网百万级网络设备全场景一体化运维,为阿里云 300 万客户提供了高质量的网络服务,护航了二十大会议、建党 100 周年活动、北京冬奥等国内外重大国事。同时,通过自主研发,齐天获得了一系列自主可控的知识产权,包括获得授权发明专利 40 余项,发表国际高水平论文 20 余篇。在中国信息通信研究院的测试认证中,齐天多项技术被评测为国际领先。经国际权威评测机构 Gartner 2021 年评测,齐天的 NIS 产品是全球唯一获得网络性能可视化能力评分的云网络产品。

这一系列技术成果诠释着齐天的工程师们在过去八年的不懈努力,同时我们也从未满足,仍然在不断前进。展望未来,齐天将继续推进“数智融合、运维一体”的整体思路,在网络稳定性、用户体验、运维成本等方面不断追求创新。依托齐天内部运维系统打造的 NIS(网络智能服务)产品将向阿里云网络的客户输出更多的新型运维能力,我们将持续践行“让网络更简单”的使命,推动云网络运维技术的创新发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2111630.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在VB.net中,如何把20240906转化成日期格式

标题 vb.net中,如何把20240906转化成日期格式 正文 在 VB.NET 中,将一个数字字符串(如 "20240906")转换为日期格式,你可以使用 DateTime.Parse 或 DateTime.TryParse 方法。这些方法可以将符合日期格式的字符…

响应式单位rpx搭配UI产品工具应用

rpx 即响应式 px,一种根据屏幕宽度自适应的动态单位。以 750 宽的屏幕为基准,750rpx 恰好为屏幕宽度 原本的px像素它是一个固定单位,它并不会随着你屏幕的改变而改变,相当于一个死值,不懂得灵活变通 相反,rpx会随着屏幕改变而改变,因为我们设置的高是200…

网络安全基础—加解密原理与数字证书

目录 1) 对称加密和非对称加密 Ⅰ 对称加密算法 Ⅱ 非对称加密算法 Ⅲ 对称和非对称加密比较: 2)数据加密--数字信封 3)数据验证 - 数字签名 4)数字证书 Ⅰ 数字证书格式 Ⅱ 证书的颁发 Ⅲ 证书验证: .验证…

【基础算法总结】双指针

目录 一,双指针算法介绍二,算法原理和代码实现283.移动零1089.复写零202.快乐数11.盛最多水的容器611.有效三角形的个数LRC179.和为s的两个数15.三数之和18.四数之和 三,算法总结 一,双指针算法介绍 双指针算法是基础算法之一&am…

【机器学习】朴素贝叶斯方法的概率图表示以及贝叶斯统计中的共轭先验方法

引言 朴素贝叶斯方法是一种基于贝叶斯定理的简单概率模型,它假设特征之间相互独立。 文章目录 引言一、朴素贝叶斯方法的概率图表示1.1 节点表示1.2 边表示1.3 无其他连接1.4 总结 二、朴素贝叶斯的应用场景2.1 文本分类2.2 推荐系统2.3 医疗诊断2.4 欺诈检测2.5 情…

菜鸟入门Docker

初始Docker Docker的概念 Docker的用途 DOcke的安装 Docker架构 配置Docker镜像加速器 Docker常用命令 Docker服务相关的命令。 Docker镜像相关的命令 Docker容器相关的命令 容器的数据卷 数据卷的概念和作用 配置数据卷 Docker应用部署 Docker部署mysql Docker…

RP2040 C SDK clocks时钟源配置使用

RP2040 C SDK clocks时钟源配置使用 🌿RP2040时钟源API函数文档:https://www.raspberrypi.com/documentation/pico-sdk/hardware.html#group_hardware_clocks 🍁RP2040时钟树: 系统时钟源可以来自外部时钟输入(exte…

<数据集>二维码识别数据集<目标检测>

数据集格式:VOCYOLO格式 图片数量:1601张 标注数量(xml文件个数):1601 标注数量(txt文件个数):1601 标注类别数:1 标注类别名称:[QR] 序号类别名称图片数框数1QR16016286 使用标注工具:l…

外观模式facade

学习笔记,原文链接 https://refactoringguru.cn/design-patterns/facade 为程序库、 框架或其他复杂类提供一个简单的接口 把要做的事全放在一个类里给他做了,然后要用的时候直接创建这个类的实例

springboot项目引入Sentinel熔断

本文是springboot项目nacos进行引入&#xff0c;sentiel需自行按照部署 1.springboot包要是2.2.5或以上 <dubbo.version>2.7.7</dubbo.version><spring-boot.version>2.2.5.RELEASE</spring-boot.version><chainwork-boot.version>1.0.5-SNAPSH…

.Net C#检验科LIS系统成品源码 ,LIS 系统与 HIS 系统的连接方式详解

目录 系统定义与功能 应用特点 检验科 LIS 系统与 HIS 系统的连接方式 1、接口设计与数据交换 2、网络架构 3、数据格式与标准化 4、信息共享与协同工作 5、数据安全与隐私保护 6、技术支持与维护 LIS系统成品源码 总结 系统定义与功能 LIS系统&#xff0c;全称为实验…

python tkinter 简介

ttk模块是tkinter模块中非常重要的模块&#xff0c;相当于升级版的tkinter模块。 ttk模块包含18个组件&#xff0c;其中12个组件在tkinter模块中已经存在。这12个模块分别为Button&#xff08;按钮&#xff09;​、Checkbutton&#xff08;复选框&#xff09;​、Entry&#x…

OrangePi AIpro 香橙派 昇腾 Ascend C 算子开发 与 调用 - 通过aclnn调用的方式调用AddCustom算子

OrangePi AIpro 香橙派 昇腾 Ascend C 算子开发 与 调用 通过aclnn调用的方式调用 - AddCustom算子 - 单算子API执行(aclnn) 多种算子调用方式 *开发时间使用场景调用方式运行硬件基于Kernel直调工程&#xff08;快速&#xff09;少单算子调用&#xff0c;快速验证算法逻辑IC…

MySQL复习3

视图 视图&#xff08;view&#xff09;是一种虚拟存在的表&#xff0c;是一个逻辑表&#xff0c;本省没有数据&#xff0c;内容由查询定义。 基表&#xff1a;用来创建视图的表叫做基表 通过视图&#xff0c;我们可以查看基表的部分数据。视图数据来自定义视图的查询中使用…

[Go]-抢购类业务方案

文章目录 要点&#xff1a;1. 抢购/秒杀业务的关键挑战2. 技术方案3.关键实现点4.性能优化建议5.其他考虑因素 细节拆分&#xff1a;1. **高并发处理**2.**限流与防护**3.**库存控制**4. **异步处理**5. **数据一致性**6. **常用架构设计**7. **代码示例**8. 进一步优化9. 注意…

鸿蒙(API 12 Beta6版)图形加速【OpenGL ES平台内插模式】超帧功能开发

超帧内插模式是利用相邻两个真实渲染帧进行超帧计算生成中间的预测帧&#xff0c;即利用第N-1帧和第N帧真实渲染帧预测第N-0.5帧预测帧&#xff0c;如下图所示。由于中间预测帧的像素点通常能在前后两帧中找到对应位置&#xff0c;因此内插模式的预测帧效果较外插模式更优。由于…

android studio 模拟器 loadlibrary failed with 126:找不到指定的模块

loadlibrary failed with 126:找不到指定的模块 解决方法 解决方法&#xff1a;设备管理器-> 显示适配器-> 禁用 AMD Redeon 重启AndroidStudio

【学习笔记】 陈强-机器学习-Python-Ch14 支持向量机

系列文章目录 监督学习&#xff1a;参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归&#xff08;SAheart.csv&#xff09; 【学习笔记】 陈强-机器学习-Python-…

示波器在嵌入式中的作用和使用

你是否在开发嵌入式系统时&#xff0c;遇到过调试电路和信号分析的困难&#xff1f; 在嵌入式开发中&#xff0c;硬件调试和信号分析是必不可少的环节&#xff0c;而示波器作为一种强大的工具&#xff0c;能够帮助我们深入了解信号特性并解决难题。那么&#xff0c;如何正确使用…

Aigtek功率放大器可以驱动哪些传感器设备

功率放大器是一种电子设备&#xff0c;主要用于将输入信号增强到更高的功率级别并驱动各种负载。在传感器应用中&#xff0c;功率放大器可以用来驱动多种传感器设备&#xff0c;下面将介绍几个常见的应用场景。 光学传感器&#xff1a;光学传感器是一类基于光学原理工作的传感器…