科技云报道:畅想无人化运维的AIOps,还有多远的路要走?

news2025/1/21 18:52:21

科技云报道原创。

在IT行业,运维人常常自我调侃“赚着5k的月薪,操着5千万的心,名下挂着5亿的资产”。

image.png

机房的暖通、网络、综合布线,系统的监控告警、故障响应等一大堆繁杂琐碎的工作,充斥着运维人的日常。

与开发和产品相比,运维更像是一个后勤角色,这一行业也长期处于公众视野的暗处。

随着云计算、大数据、人工智能等技术的兴起,运维行业也迎来了新的技术变革。

2016年,Gartner提出智能运维AIOps的概念,旨在使用大数据、机器学习等方法来提升运维能力,其目的是进一步降低自动化运维中人为干扰,最终实现运维无人化、自动化。Gartner预测,到2020年,AIOps的采用率将会达到50%。

六年过去了,AIOps技术发展得如何?

AIOps的实现思路

一种新的工作模式出现,必然会对原来稳定的工作模式进行改变,改变通常会受到新挑战,所以新工作模式需要能解决当前运维工作中遇到的难题而出现。

以金融行业的业务连续性管理为例,目标是提高公司的风险防范能力、有效地减少非计划的业务中断、防范运维操作风险,对于首次出现的未知异常能够利用工具量化分析并快速定位,确保在重大灾难性事件发生后能按计划恢复业务连续性。

在面对当前复杂的技术架构、不断引入的创新技术之下,传统运维团队原来被动救火式、问题驱动式的经验运维,已经很难实现业务连续性的保障目标。

金融企业运行安全稳定,需要运维数据赋予数据洞察、辅助决策、跟踪执行的能力,提升复杂环境下的运维管理能力。

例如:实时获得“发生了什么”?关联分析“为什么会发生”?智能预测“将会发生什么”?决策判断“采取什么措施”?自动执行“如何快速执行”?实时感知“工作执行的效果”?

AIOps就是为了解决上述问题而生,其价值在于通过机器学习来进行运维数据的挖掘,帮助人甚至代替人进行更有效和快速的决策,从而提升业务系统的SLA,减小故障处理的时间等,带来业务的价值,并最终实现真正意义上的无人值守运维。

如Gartner定义中提出,AIOps应用需要利用大数据,现代机器学习技术和其他高级分析技术,是一种相对较高门槛的工作模式。

为了更好地落地AIOps,运维组织需要深刻地理解AIOps的内涵,重点实现思路分为以下几个方面:

以数据为基础
数据为先,AIOps需要快速生产高质量数据的能力。

“快速”的思路可以以“中台”思路进行建设,建立统一的数据采控、实时与批量的数据处理能力、与运维相匹配的运维算法、存储方案、主数据、指标模型等;

“高质量”则从将分散数据统一、在线后形成“活数据”,以及数据质量上的治理。

从技术实现看,具备实时“采、存、算、管、用”的数据流动全生命周期管理的能力。

其中,数据采集是按需在线采集数据的能力;

数据存储是根据数据类型、数据应用特点对数据进行归档、整理、传输、共享;

数据计算包括数据标注、清洗、建模、加工、标准化、质量监控,以及为了获得数据洞察、决策、执行而对数据进行分析统计;

数据管理重点围绕数据治理,包括运维数据标准、主数据、元数据、数据质量、数据安全的管理;

数据使用重点围绕数据服务角度涉及的数据目录、服务门户,以及配套的数据服务化能力。

以算法为支撑
算法大脑,适配、引入特定场景下运维算法,构建算法模型体系。机器学习尤其是深度学习的大规模应用,推动了人工智能的快速发展。

随着国内TO B市场的火爆,AIOps上人工智能研究及应用正处于爆发期,引入AI技术的算法有三点优势:

一是工作稳定性高,人工智能可不知疲倦地进行工作,在规律性问题的分析时不受环境影响。

二是降低操作风险,利用人工智能取代传统人工经验操作,可更好地避免操作风险和道德风险。

三是有效提高决策效率,人工智能可以快速地对大数据进行筛选和分析,帮助人们更高效率地决策。

以场景为导向
场景驱动,以痛点、价值期望切入点,用智能赋能运维场景,落地智能运维能力。

AIOps从词来看,应该包括“AI+Ops”,是用AI赋能运维场景的模式。

有了上面提到的数据底座与算法大脑,下一步是AIOps运维模式的落地,主要将围绕场景的落地:一种是利用算法赋能已有的运维场景,另一种是算法实现原来无法实现的运维场景。

前者是一个快速见效的模式,后者是应对变化而做出的变化。

以知识为扩展
运维知识描述了大量运维领域的相关对象定义、技巧,以及排故/解决经验的信息。

通过构建运维知识图谱,利用自然语义等算法技术,从海量数据中自动挖掘各类运维主体,对其特性进行画像和结构化描述,动态记录运维主体之间的关联关系,可以帮助IT人员实现故障链传播分析、根因定位、智能的变更影响分析、故障预测等多种AIOps场景。

值得注意的是,软件的一些“算法逻辑”不代表真正的AIOps,判断是否是真正AIOps的关键点在于:是否能自动从数据学习中总结规律,并利用规律对当前的环境给予决策建议。

** 国内AIOps处于起步阶段**

AIOps的概念非常美好,应用空间也相当广阔。除了互联网,在金融、物联网、医疗、通信、工业等领域,均表现出对智能运维的强烈需求。

数据显示,2020年中国IT智能运维市场规模为560.8亿元,年复合增速为20.1%,预计未来以15.9%复合增速扩张,2025年市场规模达1093.5亿元,表现出较大的市场潜力。

目前,我国政府部门也陆续出台《推动企业上云实施指南(2018-2020年)》《国家新一代人工智能标准体系建设指南》等一系列政策,推动智能运维领域的发展。

但必须承认的是,我国智能运维还处在起步阶段。

尽管国内运维行业在2016年前后迎来了一波融资热,但目前运维行业整体还比较落后。

一方面,技术有限,在线系统本身具有规模性和复杂性,是需要长期投入的研究领域;另一方面,智能运维需要高质量的标注数据,但运维数据积累明显不足,至少还需积累3-5年。

事实上,产品不落地、善于融资、估值虚高,是一些智能运维公司给业内人留下的印象。

目前国内大部分公司在技术层面的原创力都还不够强,很多都是利用国外的开源代码,有的公司甚至将几个开源产品拼凑在一起,内部之间仍是相互独立、割裂的,没有彼此打通,以至于最后的方案也不怎么好用,需要大量的人力运维支持。

因此,尽管随着技术的发展,运维行业已初步进入自动化、智能化初级阶段,但现阶段运维仍旧是一个“费人”的行业。

为了规范国内智能运维领域的发展,中国信息通信研究院发布了《智能化运维AIOps能力成熟度模型》系列标准。

在此内容基础上,由中国信通院牵头的国内外首个智能运维(AIOps)国际标准在国际电信联盟第十三研究组ITU-T SG13也已成功立项。

在《智能化运维AIOps能力成熟度模型》中,面向智能运维整体能力建设,规定了对IT系统或平台进行智能化运维的参考框架及分级评估方法,提出了关于企业建设智能化运维能力的实施路径,能够指导国内互联网和传统行业在智能运维方向的相关实践落地。

结语

“建立一个可供数百万人每天使用,但只需一名兼职人员管理和维护的系统。”这是吉姆·格雷(Jim Gray)在1999年获得图灵奖时对无故障服务器系统的畅想。如今,随着AIOps的开发,我们比以往任何时候都更接近这一愿景,并有望超越这一愿景。

尽管AIOps仍处于起步阶段,但智能化给运维领域带来效率上的质变已肉眼可见。

这个领域的持续创新将为更多企业带来新的业务价值。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/90115.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

自定义Feign的配置

SpringBoot虽然帮我们实现了自动装配,但是也是支持自定义配置的。 Feign运行自定义配置来覆盖默认配置,可以修改的默认配置如下: 配置Feign日志有两种方式 方式一:配置文件方式 1)全局生效 feign:client:config:defa…

【愚公系列】2022年12月 Elasticsearch数据库-ELK添加SQL插件和浏览器插件(二)

文章目录前言一、ELK添加SQL插件和浏览器插件1.配置插件2.浏览器插件3.Elasticsearch术语介绍4.测试SQL插件和浏览器插件前言 下载SQL插件地址:https://github.com/NLPchina/elasticsearch-sql 我们选择7.15.2版本,ES页选择7.15.2版本把最后面的下载链…

车间调度|基于遗传算法的柔性车间调度(Matlab代码实现)

目录 1 概述 2 遗传优化算法 3 车间调度 4 运行结果 5 参考文献 6 Matlab代码实现 1 概述 调度通过合理安排生产资源,以缩短生产时间和提高资源利用率为目的,在生产系统中扮演着重要的角色。作业车间调度问题(Job-shop Schedu-ling Problem,JSP)是一类经典…

1996-2020年全国31省农村电力和农田水利建设相关数据

1996-2020年全国31省农村电力和农田水利建设相关数据 1、1996-2020年 2、范围:31省 3、指标包括: 乡村办水电站、装机容量、发电量、农村用电量、有效灌溉面积、旱涝保收面积、机电排灌面积、实际耕地灌溉面积、新增耕地灌溉面积、节水灌溉面积、新增…

2023年第六届先进控制,自动化与机器人国际会议(ICACAR 2023)

2023年第五届先进控制,自动化与机器人国际会议(ICACAR 2023) 重要信息 会议网址:www.icacar.org 会议时间:2023年4月14-16日 召开地点:中国北京 截稿时间:2023年2月28日 录用通知&#xf…

排序子序列

1 题目来源: 牛客网:排序子序列 2 题目描述  牛牛定义排序子序列为一个数组中一段连续的子序列,并且这段子序列是非递增或者非递减排序。牛牛有一个长度为n的整数数组A,他现在有一个任务是把数组A分为若干段排序子序列,牛牛想知道他最少可以把这个数组分…

Ashampoo Burning Studio创建可启动磁盘

Ashampoo Burning Studio创建可启动磁盘 Ashampoo的产品通常适合质量,但在其中,它是世界上最好的软件之一,名为Ashampoo Burning Studio。与著名的Nero程序相比,该软件几乎一无是处,所有用于制作、写入和复制光盘的软件…

Python Tutorial——模块

如果你从Python解释器中退出,并且再次进入,你会发现你以前定义的函数和变量都已经丢失了。所以,如果你想写一个在某种程度上更长的程序,使用一个文本编辑器来准备解释器的输入会使情况有所好转,并且使用文件代替输入来…

最简单的方式实现Zotero文件同步+坚果云在多台电脑设备之间

应用场景: 放假回家,只带了笔记本搞科研的好童靴,发现实验室台式机的zotero中的PDF没办法在笔记本上读取。于是探索了一下午如何不重新在网页上保存下载台式机中的PDF,轻松获取异地的文献。 方式一: 氪金付费zotero…

参数估计与假设检验

推断统计:研究如何利用样本数据来推断总体特征 描述统计:描述一组数据的特征 参数估计:利用样本信息估计总体特征 假设检验:利用样本信息判断对总体的假设是否成立 一.参数估计 就是对于总体指标的估计 估计:根据…

免费l2接口有多少种类型?

免费l2接口是一个预先定义的函数,它的目的是让开发人员和开发人员无需访问源代码,也无需访问源代码,也无需理解其内部工作。免费l2接口有多少种类型? 有四种类型的股票l2接口: RPC:通过处理(或任务)共享的数据缓冲区…

SpringBoot整合RabbitMQ实现死信队列

文章目录概念介绍什么是死信死信队列应用工程搭建环境说明搭建步骤实现死信准备Exchange&Queue监听死信队列方式一——消费者拒绝&否认方式二——超过消息TTL方式三——超过队列长度限制代码仓库前面一文通过 Java整合RabbitMQ实现生产消费(7种通讯方式&…

Spark的运行模式介绍

Spark的运行模式 本地模式(Local) 一般用做测试,测试代码的逻辑是否正确 本地模式,只启动一个Driver进程,没有Executor进程的,所有Task都运行在Driver进程中 集群模式 (Cluster) 一…

医疗挂号网站

开发工具(eclipse/idea/vscode等): 数据库(sqlite/mysql/sqlserver等): 功能模块(请用文字描述,至少200字): 管理员功能: 1、管理挂号须知、帮助信息 2、增删改查资讯类型、健康资讯信息 3、增删改查医生职称信息、医生…

装载问题 ——回溯法(Java)

装载问题 ——回溯法(Java) 文章目录装载问题 ——回溯法(Java)1、 问题描述1.1 装载问题1.2 转换问题2、算法设计2.1 可行性约束函数2.2 上界函数2.3 解空间树2.4 剪枝函数2.5 算法设计3、程序代码4、参考资料1、 问题描述 有一…

Hadoop安装准备

虚拟机的安装 配置了静态IP地址(192.168.1.100) 关闭与禁用了防火墙 安装了vim编辑器 虚拟机克隆 克隆出master虚拟机 以同样的步骤克隆出slave1和slave2 虚拟机配置 配置master虚拟机 启动虚拟机 设置主机名 命令:hostname…

C#语言和面向对象OOP

1、【重点面试题】面向对象的三大特性 封装 :隐藏对象的属性,并实现细节(方法),对外提供接口, public全局,protected子类,internal同集,隐藏private 同类,pub…

英文文章写作|文献管理|​​​​​​​阅读文献|引用文献|国内文章

目录 英文文章写作 1.阅读10篇文献,总结100个常用句型和常用短语 2.找3-5篇技术路线和统计方法与你的课题接近的文章,精读 3.针对论文的每一部分,尤其是某种具体方法、要讨论的某一具体方面,各找5-8 篇文献阅读,充…

使用HTMLTestRunner.py生成测试报告

1、如何收集测试结果? 使用第三方封装好类HTMLTestRunner.py生成HTML测试报告 # encoding:utf-8 import unittest import time from HTMLTestRunner import HTMLTestRunner class MyTestCase(unittest.TestCase): # 每条用例初始化 def setUp(s…

大数据技术之Spark基础解析

大数据技术之Spark基础解析 第1章 Spark概述 1.1什么是Spark 什么是Spark? 大数据的电花火石。 Spark类似于MapReduce的低延迟的交互式计算框架。 Spark是UC Berkeley AMPLab开发的是一种计算框架,分布式资源工作交由集群管理软件(Mesos、YARN&am…