运维智能化转型:AIOps引领IT运维新浪潮

news2024/11/25 16:27:05

1. AIOps是什么?

AIOps(Artificial Intelligence for IT Operations),即人工智能在IT运维中的应用,通过机器学习技术处理运维数据(如日志、监控信息和应用数据),解决传统自动化运维无法应对的复杂问题。

早期的运维工作是手工运维或自动化运维,但是随着互联网业务的快速发展和人力成本的增加,传统的手动运维模式已不再适用。自动化运维通过预设规则的脚本执行重复性任务,降低了成本并提高了效率,但面对业务的复杂性,这种方法也显得力不从心。

智能运维(AIOps)的出现,将人工智能技术应用于运维,利用机器学习和深度学习分析历史数据,自动提炼规则,解决自动化运维难以处理的问题。AIOps不依赖于人工规则,而是通过机器学习算法从运维数据中不断学习,提炼规则。

AIOps结合了自动化运维和人工智能,需要以下三方面的知识:

  • 行业知识:了解不同行业的运维挑战;
  • 运维场景知识:熟悉监控、异常检测、故障处理等运维场景;
  • 机器学习:将实际问题转化为算法问题,并运用聚类、决策树等算法。

AIOps是自动化运维的进化,适用于互联网、电信、金融等多个行业,标志着运维领域的未来发展。

2. AIOps 目标、指导原则、应用场景

AIOps,简而言之,就是将运维规则自动化和智能化。它把人工制定运维规则的过程转变为机器的自动学习过程。具体来说,AIOps对现有的自动化运维和监控系统进行智能化改造,消除了对预设规则的依赖,旨在实现一个由AI控制的高效、低成本、高质量的无人值守运维系统,以最大化运营的综合效益。

2.1  AIOps 目标

利用大数据、机器学习和其他分析技术,通过预防预测、个性化和动态分析,直接和间接增强IT业务的相关技术能力,实现所维护产品或服务的更高质量、合理成本及高效支撑。

2.2  AIOps 指导原则

要实现AIOps,即在运维中应用AI技术,必须融合数据、策略和工程三大要素。

  • 数据:作为AI的基础,需要构建运维数据仓库或知识库,实现数据的标准化和平台化,这相当于AIOps的眼睛。
  • 策略:包括异常检测、根因分析等算法,构成了AIOps的核心,即大脑。
  • 工程:涉及数据的采集、处理和存储,以及将AI策略应用于实际业务,这是AIOps的支撑基础。

在构建AIOps时,应遵循三个原则:

  • 书同文:建立标准化的运维描述,使AI能够统一理解和学习不同来源的数据。
  • 车同轨:创建统一或通用的运维平台,避免数据和操作的不一致性,确保AI模型的可扩展性和适用性。
  • 行同伦:构建一致的运维模式,从感知到决策再到执行,使AIOps能够广泛应用于不同的程序、业务和场景,发挥其最大效能。

2.3  AIOps 应用场景

AIOps主要应用场景如下图所示:

AIOps的关键功能包括:

  • 异常检测:利用AI快速识别系统异常,提升故障诊断效率。
  • 趋势预测与容量规划:基于历史数据预测性能趋势,优化资源配置。
  • 关联告警:分析告警相关性,提供全局问题视图。
  • 告警聚合:合并相关告警,减少冗余,提高告警清晰度。
  • 故障根因分析:应用AI技术定位故障根源,加快问题解决。
  • 故障自愈:自动检测并修复系统故障,减少人工干预,缩短恢复时间。

3. AIOps 能力框架

AIOps的建设可以先由无到局部单点探索、再到单点能力完善,形成解决某个局部问题的运维AI“学件”,再由多个具有AI能力的单运维能力点组合成一个智能运维流程。AIOps 能力框架基于如下 AIOps 能力分级。如下图所示,AIOps 能力分级可具体可描述为5级:

 所谓学件,亦称AI运维组件,类似程序中的API或公共库,但API及公共库不含具体业务数据,只是某种算法,而AI运维组件则是在类似API的基础上,兼具对某个运维场景智能化解决的“记忆”能力,将处理这个场景的智能规则保存在了这个组件中,学件(Learnware)= 模型(Model)+规约(Specification)。AIOps具体的能力框架如下图所示:

4. AIOps价值

在高性能计算集群的运维中,AIOps通过监控服务器、存储、网络等关键资产,实现全面的基础设施和环境监控,并采用可视化技术管理资产和数据。在此基础上,AIOps利用人工智能和机器学习技术,自动化执行异常检测、故障诊断、自愈操作,并进行精准的趋势预测和资源规划。

AIOps的主要优势包括:

  • 自动化异常检测:减少漏报,提高告警准确性。
  • 故障根因分析与自愈:减少人工干预,缩短故障恢复时间。
  • 告警关联与聚合:简化告警信息,提供清晰的上下文,降低告警负担。
  • 智能预测与规划:合理分配资源,避免资源短缺或浪费。

与传统运维相比,AIOps提升了系统的可靠性、可用性和安全性,同时降低了运维成本和人为错误,有效减少了业务中断风险,提高了运维效率和响应速度。简而言之,AIOps通过智能化手段,优化了IT运维的多个方面,实现了成本效益的最大化。

5. AIOps业内实践

美团技术团队凭借在行业和业务领域的深厚积累,已经开发出一系列工具和产品,实现了自动化运维,并在AIOps领域取得了初步成果。美团的AIOps实践专注于提升运维智能化,特别是在故障发现和事件管理这两个关键环节。通过构建AIOps平台Horae,美团在单指标时序异常检测方面积累了丰富经验,其智能告警功能有效支持了监控系统和异常检测场景

5.1  故障发现

美团利用机器学习算法对海量时序数据进行自动分类,并适配相应的检测策略。通过自动异常注入和特征工程,Horae平台能够实现对周期型指标的精准异常检测,减少人工参与的成本并提高告警准确率。

在故障管理体系中,从故障开始到结束主要有四大核心能力,即故障发现、告警触达、故障定位、故障恢复。具体关系如下图所示:

 

其中故障发现作为故障管理中最开始的一环,在当前海量指标场景下,自动发现故障和自动异常检测的需求甚为迫切,能极大地简化研发策略配置成本,提高告警的准确率,减少告警风暴和误告,从而提高研发的效率。整个AIOps体系的探索和演进路线如下图所示。

以异常发现为例,故障发现需要快速、准确。为避免误报,服务运维团队开发了一种基于历史上邻近的点分布相似(时序特征相似)思想的智能异常检测算法。如果当前待检测点相较其他历史参考点相对异常(存在点异常或者模式异常),检测流程会将异常点识别出来,并告知用户待测指标出现异常现象。

 

在进行实时检测流程中,待检测点会先进入预检测流程。预检测组件会拦截绝大多数正常点,而当预检测异常时,才会执行特征提取阶段,进入模型异常分类;同时分类结果通过反馈机制可以增加到样本集,提高模型泛化能力和精召率。整个算法流程训练、检测、反馈闭环。

该项能力为美团监控系统提供无阈值的时序检测能力。目前检测流程中的分类器在真实线上样本的精确率和召回率均在98%以上。团队会每周定时抽样核心指标并对检测结果进行复盘,核心指标的异常检出准确率在90%左右。

5.2  事件管理

美团的AIOps实践覆盖了事前预防、事中处理和事后运营三个阶段。在事前预防中,美团通过变更风险智能检测来预防潜在的变更风险。在事中处理阶段,美团实现了快速的异常发现、根因诊断和相似事件推荐,以降低服务异常的影响并提升服务可用性。事后运营则侧重于故障复盘,通过主题分析等NLP技术,帮助用户发现更多相似的故障,挖掘共性问题。

事件管理的复杂性体现在两个方面:

  1. 数据繁多:

数据多样化:需要整合告警、链路、指标、日志等多种数据类型,以全面识别、诊断和解决问题。

实时性和复杂性:运维数据需实时采集与处理,且数据间关系错综复杂,要求精细的统一处理。

领域知识要求高:运维涉及网络、硬件、系统等多个层面的知识,对运维人员和工具提出了高要求。

       2. 流程复杂:

事件管理的时间线如下,每个环节都提效才能达成事件管理的效率提升。

 

面对上述挑战,美团运维团队在过去几年建设了丰富的工具体系,基于专家经验、规则配置、流程管控等方式进行事件管理。具体工作可拆解为四个模块:

  • 风险预防——变更风险智能检测:以用户和实体为对象,结合规则以及机器学习模型,对用户行为进行分析和异常检测。
  • 故障发现——智能识别指标异常:基于统计算法和机器学习算法识别指标的异常模式,帮助用户快速发现故障。
  • 事件处理——诊断和预案推荐:通过多模态数据和算法规则引擎来帮助用户快速定位故障,推荐止损预案。
  • 事件运营——相似故障推荐:基于NLP技术推荐相似故障复盘,挖掘共性问题。

美团的AIOps实践展示了智能化技术在提升运维效率和准确性方面的潜力。通过这些实践,美团不仅提高了服务的可用性和稳定性,还为整个行业提供了宝贵的经验和启示,推动了AIOps的发展和创新。更多内容请参考AIOps在美团的探索与实践——事件管理篇

6. 参考资料

[1] 周志华. 机器学习: 发展与未来[R]. 报告地: 深圳, 2016.

[2] 裴丹, 张圣林, 裴昶华. 基于机器学习的智能运维[J]. 中国计算机学会通讯, 2017, 13(12): 68–73.

[3] 赵建春, 张戎, 周荣, 等. 《企业级AIOps实施建议》白皮书[M]. 高效运维社区、AIOps 标准工作组, 2018: 8–44.

[4] Bogatinovski J, Nedelkoski S, Acker A, et al. Artificial intelligence for it operations (aiops) workshop white paper[J]. arXiv preprint arXiv:2101.06054, 2021.

[5] Bhanage D A, Pawar A V, Kotecha K. It infrastructure anomaly detection and failure handling: A systematic literature review focusing on datasets, log preprocessing, machine & deep learning approaches and automated tool[J]. IEEE Access, 2021, 9: 156392-156421.

[6] Dang Y, Lin Q, Huang P. Aiops: real-world challenges and research innovations[C]. 2019 IEEE/ACM 41st International Conference on Software Engineering: Companion Proceedings (ICSE-Companion). IEEE, 2019: 4-5.

[7] 智能运维入门介绍[EB/OL].https://mp.weixin.qq.com/s/P4_IERYgVBfpk4Z344U7GA, 2022-10-15.

[8] AIOps在美团的探索与实践——故障发现篇[EB/OL]. https://tech.meituan.com/2020/10/15/mt-aiops-horae.html, 2020-10-15.

[9] AIOps在美团的探索与实践——事件管理篇[EB/OL]. https://tech.meituan.com/2023/12/22/aiops-based-incident-management.html, 2023-12-22.

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2237839.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SkyNet嵌入式系统目标检测实践测试分析

目标检测和跟踪对于资源受限的嵌入式系统来说是具有挑战性的任务。尽管这些任务是人工智能领域中计算量最大的任务之一,但它们在嵌入式设备上只能使用有限的计算和内存资源。与此同时,这种资源受限的实现通常需要满足额外的苛刻要求,如实时响…

「OC」SDWebimage的学习

「OC」SDWebimage的学习 前言 在知乎日报这个项目之中,我在很多情况下都会进行图片资源的网络申请。通过上网搜索我了解到了SDWebimage这个功能丰富的第三方库,进行了较为浅层的学习。因为SDWebimage这个库之中的相关内容还是较为多且复杂的&#xff0…

SIwave:释放 SIwizard 求解器的强大功能

SIwave 是一种电源完整性和信号完整性工具。SIwizard 是 SIwave 中 SI 分析的主要工具,也是本博客的主题。 SIwizard 用于研究 RF、clock 和 control traces 的信号完整性。该工具允许用户进行瞬态分析、眼图分析和 BER 计算。用户可以将 IBIS 和 IBIS-AMI 模型添加…

Kafka 可观测性最佳实践

Kafka 概述 Kafka 是由 LinkedIn 开发一个分布式的基于发布订阅模式的消息队列,是一个实时数据处理系统,可以横向扩展。与 RabbitMQ、RockerMQ 等中间件一样拥有几大特点: 异步处理服务解耦流量削峰 监控 Kafka 是非常重要的,因…

342--358作业整理(错误 + 重点)

目录 1. 在需要运行的类中 定义 main 方法 2. this 。访问逻辑:先访问本类中,再访问父类中可以访问的成员(不包括和本类中重名的成员) 3. super 。访问逻辑:super(父类对象)直接访问父类及以…

Android自启动管控

1. 自启动管控需求来源 自启动、关联启动、交叉启动、推送启动等现象的泛滥除了对个人信息保护带来隐患外,还会导致占用过多的系统CPU和内存资源,造成系统卡顿、发热、电池消耗过快;还可能引入一些包含“恶意代码”的进程在后台隐蔽启动&…

智能的编织:C++中auto的编织艺术

在C的世界里,auto这个关键字就像是一个聪明的助手,它能够自动帮你识别变量的类型,让你的代码更加简洁和清晰。下面,我们就来聊聊auto这个关键字的前世今生,以及它在C11标准中的新用法。 auto的前世 在C11之前&#x…

函数式编程Stream流(通俗易懂!!!)

重点:只关注传入的参数列表和方法体(数据操作) 1.Lambda表达式 本质是匿名内部类的优化,先写匿名内部类 1.1 基本用法 public class lambdaTest {public static void main(String[] args) { // int i calculateNum((…

C#里对数组的排序操作

一般情况下是采用 Array.Sort(a) 来进行排序。 例子代码如下: /** C# Program to Sort a String using Predefined Function*/ using System; class linSearch {public static void Main(){Console.WriteLine("Enter Number of Elements you Want to Hold in the Arra…

算法每日双题精讲——双指针(移动零,复写零)

🌟快来参与讨论💬,点赞👍、收藏⭐、分享📤,共创活力社区。 🌟 别再犹豫了!快来订阅我们的算法每日双题精讲专栏,一起踏上算法学习的精彩之旅吧!💪…

【Android】View—基础知识,滑动,弹性滑动

基础知识 什么是View 在 Android 中,View 是用户界面(UI)中的基本组件,用于绘制图形和处理用户交互。所有的 UI 组件(如按钮、文本框、图片等)都是 View 的子类。可以说,View 是构建 Android …

【Unity】Game Framework框架学习使用

前言 之前用过一段时间的Game Framework框架,后来有那么一段时间都做定制小软件,框架就没再怎么使用了。 现在要做大型项目了,感觉还是用框架好一些。于是又把Game Framework拾起来了。 这篇文章主要是讲Game Framework这个框架是怎么用的…

【SoC设计指南 基于Arm Cortex-M】学习笔记1——AMBA

AMBA简介 先进微控制器总线架构(Advanced Microcontroller Bus Architecture,AMBA)是用在arm处理器上的片上总线协议规范集。 AMBA总线协议规范集包含AHB、APB、AXI等。 AHB:先进高性能总线(Advanced High-performance Bus) APB&…

pytorch模型转onnx的动态batch转换说明

将PyTorch模型(.pth)转换为ONNX格式时,通常需要指定一个batch size。这是因为ONNX模型需要一个固定的输入形状,而批处理大小是输入形状的一部分。 下面是一个简单的转换示例,假设你已经加载了一个PyTorch模型&#xff…

【王木头】最大似然估计、最大后验估计

目录 一、最大似然估计(MLE) 二、最大后验估计(MAP) 三、MLE 和 MAP 的本质区别 四、当先验是均匀分布时,MLE 和 MAP 等价 五、总结 本文理论参考王木头的视频: 贝叶斯解释“L1和L2正则化”&#xff…

从0到1基于LangChain制作一个AI猫娘

前言: 看到B站上的AIVtuber的项目落地了,就心血来潮想制作一个AI的猫娘供自己使用,顺便出一个简单的教程,跳过理论,直接实践,作者也还在学习摸索中,所以有错误可以直接在评论区指正。&#xff0…

Vue全栈开发旅游网项目(7)-搜索界面开发及其接口联调

1.搜索界面开发 1.1 模糊查询 文件地址:pycharm- class SightListView(ListView):paginate_by 5def get_queryset(self):#is_validTrue:表中is_valid列,有值则被查询出来query Q(is_validTrue)#1.获得热门景点is_hot self.request.GET.…

python识别ocr 图片和pdf文件

#识别图片 pip3 install paddleocr pip3 install paddlepaddle#识别pdf pip3 install PyMuPDF 重点:路径不能有中文,不然pdf文件访问不了 from paddleocr import PaddleOCR from rest_framework.response import Response from rest_framework.views im…

量化分析工具日常操作日记-5-通合科技

使用量化分析微信小程序工具“梦想兔企业智能风险分析助手”日常操作日记-5-军工-通合科技(300491)。 周末国家新政策,要大力支持军工行业,我用工具挖掘了两个低位股,供大家参考。通合科技(300491&#xff…