1. AIOps是什么?
AIOps(Artificial Intelligence for IT Operations),即人工智能在IT运维中的应用,通过机器学习技术处理运维数据(如日志、监控信息和应用数据),解决传统自动化运维无法应对的复杂问题。
早期的运维工作是手工运维或自动化运维,但是随着互联网业务的快速发展和人力成本的增加,传统的手动运维模式已不再适用。自动化运维通过预设规则的脚本执行重复性任务,降低了成本并提高了效率,但面对业务的复杂性,这种方法也显得力不从心。
智能运维(AIOps)的出现,将人工智能技术应用于运维,利用机器学习和深度学习分析历史数据,自动提炼规则,解决自动化运维难以处理的问题。AIOps不依赖于人工规则,而是通过机器学习算法从运维数据中不断学习,提炼规则。
AIOps结合了自动化运维和人工智能,需要以下三方面的知识:
- 行业知识:了解不同行业的运维挑战;
- 运维场景知识:熟悉监控、异常检测、故障处理等运维场景;
- 机器学习:将实际问题转化为算法问题,并运用聚类、决策树等算法。
AIOps是自动化运维的进化,适用于互联网、电信、金融等多个行业,标志着运维领域的未来发展。
2. AIOps 目标、指导原则、应用场景
AIOps,简而言之,就是将运维规则自动化和智能化。它把人工制定运维规则的过程转变为机器的自动学习过程。具体来说,AIOps对现有的自动化运维和监控系统进行智能化改造,消除了对预设规则的依赖,旨在实现一个由AI控制的高效、低成本、高质量的无人值守运维系统,以最大化运营的综合效益。
2.1 AIOps 目标
利用大数据、机器学习和其他分析技术,通过预防预测、个性化和动态分析,直接和间接增强IT业务的相关技术能力,实现所维护产品或服务的更高质量、合理成本及高效支撑。
2.2 AIOps 指导原则
要实现AIOps,即在运维中应用AI技术,必须融合数据、策略和工程三大要素。
- 数据:作为AI的基础,需要构建运维数据仓库或知识库,实现数据的标准化和平台化,这相当于AIOps的眼睛。
- 策略:包括异常检测、根因分析等算法,构成了AIOps的核心,即大脑。
- 工程:涉及数据的采集、处理和存储,以及将AI策略应用于实际业务,这是AIOps的支撑基础。
在构建AIOps时,应遵循三个原则:
- 书同文:建立标准化的运维描述,使AI能够统一理解和学习不同来源的数据。
- 车同轨:创建统一或通用的运维平台,避免数据和操作的不一致性,确保AI模型的可扩展性和适用性。
- 行同伦:构建一致的运维模式,从感知到决策再到执行,使AIOps能够广泛应用于不同的程序、业务和场景,发挥其最大效能。
2.3 AIOps 应用场景
AIOps主要应用场景如下图所示:
AIOps的关键功能包括:
- 异常检测:利用AI快速识别系统异常,提升故障诊断效率。
- 趋势预测与容量规划:基于历史数据预测性能趋势,优化资源配置。
- 关联告警:分析告警相关性,提供全局问题视图。
- 告警聚合:合并相关告警,减少冗余,提高告警清晰度。
- 故障根因分析:应用AI技术定位故障根源,加快问题解决。
- 故障自愈:自动检测并修复系统故障,减少人工干预,缩短恢复时间。
3. AIOps 能力框架
AIOps的建设可以先由无到局部单点探索、再到单点能力完善,形成解决某个局部问题的运维AI“学件”,再由多个具有AI能力的单运维能力点组合成一个智能运维流程。AIOps 能力框架基于如下 AIOps 能力分级。如下图所示,AIOps 能力分级可具体可描述为5级:
所谓学件,亦称AI运维组件,类似程序中的API或公共库,但API及公共库不含具体业务数据,只是某种算法,而AI运维组件则是在类似API的基础上,兼具对某个运维场景智能化解决的“记忆”能力,将处理这个场景的智能规则保存在了这个组件中,学件(Learnware)= 模型(Model)+规约(Specification)。AIOps具体的能力框架如下图所示:
4. AIOps价值
在高性能计算集群的运维中,AIOps通过监控服务器、存储、网络等关键资产,实现全面的基础设施和环境监控,并采用可视化技术管理资产和数据。在此基础上,AIOps利用人工智能和机器学习技术,自动化执行异常检测、故障诊断、自愈操作,并进行精准的趋势预测和资源规划。
AIOps的主要优势包括:
- 自动化异常检测:减少漏报,提高告警准确性。
- 故障根因分析与自愈:减少人工干预,缩短故障恢复时间。
- 告警关联与聚合:简化告警信息,提供清晰的上下文,降低告警负担。
- 智能预测与规划:合理分配资源,避免资源短缺或浪费。
与传统运维相比,AIOps提升了系统的可靠性、可用性和安全性,同时降低了运维成本和人为错误,有效减少了业务中断风险,提高了运维效率和响应速度。简而言之,AIOps通过智能化手段,优化了IT运维的多个方面,实现了成本效益的最大化。
5. AIOps业内实践
美团技术团队凭借在行业和业务领域的深厚积累,已经开发出一系列工具和产品,实现了自动化运维,并在AIOps领域取得了初步成果。美团的AIOps实践专注于提升运维智能化,特别是在故障发现和事件管理这两个关键环节。通过构建AIOps平台Horae,美团在单指标时序异常检测方面积累了丰富经验,其智能告警功能有效支持了监控系统和异常检测场景
5.1 故障发现
美团利用机器学习算法对海量时序数据进行自动分类,并适配相应的检测策略。通过自动异常注入和特征工程,Horae平台能够实现对周期型指标的精准异常检测,减少人工参与的成本并提高告警准确率。
在故障管理体系中,从故障开始到结束主要有四大核心能力,即故障发现、告警触达、故障定位、故障恢复。具体关系如下图所示:
其中故障发现作为故障管理中最开始的一环,在当前海量指标场景下,自动发现故障和自动异常检测的需求甚为迫切,能极大地简化研发策略配置成本,提高告警的准确率,减少告警风暴和误告,从而提高研发的效率。整个AIOps体系的探索和演进路线如下图所示。
以异常发现为例,故障发现需要快速、准确。为避免误报,服务运维团队开发了一种基于历史上邻近的点分布相似(时序特征相似)思想的智能异常检测算法。如果当前待检测点相较其他历史参考点相对异常(存在点异常或者模式异常),检测流程会将异常点识别出来,并告知用户待测指标出现异常现象。
在进行实时检测流程中,待检测点会先进入预检测流程。预检测组件会拦截绝大多数正常点,而当预检测异常时,才会执行特征提取阶段,进入模型异常分类;同时分类结果通过反馈机制可以增加到样本集,提高模型泛化能力和精召率。整个算法流程训练、检测、反馈闭环。
该项能力为美团监控系统提供无阈值的时序检测能力。目前检测流程中的分类器在真实线上样本的精确率和召回率均在98%以上。团队会每周定时抽样核心指标并对检测结果进行复盘,核心指标的异常检出准确率在90%左右。
5.2 事件管理
美团的AIOps实践覆盖了事前预防、事中处理和事后运营三个阶段。在事前预防中,美团通过变更风险智能检测来预防潜在的变更风险。在事中处理阶段,美团实现了快速的异常发现、根因诊断和相似事件推荐,以降低服务异常的影响并提升服务可用性。事后运营则侧重于故障复盘,通过主题分析等NLP技术,帮助用户发现更多相似的故障,挖掘共性问题。
事件管理的复杂性体现在两个方面:
- 数据繁多:
数据多样化:需要整合告警、链路、指标、日志等多种数据类型,以全面识别、诊断和解决问题。
实时性和复杂性:运维数据需实时采集与处理,且数据间关系错综复杂,要求精细的统一处理。
领域知识要求高:运维涉及网络、硬件、系统等多个层面的知识,对运维人员和工具提出了高要求。
2. 流程复杂:
事件管理的时间线如下,每个环节都提效才能达成事件管理的效率提升。
面对上述挑战,美团运维团队在过去几年建设了丰富的工具体系,基于专家经验、规则配置、流程管控等方式进行事件管理。具体工作可拆解为四个模块:
- 风险预防——变更风险智能检测:以用户和实体为对象,结合规则以及机器学习模型,对用户行为进行分析和异常检测。
- 故障发现——智能识别指标异常:基于统计算法和机器学习算法识别指标的异常模式,帮助用户快速发现故障。
- 事件处理——诊断和预案推荐:通过多模态数据和算法规则引擎来帮助用户快速定位故障,推荐止损预案。
- 事件运营——相似故障推荐:基于NLP技术推荐相似故障复盘,挖掘共性问题。
美团的AIOps实践展示了智能化技术在提升运维效率和准确性方面的潜力。通过这些实践,美团不仅提高了服务的可用性和稳定性,还为整个行业提供了宝贵的经验和启示,推动了AIOps的发展和创新。更多内容请参考AIOps在美团的探索与实践——事件管理篇
6. 参考资料
[1] 周志华. 机器学习: 发展与未来[R]. 报告地: 深圳, 2016.
[2] 裴丹, 张圣林, 裴昶华. 基于机器学习的智能运维[J]. 中国计算机学会通讯, 2017, 13(12): 68–73.
[3] 赵建春, 张戎, 周荣, 等. 《企业级AIOps实施建议》白皮书[M]. 高效运维社区、AIOps 标准工作组, 2018: 8–44.
[4] Bogatinovski J, Nedelkoski S, Acker A, et al. Artificial intelligence for it operations (aiops) workshop white paper[J]. arXiv preprint arXiv:2101.06054, 2021.
[5] Bhanage D A, Pawar A V, Kotecha K. It infrastructure anomaly detection and failure handling: A systematic literature review focusing on datasets, log preprocessing, machine & deep learning approaches and automated tool[J]. IEEE Access, 2021, 9: 156392-156421.
[6] Dang Y, Lin Q, Huang P. Aiops: real-world challenges and research innovations[C]. 2019 IEEE/ACM 41st International Conference on Software Engineering: Companion Proceedings (ICSE-Companion). IEEE, 2019: 4-5.
[7] 智能运维入门介绍[EB/OL].https://mp.weixin.qq.com/s/P4_IERYgVBfpk4Z344U7GA, 2022-10-15.
[8] AIOps在美团的探索与实践——故障发现篇[EB/OL]. https://tech.meituan.com/2020/10/15/mt-aiops-horae.html, 2020-10-15.
[9] AIOps在美团的探索与实践——事件管理篇[EB/OL]. https://tech.meituan.com/2023/12/22/aiops-based-incident-management.html, 2023-12-22.