概念:
智能运维(AIOps)是基于已有的运维数据(日志、监控信息 、应用信息)并通过机器学习的方法来进一步解决自动化运维没办法解决的问题,其核心是机器学习和大数据平台。
目标:
事前预警:提升事前风险预警能力,能够智能对风险点进行探查,智能设定故障阈值条件
事中管控:强化事中管控风险定位能力,实现快速的风险识别、故障定位即影响范围判定等
事后分析:优化事后分析总结能力,能够通过历史回溯智能分析报表、分析风险发生趋势
架构:
链接:https://zhuanlan.zhihu.com/p/464851418
算法:
一、智能运维相关算法总结
智能运维应用场景包括:1、异常检测,2、根因诊断,3、故障自愈,4、事件预警,5、效能优化
1、异常检测:检测异常孤立点、异常周期、异常集合等
- 基于概率模型的检测算法:如(1)正态分布、(2)指数分布等。
- 基于近邻度的检测算法:
- 基于距离的异常检测算法(如KNN等);
- 基于密度的异常检测算法(如局部离群因子法(Local Outlier Factor, LOF)、影响离群值法(influence outlierness, INFLO)、局部异常概率法(local outlier pobabilities, LoOP)等)。
- 基于分类的检测算法:
- 基于聚类的无监督检测算法(如基于密度的噪声应用空间聚类算法(Density-Based Spatial Clustering of Applications with Noise, DBSCAN)、K-means算法、CBLOF算法、LDCOF算法等);
- 基于支持向量机的方法(SVM中常用核函数主要分为多项式核函数、径向基函数(Radial Basis Function, RBF)和Sigmoid函数);
- 基于贝叶斯网络(Bayesian Network, BN)的方法;
- 基于神经网络的方法(有监督(多层感知器神经网络、径向基函数神经网络、反向传播神经网络和自适应线性神经网络等)、无监督(自组织特征映射神经网络、自适应共振神经网络等))。
2、根因诊断:定界定段、调用链追踪分析、瓶颈分析
- 基于数据驱动的算法:卷积神经网络CNN、凸优化法、贝叶斯网络法、玻尔兹曼机法等。
- 基于领域知识的根因诊断:、基于故障传播图(Anomaly Propagation Graph,APG)的根因诊断方法。
3、故障自愈:保证异常检测和根因分析的结果准确前提下,依据专家规则或AI算法实现自我修复。
4、事件预警:基于KPl指标、告警、日志、感知等一系列历史数据,预测未来将要发生某特定事件的行为,包括异常预测、容量预测等,该场景下使用的算法更倾向时序预测模型,如ARIMA、Holt-Winter、LSTM等
趋势预测类业务数据归纳为时序特征、空间特征和外部特征3大类:时间序列特性,在时间维度上可以抽象为周期、短时依赖、长时趋势;空间特征中,部分业务在空间始终呈现相似的比例分布,部分在空间上存在先后的依赖关系;外部特征包括节假日信息、气象信息、空气质量信息和重大事件等。
- 基于统计方法的线性预测:马尔可夫模型、自回归模型(Autoregressive model,AR)、差分整合移动平均自回归模型(Autoregressive Integrated Average model,ARMA)等。
- 基于机器学习的非线性预测:机森林算法(Random Forest,RF)、卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network, RNN)等
5、效能优化:对资源、系统性能进行优化配置。
二、智能运维中的故障预测与根因分析问题研究(2023)
链接:
https://ossdownload.dic.cool/Applet/2023-12-06/1023070451.nh.pdf?md5=yBlOXwWTKp2INQxAJPWFmw&expires=1702102807
- 预测算法:自回归移动平均模型(ARIMA)、支持向量机(svm)
- 根因分析算法:PageRank算法、分层贝叶斯网络(KHBN)、HotSpot算法