(文末附视频,一键观看精彩内容)
前言:
上文提到了智能运维现状中的变化趋势以及
上文提到了智能运维现状中的变化趋势以及过往误区,老杨认为智能运维的体系化建设还需从抓牢数据治理为起点,以终为始做好规划。
数据治理团体标准的发布,能够有效帮助企业对现有智能运维建设成果进行评估,依据结果对应的成熟度体系指导企业确立建设目标,并形成相应的建设规划,这或许会是未来智能运维建设的范式。
老杨说运维 | 2023,浅谈智能运维趋势(一)
作为数据治理团体标准的编撰组成员,擎创科技在标准颁布之后即将其应用到数个项目中,目前已初具成效。对于标准的落地应用,老杨带来了2个不同项目的实践分享。
一、实践分享一
敏稳双态共存挑战,建立标准体系应对
这是某金融客户的案例,首先建设之前从两个角度入手进行短板评估。
1.从运维部门组织角度去看,我们发现客户群体中普遍都存在敏稳双态共存的挑战。
-
在运行部门方面,多业务系统发生问题时很难理清排障方向,告警量超过了万级/日,事后复盘十分困难;
-
在应用部门方面,出现问题需要花费大量成本去联动其他部门进行排障,自研的应用监控处理能力有限,面对传统环境和云环境并行运维的局面,压力巨大;
-
在系统部门方面,由于处在资源的夹心层,监控手段又比较单一,对阈值管理的负担很大且经常不准等。
2.从运维工具角度去看
-
集中告警平台利用规则来降噪的维护负担过大,告警风暴出现时没有很好的熔断通知机制等;
-
自建的数据平台靠纯算法的能化检测效果不佳,数据不全面,难以形成可靠的根因定障能力;
-
可视化平台由分散式的数据集成,重复承担数据清洗工作,导致可视化需求出现时实现时间延长;
-
应用监控的交易指标维度拆分不够,没有动态阈值的检测能力,不能和静态阈值融合,用户体验十分不佳。
根据评估出来短板做相应的治用一体规划,从标准指标体系建立出发,根据客户行业特点及要求对运维数据指标类型进行多维度综合分类分层。其中按照关键级别可分为关键指标、主要指标、次要指标;根据统计维度分为标准指标、衍生指标、聚合指标,辅以编码规则并对指标进行标签化,形成标签库,为后期的监控、排障分析、系统画像等场景提供有力的支撑。
同时,对于告警质量的管理在数据治理的过程中也不可或缺,从体系化的角度开展,做到源末同治。何为源末同治?告警并非一种先天事件,它由各类监控指标触发,其准确程度与各环节的质量有关联。源是从指标体系规划、指标采集质量管控、阈值配置要求开始,到末端处置规则筛查保证准确性,都要做好数据的治理。这样如果出现告警质量问题,则能全面了解是哪个环节的具体步骤不到位,迅速找到问题根本并解决。
二、实践分享二
场景不应臆想,从过往事件中取经
运维中发生过的生产事件能够为场景规划提供重要根据,按照时间序列去复盘能够看清整个事件当中发生的各类状况,例如耗时长短、故障根因等。这是某银行在云上生产事件的调研复盘,我们可以看到从故障出现(交易量陡增,响应时间大幅增长)造成客户投诉,这期间总共花费了40分钟。在故障发生后,尝试过扩容、重启Gateway,但都没有解决问题,最后又扩容重启了微服务的容器才得以恢复。
在面对这样的故障时,如果能够有效地关联事件、厘清相关数据(指标、日志、告警),则能够从数据层面进行有效的排障分析,进而解决问题。
根据这次事故我们可以从中定义一个场景故事:运维过程中经常会遇到多业务系统同时发生问题,面对大量告警仍依赖经验排查,如果优先级不明确、无法厘清事件关联,就难以快速诊断问题,严重影响业务运营。
老杨认为,当多个业务系统告警出现时,可以从上下游关系影响和同源影响两个方面先行着手判断,逐步下钻分析数据、确认关联性、厘清问题源头。每一步诊断都对应有相关的场景平台功能去完成,并相互支撑相互配合形成有效的解决方案。
通过数据评估、生产事件分析以及方案场景推敲。最终得出一期项目的建设逻辑和规划。
关于标准和数据治理的分享到这里就告一段落了。
三、三个阶段和五个统一理论
而对于AIOps建设的实践我们仍想分享“三个阶段和五个统一”的理论,在相对应的阶段下做合理的建设规划,相信最终一定能将智能运维推向智慧化运营的光辉前景中去,具体内容在此不做赘述,请点击下方图片重温三个阶段与五个统一的建设规划思路。
精彩内容直达,戳↓↓↓
老杨说运维直播回顾2
擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。
行业龙头客户的共同选择
更多运维思路与案例持续更新中,敬请期待
随手点关注,更新不迷路~