前言:
人民银行印发的《金融科技(FinTech)发展规划(2022-2025年)》中,重点围绕数字化转型建设,强调上云、数据基础建设以及数智应用的重要性,明确了金融科技的长期重点建设方向。
由金科创新社主办的“2022金融业新一代数据中心发展论坛”已于近日圆满完成,会议聚焦数据基础设施建设,推动金融业进一步夯实创新发展的“数字底座”。会上,擎创科技创始人兼CEO杨辰带来了以《数据驱动下的统一运维体系建设》为主题的落地经验总结和分享。
本次分享中,老杨以不久前乌镇会议中《企业数字化转型趋势解读》的演讲为基础,给出了在IT运维建设从“点状求新”到“体系求变”的需求变化下,“AIOps三个阶段和五个统一”的运维体系建设及发展思路的新解读,并进一步讲述如何用模型化和数据化的手段度量其建设成效。
在数字化转型向上对标顶层总体战略的过程中,老杨发现数据正驱动金融业进行蝶变,逐渐出现“业务数据化和数据业务化”的双重趋势。
即金融业的发展在“业务+开放”的模式影响下,使得很多业务转变为线上的形式,这会形成海量需要有效留存下来的数据(业务数据化)。
而留存下来的数据背后蕴含诸多与业务相关的逻辑和发展规律,对这些有效数据进行合理规划和消费能够更好的推动业务运营,如营销、风险控制、业务投产等(数据业务化)。
在这种双重趋势的影响下,数字化转型的顶层战略需要利用数字化运维做技术支撑,以数据驱动为指引去提升四个方面的业务运营能力(需求迭代速度提升、业务连续性提升、用户体验感提升、整体运营效率),来满足业务运营要求。
一、“三个阶段和五个统一”的新解读
在持续落地实践中,老杨总结了随着三个阶段的发展,五个统一的建设不仅是分阶段串行建设,而是在运维建设之初就处于并行状态。随着建设发展的深入不断试错,根据当下阶段的实践反馈不停调整,总结经验步步为营。
1.数字化运维阶段
统一数据治理应当建立相关团队、破除信息竖井化、制定治理规范及标准;统一监控和告警应做到将各类监控工具统一管理,实时进行监控,并实现一体化协作集中处置告警问题;统一决策则是在小步试错过程中,总结对当下而言的有效场景和局限性,并依据结果调整建设方向,效果好则深化建设;效果差则需要总结是业务模型不够成熟,或是数据不具备条件,亦或是平台技术不过关?,进而沉淀经验优化建设路径。
2.智能化运维阶段
统一数据方面应夯实数据运维中台基础,升级智能化底座,彻底打通数据孤岛使数据全面关联,比如业务数据、指标数据、日志数据、调用链数据、各类系统数据等;统一监控和告警方面开始以业务为顶层视角实现智能监测及检测,能够智能收敛告警、自动处置并沉淀可复用知识和经验;进而对统一监控和告警输出的信息进行智能化分析,构建完善的反馈机制,实现全景可观测;最终,形成智能化决策体系,输出精准结论,辅助业务运营。
3.智慧化运营阶段
运维数据的消费和共享会变得非常频繁,如何快速合理地申请并使用数据,形成完善高效的数据消费机制非常重要。另外,随着新的业务和信息化手段引入,会出现新的数据孤岛,需要主动治理新的数据关系,以充分满足业务需求联动技术产出有效决策。
二、五个统一建设效果评估
就像建造楼房完成后需要经过详细的质量竣工验收后才能投入使用,智能运维的阶段性建设完成后,也需要通过一定的方法进行质量评估。
1.统一数据
完善的数据治理体系应依据分层建设逐层进行评估,比如在数据治理制度、流程、规范等方面需要围绕数据质量、数据安全、数据应用、数据洞察等进行评估;中台层需要实现对大数据高效灵活的处理;标准化体系能够解决数据含义不清、度量不明、标准不统一等问题;采集层能够有效解决数据分散问题,能够拆数据烟囱、统一数据归口;
治理框架的建设从三方面入手,贴源层应抓牢数据质量管理,确保核心层的数据质量完整性、时效性、正确性、合规性;核心层能实现数据模型管理,可以构建运维数据骨架、统一跨域数据统计口径,服务上层场景消费;应用层确保业务模型完整,能够统一管理各场景主数据,可跨场景复用,确保业务场景描述一致。
以上的统一数据建设最终会反馈为运维数据治理能力的成熟度。不久前由中计协组织、擎创科技参与编制的《金融机构信息系统运维数据治理能力成熟度评估规范》已正式发布,根据标准将成熟度分为5个等级,通过对专项能力的评估综合判定当前处于哪一层级,即可知道哪些能力尚有不足、有待提高,进而可以有的放矢的提升数据治理能力。
2.统一监控
在不断的实践应用中需要有合理的模型来评估监控质量,例如:
-
以监控指标为视角,第一步要进行指标体系的规划,要求是规划范围要全体系要完整,假设在各个层级和专业领域规划了860项指标
-
接着需要对指标项进行采集,要求采集的数据质量要高,具备时效性、完整性、一致性,假设通过采集合格的指标有730项
-
再为这些合格的数据配置详细的监控规则,要有高业务覆盖度、强动态检测能力,并且颗粒度和交易维度要细等要求,配置合格的指标剩余513项
-
最后这些指标要能准确发现故障,根据相关告警的处置策略,对指标的等级准确性,误报率、漏报率、事件转化率都有相应要求,最终告警准确的指标仅为230项
合格的监控体系建设,应如该模型一样,能够准确地帮助运维管理者看清监控质量问题来自于哪一个监控管理环节,便于快速定位和准确处理。
3.统一告警
告警之中较为重要的一个环节为应急处置,以此为例从四个方面进行评估:
-
主动发现能力:监控领域指标项覆盖是否完整?
-
故障定位能力:变更风险定位能力如何?定位工具覆盖度是否合适?
-
影响判断能力:影响范围判断能力如何?配置关联是否完整?
-
故障回复能力:服务重启能力、系统切换能力、服务降级能力等是否优秀?
再结合其他能力项,形成评估结果,判断哪些能力需要调整优化,哪些方面需要加深建设。
4.统一分析与统一决策
与前三点不同的是,分析与决策的效果不便用量化的数据来体现。我们选择通过事前、事中、事后的分析能力矩阵来进行评估。
统一分析评估
-
事前数据质量分析、容量规划、风暴预警、趋势预测等能否提高感知力;
-
事中告警关联分析、交易链路分析、同源分析、根因分析等能否加强判断力;
-
事后故障复盘分析、SLO分析、多维分析、聚类分析等能否升级自主学习能力。
当然平台也应当能扩展每部分的分析能力,来应对新的分析需求。
统一决策评估
决策能力是将分析能力转化为结果
-
以生产封控为例事前决策能够判断是否需要增加资源应对业务增长、云资源是否超配;
-
以应急决策为例,事中决策能够判断是哪个共享资源故障影响了多个业务、是否需要紧急限流、是否需要版本回滚;
-
以运维驾驶舱为例,事后决策能够发现处置效率的瓶颈在哪个团队、哪里的监控盲点需要补足。
智能运维建设之路道阻且长,擎创科技对于发展思路和建设方法,会在不断的实践中推陈出新。未来,擎创科技将持续发力、久久为功,为推动我国智能运维发展而行健自强。
擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。
行业龙头客户的共同选择