构建双态IT系统,AIOps已经是必然的选择。运维数字化转型已是大势所趋,实体业务的逐步线上化对IT系统的稳定与安全提出更高要求,同时随着双态IT等复杂系统的建立,如何平衡IT运维效率与成本成为区域性银行面临的重要问题,智能运维AIOps成为主要解决方案。
智能运维AIOps,根据Gartner的最新定义,指基于大数据、机器学习等能力提取和分析IT数据,为IT运维管理产品提供支撑。目前AIOps在银行业的主要落地场景有精准告警、异常检测、根因定位和容量分析等场景,明显优化运维成本且提高运维效率;同时,基于数据的深度分析优化运维质量,值得说明的是,为最大程度发挥IT数据的价值,基于统一平台整合多维数据,以全局运营视角解读IT运维,将是未来趋势。
一、案例背景
某国有银行(E银行)是五大国有银行之一。近年来,E银行将数字化转型上升至集团战略层面,充分发挥金融科技特色优势,持续加大金融科技资金投入强度,在财富管理、数字化发展、绿色金融等各业务层面都取得了积极成效。
-
多重问题并存,银行传统运维系统急需转型升级
随着E银行数字化转型进程的不断推进,银行业务系统和基础架构愈发复杂,运维数据日益增长,运维能力越来越成为E银行数字化转型的重要关注点。业务量的不断增长,为传统IT运维带来了以下几个方面的问题:
第一,数据治理难。随着数字化的演进和全行改革的深入,E银行业务量增多,数据规模急剧扩大,且数据种类与数据结构愈发复杂多样,由于数据标准不统一,因此数据质量较低;且E银行数据分散在各应用处、集中度不高,数据之间存在孤岛现象,数据可复用能力欠缺。
第二,发现问题难。E银行在过去便建立了运维系统,但随着该系统在业务中的不断实践,出现了不少问题。首先,监控不全面,缺乏对整体业务运行状态的监控;其次,原有运维监控系统采用固定阈值告警,误报漏报率高;另外,原有运维系统发现问题较为被动,缺乏趋势预测能力,无法在用户受影响之前及时识别问题,严重依赖运维人员经验,导致运维成本高、运维效率低。
第三,根因定位难。E银行原有运维系统和工具基本为事后统计分析,缺乏实时分析能力,缺乏以业务指标驱动的根因分析能力、场景化的相关性分析能力和告警、指标、日志等多维数据的交叉分析能力,对运维排障能力的提升作用很有限,导致运维故障处理能力较低。
第四,运营分析难。E银行传统运维系统主要依赖人工经验、通过报表来分析数据,缺乏智能化的手段进行动态数据分析;过去的运维数据分析主要从运维角度而从非业务视角出发,导致对数据的分析较为片面、落地性不强,数据价值挖掘不充分,无法为综合运营提供保障支撑。
除此,E银行还有一些定制化的需求。E银行部署了云平台,不同于传统技术架构,云平台对运维侧提出了更多需求,如与态势感知可视化工具进行深度结合,以识别并解决云上安全风险;另外,E银行对于内部安全能力也有要求,随着业务量的增加,内部违规操作的几率增加,E银行对内部人员违规操作的检测排查提出了新需求,对安全数据的整合能力成为了E银行重要的关注方向。
综上,借助一定的手段和方式,对客户的IT运维数据实现全量的集中化管理,实现数据实时处理、智能分析和预测,进行多维度高效根因定位,实现运维侧的全面升级,成为E银行数字化转型的重要诉求。基于此,E银行选择与擎创科技进行合作,就智能运维AIOps展开深度探索。
擎创科技2016年成立于上海,是国内首家智能运维AIOps落地解决方案的供应商。擎创科技专注于以AI赋能运维管理,激活运维数据智慧,助力客户数字化转型。目前其客户群已覆盖银行、保险、证券、制造、能源及交通运输等多个行业。
擎创科技基于自身强大的大数据能力、流批一体处理能力和AI算法能力,从数据治理层(包括数据采集、数据处理、数据存储)、运维应用层以及运营决策层多个层级,为E银行提供了智能运维夏洛克AIOps全面解决方案。
二、具体实施策略
1、构建数字运维中台,全面提升银行数据治理能力
数据是场景建设的基础。因此在数据治理方面,擎创为E银行构建了集成数据采集、数据处理和数据存储多种功能的数字运维中台。
首先是多源数据采集。夏洛克AIOps具备数据湖、APIs、客户数据等多种数据源的数据集中采集能力,覆盖指标、事件、日志等多种运维数据。无论是来自于工单系统、监控系统还是日志平台,均可作为可配置的数据源融入平台。此外,数据采集会对接不同体系如容器云、K8s等。
其次,数据采集完成后,需要进行数据处理。在两大技术栈Flink和Spark的基础上做了抽象,使二者合为一体并形成数字运维中台,使得平台跨越了流批处理的专门开发。与此同时,利用可视化工具,实现数据标签化、体系化、规范化,使得数据可通过拖拉拽实现基本处理与一体化查询分析。
第三、提升运维数据储存能力。数据处理完毕后,需对经过处理的数据进行数据存储。擎创科技为E银行的运维数据存储提供了相应的技术栈和配套软件,同时也运用大数据工具,帮助E银行提升运维数据存储能力。
综合而言,擎创科技帮E银行构建的数字运维中台,为智能运维场景的建设提供了大数据处理、流批一体处理和AI算法平台三方面服务,奠定了E银行智能运维场景建设的基础,同时也持续提升了其运维数据的质量和治理水平,解决了E银行数据治理难的问题。
2、多样化智能运维场景,助力问题发现与根因定位
在数字运维中台的基础上,夏洛克的运维应用层结合数十种算法,帮助E银行灵活构建了多样化的智能运维场景,产出其需要的分析结果。
智能运维场景包括告警自动抑制、故障场景发掘、指标异常检测、日志异常检测、综合根因定位、业务多维分析、容量分析预测等,主要抽象为四大产品应用——告警辨析中心、指标解析中心、日志精析中心和日智速析专家。
告警辨析中心以机器学习算法为驱动,对海量的告警事件进行降噪和关联分析,辅助E银行实现问题预测发现以及根因定位。
指标解析中心基于交易异常、指标关联、拓扑集成、根因推荐能力,帮E银行迅速发现及预测指标的异常波动,并且判定指标间的关联关系,辅助根因定位。
日志精析中心具备多样化开箱即用模板及智能分析能力,协助E银行全面分析数字化业务整体状况,提升了其故障根因定位、日志审计、异常检测等运维能力。
日智速析专家则实现了将海量日志聚类到肉眼可读的数量,智能识别日志发生规律,分析日志异常并智能告警,从而助力E银行无需了解日志结构即可发现问题、定位根因。通过四大应用的构建,E银行可快速发现异常并定位根因,从而提升运营效率。
未来,在智能运维的基础上,擎创科技还将辅助E银行实现了从智能运维到智能运营的跃升。擎创科技以全局运营视角解读IT运维,在打通E银行全域数据的基础上,帮其个性化定制专属运营决策中心,精准、实时、动态地展现系统运行状况,并通过对数据价值的提炼分析,有效支撑运营决策,彰显运维对业务的影响力。
3、夏洛克AIOps综合解决方案,助力银行实现高效运维
通过夏洛克AIOps综合解决方案的实施,擎创科技帮助E银行解决了多种问题,实现了高效智能运维:
第一,提升了数据质量和数据治理能力。通过采用数字运维中台进行数据治理和运维数据集中化管理,打破了数据壁垒,极大地提升了数据标准化程度,提升了数据质量,为后续数据分析运用提供了保障支撑。
第二,提升了问题发现的能力。E银行通过部署夏洛克AIOps智能运维平台,基于四大智能运维应用,降低了误报率,减少了一线人员的工作量,且极大提升了提前发现异常和容量预警的速度。
第三,实现高效的根因定位。E银行利用交易类指标异常检测以及与多种基础架构指标异常做相关性分析,结合拓扑相关性以及日志异常模式排查,实现了分钟级别定位故障源的高效综合排障。
第四,提升了运营分析能力。通过智能运维建设,E银行实现了对告警、日志和各项指标的全方位管理和智能化分析,运营风险降低约70%,运营效率提升约6倍,数据中心整体SLA(服务水平)得到了极大提升。
擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。
行业龙头客户的共同选择
了解更多运维干货与技术分享
可以右上角一键关注
我们是深耕智能运维领域近十年的
连续多年获Gartner推荐的AIOps标杆供应商
下期我们不见不散