《金融电子化》昆仑银行在应用性能监控(APM)平台的实践与探索
中国人民银行印发的《金融科技发展规划(2022-2025年)》是对金融科技发展的重要引领。规划强调了金融科技在推动金融行业现代化转型、提升金融服务效率和风险防控水平方面的重要作用。同时,规划中提到的建立健全金融数据中心智能化运维机制对金融科技行业的发展起到重要推动作用,也意味着将有更多资源和支持投入到这一领域的研发和创新中,从而推动科技在金融领域的广泛应用,提升运维管理的效率和质量。
昆仑银行在数字化转型过程中积极应用博睿数据应用性能监控平台对业务系统进行了升级改造,实现对应用程序的执行过程进行全面监控与追踪,秒钟级代码性能诊断,大幅提高了团队运维人员的工作效率。同时借助应用性能监控平台提高了可视化能力,降低了运维成本,使得银行的运维环境更加直观、安全并具备可观测性。最终,该方案不仅解决了客户现有运维体系改造建设的难题,其技术的前瞻性本文发表在中国人民银行主管的《金融电子化》杂志上。
以下为原文,约3000字,预计阅读时间8min。
近年来,金融科技迅猛发展,新技术和新业态层出不穷,数字化正在重塑金融生态新模式,银行业务正朝着线上化和智能化的方向转变,通过科技赋能实现转型升级将成为银行业未来发展的战略重点。在数字化浪潮中,国内银行机构纷纷启动数字化转型战略,推动和赋能自身业务发展、内控管理、风险防控等,以期在激烈的市场竞争中脱颖而出。
而在数字化转型过程中,银行业往往面临组织敏捷性不足、网络环境运行不稳定、数据治理难、运维排障效率低下等问题,导致业务处理效率低。同时,银行业务场景多样,系统之间的调用关系、各模块状态等运维方式均需在业务探索中进行创新发展。
项目背景分析
在数字化时代,数字化转型成为了各行各业发展的必经之路。这种转型为行业和企业发展带来全新的变革和转型动力,也形成了企业管理与运维的新形态。然而,这也给涉及不同业务体系和新旧IT系统的整体IT架构带来了前所未有的挑战。
昆仑银行将数字化转型作为弯道超车的重要举措,但在实际工作中依然面临着工具分散,依靠运维人员经验和频繁切换各专业分析工具,以实现故障定位、影响分析等操作,运维效率存在进步空间。为了满足自身业务需求和解决技术痛点,昆仑银行通过内部推广和建设应用性能监控来满足数字化转型和对外赋能的需求。这为昆仑银行的数字化转型提供了有力的支撑,同时也展示了金融科技在提升运维管理效率和智能化方面的巨大潜力。
项目建设特色与成果
昆仑银行在构建应用性能监控(APM)解决方案时,通过APM探针技术,将采集到的各项性能指标数据进行处理、分类规整和入库,实现对平台应用系统的自动安装与监控。探针监控使用字节码等相关技术,无需对程序代码进行修改,即可实现对应用程序的执行过程进行全面监控与追踪,体现了探针能力的稳定性、高性能和可扩展性。
通过进一步优化建立智能化运维机制,昆仑银行能够更好的感知风险,发现异常并预测故障。这为昆仑银行的数字化转型提供了有力的技术保障。同时,也实现了智能告警、根因分析、代码级调用跟踪、保障客户环境稳定运行等能力。主要技术框架如下图所示。
APM技术平台架构图
故障排查定位
在日常IT运维工作中,有时会面对一些较复杂的故障定位场景,比如大量系统几乎同时涌现高级别告警,这些系统之间依托于各类网络,存在着支撑和依赖关系,而每个系统本身也被复杂的系统架构所承载。
这种情况下,如何在有限的时间内定位故障并快速恢复业务,是运维人员面临的低频但高风险的疑难问题。对比传统排障思路,运维人员需要综合分析这些告警,确定可能的根因。一般思路是各应用系统负责人分别找数据库、操作系统、中间件、网络等团队确认是否是本系统导致的。如果不是,则需要通过事前绘制的上下游系统关系图梳理可能的根因节点,再查询相应疑似故障根因系统的架构内是否存在故障,从而进行进一步处理。由于相关工作既存在跨部门沟通,又需要强大的视图化逻辑思维能力,对运维人员要求极高。
在某年度党费缴纳活动期间,面对大量的告警数据,通过应用性能监控系统实现端到端的性能打通,快速定位性能问题,逐层问题剥离分析,实现秒钟级代码性能诊断,最终将问题发现和解决的时间从小时级压缩到分钟级,极大提高了团队运维人员的工作效率。
代码级调用跟踪
通过代码级调用跟踪技术,自动获取调用拓扑、业务系统中的各模块状态、关联关系、将应用的调用关系进行可视化等,从而快速定位故障、缩短排障周期,有效提高运维效率。
网贷平台对系统TPS要求很高,有着很高的性能要求,在此前,无法准确判断与网贷相关的系统运行是否缓慢,接入应用性能监控系统后,昆仑银行网贷平台实现对应用从程序入口到执行全链路的监控与追踪,迅速识别出下游系统存在一定的延迟问题,及时采取相应措施,确保了网贷平台稳定、安全地运行,给用户提供了优质的服务体验。
运维数据标准化
Controller 作为探针接入和数据处理组件,接收探针端上报的各项指标数据,完成对指标数据的分类处理与入库、探针配置的下发。探针与 Controller 交互主要包括配置流 Config 和数据流 Upload 两类协议。Config 协议为探针数据采集策略控制协议,由 Controller 根据用户配置的数据采集策略下发给探针。Upload 协议为探针原始数据上传协议,负责处理探针上传的原始样本数据,Controller 在接收到原始数据之后,进行基本的有效性判断后立即响应探针,同时对该协议数据进行异步处理,包括协议分类、规整和入库等。
完成指标、日志、告警、配置、流程这些运维数据的建模,完成基础对象体系、指标体系、配置管理建模,落地运维数据治理,确保了数据的时效性,完整性,关联性,有效性,为应用监控场景、智能分析场景提供高质量的数据支撑。主要技术框架如下图所示。
web页面监控平台架构
收益与展望
· 构建数字化运维体系
昆仑银行通过积极应用性能监控(APM)系统,打破了银行传统运维模式,借助数字化转型手段,实现对企业科技创新能力的精准画像,在金融领域实现了企业信用的数字化,推动科创金融服务趋向精准化、智能化再进一步。
· 积极赋能业务创新发展
应用性能监控(APM)系统为银行的业务发展提供多样化的支撑和突破点,监控运维工作内涵呈现多元化。并将数字化的理念进一步内化到自身的日常业务经营和金融服务中,赋能业务部门,提高了业务部门的执行效率,实现业务与技术更深层次融合。
· 打造运维环境具备可观测性
目前,昆仑银行对运维监控管理体系进行的全面升级改革,以低成本的方式打通跨部门、跨系统的流程,并且在全流程治理的过程中完成了局部数据治理。此外,还实现了将问题发现和解决的时间从小时级压缩到分钟级,解决了运维效率低及风险预判和维护等问题,提高了可视化能力,提升了工作效率,降低了运维成本,使得银行的运维环境更加直观、安全并具备可观测性。
在不断前行的道路上,昆仑银行将始终坚持技术驱动、内外联动,数字化转型赋能场景生态建设,深入探索以体验为核心、打造优质产品质量的全流程体验服务体系,也将继续推进金融企业运维管理创新,根据自身特点和金融业务场景的需求,夯实网络运维系统的数字化管理基础,提升金融科技赋能水平,全面提高企业竞争优势。
精选获奖案例
博睿数据坚持“客户第一”的理念,致力于科技赋能,助力客户实现智能运维,提升组织运营效率,创新实践案例获得了权威机构认可。以下为精选获奖案例。
光大银行“云原生背景下的运维监控体系建设”
刊登《金融电子化》杂志
东方证券“全生命周期智能数字体验项目”
《金融电子化》杂志
2021科技赋能金融业务突出贡献奖
红塔证券“互联网金融业务性能监控系统”爱分析
2022中国IT运维创新实践案例
中国海油“多云资源监控与治理”中国电子学会
2023年度优秀实践案例
万科“Bonree ONE赋能应用可观测性监控能力”
经观传媒
2023年度卓越数字创新企业服务案例
华安证券“用户会话监控的智能异常检测与分析实践”
中国信通院
2023 XOps“领新杯”优秀案例
国金证券“智能化可观测性平台建设”
中国信通院
中国AIOps现状调查报告(2023)
南方航空“端到端全栈监控中的智能运维实践”
中国信通院
中国AIOps现状调查报告(2023)
国元证券“建立一体化智能可观测平台实现APP体验数字化”
数据猿
金猿案例展
昆仑银行“一体化智能可观测平台全面保障业务稳定性”
数据猿
金猿案例展
排障不易,多看案例
扫描下方海报二维码,免费获取
博睿数据最新版年度案例集《IT运维之光》