《金融电子化》昆仑银行在应用性能监控(APM)平台的实践与探索

news2024/12/23 14:51:52

《金融电子化》昆仑银行在应用性能监控(APM)平台的实践与探索

中国人民银行印发的《金融科技发展规划(2022-2025年)》是对金融科技发展的重要引领。规划强调了金融科技在推动金融行业现代化转型、提升金融服务效率和风险防控水平方面的重要作用。同时,规划中提到的建立健全金融数据中心智能化运维机制对金融科技行业的发展起到重要推动作用,也意味着将有更多资源和支持投入到这一领域的研发和创新中,从而推动科技在金融领域的广泛应用,提升运维管理的效率和质量。

昆仑银行在数字化转型过程中积极应用博睿数据应用性能监控平台对业务系统进行了升级改造,实现对应用程序的执行过程进行全面监控与追踪,秒钟级代码性能诊断,大幅提高了团队运维人员的工作效率。同时借助应用性能监控平台提高了可视化能力,降低了运维成本,使得银行的运维环境更加直观、安全并具备可观测性。最终,该方案不仅解决了客户现有运维体系改造建设的难题,其技术的前瞻性本文发表在中国人民银行主管的《金融电子化》杂志上。

以下为原文,约3000字,预计阅读时间8min。

近年来,金融科技迅猛发展,新技术和新业态层出不穷,数字化正在重塑金融生态新模式,银行业务正朝着线上化和智能化的方向转变,通过科技赋能实现转型升级将成为银行业未来发展的战略重点。在数字化浪潮中,国内银行机构纷纷启动数字化转型战略,推动和赋能自身业务发展、内控管理、风险防控等,以期在激烈的市场竞争中脱颖而出。

而在数字化转型过程中,银行业往往面临组织敏捷性不足、网络环境运行不稳定、数据治理难、运维排障效率低下等问题,导致业务处理效率低。同时,银行业务场景多样,系统之间的调用关系、各模块状态等运维方式均需在业务探索中进行创新发展。

项目背景分析

在数字化时代,数字化转型成为了各行各业发展的必经之路。这种转型为行业和企业发展带来全新的变革和转型动力,也形成了企业管理与运维的新形态。然而,这也给涉及不同业务体系和新旧IT系统的整体IT架构带来了前所未有的挑战。

昆仑银行将数字化转型作为弯道超车的重要举措,但在实际工作中依然面临着工具分散,依靠运维人员经验和频繁切换各专业分析工具,以实现故障定位、影响分析等操作,运维效率存在进步空间。为了满足自身业务需求和解决技术痛点,昆仑银行通过内部推广和建设应用性能监控来满足数字化转型和对外赋能的需求。这为昆仑银行的数字化转型提供了有力的支撑,同时也展示了金融科技在提升运维管理效率和智能化方面的巨大潜力。

项目建设特色与成果

昆仑银行在构建应用性能监控(APM)解决方案时,通过APM探针技术,将采集到的各项性能指标数据进行处理、分类规整和入库,实现对平台应用系统的自动安装与监控。探针监控使用字节码等相关技术,无需对程序代码进行修改,即可实现对应用程序的执行过程进行全面监控与追踪,体现了探针能力的稳定性、高性能和可扩展性。

通过进一步优化建立智能化运维机制,昆仑银行能够更好的感知风险,发现异常并预测故障。这为昆仑银行的数字化转型提供了有力的技术保障。同时,也实现了智能告警、根因分析、代码级调用跟踪、保障客户环境稳定运行等能力。主要技术框架如下图所示。

APM技术平台架构图

故障排查定位

在日常IT运维工作中,有时会面对一些较复杂的故障定位场景,比如大量系统几乎同时涌现高级别告警,这些系统之间依托于各类网络,存在着支撑和依赖关系,而每个系统本身也被复杂的系统架构所承载。

这种情况下,如何在有限的时间内定位故障并快速恢复业务,是运维人员面临的低频但高风险的疑难问题。对比传统排障思路,运维人员需要综合分析这些告警,确定可能的根因。一般思路是各应用系统负责人分别找数据库、操作系统、中间件、网络等团队确认是否是本系统导致的。如果不是,则需要通过事前绘制的上下游系统关系图梳理可能的根因节点,再查询相应疑似故障根因系统的架构内是否存在故障,从而进行进一步处理。由于相关工作既存在跨部门沟通,又需要强大的视图化逻辑思维能力,对运维人员要求极高。

在某年度党费缴纳活动期间,面对大量的告警数据,通过应用性能监控系统实现端到端的性能打通,快速定位性能问题,逐层问题剥离分析,实现秒钟级代码性能诊断,最终将问题发现和解决的时间从小时级压缩到分钟级,极大提高了团队运维人员的工作效率。

代码级调用跟踪

通过代码级调用跟踪技术,自动获取调用拓扑、业务系统中的各模块状态、关联关系、将应用的调用关系进行可视化等,从而快速定位故障、缩短排障周期,有效提高运维效率。

网贷平台对系统TPS要求很高,有着很高的性能要求,在此前,无法准确判断与网贷相关的系统运行是否缓慢,接入应用性能监控系统后,昆仑银行网贷平台实现对应用从程序入口到执行全链路的监控与追踪,迅速识别出下游系统存在一定的延迟问题,及时采取相应措施,确保了网贷平台稳定、安全地运行,给用户提供了优质的服务体验。

运维数据标准化

Controller 作为探针接入和数据处理组件,接收探针端上报的各项指标数据,完成对指标数据的分类处理与入库、探针配置的下发。探针与 Controller 交互主要包括配置流 Config 和数据流 Upload 两类协议。Config 协议为探针数据采集策略控制协议,由 Controller 根据用户配置的数据采集策略下发给探针。Upload 协议为探针原始数据上传协议,负责处理探针上传的原始样本数据,Controller 在接收到原始数据之后,进行基本的有效性判断后立即响应探针,同时对该协议数据进行异步处理,包括协议分类、规整和入库等。

完成指标、日志、告警、配置、流程这些运维数据的建模,完成基础对象体系、指标体系、配置管理建模,落地运维数据治理,确保了数据的时效性,完整性,关联性,有效性,为应用监控场景、智能分析场景提供高质量的数据支撑。主要技术框架如下图所示。

web页面监控平台架构

收益与展望

· 构建数字化运维体系

昆仑银行通过积极应用性能监控(APM)系统,打破了银行传统运维模式,借助数字化转型手段,实现对企业科技创新能力的精准画像,在金融领域实现了企业信用的数字化,推动科创金融服务趋向精准化、智能化再进一步。

· 积极赋能业务创新发展

应用性能监控(APM)系统为银行的业务发展提供多样化的支撑和突破点,监控运维工作内涵呈现多元化。并将数字化的理念进一步内化到自身的日常业务经营和金融服务中,赋能业务部门,提高了业务部门的执行效率,实现业务与技术更深层次融合。

· 打造运维环境具备可观测性

目前,昆仑银行对运维监控管理体系进行的全面升级改革,以低成本的方式打通跨部门、跨系统的流程,并且在全流程治理的过程中完成了局部数据治理。此外,还实现了将问题发现和解决的时间从小时级压缩到分钟级,解决了运维效率低及风险预判和维护等问题,提高了可视化能力,提升了工作效率,降低了运维成本,使得银行的运维环境更加直观、安全并具备可观测性。

在不断前行的道路上,昆仑银行将始终坚持技术驱动、内外联动,数字化转型赋能场景生态建设,深入探索以体验为核心、打造优质产品质量的全流程体验服务体系,也将继续推进金融企业运维管理创新,根据自身特点和金融业务场景的需求,夯实网络运维系统的数字化管理基础,提升金融科技赋能水平,全面提高企业竞争优势。

精选获奖案例

博睿数据坚持“客户第一”的理念,致力于科技赋能,助力客户实现智能运维,提升组织运营效率,创新实践案例获得了权威机构认可。以下为精选获奖案例。

光大银行“云原生背景下的运维监控体系建设”

刊登《金融电子化》杂志

东方证券“全生命周期智能数字体验项目”

《金融电子化》杂志

2021科技赋能金融业务突出贡献奖

红塔证券“互联网金融业务性能监控系统”爱分析

2022中国IT运维创新实践案例

中国海油“多云资源监控与治理”中国电子学会

2023年度优秀实践案例

万科“Bonree ONE赋能应用可观测性监控能力”

经观传媒

2023年度卓越数字创新企业服务案例

华安证券“用户会话监控的智能异常检测与分析实践”

中国信通院

2023 XOps“领新杯”优秀案例

国金证券“智能化可观测性平台建设”

中国信通院

中国AIOps现状调查报告(2023)

南方航空“端到端全栈监控中的智能运维实践”

中国信通院

中国AIOps现状调查报告(2023)

国元证券“建立一体化智能可观测平台实现APP体验数字化”

数据猿

金猿案例展

昆仑银行“一体化智能可观测平台全面保障业务稳定性”

数据猿

金猿案例展

排障不易,多看案例

扫描下方海报二维码,免费获取

博睿数据最新版年度案例集《IT运维之光》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1422334.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

体验 AutoGen Studio - 微软推出的友好多智能体协作框架

体验 AutoGen Studio - 微软推出的友好多智能体协作框架 - 知乎 最近分别体验了CrewAI、MetaGPT v0.6、Autogen Studio,了解了AI Agent 相关的知识。 它们的区别 可能有人要问:AutoGen我知道,那Autogen Studio是什么? https://g…

直播不仅可以带货,还可以远程协作

直播是一种非常直观高效的信息共享模式,目前直播带货比较火,但我也不懂,现就我涉及的领域和实践做一些分享,目前我所做的直接互动分发系统在软硬件全系统闭环下,结合100ms级的低延迟,基本可以让人有深入其境…

Vue_Router_守卫

路由守卫:路由进行权限控制。 分为:全局守卫,独享守卫,组件内守卫。 全局守卫 //创建并暴露 路由器 const routernew Vrouter({mode:"hash"//"hash路径出现#但是兼容性强,history没有#兼容性差"…

ImageNet预训练图像分类模型预测单张图像

导入基础工具包 import osimport cv2import pandas as pd import numpy as npimport torchimport matplotlib.pyplot as plt %matplotlib inline 计算设备确定 # 有 GPU 就用 GPU,没有就用 CPU device torch.device(cuda:0 if torch.cuda.is_available() else c…

pytorch学习笔记(十二)

以下代码是以CIFAR10这个10分类的图片数据集训练过程的完整的代码。 训练部分 train.py主要包含以下几个部件: 准备训练、测试数据集用DateLoader加载两个数据集,要设置好batchsize创建网络模型(具体模型在model.py中)设置损失函…

深入理解G0和G1指令:C++中的实现与激光雕刻应用

系列文章 ⭐深入理解G0和G1指令:C中的实现与激光雕刻应用⭐基于二值化图像转GCode的单向扫描实现⭐基于二值化图像转GCode的双向扫描实现⭐基于二值化图像转GCode的斜向扫描实现基于二值化图像转GCode的螺旋扫描实现基于OpenCV灰度图像转GCode的单向扫描实现基于Op…

Apple Pencil如何连接iPad?这里提供详细步骤

如果你刚拿起一支Apple Pencil,想和iPad一起使用,你需要先连接设备。将Apple Pencil与iPad配对的方法因你拥有的铅笔而异。 一旦你将Apple Pencil连接到iPad,你就可以利用这些方便的功能。你可以记下手写笔记,使用Scribble功能&a…

H5 嵌套iframe并设置全屏

H5 嵌套iframe并设置全屏 上图上代码 <template><view class"mp-large-screen-box"><view class"mp-large-screen-count"><view class"mp-mini-btn-color mp-box-count" hover-class"mp-mini-btn-hover" clic…

QEMU - e1000全虚拟化前端与TAP/TUN后端流程简析

目录 1. Host -> Guest 2.Guest ->Host 3. 如何修改以支持TUN设备的后端&#xff1f; 4. 相关 QEMU 源码 5. 实验 1. Host -> Guest 2.Guest ->Host 3. 如何修改以支持TUN设备的后端&#xff1f; 1. 简单通过后端网卡名字来判断是TUN还是TAP。 2. 需要前端全…

gdp调试—Linux

目录 介绍 使用 介绍 代码分为debug模式和release模式 如果一份代码要被调试&#xff0c;这份代码必须是debug Linux下编译代码默认是是release模式 如果你想代码是debug模式 必须加上 - g 小提&#xff1a; vim默认&#xff1a;命令模式 gcc默认&#xff1a;releas…

华为数通方向HCIP-DataCom H12-831题库(简答题01-27)

第01题 第02题 第03题 第04题 第05题 IS-IS是链路状态路由协议,使用SPF算法进行路由计算。某园区同时部署了IPV4和IPv6并运行IS-IS实现网络的互联与通。如图所示,该网络IPV4和IPV6开销相同,R1和R4只支持IPV4缺省情况下,计算形成的IPV6最短路径树中,R2访问R6的下一跳设备是…

【C++初阶】C++入门(2)

&#x1f525;博客主页&#xff1a; 小羊失眠啦. &#x1f3a5;系列专栏&#xff1a;《C语言》 《数据结构》 《C》 《Linux》 《Cpolar》 ❤️感谢大家点赞&#x1f44d;收藏⭐评论✍️ 文章目录 一、函数重载1.1 函数重载的概念1.2 函数重载的种类1.3 C支持函数重载的原理 二…

最全前端 HTML 面试知识点

一、HTML 1.1 HTML 1.1.1 定义 超文本标记语言&#xff08;英语&#xff1a;HyperTextMarkupLanguage&#xff0c;简称&#xff1a;HTML&#xff09;是一种用于创建网页的标准标记语言 HTML元素是构建网站的基石 标记语言&#xff08;markup language &#xff09; 由无数个…

橱窗宝石 - 华为OD统一考试

OD统一考试&#xff08;C卷&#xff09; 分值&#xff1a; 100分 题解&#xff1a; Java / Python / C 题目描述 橱窗里有一排宝石&#xff0c;不同的宝石对应不同的价格&#xff0c;宝石的价格标记为 gems[i],0<i<n, n gems.length 宝石可同时出售0个或多个&#xff…

Mysql+MybatisPlus+Vue实现基础增删改查CRUD

数据库 设计数据库 设计几个字段&#xff0c;主键id自动增长且不可为空 create table if not exists user (id bigint(20) primary key auto_increment comment 主键id,username varchar(255) not null comment 用户名,sex char(1) not null comment 性…

十一、常用API——练习

常用API——练习 练习1 键盘录入&#xff1a;练习2 算法水题&#xff1a;练习3 算法水题&#xff1a;练习4 算法水题&#xff1a;练习5 算法水题&#xff1a; 练习1 键盘录入&#xff1a; 键盘录入一些1~100之间的整数&#xff0c;并添加到集合中。 直到集合中所有数据和超过2…

【新课】安装部署系列Ⅲ—Oracle 19c Data Guard部署之两节点RAC部署实战

本课程由云贝教育-刘峰老师出品&#xff0c;感谢关注 课程介绍 Oracle Real Application Clusters (RAC) 是一种跨多个节点分布数据库的企业级解决方案。它使组织能够通过实现容错和负载平衡来提高可用性和可扩展性&#xff0c;同时提高性能。本课程基于当前主流版本Oracle 1…

017 JavaDoc生成文档

什么是JavaDoc 示例 package se;/*** 用于学习Java* author Admin* version 1.0* since 1.8*/ public class Test20240119 {/*** 主方法* param args*/public static void main(String[] args) {// 你好&#xff0c;世界System.out.println("Hello world");} } 写一…

故障诊断 | 一文解决,GRU门控循环单元故障诊断(Matlab)

文章目录 效果一览文章概述专栏介绍模型描述源码设计参考资料效果一览 文章概述 故障诊断 | 一文解决,GRU门控循环单元故障诊断(Matlab) 专栏介绍 订阅【故障诊断】专栏,不定期更新机器学习和深度学习在故障诊断中的应用;订阅

opencv#40 图像细化

图像细化原理 作用&#xff1a;图像细化是将图像的线条从多像素宽度减少到单位像素宽度的过程&#xff0c;又被称为“骨架化”&#xff0c;删除像素点的标准&#xff1a; 通常情况下&#xff0c;我们使用二值化图像&#xff0c;我们在判断是否要删除某些像素点时&#xff0c;要…