AIOps案例 | 历史库异常,如何快速响应与优化?

news2024/11/26 15:27:11

一、案例背景

2023年5月的某天,某农村商业银行的运维团队在进行每月例行的系统巡检时,遭遇了一次突发的运维事故。当天晚上21:00,系统运行一切正常,交易量稳定在每分钟约5000笔,平均响应时间维持在200毫秒左右。10分钟后,监控系统突然发出告警,显示历史库交易量从每分钟5000笔骤降至1500笔,降幅高达70%。与此同时,平均响应时间从200毫秒飙升至1200毫秒,增幅达500%。

通过快速排查,团队发现问题集中在特定的IP(172.251.32.143)通路中。就在运维团队着手进一步调查时,系统又发出新的告警,提示电子渠道整合平台(A级)出现了与历史库相关的告警信息。

二、故障定位回顾

面对突发的事故,运维团队采用了从底层硬件到上层应用的多维度排查方法。

最终发现这次事故的根因主要集中在两个系统:B级历史库系统和A级电子渠道整合平台。具体影响如下:

  1. 各渠道访问历史库的交易中,有1889笔出现超时情况。

  2. 在问题发生的5分钟内,系统的整体访问成功率下降到了95%,比正常时期的99.99%有明显下滑。

  3. 影响了约3500名用户的交易体验,其中包括780笔工资查询交易和1200笔转账交易。

这次事故虽然持续时间短,但由于发生在业务高峰期,其影响不容忽视。它不仅暴露了系统在高负载下的健壮性问题,也凸显了现有监控和快速响应机制的不足。

三、总结分析

此类事故在金融行业的日常生产运营工作中并不少见,擎创作为老牌运维解决方案提供商,结合过往实践经验提出以下建议。

1.监控系统的全面性和可观测性有待提高

虽然系统能够在问题发生时及时报警,但需要能以应用和业务为驱动来发现和观测故障。如果运维人员能第一时间知道是哪些业务路径发生故障,可能会为处理问题赢得更多时间。

2.问题定位的速度需要进一步提升

尽管团队能够在系统自动恢复后找到根因,但在问题发生的5分钟内,并没有能够及时定位和解决问题。

3.引入智能可观测系统

擎创夏洛克智能可观测中心,提供了以运维对象为核心的一体化观测分析能力,通过统一数据模型,把指标、日志、调用链等多领域的数据有机的组织在一起,结合智能运维算法,帮助用户提高故障发现、处置、以及定位的效率运维,提高系统的稳定性,保障业务的连续性。其中包括智能告警、故障聚类、根因诊断、业务场景分析等功能。

①快速提供根因诊断:提供路径诊断及多维诊断两种方式

其中路径诊断对于该事故就十分适用,它可以通过有向图寻找报错根源,定位故障根因以 及对业务路径的影响范围,适用于特定路径或业务的报错诊断;而多维诊断则通过决策树分析故障所在维度,适用于故障聚集性诊断,即突发大量的故障情况等。

洛克智能可观测中心-根因诊断

②业务场景监控

以业务目标为核心,根据当下生产运营现状提供对应的场景监控,实时监控业务条线场景下的交易码依赖关系,分析请求报错趋势,针对故障可以完成快速根因定位。

夏洛克智能可观测中心-业务场景分析

擎创一体化数智运维解决方案可以根据客户当下运维建设情况,因地制宜的提供对应的建设规划,全面提升系统的稳定性和可靠性,最大限度地减少类似事故的发生,助力业务的运营一帆风顺。

擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司专注于通过提升企业客户对运维数据的洞见能力,为运维降本增效,充分体现科技运维对业务运营的影响力。

 。

擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司专注于通过提升企业客户对运维数据的洞见能力,为运维降本增效,充分体现科技运维对业务运营的影响力。

  行业龙头客户的共同选择

了解更多运维干货与行业前沿动态

可以右上角一键关注

我们是深耕智能运维领域近十年的

连续多年获Gartner推荐的AIOps标杆供应商

下期我们不见不散~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2187437.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

15分钟学 Python :编程工具 Idea 和 vscode 中配置 Python ( 补充 )

编程工具配置 Python 在 IDE 和 VSCode 中 在编程学习的过程中,选择合适的开发工具至关重要。本文将详细介绍在两种流行的IDE(IntelliJ IDEA 和 Visual Studio Code)中如何配置Python环境,帮助你更高效地进行Python开发。 一、编…

【Linux】基础指令 1

Linux中各个指令是相互联系的,所以一开始学习Linux时,对指令很陌生是正常的,不用花费大量的时间去刻意的记忆,在我们一次次的使用当中,这些指令自然会烂熟于心。 简单看看各个指令的功能 ls指令 显示当前目录下的文…

学会使用maven工具看这一篇文章就够了

文章目录 概述一、定义与功能二、核心组件三、主要作用四、仓库管理 settings.xml说明一、文件位置与优先级二、主要配置元素三、配置示例 pom.xml文件说明一、pom.xml的基本结构二、pom.xml的主要元素及其说明三、依赖管理四、常用插件五、其他配置 maven安装配置一、下载Mave…

12.数据结构和算法-栈和队列的定义和特点

栈和队列的定义和特点 栈的应用 队列的常见应用 栈的定义和特点 栈的相关概念 栈的示意图 栈与一般线性表有什么不同 队列的定义和特点 队列的相关概念

创建一个Java Web API项目

创建一个Java Web API涉及多个步骤和技术栈,包括项目设置、依赖管理、数据访问层实现、业务逻辑实现、控制层开发以及测试和部署。在这篇详解中,我将带领你通过一个完整的Java Web API实现流程,采用Spring Boot和MyBatis-Plus作为主要技术工具…

redis高级篇 抢红包案例的设计以及分布式锁

一 抢红包案例 1.1 抢红包 二倍均值算法: M为剩余金额;N为剩余人数,公式如下: 每次抢到金额随机区间(0,(M/N)*2) 这个公式,保证了每次获取的金额平均值…

文心一言 VS 讯飞星火 VS chatgpt (360)-- 算法导论24.3 2题

二、请举出一个包含负权重的有向图,使得 Dijkstra 算法在其上运行时将产生不正确的结果。为什么在有负权重的情况下,定理 24.6 的证明不能成立呢?定理 24.6 的内容是:Dijkstra算法运行在带权重的有向图 G ( V , E ) G(V,E) G(V,E…

高炉计算笔记

一、总体概述 热风炉是一种重要的工业热能设备,通过燃烧燃料将水加热为蒸汽,用于驱动各种设备。在热风炉的运行过程中,烟气量是一个重要的参数,表示热风炉内燃料的利用率及运行效率。烟气量的计算公式如下: Q α Q…

Stream流的终结方法(二)——collect

1.Stream流的终结方法 2. collect方法 collect方法用于收集流中的数据放到集合中去,可以将流中的数据放到List,Set,Map集合中 2.1 将流中的数据收集到List集合中 package com.njau.d10_my_stream;import java.util.*; import java.util.f…

Leetcode—560. 和为 K 的子数组【中等】(unordered_map)

2024每日刷题&#xff08;166&#xff09; Leetcode—560. 和为 K 的子数组 C实现代码 class Solution { public:int subarraySum(vector<int>& nums, int k) {unordered_map<int, int> mp{{0, 1}};int ans 0;int prefix 0;for(int i 0; i < nums.size…

深度学习----------------------------编码器、解码器架构

目录 重新考察CNN重新考察RNN编码器-解码器架构总结编码器解码器架构编码器解码器合并编码器和解码器 重新考察CNN 编码器&#xff1a;将输入编码成中间表达形式&#xff08;特征&#xff09; 解码器&#xff1a;将中间表示解码成输出。 重新考察RNN 编码器&#xff1a;将文…

(11)MATLAB莱斯(Rician)衰落信道仿真2

文章目录 前言一、莱斯衰落信道仿真模型二、仿真代码与结果1.仿真代码2.仿真结果画图 三、后续&#xff1a;四、参考文献&#xff1a; 前言 首先给出莱斯衰落信道仿真模型&#xff0c;该模型由直射路径分量和反射路径分量组成&#xff0c;其中反射路径分量由瑞利衰落信道模型构…

水下垃圾识别数据集支持yolov5、yolov6、yolov7、yolov8、yolov9、yolov10总共3131张数据训练集1886张带标注的txt文件

水下垃圾识别数据集 支持yolov5、yolov6、yolov7、yolov8、yolov9、yolov10 总共3131张数据 训练集1886张 带标注的txt文件 水下垃圾识别数据集介绍 数据集名称 水下垃圾识别数据集 (Underwater Trash Detection Dataset) 数据集概述 该数据集专为训练和评估基于YOLO系列目…

【一文理解】conda install pip install 区别

大部分情况下&#xff0c;conda install & pip install 二者安装的package都可以正常work&#xff0c;但是混装多种package后容易版本冲突&#xff0c;出现各种报错。 目录 检查机制 支持语言 库的位置 环境隔离 编译情况 检查机制 conda有严格的检查机制&#xff0c…

python-线程与进程

进程 程序编写完没有运行称之为程序。正在运行的代码&#xff08;程序&#xff09;就是进程。在Python3语言中&#xff0c;对多进程支持的是multiprocessing模块和subprocess模块。multiprocessing模块为在子进程中运行任务、通讯和共享数据&#xff0c;以及执行各种形式的同步…

【Java数据结构】 链表

【本节目标】 1. ArrayList 的缺陷 2. 链表 3. 链表相关 oj题目 一. ArrayList的缺陷 上节课已经熟悉了ArrayList 的使用&#xff0c;并且进行了简单模拟实现。通过源码知道&#xff0c; ArrayList 底层使用数组来存储元素&#xff1a; public class ArrayList<E>…

探索Spring Boot:实现“衣依”服装电商平台

1系统概述 1.1 研究背景 如今互联网高速发展&#xff0c;网络遍布全球&#xff0c;通过互联网发布的消息能快而方便的传播到世界每个角落&#xff0c;并且互联网上能传播的信息也很广&#xff0c;比如文字、图片、声音、视频等。从而&#xff0c;这种种好处使得互联网成了信息传…

深入理解 CSS 浮动(Float):详尽指南

“批判他人总是想的太简单 剖析自己总是想的太困难” 文章目录 前言文章有误敬请斧正 不胜感恩&#xff01;目录1. 什么是 CSS 浮动&#xff1f;2. CSS 浮动的历史背景3. 基本用法float 属性值浮动元素的行为 4. 浮动对文档流的影响5. 清除浮动clear 属性清除浮动的技巧1. 使用…

从零开始讲PCIe(1)——PCI概述

一、前言 在之前的内容中&#xff0c;我们已经知道了PCIe是一种外设总线协议&#xff0c;其前身是PCI和PCI-X&#xff0c;虽然PCIe在硬件上有了很大的进步&#xff0c;但其使用的软件与PCI系统几乎保持不变。这种向后兼容性设计&#xff0c;目的是使从旧设计到新设计的迁移更加…

【QGis】生成规则网格/渔网(Fishnet)

【QGis】生成规则网格/渔网&#xff08;Fishnet&#xff09; QGis操作案例参考 QGIS下载安装及GIS4WRF插件导入可参见另一博客-【QGIS】软件下载安装及GIS4WRF插件使用。 QGis操作案例 1、加载中国省级边界&#xff0c;QGis界面如下&#xff1a; 查看坐标系&#xff1a; 如…