一、案例背景
2023年5月的某天,某农村商业银行的运维团队在进行每月例行的系统巡检时,遭遇了一次突发的运维事故。当天晚上21:00,系统运行一切正常,交易量稳定在每分钟约5000笔,平均响应时间维持在200毫秒左右。10分钟后,监控系统突然发出告警,显示历史库交易量从每分钟5000笔骤降至1500笔,降幅高达70%。与此同时,平均响应时间从200毫秒飙升至1200毫秒,增幅达500%。
通过快速排查,团队发现问题集中在特定的IP(172.251.32.143)通路中。就在运维团队着手进一步调查时,系统又发出新的告警,提示电子渠道整合平台(A级)出现了与历史库相关的告警信息。
二、故障定位回顾
面对突发的事故,运维团队采用了从底层硬件到上层应用的多维度排查方法。
最终发现这次事故的根因主要集中在两个系统:B级历史库系统和A级电子渠道整合平台。具体影响如下:
-
各渠道访问历史库的交易中,有1889笔出现超时情况。
-
在问题发生的5分钟内,系统的整体访问成功率下降到了95%,比正常时期的99.99%有明显下滑。
-
影响了约3500名用户的交易体验,其中包括780笔工资查询交易和1200笔转账交易。
这次事故虽然持续时间短,但由于发生在业务高峰期,其影响不容忽视。它不仅暴露了系统在高负载下的健壮性问题,也凸显了现有监控和快速响应机制的不足。
三、总结分析
此类事故在金融行业的日常生产运营工作中并不少见,擎创作为老牌运维解决方案提供商,结合过往实践经验提出以下建议。
1.监控系统的全面性和可观测性有待提高
虽然系统能够在问题发生时及时报警,但需要能以应用和业务为驱动来发现和观测故障。如果运维人员能第一时间知道是哪些业务路径发生故障,可能会为处理问题赢得更多时间。
2.问题定位的速度需要进一步提升
尽管团队能够在系统自动恢复后找到根因,但在问题发生的5分钟内,并没有能够及时定位和解决问题。
3.引入智能可观测系统
擎创夏洛克智能可观测中心,提供了以运维对象为核心的一体化观测分析能力,通过统一数据模型,把指标、日志、调用链等多领域的数据有机的组织在一起,结合智能运维算法,帮助用户提高故障发现、处置、以及定位的效率运维,提高系统的稳定性,保障业务的连续性。其中包括智能告警、故障聚类、根因诊断、业务场景分析等功能。
①快速提供根因诊断:提供路径诊断及多维诊断两种方式
其中路径诊断对于该事故就十分适用,它可以通过有向图寻找报错根源,定位故障根因以 及对业务路径的影响范围,适用于特定路径或业务的报错诊断;而多维诊断则通过决策树分析故障所在维度,适用于故障聚集性诊断,即突发大量的故障情况等。
夏洛克智能可观测中心-根因诊断
②业务场景监控
以业务目标为核心,根据当下生产运营现状提供对应的场景监控,实时监控业务条线场景下的交易码依赖关系,分析请求报错趋势,针对故障可以完成快速根因定位。
夏洛克智能可观测中心-业务场景分析
擎创一体化数智运维解决方案可以根据客户当下运维建设情况,因地制宜的提供对应的建设规划,全面提升系统的稳定性和可靠性,最大限度地减少类似事故的发生,助力业务的运营一帆风顺。
擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司专注于通过提升企业客户对运维数据的洞见能力,为运维降本增效,充分体现科技运维对业务运营的影响力。
。
擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司专注于通过提升企业客户对运维数据的洞见能力,为运维降本增效,充分体现科技运维对业务运营的影响力。
行业龙头客户的共同选择
了解更多运维干货与行业前沿动态
可以右上角一键关注
我们是深耕智能运维领域近十年的
连续多年获Gartner推荐的AIOps标杆供应商
下期我们不见不散~