服务案例|基于IT事件管理,提升业务连续性

news2024/11/15 11:09:26

数字化经济时代,IT架构复杂性越来越高,业务连续性成为很多行业或企业最核心的任务。业务连续性管理是一个不断提升的过程,围绕事件“发现-响应-定位处理-降低发生”的事件处理思路,结合平台化运维,助力业务快速提升。

我们将具体事件从监控、调查、上报和响应几个环节来处理。即当平台监控发现异常,进行事件优先级分类,判断事件处理的紧迫性,分析事件影响造成破坏程度,然后进行事故调查与诊断,快速定位识别问题,联系现场工程师最终解决问题,事件流程结束。

围绕事件提升业务连续性的优势在于:主动快速处理使业务恢复正常,将影响降至最低。流程闭环提高用户满意度,最大程度降低事件处理成本。下面我们来看案例的处理过程。

一、问题发现

夜间服务器在飞速运转,主要进行流程审批、数据库备份、报表统计这类定时、耗时的工作。夜间无人值守的机房,加上高速飞转的服务器,很容易触发故障。

2月1日凌晨4:40分,平台接到某服务器ping不通告警,检测到此服务器发生死机现象。这台服务器已经连续发生几次夜间死机故障。

二、问题分析定位

根据时序图,协助服务器管理工程师查找故障发生的具体原因。查看4:40分前后,CPU,内存和虚拟内存,磁盘使用等运维参数如下

1 CPU没有异常,空闲率达到70%以上

 

2、可用内存22.28G,充足

 

3、虚拟内存使用率只有0.49%

 

4、硬盘剩余可用空间充足、

 

5、网络输出输入数据也是正常

 

6、在4:40-6:48左右,ping不通,服务器已发生死机。4:40-6:48之间的服务器运行指标参数没有上传

 

7、从服务器发生死机前和重启后的运维参数看,服务器的资源配置充足,并非是资源争用导致死机。

8、查看服务器运行日志,服务器并没有自动进行打补丁更新,但是组策略配置有告警生成

平台未接到安全攻击告警,也未接收到硬件故障告警,首先排除病毒攻击;硬件故障,服务器资源匮乏,且近期应用软件未升级、变更,其次则排除软件问题。最后锁定操作系统问题。服务器管理工程师对操作系统进行了打补丁升级处理。后期持续对这台服务器进行重点监控,未产生故障,问题得到解决。

服务器宕机,可能导致客户无法访问,业务中断造成巨大的经济损失;也可能影响数据备份,导致数据丢失;夜间无人值守,故障重启等问题不易察觉,LinkSLA智能运维管家不仅能够及时监测到服务器故障,第一时间进行反馈,可以根据历史运维指标数据,进行分析,协助用户查找出故障的根本原因,从根本上解决问题。

四、总结

除了实时发现告警,及时处理,流程闭环外,还需加强问题管理以及自动巡检服务出发,从源头上降低故障事件发生。

基于业务系统的多样性,还可为业务发展提供依据,通过一段时间的监控数据累积,利用监控系统提供的报表功能对数据进行统计处理,帮助用户做系统升级决策,如是否需要采购新硬件、是否需要新增系统节点等。另外,还可以利用系统的监控大屏功能,对系统的整体健康状况做到一目了然,做到资源、业务的可视化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/377240.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

leetcode-每日一题-1144(中等,贪心,数学)

这道题说实话理清楚的话很简单,就是很容易绕进去,刚开始绕进去了很难受,解了半天才出来。。。。给你一个整数数组 nums,每次 操作 会从中选择一个元素并 将该元素的值减少 1。如果符合下列情况之一,则数组 A 就是 锯齿…

Pytest自动化测试框架-权威教程01-安装及入门

安装及入门Python支持版本: Python 2.6,2.7,3.3,3.4,3.5,Jython,PyPy-2.3支持的平台: Unix/Posix and WindowsPyPI包名: pytest依赖项: py,colorama (Windows)PDF文档: 下载最新版本文档Pytest是一个使创建简单及可扩展性测试用例变得非常方便的框架。测试用例清晰、易读而无需…

【离线数仓-9-数据仓库开发DWS层设计要点-DWS层汇总表以及数据装载】

离线数仓-9-数据仓库开发DWS层设计要点-DWS层汇总表以及数据装载离线数仓-9-数据仓库开发DWS层设计要点-DWS层汇总表以及数据装载一、交易域用户商品粒度订单最近1日/N日汇总表1.交易域用户商品粒度订单最近1日汇总表2.交易域用户商品粒度订单最近N日汇总表二、交易域优惠券粒度…

华为OD机试模拟题 用 C++ 实现 - 通信误码(2023.Q1)

最近更新的博客 【华为OD机试模拟题】用 C++ 实现 - 最多获得的短信条数(2023.Q1)) 文章目录 最近更新的博客使用说明通信误码题目输入输出示例一输入输出说明示例二输入输出说明Code使用说明 参加华为od机试,一定要注意不要完全背诵代码,需要理解之后模仿写出,

(二)Markdown编辑器的使用效果 | 以CSDN自带MD编辑器为例

Markdown编辑器使用指南 (一)Markdown编辑器的使用示例 | 以CSDN自带MD编辑器为例(二)Markdown编辑器的使用效果 | 以CSDN自带MD编辑器为例 这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题&#xf…

Hbase预分区参考

背景 我们都知道hbase的数据是分布在多台RegionServer角色的机器上的,每个RegionServer都有一到多个Region管理不同rowkey范围的数据,所以建表前通过合理的Region的分区及数量,可以避免热点读写问题和充分利用各RegionServer的资源,vmaster-h…

五、线程池

文章目录什么是线程池JDK自带的构建线程池的方式newFixedThreadPoolnewSingleThreadExecutornewCachedThreadPoolnewScheduleThreadPoolnewWorkStealingPoolThreadPoolExecutor应用&源码剖析为什么要自定义线程池ThreadPoolExecutor应用ThreadPoolExecutor源码剖析ThreadPo…

2023年3月北京/西安/广州/深圳DAMA-CDGA/CDGP数据治理认证报名

DAMA认证为数据管理专业人士提供职业目标晋升规划,彰显了职业发展里程碑及发展阶梯定义,帮助数据管理从业人士获得企业数字化转型战略下的必备职业能力,促进开展工作实践应用及实际问题解决,形成企业所需的新数字经济下的核心职业…

翻转链表专题

这个专题总共有四道题目 206 翻转链表 92 翻转链表某个区间(翻转链表||) 24 两个一组翻转链表 25 k个一组翻转链表 力扣206 翻转链表 其实就是头插法创建一个新链表 总共三个指针,dummy和head这两个指针是肯定是不用说的&#xff0c…

SRC挖掘之Access验证校验的漏洞挖掘

漏洞已修复,感谢某大佬的知识分享。 任意用户密码重置->可获取全校师生个人mingan信息 开局就是信息收集。 对于挖掘edu的信息收集 1.可尝试谷歌搜索语法,获取学号信息 2. 旁站的渗透获取 3. 学校的贴吧获取(大部分都是本校学生) 当然我就是闲&a…

什么是热部署?Spring Boot如何进行项目热部署?

在开发过程中,通常会对一段业务代码不断地修改测试,在修改之后往往需要重启服务,有些服务需要加载很久才能启动成功,这种不必要的重复操作极大降低了程序开发效率。为此,Spring Boot框架专门提供了进行热部署的依赖启动…

sql-labs-Less1

靶场搭建好了,访问题目路径 http://127.0.0.1/sqli-labs-master/Less-1/ 我最开始在做sql-labs靶场的时候很迷茫,不知道最后到底要得到些什么,而现在我很清楚,sql注入可以获取数据库中的信息,而获取信息就是我们的目标…

1.时间复杂度与空间复杂度

时间复杂度时间复杂度是用来估算算法运行时间的式子&#xff08;单位&#xff09;&#xff1b;一般来说&#xff0c;时间复杂度高的算法比时间复杂度低的算法慢&#xff1b;常见的时间复杂度&#xff08;按照算法运行所耗的时间排序&#xff09;O(1) < O(logn) < O(n) &l…

面试半年,总结了1000道2023年Java架构师岗面试题

半年前还在迷茫该学什么&#xff0c;怎样才能走出现在的困境&#xff0c;半年后已经成功上岸阿里&#xff0c;感谢在这期间帮助我的每一个人。 面试中总结了1000道经典的Java面试题&#xff0c;里面包含面试要回答的知识重点&#xff0c;并且我根据知识类型进行了分类&#xf…

Vue组件间通信方式超详细(父传子、父传后代、子传父、后代传父、兄弟组件传值)

一、父传子、父传后代 方式一&#xff1a;子通过props来接收 父组件&#xff1a;父组件引入子组件时&#xff0c;通过<child :parentValue "parentValue"></child>子组件传值。 备注&#xff1a;这种方式父传值很方便&#xff0c;但是传递给后代组件不…

高燃!GitHub上标星75k+超牛的Java面试突击版

前言不论是校招还是社招都避免不了各种面试。笔试&#xff0c;如何去准备这些东西就显得格外重要。不论是笔试还是面试都是有章可循的&#xff0c;我这个有章可循‘说的意思只是说应对技术面试是可以提前准备。运筹帷幄之后&#xff0c;决胜千里之外!不打毫无准备的仗,我觉得大…

电子科技大学软件工程期末复习笔记(四):软件设计

目录 前言 重点一览 软件工程设计 软件设计定义 软件设计包含的两类活动 软件设计包涵 软件的质量属性 各种设计技术 程序结构(深度、宽度、扇入、扇出) 完整的设计规格 软件体系架构 用户界面设计的3条原则 用户界面设计的3种分析 结构化设计方法 结构化程序设…

linux所需的pcre库和zlib库从网上下载的步骤

在linux服务器安装Nginx的时候需要下载一些依赖的库,其中就有pcre 和 zlib正常情况下执行如下命令就可以了yum install -y pcre pcre-develyum install -y zlib zlib-devel但是有时候会有各种原因报错,你可以选择去解决,也可以换个思路,那么我不从yum源下载了,直接从网上下载所…

PGLBox 超大规模 GPU 端对端图学习训练框架正式发布

作者 | PGLBox项目组 导读 PGLBox是百度研发的基于GPU的大规模图模型训练框架&#xff0c;支持数百亿节点和边的图模型全GPU训练&#xff0c;已在百度广泛部署。相比业界主流的分布式 CPU 解决方案&#xff0c;PGLBox 具有超高性能、超大规模、算法丰富、灵活易用、落地广泛等优…

springBoot 处理静态资源原理

springBoot是如何自动处理静态并映射静态资源的&#xff0c;直接上代码。 一、在springBoot autoconfigure jar包中&#xff0c;存在WebMvcAutoConfiguration 自动配置类&#xff0c;该类的生效条件是&#xff1a;存在Servlet ,DispatcheServlet ,WebMvcConfigurer这三个类…