关于统一事件管理,一定有你想知道的(二)

news2024/11/17 8:41:48

本文部分内容来源于布博士----擎创科技资深产品专家

哈喽~又见面啦~ 上期内容我们说到了事件以及事件管理,戳这里一键恢复上期精彩内容:关于统一事件管理,一定有你想知道的(一)

这期主要带大家看看事件管理是怎么运用到现实生活中的,主要包括以下两个方面内容(*温馨提示:本次分享干货较多,篇幅较长,感兴趣的朋友可以先马后看,谨防丢失):

一、事件管理的应用场景

二、如何进行统一事件管理

一、事件管理的应用场景

1.智能运维 AIOps

智能事件管理整合 IT 监控工具告警信息,智能化降低 95% 告警噪音,自动化事件管理流程,加强团队协作,加速故障定位和修复,将业务影响降到最低。

2. 安全信息事件管理 SIEM

汇聚企业内、外部安全事件,通过规则引擎和事件流处理引擎,实时洞察安全风险,并利用灵活的事件处置流程,帮助团队主动应对安全事故。

3. 物联网应用 Internet of Things

将智能设备、传感器的事件信息在物联网边缘节点和核心节点实时进行汇总、加工,通过事件流式处理,捕获和发现新的数据模型,挖掘更多高价值应用场景。

4. 业务分析 Business Analysis

打通业务运营和 IT支撑的数据边界,从系统中实时获取更多的业务数据,帮助团队对影响业务的事件做出快速、正确的反应。在危机时刻,掌控混乱局面。

从以上场景中,我们不难发现统一事件管理运用的广泛性。那统一事件管理是如何运用到日常场景中的呢?我将通过以下3个不同规模的案例来说明。

案例1:单一用户服务事件

某银⾏的私⼈银⾏中⼼经理张正在尝试登录银⾏的私⼈银⾏系统,以查看他所分配到的客户名单中近期是否有拜访安排。然⽽,他的访问认证没有通过,尽管尝试了重置密码,但仍然无法登录,于是他联系了IT服务台。

IT服务台经理⼩王获取了张经理的详细信息并验证了他是否是该银⾏的私⼈银⾏中⼼经理。验证通过后,⼩王登录私⼈银⾏系统管理员模块并检查了张经理的个人资料以及相关配置。结果发现,由于调岗的原因,个⼈资料中的某些更改没有正确执⾏,导致了错误。

⼩王针对这些更改进行了触发并重新执⾏。然后张经理重新尝试登录,并成功地登录了系统。⼩王关闭了⼯作台上的事件记录,同时系统向张经理发送了满意度调查。张经理非常满意,给⼩王打了5星的好评。

⼩王继续检查私⼈银⾏系统相关的更改情况,其他⼈的更改都已经正常运⾏。⼩王确认“不需要创建⼯单”。

案例2:多⽤户服务事件

IT服务台李经理注意到最近电话数据增加,且基本上都接到了同样的事件:⼿机转账⻓时间没有响应。同时从告警操作台的值班经理处知道了某业务系统的数据库错误,他们正在处理该问题的消息。

李经理评估这是⼀个重要的服务事件,他⽴即登录ITSM系统发布了⼿机转账问题的⼀个公告,并⽴即创建了⼀个事件⼯单,要求有团队收集到的与该问题相关的事件(包括IT服务台和统⼀事件管理平台的告警⼯作台)关联起来,以便集中进⾏管理,⽽不需要浪费重复的资源分别进⾏处理。

10分钟后,李经理收到了从IT经理那⾥得到的最新消息,该系统现在恢复运⾏,因此他重新要求IT服务台的多名值班⼈员验证⼿机转账业务,确认他们已经恢复正常,并关闭了⼯单。

最后,他在ITSM系统中重新更新了公告的内容。

案例3:重⼤IT服务事件

"不好了!",NOC 值班⼯程师⼩李惊呼道。

统⼀事件管理平台的告警⼯作台发现告警⻛暴,屏幕上不断有新的告警涌现。⼤量的虚拟机出现了宕机情况,这意味着要么是核⼼交换机出现故障,要么是虚拟机管理程序出现问题。

⼩李在 ITSM 系统上登录了该事件,并将其定义为重⼤事件。他联系了云管理员和⽹络管理员并召开了会议。

作为⼀家公有云服务商,公关经理也需要参与进来,因为她需要实时了解事件的情况、严重性、影响范围等,并需要及时通知客户以应对该事件可能造成的舆论压⼒。

云管理员很快发现这是虚拟机管理程序上的⼀个错误造成的。他们⽴即电话联系了虚拟机管理程序的供应商。同时,云管理员将该事件的优先级调整为最⾼。

由于越来越多的虚拟机出现问题,电话涌⼊呼叫中⼼,CEO 也亲⾃介⼊,并亲⾃打电话给受影响的⼤客户。此时供应商还没有尽快响应该事件,但是 CTO 已经触发了应急响应,该事件在 2 ⼩时内得到解决。

接下来的⼀段时间⾥,CTO 组织进⾏了事件复盘,以查明事件的根本原因,供应商也参与其中。形成事件报告,针对报告的内容会发起⼀系列的研发、测试及变更计划,以确保此类事件不会再次发⽣。

二、如何进行统一事件管理

从3个不同规模的⽰例中可以看出,在进⾏事件或应急响应的过程中,为了满⾜客户的服务需求,IT团队将按照以下最佳实践的过程执⾏各种活动,主要包括:

1.检测事件

事件检测通常包括以下三种⽅式:

  • ⽤户报告问题,⽽服务台的值班⼈员将验证是否为事件。

  • 紧急程度,取决于对客户SLA的承诺,即恢复服务的速度。

  • 优先级,针对不同的业务或客户影响,哪些应该优先被处理。

2.记录事件

⼀般情况下,事件的记录是通过系统来完成的,这些系统提供了对历史事件的管理、总结及分析的能⼒,包括:

  • 呼叫中⼼系统:外部客户⼀般通过电话联系呼叫中⼼系统,客户服务⼈员负责在此记录客户的问题。

  • IT⼯作台:内部⽤户进⾏问题报障时通常会访问IT⼯作台。

  • 监控系统:为了⾃动化监控并发现系统的潜在问题,会对服务和相关的服务组件进⾏监控,以发现异常。

  • 统⼀事件管理平台:会统⼀收集不同监控系统产⽣的异常,并及时同步针对呼叫中⼼系统、IT⼯作台的⽤户及客户报障⾄统⼀事件管理平台,进⾏统⼀的管理。

  • ITSM系统:如果事件被确认属于重⼤事件,需要留存,则需要事后在ITSM系统中创建事件单,以备审计。

3.事件分类

在事件分类阶段,主要根据以下内容对事件进⾏分类:

  • 属于什么类型:如硬件故障、软件故障、⽹络故障或其它。

  • 影响程度及范围:如对哪些业务、客户造成了影响。

  • 紧急程度:取决于对客户SLA的承诺,即恢复服务的速度。

  • 优先级:针对不同的业务或客户影响,哪些应该优先被处理。

分类有助于:

加速对事件的识别及处置效率;有效识别谁应该对该事件负责;降低事件处置成本。

4.诊断事件

事件诊断的核⼼在于确定出了什么问题,以及针对该问题恢复正常服务的最快⽅法。

如果事件之前已经发⽣过且已经命中了事件模型,则可以由⼀线⼈员直接进⾏诊断即可。但是,对于更复杂或之前没有发⽣过的事件,则需要跨职能团队或由⼆线的专家进⾏联合调查。

5.解决事件

事件的解决是指诊断完成之后,针对该事件的解决⽅案,包括临时修复解决⽅案和永久修复解决⽅案。⼀般在应急及事件处置过程中不追求永久修复,⽽是希望在最短的时间内通过⼀系列的操作尽快恢复⽣产。主要的操作包括以下⼏种 :

  • ⾃动实施:⼀般是根据事先定义的已知事件模型,完成对事件的⾃动解决、⾃动恢复,不需要⼈⼯诊断和处置,全部有⾃动化来完成。

  • 记录下来供运维⼯程师⾃⾏解决:⼀般会根据事件模型或系统分析结果给出处置的建议,由运维⼯程师进⾏决策,并最终通过⼈⼯的操作来完成恢复过程。针对⼀些复杂场景,也可以请⽀持团或供应商来提供相应的解决⽅案,由运维⼯程师来执⾏操作过程。

6.关闭事件

⼀旦事件得到解决,就需要对该事件进⾏正式关闭。关闭需要完成以下动作:

  • 与⽤户、客户或其他管理层及利益相关者沟通,告知业务服务已经恢复正常。

  • 根据需要,更新CMDB的配置信息,例如为了恢复业务⽽增加了数据库集群的规模。

  • 更新计费,例如内外部⼈⼒的投⼊、增加新的服务器等。

7.事后复盘

事后复盘往往被许多组织所忽略,但其是进⾏知识总结、优化监控、优化事件处置、优化现有事件及应⽤流程必不可少的重要环节。

事件复盘⼀般在事件发⽣后5个⼯作⽇内完成,在这⼀环节⼀定要设置审查岗,详细审查运维⼯程师针对事件处置的总结报告,报告主要内容包括:

  • 报告⽇期

  • 报告负责⼈

  • 事件概述:通过⼀两句简短的话,简述事件以及根本原因、发⽣时间和造成的影响。如,2023.8.5⽇上午9:25,由于数据库故障,造成故障时段约20%的交易出现响应时间变⻓,影响了⽤户使⽤体验,持续时间约15分钟,严重等级为“主要”。

  • 事件详情:①详细描述发生了什么事件?②针对该问题的根本原因是什么?③针对该问题的临时解决⽅案(为了尽快恢复业务,⽽制定的快速恢复解决⽅案)?④针对该问题的永久解决方案。

  • 造成的影响:针对业务、对客户、对交易等造成的影响,严重等级。

  • 时间线:为了保障SLA,需要详细记录发现时间、通知负责⼈时间、响应时间、解决时间、关闭时间等,主要参照企业内部的相应考核标准以及对最终⽤户的承诺标准。

  • 参与⼈员(应急及事件场景不同参与⼈员会有所不同):①事件指挥官。②记录员。③联络员。④其他参与⼈:如不同领域的专家、开发或测试等。

  • 针对该事件我们是如何响应的:①做的好的地⽅:⽐如在之前的应急及事件响应过程中我们从来没有使用过的流程、⽅法、技术等,这些可以⼤⼤改善事件响应时效的。②做得不好的地⽅:⽐如在响应过程中我们发现现有的流程或⽅法针对特定的环节会造成阻⼒,需要加以改善。

  • 后续⾏动计划

完善任何必要的修复措施,以防⽌类似的问题未来再次发⽣。如:

①针对特定的指标监控太敏感了,需要在监控源做⼀些调整;由于程序的BUG引起,同⼯程研发团队⼀起制定BUG修复计划,并进⼊排期

②如果不能永久性修复,当再次发⽣类似的事件时,我们是否可以通过⾃动化⼿段快速修复。如:针对特定的告警,可以配置规则和⾃动修复脚本,当再次发⽣时,可以⾃动修复,⽽⽆需⼈⼯⼲预。

③针对现有的流程做优化,以提⾼响应的效率

好啦,以上是本次分享的全部内容了,如果还有关于统一事件管理的任何问题,欢迎评论区留言探讨~


擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。

 行业龙头客户的共同选择

​了解更多运维干货与技术分享

可以右上角一键关注

我们是深耕智能运维领域近十年的

连续多年获Gartner推荐的AIOps标杆供应商

下期我们不见不散~ 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/888856.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

spring官方文档浅翻译(1)

文章目录 IOC容器IOC容器和beans的介绍实例化 BeanBeanFactory:ApplicationContext 容器概述配置元数据实例化容器组合基于xml的配置元数据使用容器 bean的概述命名bean别名的使用 实例化bean构造函数实例化静态工厂实例化实例工厂方法bean 在运行时的实际类型 依赖…

学习笔记|基于Delay实现的LED闪烁|模块化编程|SOS求救灯光|STC32G单片机视频开发教程(冲哥)|第八集:实现LED闪烁(下)

文章目录 2 函数的使用1.函数定义(需要带类型)2.函数声明(需要带类型)3.函数调用 3 新建文件,使用模块化编程新建xxx.c和xxx.h文件xxx.h格式:调用头文件验证代码调用:完整的文件结构如下&#x…

使用 RHEL 系统角色

使用 RHEL 系统角色 安装 RHEL 系统角色软件包,并创建符合以下条件的 playbook /home/curtis/ansible/selinux.yml : 在所有受管节点上运行 使用 selinux 角色 将角色配置为以强制执行状态使用SELinux yum install rhel-system-roles.noarch su - curti…

七夕送礼指南:这几款礼物不仅颜值高而且非常实用

七夕又被称为“乞巧节”,相传这一天是牛郎织女一年一度的相会日,所以在这个浪漫的节日里,很有多的恋人也会不远万里来相见,在这个浪漫的日子里,送礼物是表达心意和爱意的重要方式,那么,面对琳琅…

前端练手小项目--自定义时间(html+css+js)

自定义时间 写文章的因 关于要写这篇文章的原因 是记录在工作上遇到的困难需求,是希望能给大家提供一些解决问题的思路 接下来我描述这个需求的多样性,难点在哪。 勾选勾选框开始时间与结束时间默认显示昨天与今天。取消勾选框开始时间与结束时间清空。…

element+vue 表格行拖拽功能

解决方案 使用 sortable.js 步骤一&#xff1a; 安装 npm install vuedraggable步骤二&#xff1a;引入 import Sortable from sortablejs;步骤三&#xff1a; el-table 添加row-key属性&#xff0c;外层包一层 sortableDiv <div class"sortableDiv"> 拖…

IDEA【java.sql.SQLSyntaxErrorException: ORA-00904: “P“.“PRJ_NO“: 标识符无效】

IDEA报错如下&#xff1a; 2023-08-17 11:26:15.535 ERROR [egrant-biz,b48324d82fe23753,b48324d82fe23753,true] 24108 --- [ XNIO-1 task-1] c.i.c.l.c.RestExceptionController : 服务器异常org.springframework.jdbc.BadSqlGrammarException: ### Error queryin…

Docker 的基本概念和优势,在应用程序开发中的实际应用。

Docker是一个开源的容器化平台&#xff0c;让开发者能够轻松地打包、运输和运行应用程序。其基本概念包括&#xff1a; 镜像(Image)&#xff1a;一个镜像是一个只读的软件包&#xff0c;它包含了运行应用所需的所有代码、库文件、环境变量和配置文件等。 容器(Container)&…

docker之简介与安装

环境配置问题 没有虚拟机&#xff0c;我们往往是打包代码发给对方&#xff0c;然后让对方安装相应的环境&#xff0c;比如node、数据库&#xff0c;要是配置不同&#xff0c;项目很有可能无法运行&#xff0c;还会报错&#xff0c;如果多个人想要运行这份代码&#xff0c;那还得…

手撸一个简单的Tomcat,延伸`SpringMvc`的原理

为什么写这篇文章 一直以来都说tomcat是用的java写的&#xff0c;但是也是不明白到底是怎么弄的&#xff0c;最近有个机会搞明白了&#xff0c;特此记录&#xff0c;可以使得更懂tomcat的原理 用java写一个java的运行程序&#xff0c;听着就很酷&#xff0c;你觉得呢&#xf…

多模态分割医学数据集小调研

QaTa-COV19 V1&#xff1a; 该数据集由4603张COVID-19胸部x光片组成;该数据集首次包含了用于COVID-19感染区域分割任务的真值分割掩码。加上对照组的胸部x光片&#xff0c;QaTa-COV19由120,968张图像组成。图像位于“QaTa-COV19/ images /”文件夹下&#xff0c;ground-truth分…

selector.replaceAll is not a function报错问题

个人项目地址&#xff1a; SubTopH前端开发个人站 &#xff08;自己开发的前端功能和UI组件&#xff0c;一些有趣的小功能&#xff0c;感兴趣的伙伴可以访问&#xff0c;欢迎提出更好的想法&#xff0c;私信沟通&#xff0c;网站属于静态页面&#xff09; SubTopH前端开发个人站…

Leetcode49. 字母异位词分组

给你一个字符串数组&#xff0c;请你将 字母异位词 组合在一起。可以按任意顺序返回结果列表。 字母异位词 是由重新排列源单词的所有字母得到的一个新单词。 解题思路&#xff1a;计数 思路&#xff1a;题意是字符串的字符都是小写&#xff0c;可以对每个字符串统计其中字符的…

什么是公网、私网、内网、外网?

中午好&#xff0c;我的网工朋友。 最近经常有很多小白朋友在问&#xff0c;公网、私网、内网、外网&#xff0c;这些的概念是啥样的&#xff0c;又该怎么去界定。 关于IP地址&#xff0c;确实没有太明确的区分&#xff0c;其实也不必太过咬文嚼字。 内网、外网就是一个参考…

SAP复杂表格转换为JASON格式的例子

分享一个三层表格转换伙JASON格式的例子&#xff0c;代码如下。 REPORT zjason_test. "// 定义 DATA: lv_json TYPE string.DATA: BEGIN OF ls_detail_l3,code_l3 TYPE string,name_l3 TYPE string,age_l3 TYPE string,END OF ls_detail_l3,lt_detail_l3 LIKE TABLE OF…

SSO单点登录(SpringSecurity OAuth2.0 redis mysql jwt)

SSO单点登录 什么是单点登录 SSO(Single Sign On) 在多系统架构中&#xff0c;用户只需要一次登录就可以无需再次登录(比如你在打开淘宝之后点击里边的天猫) 在以前我们的单系统中,用户如果登录多个服务需要多次登录&#xff0c;实现单点登录之后&#xff0c;可以实现一次登录…

Qt:隐式内存共享

隐式内存共享 Many C classes in Qt use implicit data sharing to maximize resource usage and minimize copying. Implicitly shared classes are both safe and efficient when passed as arguments, because only a pointer to the data is passed around, and the data i…

K8s实战4-使用Helm在Azure上部署Ingress-Nginx和Tokengateway

手动发布Ingress-Nginx 1 登录到aks(dfinder-gw-aks) az login az account set --subscription ${sub ID} az aks get-credentials --resource-group ${groupname} --name ${aks name} 2 下载 ingress-nginx-4.2.5.tgz curl -LO https://github.com/kubernetes/ingress-ngi…

Hyper-V增加桥接网络设置(其他方式类同)

点击连接到的服务器&#xff0c;右单击或者右边点击“虚拟交换机管理器” 选择网络种类 配置虚拟交换机信息 外部网络选择物理机网卡设备

CS1988|C#无法在异步方法中使用ref,in,out类型的参数的问题

CS1988|C#无法在异步方法中使用ref,in,out类型的参数 &#x1f300;|场景&#xff1a; BlazorServer的场景中推荐使用异步方法&#xff0c;使用ref,out,in为参数前缀则报错CS1988 原因如下: ref parameters are not supported in async methods because the method may not h…