本文部分内容来源于布博士----擎创科技资深产品专家
IT技术已经无处不在,各行各业都离不开它。无论是银行、券商、家庭、学校还是个人,都离不开IT技术。例如:
我们⼈与⼈之间社交的软件,如微信、QQ、陌陌、Facebook等。
银⾏通过IT技术为我们实现⾦融账户的管理、理财管理、计算理财产⽣收益等。
券商为我们提供针对股票的实时行情信息和股票交易的系统。
工业制造企业使⽤IT技术来实现ERP系统、财务管理系统等。
学校使⽤IT技术来管理学籍和图书。
生活中,我们通过美团等平台购买⾷品和订餐等服务。
…
这些我们看不⻅摸不着的“服务”在保障着我们的⾐、⾷、住、⾏等各个⽅⾯。一旦这些系统出现异常事件(如网络中断、系统不能登录访问、交易失败),就会严重影响我们的生活。
IT系统出现服务中断是不可避免的。因此,在事件发生时,我们必须以消费者能够容忍的方式来管理、分析、处置事件。
统⼀事件管理系统是任何⼀家企业不可或缺的基础设置。它的主要使命:与数据中⼼整个运维体系的⼯具系统进⾏集成、使⽤机器学习分析问题,并在第一时间⾃动采取⾏动解决问题。它能有效提⾼团队⽣产⼒,并保障为最终⽤户提供出⾊的数字体验。
本⽂将探索统⼀事件管理的最佳实践,包括:
一、什么是事件?
二、什么是事件管理?
一、什么是事件?
在TIL 4版本中,事件被定义为服务意外中断或服务质量下降。
为确保客户满意度,企业必须采取适当的处置策略来应对不同的事件。以下是⼀些系统中发⽣服务中断或异常的典型事件:
-
⽤户⽆法登录
-
每次使⽤您的乘⻋卡时,卡⽚莫名其妙地⽆法打开
-
与平常相⽐,进⾏交易时交易缓慢
-
URL⽆法访问...
二、什么是事件管理?
维基百科”是这样解释的: 事件管理(Event Management)是项目管理在大型活动创新和发展中的应用,如节日、会议、庆典、婚礼、聚会、音乐会、集会等。这里面包含了品牌研究、目标受众确定、活动概念设计,以及活动实际发生前的技术协调。
我们把这个概念投射到 IT 领域,也就是为了实现某个特定的业务诉求,将事务状态变化信息与人员响应进行联动的一系列过程。它的目标是检测并记录这些事务状态的变更,以便获得对业务风险和商业机会的完全可见性,以及当问题发生时,能最大程度地减少事件带来的负面影响。
例如:用户登录,转账失败,业务系统版本升级,数据备份,服务器维护完成,这些都是团队需要跟踪的变更。尽管这些变更并不直接反映服务质量的下降,但它们可能会暗示存在影响用户体验的潜在风险。因此,全面的收集事件信息,确定响应优先级,并采取相应的措施,就变得非常关键。
随着商业模式和 IT 支撑环境复杂性的增加,团队需要管理的事件规模也呈指数级增长,但很多时候管理事件的人员数量却没有得到增加。现在,许多团队每天都在和成千上万甚至数百万事件打交道,受限于资源投入,几乎不可能有效地将高价值信息与噪音从海量事件中分离出来,以洞察风险和机会。
而这正是事件管理解决方案的核心能力所在。事件管理平台通过集成能力对接和汇聚事件,过滤噪音,识别风险,并通知相关人员进行相应的操作。
随着企业数字化转型的加速和 IT 交付风险的增高,通过集成化的事件管理平台提升事件和关联行动间的处理效率,比以往任何时候都更加重要。
三、为什么事件管理如此重要
虽然很多企业准备了非常详尽的业务连续性保障计划和应急预案,但随着业务环境复杂度的不断攀升和行业竞争的进一步加剧,对业务风险和商业机会的应对效率也提出了更高的要求。
收集更加全面的信息,运用智能化的手段,帮助团队实时评估风险和收益,提升反应速度和准确性,就变得至关重要。事件管理平台运用事件流处理和人工智能技术将这一过程自动化,充分挖掘海量事件中的核心高价值信息,并将风险和机会与人员进行关联,运用现代化的通讯和协作工具,提供更加便捷、全面、准确的事件评估和响应。
事件管理的价值还包括:
-
更主动的风险防范
-
更快速的业务恢复
-
更高效的团队协作
-
更敏捷的实时响应
四、事件管理的特点
事件是对事务状态的客观描述,有效的事件管理计划和战略是一个跨场景、端到端的处理流程,能够降低或消除风险带来的影响,挖掘和拓展新的商业机会,提升团队的响应速度,并优化产出结果。
事件管理的特点主要体现在以下三个方面:
1.集成化
收集和获取更加全面的事件数据,是更加精准的进行风险评估和商机挖掘的前提。与企业数字化生态广泛的建立连接,实现实时的事件接收和消息推送,确保事件在系统和人员间进行快速的流转。
2.智能化
结合丰富的上下文数据,主动对风险和机会进行分类、筛选、检测,并将该信息与资产、人员相关联,在损失真正造成前预判,帮助团队成员准确的掌握业务状态和威胁,避免误漏,更好的进行决策。
3.流程化
无需大量人工参与,自动化的处理流程帮助团队在风险和机会尚未确认前自主开展工作。在问题处理过程中,事件按照既定的分派策略和通知方式在团队成员中自动进行流转,进一步提升应对效率,确保行动的有效性。
五、典型的事件管理流程
事件管理的第⼀步是记录事件。可以通过⼀些监控⼯具或由客户电话报障的⽅式获取事件,并通过⼀些⾃动化的⼿段获取通知,同时可以获取该事件的相关信息,包括描述、发⽣时间、告警来源、针对什么所发⽣的事件(如某个主机、某个业务)。记录的事件信息,后续将成为对管理事件进⾏分析、决策、处置的基础。包括:
-
沟通:在对事件进⾏分析、处置过程中,需要协调不同专业领域⼈员进⾏沟通、协作以对问题进⾏有效分析。
-
解决:在分析完成后,事件经理或应急团队会做出事件处置的决策,并进⾏事件的快速修复。
-
升级:如果在分析处置的过程中发现事件已经超出事件响应⼈员的能⼒范围,则需要及时对事件进⾏升级,这时可以将事件转派给某个领域内的专业⼈员负责处理。
-
移交至其他流程:事件解决完成之后,如果事件需要建⽴相应的⼯单进⾏根治,则需要创建相应的问题⼯单,以排查问题的根本原因,并彻底解决该问题。
成功的事件管理依赖于清晰地定义客户容忍的任何事件的持续时间和处理⽅式。这些通常在服务级别协议(SLA)或合同中定义,其中最重要的部分是定义响应和解决事件的时间表。
六、事件管理执行的主要职责
作为服务提供商,如何构建相应组织并处理不同类型的事件是事件管理执⾏的主要职责。
1.针对已知的事件场景
这种事件会重复发生。在这种情况下,可以定义并使用已知事件模型来进行自动化处理和解决。已知事件模型是管理特定事件的重复发⽣时的重要解决方案。有助于减少新员工解决事件的时间和学习曲线,并有助于将零散的知识落地到⼯具系统中。
2.针对⼀些事件发生后不容易找到解决⽅案
可以采⽤变通的办法来尝试减少影响或再次发⽣的可能性。在这种情况下,处置的决策权将交由⼈⼯来确认。针对当前事件,可以采⽤重新启动或分流等解决方案来快速恢复。
好了,本期关于事件与事件管理的分享就到这里了,下期我将通过举例与落地实例进一步帮大家理解以及如何在日常生活中运用事件管理。感兴趣的朋友可以提前关注一下~
擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。
行业龙头客户的共同选择
了解更多运维干货与技术分享
可以右上角一键关注
我们是深耕智能运维领域近十年的
连续多年获Gartner推荐的AIOps标杆供应商
下期我们不见不散~