事件管理平台提供商 Transposit 对美国 1,000 名 IT 运营、DevOps、站点可靠性工程 (SRE) 和平台工程专业人士进行的一项调查发现,超过三分之二 (67%) 的人发现故障率有所增加过去 12 个月中影响客户的服务事件的频率。
今天在Kubecon + CloudNative会议上宣布的调查发现,62% 的受访者还发现,去年解决事件所需的时间有所增加,其中 80% 的受访者表示,解决事件所需的时间长达 6 个小时。从第一次警报到缓解问题的平均解决时间。
然而,矛盾的是,71% 的受访者还声称他们对自动化事件管理感到满意,其中 59% 的受访者拥有明确的事件管理流程。三分之一 (33%) 表示,他们的事件管理任务或工作流程中只有 11-25% 是自动化的。
Transposit 首席执行官 Divanny Lamas 表示,尽管令人放心,但随着 IT 环境变得更加复杂,需要解决的事件数量显然在持续增加。事实上,在接下来的 12 个月内,72% 的人预计他们的组织将扩展其 IT 堆栈。
与此同时,每个事件的成本正在上升,63% 的受访者表示,组织平均每小时损失高达 499,999 美元。近一半 (47%) 表示停机可能造成 10 万至 200 万美元的损失。
整整 85% 的受访者希望生成式人工智能 (AI) 将有助于进一步简化事件管理流程,其中 80% 的受访者已经不同程度地接受了人工智能。超过一半 (51%) 的人认为人工智能正在让他们的工作变得更好,其中 65% 的人使用人工智能来提高数据的准确性和质量。超过一半 (51%) 的人表示事件解决时间更快,其中 50% 的人使用它来更快、更轻松地识别问题、潜在威胁和漏洞的根本原因。不到一半 (48%) 使用它来自动化重复任务或流程,从而有效地简化运营。
90% 的受访者表示,将生成式人工智能功能集成到事件管理工具或平台中可以减少创建新自动化所需的时间。
总体而言,43% 的受访者表示,由于文档混乱 (41%)、工具访问受限 (40%) 以及对机构知识的依赖 (40%),当前的事件管理流程并不有效,或者仅由部分团队成员使用。超过三分之一 (37%) 的人表示,只有选定的团队成员才能全面了解已定义的事件管理流程,并且始终如一地遵守这些流程。
调查发现,96% 的受访者表示,他们相信,如果他们的组织用于管理事件的所有工具都通过一个工具或平台集成,将会是有益的。
提到的主要挑战包括领导层或管理层的支持不够(57%)、知识共享不够(54%)、机构知识和现有流程的记录不充分(54%)以及对自动化内容缺乏明确性( 52%)。
受访者表示,他们希望采用人工智能或采用机器学习算法的工具(60%)、自动化工具或应用程序(53%)以及通信/协作工具或应用程序(48%)等技术。
此外,在过去的一年中,62% 的受访者更加关注 SRE 实践,其中 58% 的受访者计划更多地采用平台工程作为集中管理 DevOps 工作流程的方法。
拉马斯说,最终,自动化应该减轻所有相关人员的事件管理压力。她补充说,与往常一样,挑战在于如何更简单地实现这一目标,而不依赖于无法扩展的自定义脚本的复杂组合。
无论如何,很明显,在事件管理方面,仍有很大的改进空间。