通过 Elastic AI Assistant for Observability 进行警报管理,最大限度地提高 IT 效率

news2024/12/28 20:32:39

作者:来自 Elastic Felix Roessel

管理和关联 Elastic Observability 中的信号和警报

随着组织采用日益复杂和互连的 IT 系统,各种监控工具生成的大量警报带来了严峻的挑战 - 我们如何有效地筛选噪音以识别和响应最关键的问题?

事件管理和关联是 IT 服务管理领域两个不可或缺的支柱。 本技术博客深入探讨了为什么这些实践在维护数字基础设施和服务的健康、安全和性能方面不仅是可取的,而且是至关重要的。 它还分析了生成式人工智能如何支持这一学科。

驾驭警报海洋:现代 IT 监控的挑战

现代 IT 生态系统会生成源源不断的警报,每个警报都表明系统内存在潜在问题或异常情况。 从性能指标到安全事件,这些警报的多样性甚至可能让最熟练的 IT 团队不知所措。 因此,关键问题可能会被淹没在噪音中,导致响应延迟、停机时间增加,并对整个基础设施产生潜在的多米诺骨牌效应。

事件管理:让混乱变得有序

事件管理作为第一道防线介入。 此实践涉及对来自各种监控源的警报进行系统收集、分析和分类。 IT 专业人员可以获得警报环境的结构化视图,而不是淹没在无边无际的通知海洋中。 这使他们能够从噪音中辨别出关键信号,并将注意力集中在更高价值的活动上。

事件关联:揭示更大的图景

但是,当看似不同的事件实际上是一个更大的谜题的各个部分时,会发生什么呢? 这就是相关性占据中心舞台的地方。 相关性通过识别不同事件之间的关系和依赖关系,提供对根本问题的整体理解。 这不仅仅是对个别警报做出反应; 这是关于理解它们如何互连并影响整个系统。

主动优势:通过事件管理和关联进行预测洞察

除了单纯的事件响应之外,事件管理和关联还提供了主动优势。 分析历史数据的模式和趋势使 IT 团队能够在潜在问题升级为关键问题之前对其进行预测。 这种预测能力可以最大限度地减少停机时间并提高系统的整体可靠性。

自动化:加速和增强响应

在我们了解事件管理和关联的复杂性的过程中,我们将探索自动化的关键作用。 Elastic® 等智能工具可以自动分析、关联事件并确定事件优先级,从而缩短平均解决时间 (MTTR),并释放宝贵的人力资源来执行更具战略性的任务。

加入我们,我们将了解事件管理和关联的各个层次,检查它们的技术细微差别和实际应用。 从高效的事件检测到全面的问题解决,这些实践不仅仅是管理警报,还在于增强 IT 基础设施面对现代挑战的弹性和性能。

事件管理的层次

为了解决事件管理的复杂性,了解数据在整个过程中如何演变及其在管理和关联事件中的作用至关重要。

首先,我们从多个来源收集数据,Elastic 凭借其集成新数据流的强大功能擅长处理这项任务。 理想情况下,这些数据集之间应该存在一些共性,例如,一个事件(例如 CPU 使用率过高)如何与另一个数据集相关(可能是通过延迟响应时间)。 这种重叠使我们能够建立因果关系 —— 高 CPU 使用率可能是应用程序性能下降的罪魁祸首。

接下来,我们利用 Elastic 将这种精细的监控数据转换为可操作的警报,例如针对特定应用程序响应时间异常长或特定容器或虚拟机中 CPU 负载过高的通知。 最初,每个警报都是独立运行的。

事件管理和关联的下一阶段是为这些孤立的警报提供额外的上下文,试图发现它们之间的任何互连。 目标是使系统能够对可能源自相似来源的警报进行分组。 这项关键任务是在事件层处理的,我们采用弹性案例管理将相关警报合并到单个案例中,从而阐明潜在的关联性。

最后,在事件层,我们定义事件升级为事件状态的条件。 这涉及到考虑各种因素,例如计划的维护周期。 例如,如果警报对应于计划系统停机的时间段,我们可能会忽略该事件。 这种洞察力确保将资源有效分配给真正值得关注的事件。

Elastic 是一款全面的解决方案,擅长管理每一层警报管理,并具有一套专为支持整个范围而定制的功能。 在无缝操作中,某些功能使流程完全自动化。

以 Elastic 为例,它能够生成与特定服务或指标相关的所有可能的警报。 毫无疑问,这是一个强大的功能。 此外,借助其分布式跟踪功能,Elastic 可以了解 APM 监控的服务之间的互连情况。

有关服务依赖关系的知识非常宝贵,Elastic 充分利用了它。 它利用这些数据,利用其图形功能将其与其他相关信息相结合,以实现复杂的相关性分析。此外,Elastic 可以生成警报,并在事件或 Kibana 案例级别有效监控和管理这些警报。 这确保了警报的简化处理,将它们与更广泛的事件模式和总体案例管理框架联系起来,从而促进对整个事件管理管道的全面监督。

这一切是如何一起发挥作用的?

然而,根据依赖性数据有效地将相关警报与其各自的案例进行匹配和更新需要一层自动化逻辑。 在 Elastic Stack 中,这种自动化是由 Watcher 精心安排的。 作为中央控制器,Watcher 协调信息的整理,使其与我们预定义的标准保持一致。 当然,这项工作也可以通过在 Elastic 旁边运行并使用其 API 的 Python 脚本来完成。

图形(graph) API 在可视化连接方面的强大功能在其表示依赖关系的方式中显而易见。 例如,考虑一个封装 APM 服务之间依赖关系的可视化图表。 Graph API 汇集这些数据,将每个警报与其所属的服务相关联,并直观地反映这些关系。 在图中,与特定服务相关的警报被链接起来,形成一个集群。 如果元素之间没有视觉联系,则意味着受监控生态系统内的警报之间缺乏依赖性。

当 Elastic 不仅监控单个应用程序或服务,而且监控大量应用程序或服务时,这一点变得越来越重要。 直观地解析和理解这些依赖关系的能力使团队能够洞察在系统范围内管理和响应警报,确保在整个应用程序环境中采用一致的方法进行警报管理。

这种集成最终将相关警报聚合到 Kibana® 案例管理系统中的单个案例中。 由于这些警报与案例相关联,因此我们通过封装每个警报的主要详细信息的注释来增强案例。 此评论充当概要,提供对案例框架内警报核心信息的详细而简洁的理解。

基于人工智能的自动管理案例的生成分析

一旦将所有相关警报合并到案例中,我们就拥有了丰富的数据集,可以进行更深入的分析。 该案例可能包含各种警报,每个警报看似不同。 此时此刻的关键任务是确定这些警报的根本原因 - 查明其他警报产生的主要问题。 凭直觉,人们可能会尝试确定第一个警报。 鉴于警报规则按不同的时间表运行并以不同的时间间隔触发,这种方法可能并不总是能产生准确的结果。

因此,我们需要的是一种精炼的情报形式,能够辨别哪个警报最有可能代表问题的根源。 这种能力可以识别模式和概率,以便进行更直接的分析。

这就是生成式人工智能成为强大盟友的地方。 它代表了这种场景的典型解决方案,借助 Elastic 的可观察性 AI 助手,我们拥有了一个可供使用的高级工具。 该助手采用生成式人工智能来筛选警报群,评估复杂性,并高精度地推断出根本原因,将一项艰巨的任务转变为易于管理的任务。 这可以帮助用户更快地将信息置于上下文中,帮助他们找到根本原因、解决问题并继续处理下一组警报。

让我们揭开人工智能助手如何简化问题解决的神秘面纱。 将其想象为一名数字侦探,拥有 Elasticsearch® 数据库中每个房间的钥匙,能够访问任何数据。 但是,出于安全原因,可以通过 Elastic 的不同数据访问级别来定制其访问权限。

除了单纯的数据检索之外,助手还拥有一个知识库,其中可以包含手册或参考指南或仅包含有关观察到的服务的文档。 该知识库指导助手的响应,帮助其确定解决用户查询的最佳方法。 它评估是否存在可以为其分析提供信息的现有指南或值得纪念的方法。

该知识库不仅仅是一个静态存储库; 它是动态的。 它可以手动更新,也可以通过典型的 Elasticsearch 数据源(例如 Wiki、GitHub 或事件管理系统)自动更新。

一方面,助手随时准备自主地搜索 Elasticsearch 内的全部可观测数据。 另一方面,我们有一个充满高级问题数据渴望分析的案例。 将数据和助手这两者整合到一个单一的工作流程中,使可观测性工程师能够更快地追踪问题的根本原因,并努力有效地最小化 MTTR。 那么,让我们把这个计划付诸行动吧!

查看案例中的片段,你会注意到助手如何自动掌握案例的当前状态并生成发现概要。 在这种情况下,这种能力对于剖析警报非常有帮助。 虽然警报可能模糊地表明错误日志激增,但助手提供了关键的上下文。 这种丰富的洞察力迅速引导我们更接近根本原因,或为我们提供足够的信息来迅速确定解决案件的后续步骤。

超越噪音:克服警觉疲劳

为了概括本博客关于警报管理艺术的概念,让我们回顾一下该过程中的关键步骤。 这一切都始于 Kibana 生成警报,每个警报都固有地与特定服务、主机或其他基础设施相关联。 通过分析错综复杂的数据连接网络,我们发现了依赖关系,进而帮助我们制定全面的案例。 随着每个警报生命周期的进展(无论是已解决还是正在进行),此状态会反映在其相关案例中。 一旦所有关联的警报都被清除,案例甚至可能会自动关闭。

当活动案例包含特定标签(例如 NeedAIAssistance、NeedTeam 或 NeedSeverity)时,我们的助手会采取行动来推动定制行动。 根据存在的标签,Assistant 会动态地与 Elastic 内的数据进行交互,查阅知识库并根据需要应用不同的提示来为其分析提供信息。

通过采用这种模型,我们在故障管理实践中实现了高度自动化和可重复性,并为用户保持了显着的灵活性。

让我们在一张幻灯片上画出整个想法。 我们已经了解了什么是事件管理和关联,并且 Elastic 可以通过其内置功能帮助遍历各层中可能出现的问题。 我们还了解到,助手能够总结单个案例的信息,并在无需人工交互的情况下提供深入的见解。 甚至可以利用 LLMs 的总体知识来分配案例并确定正确的严重程度。

综上所述,我们可以看到,Elastic 能够充分准备事件工单,以尽可能减少 MTTR。 随着人工智能助手的发展,我们甚至能够在任何人发现问题之前执行补救步骤。

要在警报管理例程中体验这种创新方法,请探索 Kibana 和 Elastic AI Assistant for Observability 如何彻底改变你的工作流程。 与我们联系,引导你的运营走向更智能、高效、无疲劳的故障管理。

使用 Elastic AI Assistant for Observability 查看生成式 AI 的用例。

本文中描述的任何特性或功能的发布和时间安排均由 Elastic 自行决定。 当前不可用的任何特性或功能可能无法按时交付或根本无法交付。

在这篇博文中,我们可能使用或引用了第三方生成人工智能工具,这些工具由其各自所有者拥有和运营。 Elastic 对第三方工具没有任何控制权,我们对其内容、操作或使用不承担任何责任,也不对你使用此类工具可能产生的任何损失或损害负责。 使用人工智能工具处理个人、敏感或机密信息时请务必谨慎。 你提交的任何数据都可能用于人工智能培训或其他目的。 无法保证你提供的信息将得到安全或保密。 在使用之前,你应该熟悉任何生成式人工智能工具的隐私惯例和使用条款。

Elastic、Elasticsearch、ESRE、Elasticsearch Relevance Engine 和相关标记是 Elasticsearch N.V. 在美国和其他国家/地区的商标、徽标或注册商标。 所有其他公司和产品名称均为其各自所有者的商标、徽标或注册商标。

原文:Maximize IT efficiency leveraging alert management with Elastic AI Assistant for Observability | Elastic Blog

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1543296.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python学习笔记------文件操作

编码 编码就是一种规则集合,记录了内容和二进制间进行相互转换的逻辑。 编码有许多中,我们最常用的是UTF-8编码 计算机只认识0和1,所以需要将内容翻译成0和1才能保存在计算机中。同时也需要编码,将计算机保存的0和1&#xff0c…

云计算备考心得丨我是怎么备考并”A分”云计算HCIE的

大家好,我是誉天覃同学!在3月22日的云计算HCIE3.0考试已顺利通过,很高兴有这个机会给大家分享备考的经历,希望对还在备考的同学能有一定的帮助。 首先先感谢一下负责实验辅导的苗苗老师跟石凡老师,以及云计算的授课老师…

软件工程-第8章 软件测试

8.1 软件测试目标域软件测试过程模型 8.2 软件测试技术 8.3 静态分析技术-程序正确性证明 8.4 软件测试步骤 8.5 本章小结

【题解】—— LeetCode一周小结12

【题解】—— 每日一道题目栏 上接:【题解】—— LeetCode一周小结11 18.区域和检索 - 数组不可变 题目链接:303. 区域和检索 - 数组不可变 1.计算索引 left 和 right (包含 left 和 right)之间的 nums 元素的 和 ,其…

题目:小蓝的学位运算(蓝桥OJ 3220)

问题描述: 解题思路: 题目计算是将每一个区间的异或值相乘得结果,所以直接枚举每个区间并注意剪枝,结果要开long long。 哥们不懂雀巢原理,只好在每一次计算ans的过程中判断是不是0,是0直接输出0&#xff0…

如何在Linux系统使用Docker本地部署Halo网站并实现无公网IP远程访问

最近,我发现了一个超级强大的人工智能学习网站。它以通俗易懂的方式呈现复杂的概念,而且内容风趣幽默。我觉得它对大家可能会有所帮助,所以我在此分享。点击这里跳转到网站。 文章目录 1. Docker部署Halo1.1 检查Docker版本如果未安装Docker可…

每日学习笔记:C++ STL 容器的杂谈

三种自定义STL容器 string作为STL容器 C风格数组作为STL容器 C11以后 C11以前 容器元素类型是引用 使用智能指针存储元素 使用引用外覆器 各容器使用时机 如何分别用两种不同的排序准则来存储同批数据? 解决方案:将容器元素改为智能指针即可。 根据排…

如何本地搭建群晖虚拟机并实现无quickconnect服务环境远程访问

文章目录 前言本教程解决的问题是:按照本教程方法操作后,达到的效果是前排提醒: 1. 搭建群晖虚拟机1.1 下载黑群晖文件vmvare虚拟机安装包1.2 安装VMware虚拟机:1.3 解压黑群晖虚拟机文件1.4 虚拟机初始化1.5 没有搜索到黑群晖的解…

实战 | 小程序优惠卷遍历

进入小程序,因为是一个小商城,所以照例先查看收货地址是否存在越权,以及能否未授权访问,但是发现不存在这些问题,所以去查看优惠卷 进入领券中心,点击领取优惠券时抓包 发现数据包,存在敏感参数…

CTK插件框架学习-新建插件(02)

CTK插件框架学习-源码下载编译(01)https://mp.csdn.net/mp_blog/creation/editor/136891825 开发环境 window11、vs17、Qt5.14.0、cmake3.27.4 开发流程 新建ctk框架调用工程(CTKPlugin) 拷贝CTK源码编译完成后的头文件和库文件到工程目录&#xff0…

Springboot 整合Mybatis 实现增删改查(二)

续上篇:Springboot整合Mybatis的详细案例图解分析-CSDN博客 mapper层(StudentMapper) //通过id查询student方法Student searchStudentById(int id);//通过id删除student方法int deleteStudentById(int id);//通过id增加student方法int inser…

[Java基础揉碎]final关键字

目录 介绍 在某些情况下,程序员可能有以下需求,就会使用到final final注意事项和讨论细节 1) final修饰的属性又叫常量,一般用XX_XX_XX来命名 2) final修饰的属性在定义时,必须赋初值,并且以后不能再修改&#…

[AIGC] SQL中的数据添加和操作:数据类型介绍

SQL(结构化查询语言)作为一种强大的数据库查询和操作工具,它能够完成从简单查询到复杂数据操作的各种任务。在这篇文章中,我们主要讨论如何在SQL中添加(插入)数据,以及在数据操作过程中&#xf…

【官方】操作指南,附代码!银河麒麟服务器迁移运维管理平台V2.1中间件及高可用服务部署(4)

1.RocketMQ集群模式 主机配置示例: IP 角色 架构模式 对应配置文件 1.1.1.1 nameserver1 master broker-n0.conf 2.2.2.2 nameserver2 salve1 broker-n1.conf 3.3.3.3 nameserver3 salve2 broker-n2.conf 1.1.安装rocketmq 在服务器上安装rocket…

谷歌seo怎么优化产品推广?

想要在谷歌SEO上优化产品推广,关键在于理解和利用搜索引擎的工作原理来提升你的产品在搜索结果中的可见性,结构化数据就很重要了,它能让谷歌更容易理解你的页面内容,让他知道你这个页面不是文章页,主页,而是…

巧用cpl文件维权和免杀(上)

cpl文件 CPL文件,是Windows控制面板扩展项,CPL全拼为Control Panel Item在system32目录下有一系列的cpl文件,分别对应着各种控制面板的子选项 列入我们winR输入main.cpl 将会打开控制面板中的鼠标属性 cpl文件本质是属于PE文件 但cpl并不像exe,更像是dl…

3月份的倒数第二个周末有感

坐在图书馆的那一刻,忽然感觉时间的节奏开始放缓。今天周末因为我们两都有任务需要完成,所以就选了嘉定图书馆,不得不说嘉定新城远香湖附近的图书馆真的很有感觉。然我不经意回想起学校的时光,那是多么美好且短暂的时光。凝视着窗…

手撕算法-盛最多水的容器

描述 分析 两个板之间能盛下的水的量,取决于短板。想让两个板之间能盛下更多的水,需要改变短板的长度。就像水桶效应:那么用两个指针指向容器的两个板,然后每次移动较短的板即可。移动较短的板,可能会增大容积&#x…

芯片设计工程师必备基本功——《Verilog+HDL应用程序设计实例精讲》

进入芯片行业需要学习哪些基本功呢?其实芯片设计工程师的技能是通过多年的经验学习的。在您开始作为芯片设计工程师工作之前,很难给出一个需要的全面的单一列表,也不可能学习所有内容。话虽如此,但您开始芯片设计师职业生涯时必须…

HDFS的Shell操作及客户端配置方法

HDFS进程启停命令 Hadoop HDFS组件内置了HDFS集群的一键启停脚本。 $HADOOP_HOME/sbin/start-dfs.sh,一键启动HDFS集群$HADOOP_HOME/sbin/stop-dfs.sh,一键关闭HDFS集群 执行原理: 在执行此脚本的机器上,启动(关闭&…