优维产品最佳实践第2期:一个“好”的告警通知是怎样的?

news2024/11/17 15:57:57

 告警通知信息是监控实践中非常关键的一环,在众多的告警消息中,如何让管理员快速识别关键信息,从而提升故障响应效率?

本期EasyOps产品使用最佳实践,我们将为您揭晓:

  • 一个称得上”好“的告警通知应该是怎样的?
  • 如何为告警通知穿上“华丽”的衣服,让它更加直观和显眼?

背 景

开头有说到,告警通知信息是监控实践中非常关键的一环,它可以帮助管理员快速发现和解决潜在问题,提高故障处理效率,以保障系统的稳定性和可靠性。因此,一个“好“的告警通知能让我们的监控实践事半功倍。

下面将探讨一个称得上”好“的告警通知应该是怎样的,以及它是如何在监控实践中发挥着它的“好处”。

众所周知,一个“好”的告警通知应该具备以下几种能力:

  • 清晰明了的主题:能一目了然描述告警内容;
  • 详细的告警内容:能提供足够的详细信息,包括具体的异常情况,触发条件和告警级别;
  • 相关的上下文信息:提供必要的告警上下文信息,包括指标信息的丰富,告警对象的配置信息丰富等;
  • 相关的时间戳:包含首次告警时间戳,告警持续时间戳;
  • 关联的事件详情:提供告警事件的详情和告警规则的详情;
  • 多种通知媒介:不同的告警级别可能基于不同媒介通知给不同人;
  • 好的可读性:添加合适的样式和格式编排,以提高管理员阅读告警通知效率,提高传递效果和信息传递效率。

同时,我们希望告警通知可以设计成可复用的模板,方便在不同监控场景中进行配置和使用,减少重复劳动。

下面我们将以一个特定监控场景为背景,针对某个监控指标,描述了在大禹监控平台中,如何配置出一个符合上述条件的告警通知。

场 景 说 明

我们在日常监控中关注的最基础的场景之一可能就是内存使用情况的监控。内存作为计算机系统的关键资源之一,对系统的性能和稳定性有着直接影响。当内存使用率超过告警阈值,发出告警通知时,我们希望从通知中获知一些关键信息。

配 置

1.告警条件设置

我们先针对目标主机配置一条告警规则,具体的配置过程不赘述,这里让我们只关注内存使用情况的监控。

我们设定这样一个告警条件:

  • 警告级别:主机内存使用率大于80% 且可用内存小于5GiB

我们编辑告警条件策略,告警来源选择从【阈值判断 · 所有条件】产生,告警指标选择实际内存使用百分比,实际空闲内存。如下图所示:

 在告警阈值中,我们配置对应的策略:

 点击保存。

2.告警通知设置

这里我们建立一条告警通知策略,作为主机的通用通知组,并且基于钉钉机器人的通知媒介去发送告警通知。

 最后,我们编辑告警模板。

这里需要说明的是,为了在不同监控场景中进行配置和使用,告警通知设计成可复用的模板,并且基于内置变量为管理员提供更加通用的模板设计能力。平台已经内置一个通知模板,我们可以拿来即用。如下图所示:

 实际使用后,它通知出来的效果可能是这样的:

 很明显,这种朴素文本信息存在可读性差,信息传递不直观的问题。我们希望设置告警主题为标题的样式,并且为告警信息,告警持续时长等关键信息添加颜色,加粗等样式。

值得一提的是,告警通知模板支持markdown格式的样式渲染,因此我们以表格的方式呈现出告警信息,并添加必要样式,会让通知内容来得更加“好看”。

比如下图所示:

 

 通过上面的告警通知,我们得知告警的对象是什么,对应的告警级别,告警首次出现时长,告警持续了多久还有相关的告警事件详情和策略详情。并且,通过加标题,加颜色和加粗的样式让关键信息更加突出。比如红色代表告警产生,绿色代表告警解除;另外,通过添加表格编排的方式让信息组织得更有条理。

到此为止,我们实现了开头所提到的一个“好”的告警通知具备的几个条件。

附上相关模板

  • 告警模板

{{time|ts2str:'%Y-%m-%d %H:%M'}} 产生告警事件</font></h2>

| 事件类型 | SLO事件 |

| --- | --- |

| 首次发生时间 | {{startTime|ts2str:'%Y-%m-%d %H:%M'}} |

| 告警等级 | {{levelName}} |

| 告警资源 | {{t*****}} |

| 告警信息 | {{originContent}} |

| 持续时长 | {{duration|duration_format:'zh'}} |

| 事件详情 | [请点击](http://*****.******.*****/next/events/{{eventId}}/detail) |

| 策略详情 | [请点击](http://*****.******.*****/next/events/alert-rule/alert-rule/{{ruleId}}/edit) |

  • 告警解除模板:

{{time|ts2str:'%Y-%m-%d %H:%M'}} 告警事件解除</font></h2>

| 事件类型 | SLO事件 |

| --- | --- |

| 首次发生时间 | {{startTime|ts2str:'%Y-%m-%d %H:%M'}} |

| 告警等级 | {{levelName}} |

| 告警资源 | {{t*****}} |

| 告警信息 | {{originContent}} |

| 持续时长 | {{duration|duration_format:'zh'}} |

| 事件详情 | [请点击](http://*****.******.*****/next/events/{{eventId}}/detail) |

| 策略详情 | [请点击](http://*****.******.*****/next/events/alert-rule/alert-rule/{{ruleId}}/edit) |

看到这里,细心的小伙伴会发现,「提供必要的告警上下文信息」这一项好像缺漏了。这一块涉及到告警指标丰富和告警信息丰富,并让我们了解告警通知如何消费CMDB数据。这些内容我们下一期再来谈,敬请期待。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/803428.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ICC2删除所有电源的方法

我正在「拾陆楼」和朋友们讨论有趣的话题&#xff0c;你⼀起来吧&#xff1f;知识星球入口 remove_pg_patterns -all remove_pg_strategies -all remove_pg_strategy_via_rules -all remove_pg_via_master_rules -all remove_pg_regions -all remove_routes -net_types {p…

使用Gradio构建生成式AI应用程序; Stability AI推出Stable Diffusion XL 1.0

&#x1f989; AI新闻 &#x1f680; Stability AI推出最先进的AI工具Stable Diffusion XL 1.0 摘要&#xff1a;Stability AI宣布推出Stable Diffusion XL 1.0&#xff0c;该版本是其迄今为止最先进的AI工具。Stable Diffusion XL 1.0提供更鲜艳、更准确的图片生成&#xff…

背包逆推--数字组合

这个题我们进行Y氏DP分析得到&#xff0c;求得的集合为等于m的数量&#xff0c;那么属性就是count(数量) 进行状态计算&#xff0c;一边是关于不选第i个物品的所有方案&#xff0c;一边是关于选第i个物品的方案。 #include<bits/stdc.h> using namespace std; int a[1000…

【数字IC基础】竞争与冒险

竞争-冒险 1. 基本概念2. 冒险的分类3. 静态冒险产生的判断4. 毛刺的消除使用同步电路使用格雷码增加滤波电容增加冗余项&#xff0c;消除逻辑冒险引入选通脉冲 1. 基本概念 示例一&#xff1a; 如上图所示的这个电路&#xff0c;使用了两个逻辑门&#xff0c;一个非门和一个与…

二. 多传感器时间同步方案(时序闭环)--1

前两篇文章讲了器件选型和多传感器系统设计&#xff1a; 一. 器件选型心得&#xff08;系统设计&#xff09;--1_goldqiu的博客-CSDN博客 一. 器件选型心得&#xff08;系统设计&#xff09;--2_goldqiu的博客-CSDN博客 二. 多传感器时间同步方案&#xff08;时序闭环&#x…

选择适合产品需求管理的项目管理系统,打造完美项目流程!

一般来说&#xff0c;互联网产品经理收到的需求一般分为业务需求、用户需求和产品功能需求。业务需求主要包括战略和规则需求&#xff1b;用户需求一般是真实反馈、真实需求、吐槽、建议等。&#xff1b;功能需求主要围绕产品的旧功能问题进行升级&#xff0c;bug处理、技术问题…

高德地图JS API升级到2.0版本

项目上反馈高德地图底图信息更新不及时&#xff0c;不利于进行点位规划。经研究发现高德地图JS API 1.4.15版本相对于2.0版本&#xff0c;确实地图切片上的标注信息较少。通过工单的形式询问高德的技术工程师认识到1.4.15版本数据更新有延迟&#xff0c;1.4.15版本地图的数据以…

深入理解Go语言中的并发编程【29】【原子操作(atomic包)、并发安全性】

文章目录 原子操作(atomic包)原子操作atomic包示例 并发安全性 原子操作(atomic包) 原子操作 代码中的加锁操作因为涉及内核态的上下文切换会比较耗时、代价比较高。针对基本数据类型我们还可以使用原子操作来保证并发安全&#xff0c;因为原子操作是Go语言提供的方法它在用户…

iOS 应用上架的步骤和工具简介

APP开发助手是一款能够辅助iOS APP上架到App Store的工具&#xff0c;它解决了iOS APP上架流程繁琐且耗时的问题&#xff0c;帮助跨平台APP开发者顺利将应用上架到苹果应用商店。最重要的是&#xff0c;即使没有配置Mac苹果机&#xff0c;也可以使用该工具完成一系列操作&#…

C#实现滑动拼图验证码

开发环境&#xff1a;C#&#xff0c;VS2019&#xff0c;.NET Core 3.1&#xff0c;ASP.NET Core 1、建立一个验证码控制器 新建两个方法Create和Check&#xff0c;Create用于创建验证码&#xff08;返回2张图片和令牌&#xff09;&#xff0c;Check用于验证&#xff08;验证图…

EXCEL数据自动web网页查询----高效工作,做个监工

目的 自动将excel将数据填充到web网页,将反馈的数据粘贴到excel表 准备 24KB的鼠标连点器软件(文末附链接)、Excel 宏模块 优势 不需要编程、web验证、爬虫等风险提示。轻量、稳定、安全。 缺点 效率没那么快 演示 宏环境 http://t.csdn.cn/DRAC2 宏按钮

idea导入maven项目问题

问题产生原因&#xff1a; ①idea加载maven项目&#xff0c;如果网络不通畅&#xff0c;会在maven仓库中产生一个文件&#xff0c;如下图所示: ②当网络通畅时&#xff0c;在下载就会因为此文件导致无法下载正确的maven依赖 解决方案&#xff1a; ①打开maven仓库的根目录 ②…

(学习笔记-内存管理)虚拟内存

单片机是没有操作系统的&#xff0c;每次写完代码&#xff0c;都需要借助工具把程序烧录进去&#xff0c;这样程序才能跑起来。另外&#xff0c;单片机的CPU是直接操作内存的[物理地址]。 在这种情况下&#xff0c;要想在内存中同时运行两个程序是不可能的。如果第一个程序在 2…

骨传导耳机和入耳式耳机哪个好?骨传导耳机适合什么人群使用

骨传导耳机和入耳式耳机哪个好&#xff0c;这个问题&#xff0c;首先我们先了解一下骨传导耳机的对比入耳式耳机的优势有哪些&#xff1a; &#xff08;1&#xff09;健康 骨传导耳机因为是利用骨振动原理&#xff0c;完全不需要经过我们耳膜进行传输&#xff0c;可以有效缓解…

Selenium API基础 8种定位

id定位 class定位 xpath定位 css定位 link partial_link模糊匹配 tag name

Redis 哨兵 (sentinel)

是什么 官网理论&#xff1a;https://redis.io/docs/management/sentinel/ 吹哨人巡查监控后台 master 主机是否故障&#xff0c;如果故障了根据投票数自动将某一个从库转换为新主库&#xff0c;继续对外服务。 作用&#xff1a;无人值守运维 哨兵的作用&#xff1a; 1…

index页面通过<script>引入根目录下的js文件后,vite打包项目后,项目中无js文件解决方法

解决方法&#xff1a; 根据打包报错提示&#xff0c;如图&#xff1a;即在<script>标签中加入&#xff1a;type&#xff0c;如图&#xff1a; 再打包 js文件就会被打包进去&#xff01;

华为认证 | HCIE考过了,证书编号怎么查?

我们都知道&#xff0c;每一个HCIE都拥有属于自己的独一无二的编号&#xff0c;这个编号到底是指什么呢&#xff1f; HCIE作为华为专家级的认证&#xff0c;考试难度极高&#xff0c;你要通过HCIE的笔试、实验LAB考试。 当你“过五关斩六将”&#xff0c;通过LAB的那一刻&…

手风琴案例(jQuery)

案例效果 代码实现 jQuery代码&#xff08;两种方法&#xff09; 方法一&#xff1a;hover版 $(function () {$(".king li").hover(function() {$(this).addClass("current").siblings().removeClass("current");}, function() {$(".king…

DDSv1.4规范(中文版)

实时数据分发 (DDS) V1.4 (2015-04-10正式发布) https://www.omg.org/spec/DDS/1.4/PDF http://www.omg.org/spec/DDS/20140501/dds_dcps.idl