Grafana 统一可视化了,告警如何统一?

news2025/2/24 15:42:57

对于大部分公司,通常都不止一套监控、可观测性相关的系统,云上的、云下的,开源的、商业的,指标的、日志的、链路的,各个系统体验不同,权限难管,如何统一化并为各个团队赋能,是很多技术负责人极为头疼的问题。

要完全推翻现有的体系也不现实,毕竟迁移成本很高,而且谁能保证那些所谓的 all-in-one 的系统一定能在各方面胜出现有的平台?利旧的同时,把体验和价值提升,或许是个路子。

Grafana 其实是个很好的例子,Grafana 几乎统一了数据可视化。如果我们再进一步,除了可视化还有什么可以统一呢?我想应该是告警!一个典型的监控/可观测性系统,其架构如下:

数据采集方面,确实五花八门,比如指标使用 Categraf、Exporter,Tracing 使用 Otel-Collector,日志使用 Filebeat,统一的必要性也不大。

数据存储方面,指标使用 VictoriaMetrics、Prometheus,日志和 Tracing 使用 ElasticSearch、ClickHouse,解决方案也基本已经固化了。

告警方面,尚有统一优化的空间。首先,我们希望把各个平台的告警统一到一起,做统一的收敛降噪、排班认领升级、灵活的分发。我们做了一个产品来做告警统一,称为 Flashduty,本文介绍一下 Flashduty 的一些设计理念,希望对你有所启发。

Flashduty 统一告警的思路

统一告警如果细分,可以分两个方面,一个是统一事件生成,一个是统一事件分发。

  • 事件生成。通常是监控系统来做。监控系统支持用户配置告警规则,然后周期性查询存储,对数据做异常判定,进而生成告警事件。
  • 事件分发。通常是 OnCall 平台来做,比如国外的 PagerDuty、Opsgenie。对接各个监控系统收集告警事件,然后做统一的收敛降噪、排班、分发等。

统一事件生成

Flashduty 的思路是对接各种存储,比如 Prometheus、VictoriaMetrics、Thanos、MySQL、Postgres、Oracle、ElasticSearch、Loki、ClickHouse 等,支持用户配置查询告警规则,然后周期性查询生成告警事件。

其架构图如下:

一个公司通常会有多个机房,每个机房有不同的存储,要对各种存储做告警,建议在每个机房部署一个告警引擎,避免网络分区问题。告警引擎从中心同步告警规则,然后查询存储做异常数据判定,进而生成告警事件。

下面是一个告警规则列表页面的样例,即大家可以在 Flashduty 管理各类告警规则。

除了对接存储生成告警事件,Flashduty 还提供了一个事件监控小工具,叫 catpaw,catpaw 可以执行一些自定义脚本,对问题现场做检测,检测到问题之后直接生成告警事件。catpaw 是开源的,地址是:https://github.com/cprobe/catpaw。

统一事件分发

告警事件散落在各个监控系统里,不方便处理,不方便量化,而且动不动还有告警风暴,此时就需要一个 OnCall 平台了。

国外有 PagerDuty、Opsgenie 这样的产品,PagerDuty 估值几十亿美金。很多 SRE 工程师应聘的时候,如果发现雇主公司没有使用 PagerDuty,直接拒绝入职,因为没有使用 PagerDuty 的 OnCall 工作,太痛苦,凌晨一个告警,把全组都呼起来,大家都受不了。

Flashduty 类似 PagerDuty,可以对接各类监控系统,收集告警事件,目前已经对接的监控系统如下图:

整个数据流原理是:监控系统生成告警事件,通过 Webhook 或 Email 的方式发给 Flashduty,Flashduty 即可做后续统一处理。比如:

  • 标签增强。给告警事件附加更多有意义的元信息,方便后续筛选、查看、关联
  • 事件处理。按条件修改告警事件,也可以过滤、抑制告警事件等
  • 路由。通过告警事件的属性、标签,路由告警事件到特定的协作空间,即路由给特定的团队
  • 分派。协作空间里,关联了不同的分派策略,不同级别的告警可以使用不同的通知媒介。
    1. 分发告警时也可以和值班表关联,避免所有人受到打扰
    2. 支持认领、升级策略,确保告警一定被最终处理
    3. 支持收敛降噪,把多条告警合并为故障,解决告警风暴问题
    4. 可以和 IM 打通,方便移动端办公。尤其是晚上睡得朦朦胧胧,移动办公更是必备

总结

通过统一事件生成和分发,Flashduty 提升了告警的整体体验,所以新的架构变成了 👇

如果您也想建设类似的平台,可以参考 Flashduty 的做法,或者直接使用 Flashduty,Flashduty 的地址如下:

  • 产品介绍:flashcat.cloud/product/flashduty/
  • 免费注册:console.flashcat.cloud

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2279903.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LeetCode 110.平衡二叉树

题目描述 给定一个二叉树,判断它是否是平衡二叉树。 示例 1: 示例 2: 输入:root [1,2,2,3,3,null,null,4,4] 输出:false 示例 3: 输入:root [] 输出:true 提示: …

【银河麒麟高级服务器操作系统】业务访问慢网卡丢包现象分析及处理过程

了解更多银河麒麟操作系统全新产品,请点击访问 麒麟软件产品专区:product.kylinos.cn 开发者专区:developer.kylinos.cn 文档中心:document.kylinos.cn 交流论坛:forum.kylinos.cn 服务器环境以及配置 【内核版本…

软件测试—— 接口测试(HTTP和HTTPS)

软件测试—— 接口测试(HTTP和HTTPS) HTTP请求方法GET特点使用场景URL结构URL组成部分URL编码总结 POST特点使用场景请求结构示例 请求标头和响应标头请求标头(Request Headers)示例请求标头 响应标头(Response Header…

OpenCV相机标定与3D重建(60)用于立体校正的函数stereoRectify()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 为已校准的立体相机的每个头计算校正变换。 cv::stereoRectify 是 OpenCV 中用于立体校正的函数,它基于已知的相机参数和相对位置&am…

ARP 表、MAC 表、路由表、跨网段 ARP

文章目录 一、ARP 表1、PC2、路由器 - AR22203、交换机 - S57004、什么样的设备会有 ARP 表? 二、MAC 表什么样的设备会有 MAC 表? 三、路由表什么样的设备会有路由表? 四、抓取跨网段 ARP 包 所谓 “透明” 就是指不用做任何配置 一、ARP 表…

深度学习 · 手撕 DeepLearning4J ,用Java实现手写数字识别 (附UI效果展示)

引言 随着人工智能技术的不断发展,手写数字识别已经成为深度学习领域的一个经典案例。不管是老牌的机器学习模型还是现代的神经网络架构,手写数字识别总是大家学习和实战的起点之一。而对于我们日常使用的Java开发者来说,借助DeepLearning4J…

天机学堂5-XxlJobRedis

文章目录 梳理前面的实现:Feign点赞改进 day07-积分系统bitmap相关命令签到增加签到记录计算本月已连续签到的天数查询签到记录 积分表设计签到-->发送RabbitMQ消息,保存积分对应的消费者:**消费消息 用于保存积分**增加积分查询个人今日积…

2024 年度学习总结

目录 1. 前言 2. csdn 对于我的意义 3. 写博客的初衷 3.1 现在的想法 4. 写博客的意义 5. 关于生活和博客创作 5.1 写博客较于纸质笔记的优势 6. 致 2025 1. 前言 不知不觉, 来到 csdn 已经快一年了, 在这一年中, 我通过 csdn 学习到了很多知识, 结识了很多的良师益友…

使用Chrome和Selenium实现对Superset等私域网站的截图

最近遇到了一个问题,因为一些原因,我搭建的一个 Superset 的 Report 功能由于节假日期间不好控制邮件的发送,所以急需一个方案来替换掉 Superset 的 Report 功能 首先我们需要 Chrome 浏览器和 Chrome Driver,这是执行数据抓取的…

[操作系统] 进程的调度

进程切换概念 时间⽚:当代计算机都是分时操作系统,没有进程都有它合适的时间⽚(其实就是⼀个计数 器)。时间⽚到达,进程就被操作系统从CPU中剥离下来。 死循环是如何运行? 当一个进程代码为死循环,它并不会一直占据C…

Biotin sulfo-N-hydroxysuccinimide ester ;生物素磺基-N-羟基琥珀酰亚胺酯;生物素衍生物;190598-55-1

一、生物素及其衍生物的概述 生物素衍生物是指在生物素(Vitamin H或B7)分子基础上进行化学修饰得到的衍生化合物。这些衍生化合物在生物医学研究、临床诊断和药物开发等领域有着广泛的应用。 生物素(Biotin)是一种水溶性维生素&a…

Jenkins-Pipeline简述

一. 什么是Jenkins pipeline: pipeline在jenkins中是一套插件,主要功能在于,将原本独立运行于单个或者多个节点的任务连接起来,实现单个任务难以完成的复杂发布流程。Pipeline的实现方式是一套Groovy DSL,任何发布流程…

Linux系统下安装配置Nginx(保姆级教程)

目录 前言 安装配置Nginx 一.下载依赖 二.下载Nginx 1. 访问官网?,获取需要的Nginx版本 2. 将文件下载到Linux系统 3. 解压文件 4. 解压成功后,当前文件夹会出现一个nginx-1.26.1文件夹,进入到文件夹内 5. 配置nginx 6.?编译并安…

《Linux服务与安全管理》| 邮件服务器安装和配置

《Linux服务与安全管理》| 邮件服务器安装和配置 目录 《Linux服务与安全管理》| 邮件服务器安装和配置 1.在Server01上安装dns、postfix、dovecot和telnet,并启动 2.在Server01上配置DNS服务器,设置MX资源记录 3.在server1上…

WPS数据分析000001

目录 一、表格的新建、保存、协作和分享 新建 保存 协作 二、认识WPS表格界面 三、认识WPS表格选项卡 开始选项卡 插入选项卡 页面布局选项卡 公式选项卡 数据选项卡 审阅选项卡 视图选项卡 会员专享选项卡 一、表格的新建、保存、协作和分享 新建 ctrlN------…

2025年免费量化交易软件——PTrade(含开通攻略)

量化交易软件,为广大投资者提供了一个便捷、高效的投资工具。 本文重点为大家介绍一款2025年好用的免费量化交易软件:PTrade量化,并详解其功能、特点、开通方法等。 一、PTrade的概念 PTrade是恒生电子开发的一款交易终端软件,旨…

【数据结构篇】顺序表 超详细

目录 一.顺序表的定义 1.顺序表的概念及结构 1.1线性表 2.顺序表的分类 2.1静态顺序表 2.2动态顺序表 二.动态顺序表的实现 1.准备工作和注意事项 2.顺序表的基本接口: 2.0 创建一个顺序表 2.1 顺序表的初始化 2.2 顺序表的销毁 2.3 顺序表的打印 3.顺序…

mysql查缺补漏

auto increment:自增序列,在字段后作为约束使用 comment:备注信息,用于在创建字段后或创建表的语句最后. 数值类型: 字符串类型: 日期类型: desc table_name:查询表结构 sho…

C++ 面向对象(继承)

三、继承 3.1 继承的概念 基于一个已有的类 去重新定义一个新的类,这种方式我们叫做继承 关于继承的称呼 一个类B 继承来自 类 A 我们一般称呼 A类:父类 基类 B类: 子类 派生类 B继承自A A 派生了B 示例图的语法 class vehicle // 车类 {}class …

JAVA-IO模型的理解(BIO、NIO)

前言 (本文是作者学习制作rpc框架时,一些自用的笔记,并不会完整详细的介绍某个模块,会写大概的流程及一些相关概念,供日后复习使用~) IO模型 先理解基本的IO流程: 应用A把消息发送到 TCP发送缓…