自己部门日均1000+告警?如何减少90%无效告警?

news2024/9/21 19:57:26

目录标题

  • 一、告警的类别
    • 1.技术告警
      • 1.1基础设施告警
      • 1.2基本服务告警
    • 2.业务告警
    • 3.监控大盘告警
  • 二、为何需要告警治理?
  • 三、治理迫在眉睫
    • 1.1告警治理策略
      • 1.2核心监控告警点
      • 1.3避免告警反模式
      • 1.4告警规约制定
      • 1.5自动化处理

在这里插入图片描述

一、告警的类别

一般的告警分为以下几点:

1.技术告警

1.1基础设施告警

  • CPU利用率过高告警
  • 内存使用率过高告警
  • 物理机异常告警
  • 磁盘使用率过高告警

1.2基本服务告警

  • 中间件告警:比如MQ积压、重试;Mysql异常;Redis异常等等
  • RPC服务:下游可用率告警、SLA不符合告警、熔断告警
  • 自定义的可用率、TP99等告警
  • 流量监控,比如QPS异常波动告警

2.业务告警

  • 资损监控告警
  • 核心业务的稳定性告警
  • 业务波动告警
  • 自定义业务异常通知告警,比如非正常的情况打个业务通知监控

3.监控大盘告警

此类告警时针对全链路的,一般在压测或者大型活动中使用!

在这里插入图片描述

二、为何需要告警治理?

需求繁重,发布频繁,如何保障发布的稳定性保障?比如:

  • 新功能上线,新监控告警没有配置,导致流量预期不明,全量发布之后造成故障;
  • 老功能改造,核心模块/领域已有监控告警失准,导致异常未识别,全量发布之后造成故障;
  • 新老迭代,对外/对内核心监控指标不够聚焦,导致全局健康度失真,造成业务资损。

不同人对告警的配置理解各不相同,导致告警杂乱无章,告警颗粒度不够,告警不准确,看到告警也不知道是什么问题,线上常见告警问题无法快速识别。

告警配置过多,就比如我们部门日均1000+告警,大部分是各种告警阈值不合理等等问题导致,假如每个告警花5分钟来看,一天就是5000分钟的浪费,谁不觉得难受?天天这样的话很多人就会对告警麻木,就好像“狼来了”,真的有严重的线上事故的时候后知后觉,被一线业务倒推问题!

三、治理迫在眉睫

告警治理的核心在于提高告警的质量,减少无效告警的数量,确保关键告警能够得到及时响应。这不仅有助于提升运维效率,还能改善团队的工作环境,减少因无效告警带来的疲劳感。

1.1告警治理策略

为了进一步细化告警治理技巧,并具体化告警质量优化的内容,我们可以从以下几个方面进行深入探讨:

1.2核心监控告警点

  • 灰度发布时的核心监控:在新功能灰度发布时,应特别关注流量变化趋势,设置流量预警监控点,如QPS异常波动,确保一旦流量超出预期,可以及时收到通知并采取措施。
  • 业务关键点监控:在业务逻辑的关键环节,如数据库交互、消息队列通信、远程调用等,设置异常监控点,当这些环节出现问题时,能迅速定位并解决。
  • 全链路综合指标监控:跨服务调用时,设置响应时间、请求成功率等综合指标监控,一旦偏离正常范围,立即触发告警。

1.3避免告警反模式

  • 告警描述标准化:确保每个告警都有清晰、详细的描述,包括告警源、告警级别、影响范围等信息,便于快速理解问题所在。
  • 告警阈值个性化:根据不同业务场景调整告警阈值,例如对于交易系统,响应时间稍微延长即可能影响用户体验,因此阈值设置应更为严格。
  • 告警策略智能调整:利用机器学习模型分析历史数据,动态调整告警策略,减少误报的同时确保重要告警不被忽略。

1.4告警规约制定

  • 监控对象选择:只监控那些直接影响用户体验或服务稳定性的关键指标,如系统负载、数据库连接数、网络延迟等。
  • 告警触发时机:设置合理的延迟时间,避免因短期波动引发不必要的告警。例如,CPU使用率超过阈值时,可以设置一定时间窗口观察是否持续超过该阈值。
  • 告警信息完善:告警信息应包含尽可能多的诊断信息,如发生告警的时间、位置、影响范围以及可能的原因分析。

1.5自动化处理

  • 自动恢复机制:对于已知问题,如短暂的服务不可达,可以设置自动恢复机制,如自动重启服务,减少人为干预。
  • 自动化脚本部署:编写自动化脚本,用于处理常见的告警问题,如清理缓存、重启应用等,提高响应速度。
  • 告警降噪策略:实施告警降噪策略,合并相似告警,减少重复通知,避免同一问题的多次干扰。

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2113755.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ISP面试准备2

系列文章目录 文章目录 系列文章目录前言一.如何评价图像质量?二.引起图像噪声的原因三. ISP3.1 ISP Pipeline主要模块3.1.1坏点校正(Defect Pixel Correction, DPC)3.1.2黑电平校正(Black Level Correction, BLC)3.1.…

面试官:synchronized的锁升级过程是怎样的?

大家好,我是大明哥,一个专注「死磕 Java」系列创作的硬核程序员。 回答 在 JDK 1.6之前,synchronized 是一个重量级、效率比较低下的锁,但是在JDK 1.6后,JVM 为了提高锁的获取与释放效,,对 synchronized 进…

基于JSP的实验室管理系统

你好呀,我是计算机学姐码农小野!如果有相关需求,可以私信联系我。 开发语言:Java 数据库:MySQL 技术:JSP技术 Spring Boot框架 工具:IDEA/Eclipse、Navicat、Tomcat 系统展示 首页 用户个…

自然语言处理系列六十二》神经网络算法》MLP多层感知机算法

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】 文章目录 自然语言处理系列六十二神经网络算法》MLP多层感知机算法CNN卷积…

【Python篇】PyQt5 超详细教程——由入门到精通(序篇)

文章目录 PyQt5 超详细入门级教程前言序篇:1-3部分:PyQt5基础与常用控件第1部分:初识 PyQt5 和安装1.1 什么是 PyQt5?1.2 在 PyCharm 中安装 PyQt51.3 在 PyCharm 中编写第一个 PyQt5 应用程序1.4 代码详细解释1.5 在 PyCharm 中运…

电子电气架构---私有总线通信和诊断规则

电子电气架构—私有总线通信和诊断规则 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证明自…

最新版 | SpringBoot3如何自定义starter(面试常考)

文章目录 一、自定义starter介绍二、自定义Starter的好处及优势三、自定义starter应用场景四、自定义starter1、创建autoconfigure的maven工程2、创建starter的maven工程3、在autoconfigure的pom文件中引入MyBatis的所需依赖4、编写自动配置类MyBatisAutoConfiguration5、编写i…

红旗EQM换电连接器哪家生产

红旗EQM换电连接器概述 红旗EQM换电连接器是针对红旗品牌电动汽车设计的一种快速更换电池的装置。它允许用户在短时间内完成电池的更换,从而提高电动车的使用效率和便捷性。接下来,我们将详细探讨红旗EQM换电连接器的相关操作步骤、所需工具以及最新的相…

[Git使用] 实战技巧

文章目录 1. 理解分叉点2. Rebase3. FixUp4. Revert1. 理解分叉点 合并分支的时候会产生分叉点 比如: 仓库有dev和feature两个分支; 操作1:dev远程新建一个文件操作2:feature提交第一次操作3:远程执行把feture合并到dev分支在可视化界面可以看到 远程Dev分支的可视化: …

MySQL 锁分类有哪些?一文带你详解!!

MySQL 锁 全局锁全局锁的应用场景全局锁的缺点 表级锁表锁元数据(MDL)锁MDL 锁的问题 意向锁AUTO-INC 锁 行级锁记录锁(Record Lock)间隙锁(Gap Lock)临键锁(Next-Key Lock)插入意向…

安卓开发板_联发科MTK开发评估套件串口调试

串口调试 如果正在进行lk(little kernel ) 或内核开发,USB 串口适配器( USB 转串口 TTL 适配器的简称)对于检查系统启动日志非常有用,特别是在没有图形桌面显示的情况下。 1.选购适配器 常用的许多 USB 转串口的适配器&#xf…

宝塔部署Vue项目解决跨域问题

一、前言 使用宝塔面板部署前端后端项目相比用命令行进行部署要简单许多,宝塔的可视化操作对那些对Linux不熟悉的人很友好。使用宝塔部署SpringBoot后端项目和Vue前端项目的方法如下: 1、视频教程 2、文字教程1 3、文字教程2 以上的教程完全可以按照步骤…

以太网交换机工作原理学习笔记

在网络中传输数据时需要遵循一些标准,以太网协议定义了数据帧在以太网上的传输标准,了解以太网协议是充分理解数据链路层通信的基础。以太网交换机是实现数据链路层通信的主要设备,了解以太网交换机的工作原理也是十分必要的。 1、以太网协议…

SQLException: No Suitable Driver Found - 完美解决方法详解

🚨 SQLException: No Suitable Driver Found - 完美解决方法详解 🚨 **🚨 SQLException: No Suitable Driver Found - 完美解决方法详解 🚨****摘要 📝****引言 🎯****正文 📚****1. 问题概述 ❗…

网络层 VII(IP多播、移动IP)【★★★★★★】

一、IP 多播 1. 多播的概念 多播是让源主机一次发送的单个分组可以抵达用一个组地址标识的若干目的主机,即一对多的通信。在互联网上进行的多播,称为 IP 多播(multicast , 以前曾译为组播)。 与单播相比,在一对多的…

【go】内存分配模型

内存是怎么分配给对象的? 内存分配优化的地方是? 讲讲golang内存分配模型? ans: 1.按照对象的大小分配:先算出对象的大小如果是tiny对象,就从tiny block中获取地址和偏移量,将对象打包到mcache;如果是16B以…

Xilinx系FPGA学习笔记(五)ROM的IP核学习

系列文章目录 文章目录 系列文章目录前言ROM IP分布式ROM生成ROM配置创建COE文件 块ROM生成如何快速生成Example Design 两种ROM对比 前言 最近在学习小梅哥的xilinx型FPGA开发板,一边学习一边记录,简化整理一下笔记 ROM IP 在 Memories &Storage …

JVM、JRE和 JDK:理解Java开发的三大核心组件

Java是一门跨平台的编程语言,它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中,JVM(Java虚拟机)、JRE(Java运行时环境)和JDK(Java开发工具包)是三个至关重要的核心…

致远个性化之--获取明细表中相同类型的数据汇总,并赋值对应明细行中

需求 由于在近期的项目中,有预算、费用管控等需求,而且在报销填报时,费用明细项可能会有重复相同的费用类型发生多项,而相同的费用类型是多项时,要求按照汇总后的费用管控。 具体示例图如下: 邮寄费发生了两…

有希带你深入理解指针(4)

目录 前言🥰1.回调函数😺1.1回调函数的概念😋 2.qsort使用🤯2.1什么是qsort👻2.2 qsort函数的使用🧐 3.模拟实现qsort😎 前言🥰 本篇文章是对指针知识的进一步讲解,如果…