智能运维的集中告警平台实战思路 —— 紧耦合还是宽融合?

news2024/12/24 8:43:24

作者:擎创科技产品总监 Daniel

本文是节选,如感兴趣可留言一起探讨。

( 我们在确定一个产品的思路和方向时,经常面临截然不同的选择。如同此文探讨的集中告警平台是否应跟集中监控平台紧绑定或松融合,具体的实战案例或许也提供一些方向。作为吃瓜群众,本博主从来支持各自发展、偶尔连接,做灵活性大的产品。且看银行客户怎么做的)

案例背景概述(股份制商业银行)

不破不立:

  • 近年来随着中美关系微妙变化,传统国外厂商监控软件的本地化支撑能力日趋减弱,愈来愈接近改造的边缘
  • 行内首当其冲的是Tivoli为代表的的传统基础监控,替换势在必行。信创发展也成为了集中监控告警平台改造的另外一个契机

顺势而为:

  • 由于ECC值班告警平台需要具有直观、快速、界面中文等特点,行内原来就并未采用原有Tivoli内置的告警平台,而是引入一套以简单可用,以开源为基础的快捷告警平台。
  • 原有平台的告警处置以确认、分派、流转为主。随着监控对象和范围的扩大,压缩、关联等能力都有迫切需要进一步提升,因此改造监控的同时完成一体化监控告警管理是非常有必要的。
  • 在改造集中监控平台的同事完成集中告警平台的优化与改造顺理成章。

方案探索 --- 紧耦合还是宽融合

集中监控告警整体方案在推进中遇到了一个选型设计的小问题,究竟应该将集中告警内嵌耦合于集中监控平台,还是应该独立构建集中告警平台,然后与集中监控平台实现融合打通?

无论是传统集中监控平台,还是新一代信创的集中监控平台,都在监控中会内嵌一个告警中心,毕竟监控的结果是触发告警,需要有告警的集中汇聚点。于是,很容易得到的结论就是:为什么不节省些成本,直接采用这个被耦合的告警中心呢?成本低,一体化,实施快,应该还是不错的选择。

紧耦合的模式确实会带来不少问题:

  • 主营与副业

主流的监控平台注重的稳定,可靠,全覆盖,告警虽然重要,但是在监控平台的眼里,如何更高效的采集,如何对象化拆解,如何找到监控对象相互之间的调用关联是无疑是重中之重。于是出发点不同造成了普遍的共识是耦合型的告警平台是监控平台的副业,是监控主营业务下的附属品。这就为紧耦合后告警平台的后续发展带来隐忧。

对比下历史,这种主营与副业恰好解释了为什么当年Omnibus会在事件管理平台领域横扫四大传统管理厂商,成为一个垂直领域的王者。

  • 视角主义

虽然每个监控平台的目标都是完美的全覆盖,但IT环境的复杂度决定了Manage Everything ≈ Manage Nothing。于是现实中的监控平台几乎没有全覆盖+全完美的,APM,云原生、系统监控、网络监控,可谓八仙过海,各显神通。

紧耦合的告警平台往往考虑的更多的是自家的监控,对于外延式的其他监控平台的集成度和融合度就显得有些捉襟见肘。

  • 从Ack到赋能

告警平台与20年前相比,已经不能仅仅停留在确认(Ack),简单压缩这个层面上了。今天的平台无论是智能化还是规则驱动,其本质应该需要赋能,构建个性化沉淀闭环,才能真正在运维体系中达到效率的提升和效益的显现。而这就需要更加专注的在告警平台上投入,但似乎调研了很多家的监控平台,能把告警平台做到赋能层面的似乎鲜有所闻。 

综合来看,如果需要一个低成本速效药那么买一送一的模式应该是不错的选择,但是从长治久安的角度出发,垂直域深耕的一个独立告警平台无疑是一个不错的选择。


现状梳理

为了做出一个更加贴合实际的选择,行方对现有告警平台和处置遇到的问题从若干维度进行了梳理:

  • 噪音告警 --- 麻痹疏漏是顽症

从实际数据来看,平均每天原始告警20000+,告警量是1000多条,真正关注的告警不超过100条,主要关注业务类、指标类告警。因此需要确保关键告警不能被淹没和遗漏。

  • 关联聚合 --- 告警压缩能力略显单一

原有系统只能通过全局关键字进行压缩。典型问题就是对于F5网络设备告警中IP地址没有的告警将无法进行压缩,而每天F5网络告警200+条,无效告警100+条。

  • 个性关注 --- 告警筛选灵活度不够

外包值班管理员对告警的筛选有个性化要求,原有的模式相对简单,导致常有告警遗漏电话通知。每月约有近10+条告警漏通知,其中还不乏少量重要告警。

  • 复盘分析 --- 缺乏闭环沉淀

由于行方晚上均为外包人员,而外包人员知识量匮乏,缺乏沉淀确实导致提示不够,时常值班人员遇到告警,会有不知所措的瞬间。

  • 处置一体化:

告警的处置通常需要快速联动,确认告警的有效性的前提是足够的支撑数据能够便捷地被整合,就好比坐在运维驾驶舱内能看到即时仪表盘。而关联信息可能是来自业务监控平台,也可能需要到日志平台二次确认,这些有助于分析处置一体化的信息在原有平台上很难被整合。

基础必备能力

综合现状来看,无论方案内耦合还是外独立,都需要解决以下几个基础维度的问题

  • 告警数据灵活降噪:

    • 对于无效告警需要用灵活的模式去处置,比如针对性的过滤,维护期关联等

    • 针对不同源端告警,可以采用不同形式的压缩方式进行降噪。数据质量虽然参差不齐,但在数据治理改造完之前,需要分而治之

    • 通过个性化标签或者增强压缩等形式,有效减少告警通知量

  • 告警识别有效聚焦:

    • 每个人根据自身角色定义不同的个性化值班台,快速构建自己所关注的告警

    • 对于一些告警固有的特征通过算法或统计规律进行适度提示

  • 告警信息沉淀集成:

    • 相似告警的提示,提供历史处理借鉴

    • 告警一体化、个性化的全息视图,为告警补充更多的已知信息和知识

… … 


实战落地

项目的推进从纸面逐步落到实战,最终还是选择了独立的统一告警平台。毕竟寸有所长,尺有所短,把“专业的事情交给专业的人去做”。独立的告警平台构建也能赋予了告警治理更灵活的手段,更个性化的场景构造能力。虽然治理改造的工作也并非一蹴而就,但短短几个月的时间,现有20多套数据源全部集成到告警辨析中心,实现行内告警统一管理与处置:

  • 有效将噪音告警,通过过滤、语义压缩结合个性化数据源规则压缩,最终个性化供给用户真正关注的内容,将每天2w+条原始告警压缩至200-条告警。

    • 以2022年11月某日18:36分发生的F5告警为例,主要包括2类告警,分别是端口down和无可用服务。两套系统并行阶段,由于原系统只能通过全局的固定关键字进行压缩,旧平台共计产生了18条告警。经过新平台压缩后生成6条告警,降噪12条无效告警。虽然还不能一举登峰,但优化效果

  • 不同运维人员拥有不同的磁贴看板,例如“已通知未解决”、“电话通知”、“待处理”,“电话通知”、“临时待处理”、“变更中”,根据不同看板快速定位自己所关注的告警,分钟级别查找缩短到秒级。有效区分哪些挂起的告警,哪些告警是需要电话通知的告警。避免瞬时海量告警爆发导致关键告警淹没。

  • 能够通过历史相似告警的解决方案提示信息,外包人员能够从之前历史经验中快速了解问题的处置方案,在最近一个月时间内,在数据库宕机异常、文件系统异常问题上的使用,使得运维人员在处置效率上提升了46%。

  • ... ... 限于具体故障场景的私密性,这里不便展开

本项目还在继续进行,不同的项目独立集中告警平台的构建由于出发点不同,实际的内容也远远不止这些。有些更关注的是前后打通,有警必达;有的关注告警自动化开单;有的关注场景联动;还有的关注一体化外围信息聚合助力问题解决。

只是万丈高楼平地起,无论哪种视角,无论是紧耦合还是宽融合,告警平台需要把基础打扎实了,与源端管理配合,在告警信息侧尽可能高效原子化解耦,后续在上层告警侧针对性分析才能有据可依,有数可析。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/518322.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[译] Dart 3 发布了

[译] Dart 3 发布了 原文 https://medium.com/dartlang/announcing-dart-3-53f065a10635 https://ducafecat.com/blog/dart-3 来自 Google I/O 2023 的问候。今天,我们在 Mountain View 现场宣布 Dart 3——迄今为止最大的 Dart 发布!Dart 3 包含三个主要…

Springboot +Flowable,各种历史信息如何查询(一)

一.简介 正在执行的流程信息是保存在以 ACT_RU_ 为前缀的表中,执行完毕的流程信息则保存在以 ACT_HI_ 为前缀的表中,也就是流程历史信息表。 假设有一个流程,流程图如下: 当这个流程执行完毕后,以 ACT_RU_ 为前缀的…

小黑子—多媒体技术与运用基础知识三:数字图形图像处理技术

多媒体技术与运用3.0 多媒体系列第三章1. 颜色科学1.1 颜色的性质1.1.1 颜色的物理性质1.1.2颜色三特性1.1.3三原色与三补色 1.2 颜色空间1.2.1 与设备无关的颜色空间1.2.1 与设备相关的颜色空间 1.3 常见的多媒体系统颜色空间1.3.1 RGB颜色空间1.3.2 CMYK颜色模型1.3.3 HSB颜色…

什么是模型鲁棒性和泛化能力

目录 1、鲁棒性 2、泛化能力 1、鲁棒性 定义:在统计学领域和机器学习领域,对异常值也能保持稳定、可靠的性质,称为鲁棒性。比如说,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃&a…

17 KVM虚拟机配置-XML配置文件示例

文章目录 17 KVM虚拟机配置-XML配置文件示例17.1 概述17.2 示例一17.3 示例二 17 KVM虚拟机配置-XML配置文件示例 17.1 概述 本节给出一个基本的AArch64虚拟机和一个x86_64虚拟机的XML配置文件示例,供参考。 17.2 示例一 一个包含基本元素的AArch64架构虚拟机的…

Psychophysiology:降维独立成分分析(rdICA)对ERP测量的影响

导读 独立成分分析(ICA)是一种有效且普遍使用的EEG信号处理工具。为了减少计算时间,许多分析管道在ICA之前降低了EEG维数。Artoni及其同事(2018)的研究中就详细地描述了这种降维ICA(rdICA)对独立成分的偶极性和可靠性的有害影响。虽然ICA对于那些直接分析独立成分感…

【网络安全】记一次网站站点渗透

前言 遇到一个站,后端是 Node.js 写的,对于这种类型的站点,一般比较难 getshell,但也实现了最终的目标,拿到后台权限 信息搜集 先进行常规的信息搜集,子域名扫描、端口扫描、目录扫描等 这个站后端脚本语…

如何实现文件共享,文件共享的设置方法-镭速

文件共享是指在计算机网络中,多个用户可以通过共享相同的文件或目录来实现数据交换和协作工作。这种方式可以使多个用户在不同地点的计算机上访问并编辑同一个文件,从而实现更加高效和便捷的合作。 实现文件共享是计算机网络中常见的需求,可以…

关于在 MySQL 排序中使用索引这件事!

文章目录 1. 排序的两种方式2. 索引排序2.1 案例一2.2 案例二2.3 案例三2.4 案例四2.5 案例五2.6 案例六2.7 案例七2.8 案例八 3. 其他情况3.1 多表联查3.2 order by null 4. 小结 前面跟小伙伴们分享的索引相关的内容,基本上都是在 where 子句中使用索引&#xff0…

java环境变量 的配置与详解

笔者这学期开始学习java课程,学习java开发首先需要配置java运行环境变量。虽然上课老师也讲了如何配置java环境变量,可是笔者的同学还是有好多都不会配置,所以笔者最近配置了特别多次java环境变量。如下笔者详细解释从JDK安装到环境变量的装配…

rsync本地或远程备份

这里写自定义目录标题 rsync作用rsync用法scp /cp/rsync区别ssh无密码登陆原理远程备份案例远程备份脚本脚本1:脚本2 本地备份常用参数 rsync作用 实现本地或远程 全量备份 增量备份 rsync用法 rsync -avz 本机文件夹 远程主机用户名IP:远程主机文件夹 scp /cp/…

发电厂能源管理远程监控解决方案

发电厂能源管理远程监控解决方案 项目背景 在我国经济快速发展的同时,对用电的要求也越来越高。为了节约能源和降低成本,国家正在积极推动发电厂的技术改造。发电厂作为发电企业的核心,其耗能状况关系到整个国家的经济发展。为进一步加强对电…

如何成为一名职业黑客?

我需要什么技能才能成为一名优秀的专业黑客?” 由于黑客是最熟练的信息技术学科之一,它需要广泛的 IT 技术和技巧知识。要真正成为一名真正的黑客,必须掌握许多技能。这是我总结所需技能的概述列表。我将这些技能分为三类,以帮助你…

家用洗地机有什么推荐的吗?好用的家用洗地机

洗地机采用高效能滚刷设计,可轻松处理多种不同材质地面的卫生问题,例如:地毯、硬地板、瓷砖等等,都能轻松完成深度清洁。而且洗地机还具有智能化设计,例如自动充电、一键启动和一键停止等设计,使它操作起来…

【Hello Algorithm】基础数据结构

作者:小萌新 专栏:算法 作者简介:大二学生 希望能和大家一起进步 本篇博客简介:介绍几种基础数据结构 基础数据结构 单链表结构翻转单链表删除节点 双链表栈和队列用栈实现队列用队列实现栈 哈希表 单链表结构 在阅读这篇文章之前…

GLM-130B-一个开放的双语通用预训练模型-论文精读

本文为作为类ChatGPT的模型ChatGLM的前期基础论文2《AN OPEN BILINGUAL PRE-TRAINED MODEL》的精读笔记,基础论文1的精读笔记请见《GLM论文精读-自回归填空的通用语言模型》。希望对大家有帮助,欢迎讨论交流。GLM-130B,主要思想概述&#xff…

Android 签名文件

签名文件相关 一、为什么需要签名?二、创建签名文件2.1、使用AS新建签名文件2.2、使用 keytool 新建签名文件 三、签名串改参考地址 一、为什么需要签名? Android系统要求每一个Android应用程序必须要经过数字签名才能够安装到系统中,也就是…

YooAsset | Unity资源管理方案

跳转官方仓库地址 一、说明 可空包、可首包DLC、可满足限制包体的需求、可玩家自己制作MOD上传到服务器、可分工程构建;支持内置渲染管线、可编程渲染管线;支持完整路径、可寻址资源定位;基于标签打包,自动分析冗余,基…

MongoDB 查询文档中使用$expr、$where选择器

之前我们介绍过使用比较选择器、逻辑选择器、元素选择器、数组选择器查询文档,如果您需要进一步了解,可以参考: MongoDB 查询文档中使用比较选择器、逻辑选择器https://blog.csdn.net/m1729339749/article/details/129965699MongoDB 查询文档…

【Ubuntu20.04】ROS noetic的g2o与系统g2o冲突问题

文章目录 0.问题描述1.问题原因2.解决方法2.1.方法12.1.方法2 3.成功效果 0.问题描述 \qquad 从github安装2023版本的g2o时,若ROS也安装了g2o,则会在编译时触发运行时冲突。具体表现为段错误,如若需要排查是否为ROS的g2o导致,则需…