TiDB 多集群告警监控-初章-监控融合、自动告警处理

news2024/11/15 18:20:33

author:longzhuquan

背景

随着公司XC改造步伐的前进,越来越多的业务选择 TiDB,由于各个业务之间需要物理隔离,避免不了的 TiDB 集群数量越来越多。虽然每套 TiDB 集群均有两个详细的监控 Dashboard、Grafana,但对于运维来说几十套集群的监控、告警、巡检均需消耗巨大的精力。

“融合工具” - 拥抱开源

虽然 TiDB 本身的 Prometheus 也可进行数据的整合,但场景太过于单一,达不到预想效果。对于运维以及业务来说几十套集群上百个节点均需要做到告警消息及时告知、监控大盘、可在单一页面上便捷的查看所有Grafana信息、Dashboard监控可进行语句级别的查询。TiDB 是一款优秀的开源软件,本着拥抱开源的心态,经过大量的调研以及基于成本的考量,最终选择了在监控领域的开源产品夜莺。夜莺产品架构如下:

20230531103435

选择夜莺监控主要有两点:

1、兼容多个数据源接口,Prometheus、Zabbix、ES 等。这使得对于多套集群的 TiDB 无需做额外改动,只需要将 Prometheus 数据源接入即可获得所有采集数据。从而进行后续告警数据加工,且 ES 等数据源的支持也可为后续多集群日志整合提供可能性。

2、完全开源,成本低。无论是适配成本以及资源成本在同类产品中都占据优势。

20230531103435data

工具安装

工具安装

详细的安装步骤请参考官网 安装部署详解 这里不在赘述。

由于整体项目为XC,监控也需要进行XC考量,所以将监控底层存储 MYSQL 替换为TiDB。Redis替换为某国产中间价。实际测试可百分百兼容。

业务组设计

整个监控的告警、监控不仅仅是面向 DBA,对应业务组的重要应用人员也有权知道后端数据库资源使用情况。业务组之间耦合性较低,每个业务仅关心自己的业务,DBA 则需要管控所有集群。针对此种场景在进行监控具体指标设计之前,需要按照不同需求进行业务组、角色、团队设计。

设计规则

用户管理:1、LDAP用户登录帐号,2、虚拟机器人+token地址(内部飞书告警)

20231204171336

20231204171514

团队管理:以一级部门名称+产品名称+业务系统命名(对应飞书接收群组名称),对应告警接收组 eg :ITXX部门- TiDB-XXX业务系统

20231204171633

业务组管理:以产品名称+一级部门+产品名称+系统名称命名(对应告警规则组),此处第一个产品名称为自动折叠设置。

20231204171833

角色管理:告警机器人账户、业务组人员账户、监控管理员账户,不同角色不同权限。

20231204171942

告警规则制定

制定完成业务组后,第一步实现飞书自动告警功能。

添加数据源

为方便管理数据源命名规范为:

部门_中间件名_业务系统_环境_IP(prometheus)

eg:XXIT_TiDB_ JAVA_PRO_127_0_0_1

20231204172111

添加告警规则

告警管理-告警规则-点击对于业务组-新增,同样为后续运维性考量,需严格设置规范命名规则。其中PromQL规则则按照自我需求编写即可,后续我司规则将会提交至开源社区,感兴趣可参考。

规则名称:业务系统描述+告警简介

备注:对应告警集群

数据源:只关联业务系统对应的数据源

告警接收组:对应业务组

20231204172235

20231204172420

20231204172644

告警模板制定(此处可根据需求自行编写通知模板)

系统配置-通知模板-飞书

告警环境: 测试环境 
服务名称: {{index .TagsMap "paasName"}}{{index .TagsMap "serviceName"}} 
级别状态: S{{.Severity}} {{if .IsRecovered}}Recovered {{else}}Triggered{{end}} 
告警对象: {{if.TargetIdent}}{{.TargetIdent}} {{else}}{{index .TagsMap "instance"}}{{end}} 
规则名称: {{.RuleName}}{{if .RuleNote}} 
规则备注: {{.RuleNote}}{{end}} 
监控指标: {{.TagsJSON}} 
{{if .IsRecovered}}
恢复时间: {{timeformat .LastEvalTime}}
{{else}}
触发时间: {{timeformat .TriggerTime}} 
触发时值: {{.TriggerValue}}
{{end}} 
发送时间: {{timestamp}}

成果展示

告警管理-业务组告警规则-不同业务组不同集群全部整合

20231204173041

飞书告警效果

20231204173336

结语

本篇文章粗浅的介绍了如何通过夜莺补齐 TiDB 告警融合缺失的问题,当然文章篇幅有限,实际会有更多细节,如感兴趣欢迎垂询。

下一章将会介绍如何融合多集群 Grafana ,以及 Dashboard 部分功能实现,做到一个页面即可查看几十甚至上百节点集群的难题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1376996.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

精密配电柜助力数据中心节能降耗 ——安科瑞 顾烊宇

0 前言 近年来伴随着数字经济的蓬勃发展,数据中心在新型基础设施体系的支撑作用愈发凸显,其在赋能千行百业数字化变革的同时,所带来的巨大能耗问题也引起社会的高度关注。根据生态环境部公布的数据,2021年,我国数据中…

DHCP,怎么在Linux和Windows中获得ip

一、DHCP 1.1 什么是dhcp DHCP动态主机配置协议,通常被应用在大型的局域网络环境中,主要作用是集中地管理、分配IP地址,使网络环境中的主机动态的获得IP地址、DNS服务器地址等信息,并能够提升地址的使用率。 DHCP作为用应用层协…

高级路由技术案例

文章目录 案例项目一:1、静态ECMP和浮动静态路由配置实验2、浮动静态路由配置 案例项目二:使用filter-policy过滤路由案例项目三:IS-IS基本配置案例项目四:OSPF基本配置案例任务一:OSPF单区域配置案例任务二&#xff1…

7.1 MySQL数据库

7.1 数据库 1. MySQL表操作2. SQL基本查询3. SQL高级查询4. SQL写入操作5. MySQL基本函数6. MySQl下载与安装1 下载2. 安装3. 配置环境变量Path 1. MySQL表操作 2. SQL基本查询 3. SQL高级查询 4. SQL写入操作 5. MySQL基本函数 6. MySQl下载与安装 1 下载 官网 选择8.0版本 …

网络安全|勒索软件攻击|金融行业将面临审查以保障网络与数据安全

随着互联网和数字化技术的飞速发展,金融行业已经成为勒索软件攻击的重灾区。这些攻击事件不仅对企业的正常运营造成了严重影响,还给用户带来了巨大的风险。 近日,有消息称“国家金融监督管理总局要求国内银行和保险企业全面审查所有业务的网络…

计算机丢失msvcr120.dll解决办法分享,实测有效

msvcr120.dll是Microsoft Visual C Redistributable Package的一部分,它是运行许多基于Windows操作系统的应用程序所必需的动态链接库文件。它包含了许多C运行时组件,这些组件提供了许多常用的函数和类,使得开发者能够编写出更加稳定和高效的…

个人网站制作 Part 2 | Web开发项目

文章目录 👩‍💻 基础Web开发练手项目系列:个人网站制作🚀 添加导航栏步骤 1: 创建导航栏HTML步骤 2: 样式化导航栏 🚀 添加项目展示区域步骤 3: 创建项目展示HTML步骤 4: 样式化项目展示 🚀 添加联系信息步…

SAP 如何快速查询成本的异常

每当月末CO月结的时候,生产企业或多或少会遇到标准成本与实际成本差异偏大的情况,我们如何快速查看产成品的成本异常,一般来说二者偏差5%是正常的,如果偏差20%,就要重点关注。我们通过0062报表来查看 进入“屏幕选择”…

.Net6使用SignalR实现前后端实时通信

代码部分 后端代码 (Asp.net core web api,用的.net6)Program.cs 代码运行逻辑: ​1. 通过 WebApplication.CreateBuilder(args) 创建一个 ASP.NET Core 应用程序建造器。 2. 使用 builder.Services.AddControllers() 添加 MVC 控…

基于多反应堆的高并发服务器【C/C++/Reactor】(中)HttpRequest 提取请求行、解析请求行和优化 以及解析请求头并存储

### 知识点1:读取网络数据 客户端发送给服务器的通信数据通过封装的bufferSocketRead函数读取读取的数据存储在struct Buffer结构体实例中,可将该实例作为参数传递给解析函数 回顾Buffer.c中的bufferSocketRead函数 // 写内存 2.接收套接字数据 int b…

备忘录传不了图片,求备忘录里添加图片的方法是什么?

在这个信息爆炸的时代,我深知信息整合对于提升效率的重要性。尤其是当文字和图片能够完美结合时,那种查阅的便捷和直观感受,真的让人眼前一亮。 想象一下,你正在为即将到来的旅行做攻略,或者在准备一次重要的工作汇报…

【操作系统】重点概念汇总(手写版本)

Chapter1:操作系统引论 Chapter2:进程管理 Chapter3:处理机调度与死锁 Chapter4:存储器管理 Chapter5:虚拟存储器 Chapter6:输入输出系统 Chapter7:文件管理 Chapter8:磁盘存…

ssm基于Javaweb的网上花店系统的设计与实现论文

摘 要 进入21世纪网络和计算机得到了飞速发展,并和生活进行了紧密的结合。目前,网络的运行速度以达到了千兆,覆盖范围更是深入到生活中的角角落落。这就促使网上购物系统的发展。网上购物可以实现远程购物,远程选择喜欢的商品和随…

黑马苍穹外卖学习Day5

文章目录 Redis学习Redis简介准备工作Redis常用数据类型介绍各数据类型的特点Redis常用命令字符串操作命令哈希操作命令列表操作命令集合操作命令有序集合操作命令通用操作命令 在Java中操作Redis导入Spring Data Redis坐标配置Redis数据源编写配置类,创建RedisTemp…

odoo16 库存界面调整

odoo16 库存界面调整 今天布置一服装批发中心&#xff0c;嫌出入库的概述描述不清&#xff0c;如收据想改成入库&#xff0c;交货单想改成发货单 原代码如下&#xff1a; <record id"stock_picking_type_kanban" model"ir.ui.view"><field name&…

安防视频监控系统EasyCVR设备分组中在线/离线数量统计的开发与实现

安防视频监控EasyCVR系统具备较强的兼容性&#xff0c;它可以支持国标GB28181、RTSP/Onvif、RTMP&#xff0c;以及厂家的私有协议与SDK&#xff0c;如&#xff1a;海康ehome、海康sdk、大华sdk、宇视sdk、华为sdk、萤石云sdk、乐橙sdk等。EasyCVR平台可覆盖多类型的设备接入&am…

STM32L051使用HAL库操作实例(14)- ADC采集电压

目录 一、前言 二、ADC外设简要说明 三、STM32CubeMX配置&#xff08;本文使用的STM32CubeMX版本为6.1.2&#xff09; 1.MCU选型 2.时钟使能 3.外部时钟配置 4.串口配置 5.ADC引脚配置 6.配置STM32CubeMX生成工程文件 7.点击GENERATE CODE生成工程文件 四、工程源码 …

Linux文件系统的层次结构、每个目录的含义、文件属性以及文件中第一列的第一个字符的含义

1.Linux文件系统的层次结构 在Linux操作系统中&#xff0c;所有的文件和目录都被组织成以一个根节点“/”开始的导致的树状结构&#xff1a; 5.Linux系统的目录解析 &#xff08;1&#xff09;/bin bin是Binary的缩写&#xff0c;这个目录存放着最经常使用的命令。 &#x…

Nerf相关研究

1.Nerf相关研究 随着Luma AI的到来&#xff0c;再次将Nerf推向浪尖&#xff0c;实用性进一步得到强化。Nerf仍以极速的发展速度前行&#xff0c;越来越多的研究方向不断涌现。 4K-Nerf 4K-NeRF: High Fidelity Neural Radiance Fields at Ultra High Resolutions 论文&#…

写点东西《2024 年决心:更加以开源为中心》

写点东西《2024 年决心&#xff1a;更加以开源为中心》 简而言之1- 使用 Taipy 代替 Tableau 2- 使用 Cal.com 代替 Calendly 3- Plausible 代替 Google Analytics4- AppFlowy 代替 Notion5- Penpot 代替 Figma 6- Fonoster 代替 Twilio 7- NextCloud 替代 Dropbox 8- Jitsi 替…