“警警”有条:zCloud告警中心的告警与处置实践

news2024/11/20 11:47:29

79ec2544584955f169721ef0250b5218.png

ENMOTECH

随着金融行业数字化转型步伐的加快,海量数据处理成为常态,而作为数据存储和管理的核心——数据库的稳定性与效率直接影响着企业的运营成效。某金融科技企业使用了近10个品类、300余套数据库来承载业务,在专业运维、集中管理等方面都面临着实践挑战。云和恩墨与案例客户合作,通过构建 zCloud 数据库云管平台,简化了数据库运维,帮助客户达成了安全稳定、降本增效、规范标准的数据库管理目标,并保障了系统的持续健康运行。

zCloud 上线以来的两年多时间里,先后对接连通了案例客户的多个内部系统,现已深度融入该企业的数据库日常运维和管理工作中,有超过500位DBA及应用运维人员在使用该平台。今天,让我们一起走进 zCloud 数据库云管平台,通过其告警中心的实践案例,看看它如何“警警”有条地管理告警并进行敏捷处置,从而缩短故障影响时间、确保业务的顺利开展。

zCloud 告警中心是专为解决大规模数据库集群运维难题而设计的专业工具。它不仅能够集中管理成百上千个数据库的告警信息,还能根据紧急程度或重要级别予以预警,帮助运维人员迅速聚焦关键问题,进而可视化地进行故障处理与解决。

告警中心的核心价值是:在企业具备成百上千套数据库时,运维人员可以摆脱繁琐的手动监控流程,实现告警信息的集中化、自动化、智能化采集和分析,从而更快响应潜在风险,保障业务连续性和用户体验。

下图是 zCloud 告警中心的展示。在页面顶端,运维人员还可以配置告警联系人和通知的发送方式(如手机、邮件、微信等)。活动告警和历史告警分开显示,便于快速查看。

107feef47c21ac08890dc2a24a2c9f25.jpeg

在案例客户的实际生产环境中,主机CPU资源告警是常见的场景之一。当有异常进程、异常并发应用等情形出现时,都可能导致CPU资源耗尽,从而影响到业务的正常运行。 

作为一个集中的告警中心,zCloud 能够实时获取系统资源信息,展示趋势并做出预警。此外,它还能从数据库的角度分析问题、定位根因(Root Cause),在安全可靠的前提下给出行动(Action)措施。例如,zCloud 通过可视化手段,精准地定位了数据库中的异常会话及阻塞链,在确认安全的情况下,可以快速终止问题会话并完成恢复确认。

依托 zCloud 的监控告警和性能管理能力,运维人员便可以实现告警事件的一站式闭环管理,从而提升数据库运维效率。

zCloud 曾成功应对了案例客户生产环境中的一次主机CPU资源超负荷的情况。如下图所示,查看某一条CPU告警信息时,可以看到告警详情,包括目标数据库的位置、CPU使用率超过了严重级别告警阈值达到91.4%,问题已经持续了1分15秒等。 

b779eab60a2ee0629f9dce46c77f3ab9.png

此时,运维人员可以通过 zCloud 进入相应的数据库实例性能监控页面进行处理。

58afe697b712784533434a9b2ce55e83.png

在 zCloud 的“活动连接信息”及“事务和锁”功能页面,可以快速完成问题分析与定位。下图展示的是已经过滤出的系统中正在执行SQL的会话信息,我们看到大量进程正在执行相同的SQL语句:

ae69acbfd75ceaecde7c2ecaeb488bea.png

在“事务和锁”页面,我们可以直观地找到锁定和阻塞关系,并立即识别出运行时间最长的阻塞源头。不难发现,ID 4672968的会话为阻塞源,锁定行数100188,是当前系统运行的“拦路虎”:

4502cdaccbf99f238626cd616b843977.png

经过DBA的核查确认,正是该会话阻塞大量并发执行的相同SQL,可以安全地“杀掉”以解除锁定、释放资源。一个小细节是在执行“杀掉会话”时,zCloud 会提醒技术人员再次确认,以确保正确查杀。这里需要注意,人员的判断是操作的前提,zCloud 还允许配置授权,以使用“查杀会话”功能。

71f45ea3b2d6d33abccf9c12056c5f32.png

在清除异常SQL及阻塞会话后,系统恢复正常运行,负载逐步下降至安全水平。如下图所示,zCloud 告警信息分为警告(黄色)和严重(红色)两种级别。本案例中,主机CPU使用率的“警告”阀值设置为60%,“严重”阈值设置为80%,即当CPU使用率超过60%和80%后,会分别产生“警告”和“严重”两条告警信息。当CPU使用率降回至80%以下时,严重级别告警信息将从活动告警转为历史告警并将该条记录的状态置为已恢复,当CPU使用率进一步降至60%以下时,警告级别告警信息的状态也将置为已恢复。

752da8614d24f9e832712f7e33010196.png

ceae9724b63f12dd0364a3b1e76171da.png

我们从性能趋势图表上,可以查看整个故障过程,并支持进行复盘,通过系统记录的数据,回溯问题发生的关键过程,以便制定后续的应对方案。

1065e043c411e6ec6b27104108e8cbe8.png

zCloud 通过场景化的能力构建,帮助用户高效地处理日常运维过程中的数据库异常情况,极大地提高了故障处理的效率。

对比传统的人工处理方式,即便是有着丰富经验的DBA,zCloud 在多个处理环节都实现了效率倍增,特别是在管理大规模数据库或多套库同时需要介入处理的情况下,优势更加明显。按照下表的模拟统计,zCloud 相较人工脚本的方式带来3.5倍以上的效率提升,并且大大降低了对运维人员的能力要求。

步骤

动作

人工脚本用时

zCloud用时

1

连接VPN

1

1

2

登录堡垒机

2

0

3

确认并登录数据库主机

1

0

4

确认主机及数据库实例

0.5

0.5

5

问题分析定位

5

1

6

查杀异常数据库进程

2

0.5

7

恢复确认

1

0.5

_

用时合计

12.5

3.5

总结来说,zCloud 的优势集中体现在标准化、专业化、自动化和智能化:

标准化:多元异构数据库的统一管理和运维,所有操作都被标准化封装,实现标准化服务交付,避免由于DBA水平差异导致的误判或误操作。

专业化:在快速定位和解决问题的同时,保留故障相关数据,为根因分析提供支持,结合知识库,进一步将数据库管理水平提升至专业级别。

自动化:支持针对多种数据库的事前规划、事中监控、事后处置,减少人为干预,降低日常工作和常见故障的处理门槛,提升运维管理效率。

智能化:将AI算法与数据库行业实践相结合,并依托AI算法和知识库持续学习,不断提升故障处理智能能力,以提供更好的数据库运维支撑。

在数据库百花齐放、类型繁多的新时代,zCloud 坚持做“数据库的最佳伴侣”,不断降低数据库管理的复杂度,持续为客户创造价值。

d5bcde0eea356ba6133272f0e6d8b75d.gif

数据驱动,成就未来,云和恩墨,不负所托!


云和恩墨创立于2011年,是业界领先的“智能的数据技术提供商”。公司以“数据驱动,成就未来”为使命,致力于将创新的数据技术产品和解决方案带给全球的企业和组织,帮助客户构建安全、高效、敏捷且经济的数据环境,持续增强客户在数据洞察和决策上的竞争优势,实现数据驱动的业务创新和升级发展。

自成立以来,云和恩墨专注于数据技术领域,根据不断变化的市场需求,创新研发了系列软件产品,涵盖数据库、数据库存储、数据库云管和数据智能分析等领域。这些产品已经在集团型、大中型、高成长型客户以及行业云场景中得到广泛应用,证明了我们的技术和商业竞争力,展现了公司在数据技术端到端解决方案方面的优势。

7e9b6d98f3698f101c43ad8abd7b70fa.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2166015.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【操作系统】速成3

Linux内核和windows内核 原来鸿蒙是微内核 windows混合内核 参考:xiaolincoding.com

5种强大的方式:AI在临终关怀中提升护理质量,改善生活

目录 什么是临终关怀中的AI?AI如何个性化临终关怀?AI如何改善临终关怀患者的生活质量? 疼痛管理症状管理的预测分析情感和心理支持高效的资源分配减轻家庭压力 临终关怀中AI的未来 近年来,医疗保健行业在人工智能(AI…

MySQL --事务(上)

文章目录 1.什么是事务1.1为什么会出现事务1.2 事务的版本支持1.3 事务提交方式1.4事务常见操作方式1.4.1正常演示 - 证明事务的开始与回滚1.4.2非正常演示1 - 证明未commit,客户端崩溃,MySQL自动会回滚(隔离级别设置为读未提交)1…

Ubuntu环境切换到服务器某个用户后source等命令和Tab快捷补全都用不了了,提示没找到,但root用户可以

以escs用户为例: 输入以下命令 grep root /etc/passwd grep escs /etc/passwd 对比发现,root用户配的是bash,而escs却是sh, 所以把escs的sh改成和root一样的bash,命令为 usermod -s /bin/bash escs 改好后就可以了。 …

Win11 安装 PostgreSQL 数据库,两种方式详细步骤

文章目录 一、exe文件安装 (推荐)下载安装包1. 选择操作系统2. 跳转到EDB(PostgreSQL 的安装包托管在 EDB上)3. 选择版本点击下载按钮 安装1. 管理员打开安装包2. 选择安装目录3. 勾选安装项4. 设置数据存储目录5. 设置管理员密码…

C语言线程编程深度解析

文章目录 前言一、线程基础概念1. 什么是线程?2. 线程与进程的区别 二、POSIX线程库(pthread)1. pthread简介2. 编译与链接3. 创建线程示例代码: 4. 线程同步互斥锁(Mutex)示例代码: 条件变量&a…

SpringBoot代码实战(MyBatis-Plus+Thymeleaf)

构建项目 修改pom.xml文件&#xff0c;添加其他依赖以及设置 <!--MyBatis-Plus依赖--><dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-spring-boot3-starter</artifactId><version>3.5.6</version><…

智源研究院与百度达成战略合作 共建AI产研协同生态

2024年9月24日&#xff0c;北京智源人工智能研究院&#xff08;简称“智源研究院”&#xff09;与北京百度网讯科技有限公司&#xff08;简称“百度”&#xff09;正式签署战略合作协议&#xff0c;双方将充分发挥互补优势&#xff0c;在大模型等领域展开深度合作&#xff0c;共…

共享打印机无法创建打印作业原因分析及解决方法

在日常办公和生活中&#xff0c;打印机是不可或缺的重要设备。然而&#xff0c;有时在添加打印机的过程中&#xff0c;经常会遇各种问题。今天有个小伙伴问我在访问共享打印机时提示“无法创建打印作业”怎么回事&#xff1f;今天小编就教大家共享打印机无法创建打印作业原因分…

多表查询。

一、多表查询 select * from 表名,表名; select * from 表名,表名 where 条件; 二、内连接 隐式 select 字段列表 from 表1,表2 where 条件; 显示 select 字段列表 from 表1 INNER JOIN 表2 on 条件; 三、外连接 1.左外连接 select 字段列表 from 表1 left [outer] join 表…

接口自动化测试框架详解(pytest+allure+aiohttp+ 用例自动生成)

&#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 近期准备优先做接口测试的覆盖&#xff0c;为此需要开发一个测试框架&#xff0c;经过思考&#xff0c;这次依然想做点儿不一样的东西。 接口测试是比较讲究效…

【C++】STL--string(下)

1.string类对象的修改操作 erase&#xff1a;指定位置删除 int main() {string str1("hello world");str1.push_back(c);//尾插一个ccout << str1 << endl;string str2;str2.append("hello"); // 在str后追加一个字符"hello"cout…

openwrt固件选择推荐一:kwrt

前言 本文将推荐第一个openwrt固件Kwrt&#xff0c;帮助openwrt新手用户快速构建自己固件。下篇会推荐第二个Openwrt优秀固件。 一.openwrt定制系统&#xff1a;Kwrt github项目地址&#xff1a;点击跳转 支持300设备 1.提供在线定制页面&#xff0c;定制预装软件 固件在…

如何在 Windows 台式机或笔记本电脑上恢复未保存的 Excel 文件

您的汗水很容易化为灰烬&#xff0c;如果您没有保存长时间编写的项目报告或电子表格&#xff0c;这可能会令人心碎。丢失 Windows PC 上未保存的 Excel 文件可能是导致这种情况的原因。但您不应该惊慌。仍然有机会恢复未保存的 Excel 文件。 在本指南中&#xff0c;我们将向您…

failed to load steamui.dll的多种处理方法,steamui.dll的作用

在使用Steam平台时&#xff0c;不少玩家可能会遇到“failed to load steamui.dll”这样令人头疼的错误提示。这个错误会阻碍Steam客户端的正常运行&#xff0c;影响我们享受游戏和Steam平台的各种服务。不过&#xff0c;不必过于担心&#xff0c;因为有多种方法可以尝试解决这个…

车位租赁系统的设计与实现

摘 要 传统信息的管理大部分依赖于管理人员的手工登记与管理&#xff0c;然而&#xff0c;随着近些年信息技术的迅猛发展&#xff0c;让许多比较老套的信息管理模式进行了更新迭代&#xff0c;车位信息因为其管理内容繁杂&#xff0c;管理数量繁多导致手工进行处理不能满足广…

3d gaussian splatting公式推导

1. 离散公式推导 nerf中连续的积分渲染公式是&#xff1a; 其中被遮挡率&#xff1a; 那么转换为离散公式后有&#xff1a; 其中&#xff0c;代表j时刻的时间差&#xff0c;将其带入渲染公式&#xff1a; 设透明度 则被遮挡率 有 而gaussian-splating的公式与ner…

CNN-LSTM预测 | MATLAB实现CNN-LSTM卷积长短期记忆神经网络时间序列预测

CNN-LSTM预测 | MATLAB实现CNN-LSTM卷积长短期记忆神经网络时间序列预测 目录 CNN-LSTM预测 | MATLAB实现CNN-LSTM卷积长短期记忆神经网络时间序列预测预测效果基本介绍模型描述程序设计参考资料预测效果 基本介绍 本次运行测试环境MATLAB2020b 提出一种包含卷积神经网络和长短…

windows11环境安装lua及luarocks(踩坑篇)

一、lua安装及下载 官方地址&#xff1a; Lua Binaries Download 从这里就有坑了&#xff0c;下载后先解压win64_bin.zip&#xff0c;之后解压lib&#xff0c;用lib中的文件替换win64的&#xff0c;并把include文件夹复制过去&#xff0c;之后复制并重命名lua54&#xff0c;方…

面试知识点总结篇四

一、计算机网络 概念&#xff1a;互连的、自治的计算机系统的集合组成&#xff1a;硬件、软件、协议。功能组成&#xff1a;通信子网&#xff08;物理层、数据链路层、网络层&#xff09;、资源子网&#xff08;会话层、表示层、应用层&#xff09;分别有广域网、城域网、局域…