ENMOTECH
随着金融行业数字化转型步伐的加快,海量数据处理成为常态,而作为数据存储和管理的核心——数据库的稳定性与效率直接影响着企业的运营成效。某金融科技企业使用了近10个品类、300余套数据库来承载业务,在专业运维、集中管理等方面都面临着实践挑战。云和恩墨与案例客户合作,通过构建 zCloud 数据库云管平台,简化了数据库运维,帮助客户达成了安全稳定、降本增效、规范标准的数据库管理目标,并保障了系统的持续健康运行。
zCloud 上线以来的两年多时间里,先后对接连通了案例客户的多个内部系统,现已深度融入该企业的数据库日常运维和管理工作中,有超过500位DBA及应用运维人员在使用该平台。今天,让我们一起走进 zCloud 数据库云管平台,通过其告警中心的实践案例,看看它如何“警警”有条地管理告警并进行敏捷处置,从而缩短故障影响时间、确保业务的顺利开展。
zCloud 告警中心是专为解决大规模数据库集群运维难题而设计的专业工具。它不仅能够集中管理成百上千个数据库的告警信息,还能根据紧急程度或重要级别予以预警,帮助运维人员迅速聚焦关键问题,进而可视化地进行故障处理与解决。
告警中心的核心价值是:在企业具备成百上千套数据库时,运维人员可以摆脱繁琐的手动监控流程,实现告警信息的集中化、自动化、智能化采集和分析,从而更快响应潜在风险,保障业务连续性和用户体验。
下图是 zCloud 告警中心的展示。在页面顶端,运维人员还可以配置告警联系人和通知的发送方式(如手机、邮件、微信等)。活动告警和历史告警分开显示,便于快速查看。
在案例客户的实际生产环境中,主机CPU资源告警是常见的场景之一。当有异常进程、异常并发应用等情形出现时,都可能导致CPU资源耗尽,从而影响到业务的正常运行。
作为一个集中的告警中心,zCloud 能够实时获取系统资源信息,展示趋势并做出预警。此外,它还能从数据库的角度分析问题、定位根因(Root Cause),在安全可靠的前提下给出行动(Action)措施。例如,zCloud 通过可视化手段,精准地定位了数据库中的异常会话及阻塞链,在确认安全的情况下,可以快速终止问题会话并完成恢复确认。
依托 zCloud 的监控告警和性能管理能力,运维人员便可以实现告警事件的监、管、控一站式闭环管理,从而提升数据库运维效率。
zCloud 曾成功应对了案例客户生产环境中的一次主机CPU资源超负荷的情况。如下图所示,查看某一条CPU告警信息时,可以看到告警详情,包括目标数据库的位置、CPU使用率超过了严重级别告警阈值达到91.4%,问题已经持续了1分15秒等。
此时,运维人员可以通过 zCloud 进入相应的数据库实例性能监控页面进行处理。
在 zCloud 的“活动连接信息”及“事务和锁”功能页面,可以快速完成问题分析与定位。下图展示的是已经过滤出的系统中正在执行SQL的会话信息,我们看到大量进程正在执行相同的SQL语句:
在“事务和锁”页面,我们可以直观地找到锁定和阻塞关系,并立即识别出运行时间最长的阻塞源头。不难发现,ID 4672968的会话为阻塞源,锁定行数100188,是当前系统运行的“拦路虎”:
经过DBA的核查确认,正是该会话阻塞大量并发执行的相同SQL,可以安全地“杀掉”以解除锁定、释放资源。一个小细节是在执行“杀掉会话”时,zCloud 会提醒技术人员再次确认,以确保正确查杀。这里需要注意,人员的判断是操作的前提,zCloud 还允许配置授权,以使用“查杀会话”功能。
在清除异常SQL及阻塞会话后,系统恢复正常运行,负载逐步下降至安全水平。如下图所示,zCloud 告警信息分为警告(黄色)和严重(红色)两种级别。本案例中,主机CPU使用率的“警告”阀值设置为60%,“严重”阈值设置为80%,即当CPU使用率超过60%和80%后,会分别产生“警告”和“严重”两条告警信息。当CPU使用率降回至80%以下时,严重级别告警信息将从活动告警转为历史告警并将该条记录的状态置为已恢复,当CPU使用率进一步降至60%以下时,警告级别告警信息的状态也将置为已恢复。
我们从性能趋势图表上,可以查看整个故障过程,并支持进行复盘,通过系统记录的数据,回溯问题发生的关键过程,以便制定后续的应对方案。
zCloud 通过场景化的能力构建,帮助用户高效地处理日常运维过程中的数据库异常情况,极大地提高了故障处理的效率。
对比传统的人工处理方式,即便是有着丰富经验的DBA,zCloud 在多个处理环节都实现了效率倍增,特别是在管理大规模数据库或多套库同时需要介入处理的情况下,优势更加明显。按照下表的模拟统计,zCloud 相较人工脚本的方式带来3.5倍以上的效率提升,并且大大降低了对运维人员的能力要求。
步骤 | 动作 | 人工脚本用时 | zCloud用时 |
1 | 连接VPN | 1 | 1 |
2 | 登录堡垒机 | 2 | 0 |
3 | 确认并登录数据库主机 | 1 | 0 |
4 | 确认主机及数据库实例 | 0.5 | 0.5 |
5 | 问题分析定位 | 5 | 1 |
6 | 查杀异常数据库进程 | 2 | 0.5 |
7 | 恢复确认 | 1 | 0.5 |
_ | 用时合计 | 12.5 | 3.5 |
总结来说,zCloud 的优势集中体现在标准化、专业化、自动化和智能化:
标准化:多元异构数据库的统一管理和运维,所有操作都被标准化封装,实现标准化服务交付,避免由于DBA水平差异导致的误判或误操作。
专业化:在快速定位和解决问题的同时,保留故障相关数据,为根因分析提供支持,结合知识库,进一步将数据库管理水平提升至专业级别。
自动化:支持针对多种数据库的事前规划、事中监控、事后处置,减少人为干预,降低日常工作和常见故障的处理门槛,提升运维管理效率。
智能化:将AI算法与数据库行业实践相结合,并依托AI算法和知识库持续学习,不断提升故障处理智能能力,以提供更好的数据库运维支撑。
在数据库百花齐放、类型繁多的新时代,zCloud 坚持做“数据库的最佳伴侣”,不断降低数据库管理的复杂度,持续为客户创造价值。
数据驱动,成就未来,云和恩墨,不负所托!
云和恩墨创立于2011年,是业界领先的“智能的数据技术提供商”。公司以“数据驱动,成就未来”为使命,致力于将创新的数据技术产品和解决方案带给全球的企业和组织,帮助客户构建安全、高效、敏捷且经济的数据环境,持续增强客户在数据洞察和决策上的竞争优势,实现数据驱动的业务创新和升级发展。
自成立以来,云和恩墨专注于数据技术领域,根据不断变化的市场需求,创新研发了系列软件产品,涵盖数据库、数据库存储、数据库云管和数据智能分析等领域。这些产品已经在集团型、大中型、高成长型客户以及行业云场景中得到广泛应用,证明了我们的技术和商业竞争力,展现了公司在数据技术端到端解决方案方面的优势。