服务案例|SQL Server数据库监控反复重启问题

news2024/11/24 17:38:03

监控平台对主流数据库的监控,能够及时发现异常,快速响应,保障业务系统的稳定。平台通过对SQL Server数据库监控,帮助用户在数据库出现异常时事件处理。

SQL Server数据库监控内容如下

1 、数据库服务器基本性能监控。包括:服务器的CPU数量,内存大小,服务器在线时间,在线数据实例个数,离线数据实例个数和挂起的数据实例个数。

2、监控数据库基本统计信息。比如实时用户连接数,实时的活动临时数据表个数,平均每秒登录的用户数和平均每秒登出的用户数等。

3、对数据库锁的监控。每秒超值锁的个数和死锁的个数。

4、对数据库内存使用情况监控。包括数据库运行需要的理想的内存和实际使用的内存量,以及成功获取内存授权的进程数和正在等待内存授权的进程数量。

5、数据库资源池分配,默认包括default资源和内部资源,内部资源是保证数据库正常运行所需消耗的CPU和内存资源。

6、对数据库内存缓冲区管理监控, 包括数据库命中率,页预期寿命,和每秒物理读页数和每秒物理写页数,以及每秒物理惰性写次数。

数据命中率值不能低于 90%,页预期寿命是数据页在缓存中停留的时间,当数据页在缓存中低于300S就被置换出去时,需要检查分配给数据库使用的内存,是否存在内存不足问题。

7、监控数据库实例。在这里我们可以看到SQL server中的所有数据库实例,以及每个数据实例的数据文件和日志文件大小,并可以根据时序图,对文件大小进行趋势预测。

8、数据库的IO监控。包括每秒从数据库读取的字节数和每秒从数据库写入的字节数,这两个参数可以反映反映了数据库缓存和磁盘之间的IO交换的性能。

9、对SQL Server中的错误监控。例如DB离线错误,信息错误和用户错误等。

10、对数据库中等待进程的统计监控。列出线程所遇到的所有等待的相关信息。比如等待CPU资源的进程数,平均等待时间。等待内存资源的进程数,平均等待时间。以及等待锁的进程数和等待网络IO的进程数等等。对数据库每秒错误数监控和等待时间监控,可以帮助我们来诊断 SQL Server 以及特定查询和批处理的性能问题。

SQL server数据库监控

事件排查

10月13日,某三甲医院新接入4台服务器系统、4个SQL server数据库,系统对HIS数据库进行重点监控。

自10月15日起,LinkSLA智能运维平台监测到新接入的HIS/CIS数据库多次发生重启,MOC工程师通知用户进行查看重启原因;

报告数据库有超时锁超出阈值告警。锁等待时间是一个进程花费在等待另一个进程释放锁的时间。

MOC工程师及时与应用厂商的数据工程师反馈,对方未发现有重启事件。

MOC工程师将数据库运行时间展示给应用厂商的工程师查看:HIS/CIS DB092172.20.64.xx数据库运行时间是212分钟,在6点21分时重启,这个参数值是数据库的运行指标值。请检查数据库重启的原因。

通过数据库运行时间,确认数据库发生重启,提高问题关注度。

应用厂商的工程师通过登录数据库确认,确认数据库反复重启现象。

接下来的一周,数据库仍然时常发生重启,每秒超时锁数量超出阈值。由于系统集群没有异常报错,应用厂商数据工程师并未重视。

事件处理

经过MOC工程师反复通报数据库重启问题,引起用户重视。应用厂商的数据库工程师经过排查,发现是SQL Server数据库bug导致反复重启,对数据库进行打补丁升级。

打补丁升级后,MOC工程师持续监测SQL server数据库问题。后期未发生SQL Server数据库反复重启问题,告警得以解除。

事件复盘

从HIS数据库安装后,发生反复自动重启,应用厂商的数据工程师未发现重启故障。接到MOC工程师告警后,应用厂商的数据工程师认为集群没有异常报错,并未着急处理。但是HIS系统是医院的核心系统,数据库反复自动重启,存在很大的安全隐患。平台多次告警,锁定SQL Server数据库bug导致,并进行打补丁升级,数据库反复重启问题解决。

通过这个案例可以了解到,业务系统由应用厂商安装和维护,出现故障隐患时,用户并不能及时感知,更无法及时解决。LinkSLA智能运维管家帮助用户一站式监控所有业务系统,及时发现故障MOC工程师并持续跟踪,直至问题解决,形成服务闭环。为用户提供省心、放心的IT运维服务,保障用户系统健康稳定运行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/154517.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Hive/MaxCompute SQL性能优化(三):数据倾斜优化实战

SQL性能优化系列:Hive/MaxCompute SQL性能优化(一):什么是数据倾斜Hive/MaxCompute SQL性能优化(二):如何定位数据倾斜前面介绍了如何定位数据倾斜,本文介绍如果遇到各种数据倾斜的情况该怎样优化代码。Map长尾优化一、Map读取数据…

ArcGIS如何将Excel表格转换为SHP格式

概述数据的获取渠道是多种多样的,获取的数据格式也是多种多样,作为一名GISer,需要熟练掌握各种格式的数据之间的转换,例如本文要介绍的Excel格式的数据,经常会遇到,这里为大家介绍一下转换方法,…

区块链基础知识(二)

密码学与安全技术 参考书籍 《区块链原理、设计与应用》 Hash算法 加解密算法 混合加密机制 离散对数与Diffie-Hellman秘钥交换协议 消息认证码 数字签名 PKI体系 PKI基本组件 证书签发 证书的撤销 Merkle tree结构 默克尔树逐层记录哈希值的特点,让它具有了一些独特…

【我的渲染技术进阶之旅】关于C++轻量级界面开发框架Dear ImGui介绍

文章目录一、怎么知道ImGui的1.1 Filament中有使用ImGui1.2 其他很多渲染框架都有使用ImGui二、ImGui介绍2.1 ImGui风格2.2 Imgui介绍2.2.1 Imgui简介2.2.2 Imgui用法2.2.3 Demo示例2.2.4 集成2.2.5 更多案例2.3 查看Imgui实例源代码2.3.1 运行demo2.3.2 项目结构分析2.3.3 示例…

TCP/IP网络编程(2)——套接字类型与协议设置

文章目录二、套接字类型与协议设置2.1 套接字协议及数据传输特性2.1.1 创建套接字2.1.2 协议族(Protocol Family)2.1.3 套接字类型(Type)2.1.4 套接字类型1:面向连接的套接字(SOCK_STREAM)2.1.5…

RHCE学习笔记-133-2

rpm and kickstart The RPM Way 不会有互动事件 可以适用在所有软件,如kernerl和其他额外的软件都可以以rpm的形式 不需要安装前面的版本才能安装后面的版本 RPM Packge manager RPM components local database /var/lib/rpm rpm and related executables package files primar…

大数据NiFi(十三):NiFi监控

文章目录 NiFi监控 一、处理器状态指示有如下几种情况 二、对于每个组的监控情况如下

CMMI之客户验收

客户验收(Customer Acceptance, CA)是指客户依据合同对产品进行审查和测试,确保产品满足客户需求。客户验收过程域是SPP模型的重要组成部分。本规范阐述了客户验收的规程,该规程的“目标”、“角色与职责”、“启动准则”、“输入…

Spring 源码解析~13、Spring 中的钩子函数汇总

Spring 中的钩子函数汇总 一、生命周期总览 二、BeanDefinition 生成与注册阶段 钩子执行顺序与博文顺序一致,即 1->n 1、EmptyReaderEventListener#defaultsRegistered 触发点:创建 BeanDefinitionParserDelegate 委派类时触发解释:通知…

本立道生:必备的基础知识

通过前面两节课的内容,我带领大家熟悉了一下 Visual Studio C 开发环境的必备知识,虽然还有很多关于 Visual Studio 的重要知识没有介绍,但为了让你尽快进入 C 开发环节,及早获得开发程序的愉悦,我们暂时只介绍这些必备…

【数据结构】5.5 遍历二叉树和线索二叉树

5.5.1 遍历二叉树 遍历定义 顺着某一条搜索路径巡访二叉树中的每个结点,使得每个结点均被访问依次,而且仅被访问一次(又称周游)。访问的含义很广,可以是对结点作各种处理,如:输出结点的信息&a…

Centos7开启SSH连接配置

1、查看是否已安装openssh-server: [rootlocalhost ~]# yum list installed | grep openssh-server 如果有信息说明已安装了openssh-server,如果输出没有任何结果,说明没有安装。 2、安装openssh-server(如果已安装&#xff0c…

微信小程序(学习笔记篇)

基本项目结构 pages用来存放所有小程序的页面utils 用来存放工具性质的模块(例如:格式化时间的自定义模块)app.js小程序项目的入口文件app.json 小程序项目的全局配置文件app.wXss小程序项目的全局样式文件project.config.json项目的配置文件sitemap.json用来配置小…

买卖股票的最佳时机 II -数学推导证明贪心思路 -leetcode122

问题说明来源leetcode 一、问题描述: 122. 买卖股票的最佳时机 II 难度中等1941 给你一个整数数组 prices ,其中 prices[i] 表示某支股票第 i 天的价格。 在每一天,你可以决定是否购买和/或出售股票。你在任何时候 最多 只能持有 一股 股票。你也可…

Spark Core----RDD详解

为什么需要RDD 分布式计算需要: 分区控制(多台机器并行计算,将一份数据分成多份,在不同机器上执行)Shuffle控制(不同分区数据肯定需要进行相关的关联,不同分区进行数据传输叫Shuffle控制&…

分享77个NET源码,总有一款适合您

NET源码 分享77个NET源码,总有一款适合您 NET源码下载链接:https://pan.baidu.com/s/1vhXwExVAye5YrB77Vxif8Q?pwdzktx 提取码:zktx 下面是文件的名字,我放了一些图片,文章里不是所有的图主要是放不下...&#xf…

Html 3D旋转相册制作

程序示例精选 Html 3D旋转相册制作 如需安装运行环境或远程调试&#xff0c;见文章底部微信名片&#xff0c;由专业技术人员远程协助&#xff01; 前言 这篇博客针对<<Html 3D旋转相册制作>>编写代码&#xff0c;代码整洁&#xff0c;规则&#xff0c;易读。 学习…

zabbix监控主机

zabbix官网 zabbix分为zabbix server&#xff08;zabbix服务端&#xff0c;用来展示监控的&#xff09;和zabbix-agent&#xff08;zabbix客户端用来收集数据的&#xff09; zabbix-agent客户端有两种工作模式&#xff0c;被动模式&#xff08;由zabbix服务来采集数据&#xff…

二十二、Kubernetes中Pod调度第四篇污点(容忍)调度详解、实例

1、概述 在默认情况下&#xff0c;一个Pod在哪个Node节点上运行&#xff0c;是由Scheduler组件采用相应的算法计算出来的&#xff0c;这个过程是不受人工控制的。但是在实际使用中&#xff0c;这并不满足的需求&#xff0c;因为很多情况下&#xff0c;我们想控制某些Pod到达某…

魔方爱好者快来康康,困难的平面魔方来了!

前言和效果图我今天看到一个网站&#xff0c;就是关于魔方的&#xff0c;里面二阶魔方引起了我的兴趣。https://rubiks-cube-solver.com/2x2/进去后你们可以看到&#xff0c;二阶魔方的平面展开图&#xff0c;复原也更加困难。虽然是英文的&#xff0c;但我还是玩得不亦乐乎。好…