RAC集群节点2异常时节点1的database实例无法提供服务问题的分析

news2024/9/23 21:31:33

在客户的数据库RAC集群环境中,节点2发生了异常,最终通过重启解决。在节点2发生异常的10分钟左右时间内,由于RAC集群节点2异常,此时节点1的database实例无法提供服务问题,程序操作报超时;

对此现象,不符合ORACLE RAC集群涉及时一个节点宕机另一个节点可以正常提供服务的逻辑,对此问题我们结合各方面的日志,深入分析情况如下:​​​​​​​

1.节点1性能问题发生的时间是从13:41:27 到13:46:01。 主要的等待是row cache lock 和enq: SQ - contention相关sequence的竞争,
2.等待log file sync 的前台进程等待在lgwr进程。 LGWR进程等待在广播scn 的wait for scn ack的等待上,这样节点1卡住了。
3.在此期间,由于节点2异常,大量程序的进程都连接到节点1,加剧了节点一的性能问题。
 

1.数据库ALERT日志​​​​​​​

数据库alert日志显示,13:42:40秒开始出现LGWR进程无响应80秒,推算13:41:20秒出现问题,持续到13:45:45分,节点1检查到节点2异常,开始进行实例的Reconfiguration,13:45:51时完成,系统即恢复正常。

2023-01-13T13:40:47.088414+08:00
Completed checkpoint up to RBA [0xf3c3.2.10], SCN: 21009928480
2023-01-13T13:41:42.160952+08:00
KQR: cid 10 bucket   5658 marked HOT
KQR: cid 10 bucket   3669 marked HOT
2023-01-13T13:42:40.638888+08:00
LGWR (ospid: 46269442) waits for event 'wait for scn ack' for 80 secs.
CKPT (ospid: 9700264) waits for event 'enq: XR - database force logging' for 78 secs.
2023-01-13T13:42:50.658728+08:00
LGWR (ospid: 46269442) waits for event 'wait for scn ack' for 90 secs.
CKPT (ospid: 9700264) waits for event 'enq: XR - database force logging' for 88 secs.
2023-01-13T13:43:00.631001+08:00
LGWR (ospid: 46269442) waits for event 'wait for scn ack' for 100 secs.
CKPT (ospid: 9700264) waits for event 'enq: XR - database force logging' for 98 secs.
2023-01-13T13:43:03.888993+08:00
DIA0 Critical Database Process As Root: Hang ID 2 blocks 139 sessions
     Final blocker is session ID 9076 serial# 41758 OSPID 46269442 on Instance 1
     If resolvable, instance eviction will be attempted by Hang Manager
2023-01-13T13:43:10.649386+08:00
LGWR (ospid: 46269442) waits for event 'wait for scn ack' for 110 secs.
CKPT (ospid: 9700264) waits for event 'enq: XR - database force logging' for 108 secs.
2023-01-13T13:43:20.929922+08:00
LGWR (ospid: 46269442) waits for event 'wait for scn ack' for 121 secs.
CKPT (ospid: 9700264) waits for event 'enq: XR - database force logging' for 118 secs.
2023-01-13T13:43:25.977776+08:00
DIA0 Critical Database Process As Root: Hang ID 4 blocks 1 sessions
     Final blocker is session ID 9197 serial# 261 OSPID 9700264 on Instance 1
     If resolvable, instance eviction will be attempted by Hang Manager
2023-01-13T13:43:27.030420+08:00
KQR: cid 10 bucket   3669 marked HOT
2023-01-13T13:43:30.737647+08:00
LGWR (ospid: 46269442) waits for event 'wait for scn ack' for 130 secs.
CKPT (ospid: 9700264) waits for event 'enq: XR - database force logging' for 128 secs.
2023-01-13T13:43:31.108405+08:00
KQR: cid 10 bucket   3669 marked HOT
2023-01-13T13:43:31.255920+08:00
KQR: cid 10 bucket   3669 marked HOT
2023-01-13T13:43:37.140541+08:00
KQR: cid 10 bucket   3669 marked HOT
2023-01-13T13:43:41.003629+08:00
LGWR (ospid: 46269442) waits for event 'wait for scn ack' for 141 secs.
CKPT (ospid: 9700264) waits for event 'enq: XR - database force logging' for 138 secs.
2023-01-13T13:43:50.711162+08:00
LGWR (ospid: 46269442) waits for event 'wait for scn ack' for 150 secs.
CKPT (ospid: 9700264) waits for event 'enq: XR - database force logging' for 148 secs.
2023-01-13T13:43:53.023365+08:00
DIA0 Critical Database Process As Root: Hang ID 4 blocks 2 sessions
     Final blocker is session ID 9197 serial# 261 OSPID 9700264 on Instance 1
     If resolvable, instance eviction will be attempted by Hang Manager
2023-01-13T13:44:00.826390+08:00
LGWR (ospid: 46269442) waits for event 'wait for scn ack' for 161 secs.
CKPT (ospid: 9700264) waits for event 'enq: XR - database force logging' for 158 secs.
2023-01-13T13:44:10.800697+08:00
LGWR (ospid: 46269442) waits for event 'wait for scn ack' for 171 secs.
CKPT (ospid: 9700264) waits for event 'enq: XR - database force logging' for 168 secs.
2023-01-13T13:44:20.898910+08:00
LGWR (ospid: 46269442) waits for event 'wait for scn ack' for 181 secs.
CKPT (ospid: 9700264) waits for event 'enq: XR - database force logging' for 178 secs.
2023-01-13T13:44:30.860429+08:00
LGWR (ospid: 46269442) waits for event 'wait for scn ack' for 191 secs.
CKPT (ospid: 9700264) waits for event 'enq: XR - database force logging' for 188 secs.
2023-01-13T13:44:32.981457+08:00
KQR: cid 10 bucket   3669 marked HOT
2023-01-13T13:44:33.483355+08:00
KQR: cid 10 bucket   3669 marked HOT
2023-01-13T13:44:40.846847+08:00
LGWR (ospid: 46269442) waits for event 'wait for scn ack' for 201 secs.
CKPT (ospid: 9700264) waits for event 'enq: XR - database force logging' for 198 secs.
2023-01-13T13:44:50.960891+08:00
LGWR (ospid: 46269442) waits for event 'wait for scn ack' for 211 secs.
CKPT (ospid: 9700264) waits for event 'enq: XR - database force logging' for 208 secs.
2023-01-13T13:45:00.998718+08:00
LGWR (ospid: 46269442) waits for event 'wait for scn ack' for 221 secs.
CKPT (ospid: 9700264) waits for event 'enq: XR - database force logging' for 218 secs.
2023-01-13T13:45:10.977777+08:00
LGWR (ospid: 46269442) waits for event 'wait for scn ack' for 231 secs.
CKPT (ospid: 9700264) waits for event 'enq: XR - database force logging' for 228 secs.
2023-01-13T13:45:20.926153+08:00
LGWR (ospid: 46269442) waits for event 'wait for scn ack' for 241 secs.
CKPT (ospid: 9700264) waits for event 'enq: XR - database force logging' for 238 secs.
2023-01-13T13:45:31.329679+08:00
LGWR (ospid: 46269442) waits for event 'wait for scn ack' for 251 secs.
CKPT (ospid: 9700264) waits for event 'enq: XR - database force logging' for 249 secs.
2023-01-13T13:45:36.607969+08:00
KQR: cid 10 bucket   3669 marked HOT
2023-01-13T13:45:40.977875+08:00
LGWR (ospid: 46269442) waits for event 'wait for scn ack' for 261 secs.
CKPT (ospid: 9700264) waits for event 'enq: XR - database force logging' for 258 secs.
2023-01-13T13:45:45.394435+08:00
Increasing priority of 8 RS
Reconfiguration started (old inc 6, new inc 8)
List of instances (total 1) :
 1
Dead instances (total 1) :
 2
My inst 1   
^
2023-01-13T13:45:51.802394+08:00
Reconfiguration complete (total time 6.4 secs) 
Decreasing priority of 8 RS
2023-01-13T13:45:51.955245+08:00
Instance recovery: looking for dead threads
2023-01-13T13:45:51.989728+08:00
Beginning instance recovery of 1 threads
 parallel recovery started with 10 processes
 Thread 2: Recovery starting at checkpoint rba

​​​​​​​2.数据库性能数据

分析数据库性能,结合ASH性能基表数据分析,数据库异常时段,主要性能问题为严重的library cache lock/enq: SQ - contention/row cache lock等待,从13:42:40秒持续到01.45.39秒,01.45.51节点Reconfiguration完成后性能恢复正常。

 ​​​​​​​3.节点2数据库日志

数据库日志显示,节点2在13:41:19进行关闭,使用的ORACLE instance (abort)方式。13:44:25秒关闭完成。

2023-01-13T13:35:43.744996+08:00
ARC2 (PID:41157284): Archived Log entry 192858 added for T-2.S-37593 ID 0x64a5b8c1 LAD:1
2023-01-13T13:39:27.002339+08:00
Incremental checkpoint up to RBA [0x92d9.1d4ca.0], current log tail at RBA [0x92da.2b56.0]
2023-01-13T13:40:47.054397+08:00
Completed checkpoint up to RBA [0x92da.2.10], SCN: 21009929552


2023-01-13T13:41:19.537924+08:00
Shutting down ORACLE instance (abort) (OS id: 40567812)
2023-01-13T13:41:19.540206+08:00
Shutdown is initiated by oraagent.bin@test1002 (TNS V1-V3).
License high water mark = 5107
USER (ospid: 40567812): terminating the instance
2023-01-13T13:41:19.550602+08:00
opiodr aborting process unknown ospid (66913238) as a result of ORA-1092
2023-01-13T13:41:20.339957+08:00
Process termination requested for pid 23332742 [source = unknown], [info = 0]

……………………
2023-01-13T13:44:25.810533+08:00
Warning: 2331 processes are still attacheded to shmid 5243912:
 (size: 65536 bytes, creator pid: 44761608, last attach/detach pid: 40567812)
Instance shutdown complete (OS id: 40567812)
2023-01-13T13:52:40.097865+08:00
Starting ORACLE instance (normal) (OS id: 6750924)

总结节点1性能异常系统HANG住问题:

节点1数据库alert日志显示,13:42:40秒开始出现LGWR进程无响应80秒(LGWR (ospid: 46269442) waits for event 'wait for scn ack' for 80 secs),推算13:41:20秒出现问题,持续到13:45:45分,节点1检查到节点2异常,开始进行实例的Reconfiguration,13:45:51时完成,系统即恢复正常。LGWR进程无相应引起大量业务进程的阻塞( Hang ID 2 blocks 139 sessions,Final blocker is session ID 9076 serial# 41758 OSPID 46269442……)

节点2数据库alert日志显示,在13:41:19进行关闭,使用的ORACLE instance (abort)方式; 13:44:25秒数据库关闭完成。

时间线如下:

    1. 节点1性能问题发生的时间是从13:41:27 到13:46:01。 主要的等待是row cache lock 和enq: SQ - contention相关sequence的竞争,
    2. 等待log file sync 的前台进程等待在lgwr进程。 LGWR进程等待在广播scn 的wait for scn ack的等待上,此时节点1卡主。
    3. 在此期间,由于节点2异常,大量程序的进程都连接到节点1,加剧了节点一的性能问题(节点2在13:41:19进行关闭,使用的ORACLE instance (abort)方式,到13:44:25秒关闭完成。)

分析数据库性能,结合ASH性能基表数据分析,数据库异常时段,主要性能问题为严重的library cache lock/enq: SQ - contention/row cache lock等待,从13:42:40秒持续到01.45.39秒,01.45.51节点Reconfiguration完成后性能恢复正常。节点1 的性能问题是受到节点2 关闭实例的影响(节点1LGWR进程 HANG),同时也由于节点2的异常大量进程连接节点1,加剧了性能问题。直到节点1完成了重配,节点1恢复正常。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/464705.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux】-关于Linux的指令(中)

作者:小树苗渴望变成参天大树 作者宣言:认真写好每一篇博客 作者gitee:gitee 如 果 你 喜 欢 作 者 的 文 章 ,就 给 作 者 点 点 关 注 吧! 文章目录 前言一、man指令二、cp指令三、mv指令四、cat指令五、more和less指令六、hea…

【力扣-141】 环形链表 + 【力扣-142】 环形链表 II

🖊作者 : Djx_hmbb 📘专栏 : 数据结构 😆今日分享 : 霍桑效应(霍索恩效应) : 是指那些意识到自己正在被别人观察的个人具有改变自己行为的倾向。 霍桑效应告诉我们:从旁人的角度,善意的谎言和夸奖真的可以造就一个人&a…

线程的生命周期以及sleep()方法和wait()方法

三种休眠状态:Blocked,Waiting,Timed_Waiting 注意两个Blocked态是不一样的,上面的Blocked只要睡眠时间到了马上进入运行态,下面处于Blocked的线程还需要抢到锁才能进入运行态 sleep()和wait()方法: sleep…

【翻译一下官方文档】创建uniCloud服务空间并关联新建的uniapp项目

我将用图文的形式,把市面上优质的课程加以自己的理解,详细的把:创建一个uniCloud的应用,其中的每一步记录出来,方便大家写项目中,做到哪一步不会了,可以轻松翻看文章进行查阅。(此文…

论文笔记:An Interactive-Voting Based Map Matching Algorithm

2010 MDM 1 ST-matching的问题 论文笔记:Map-Matching for low-sampling-rate GPS trajectories(ST-matching)_UQI-LIUWJ的博客-CSDN博客 当轨迹很长,且车辆通过多线平行的道路时,ST-Matching的效果较差&#xff0c…

冯·诺依曼体系结构与初始操作系统

目录 冯诺依曼体系结构 冯诺依曼体系结构图 内存 外存 网卡和磁盘 结构之间运算速度的差异 缓冲区 初始操作系统 概念 操作系统上边与下边分别有什么 从上到下依次顺序解析 用户 用户操作接口 系统调用接口 操作系统四项管理 驱动 硬件 冯诺依曼体系结构 冯诺…

世界大学电子电气工程TOP10,国内大学哪家强?

EE究竟是什么专业 ? 在中国,工程系中跟电相关的专业,一般都切分得非常细。有电子工程、电气工程、通信工程、信息工程、自动化、测控仪器等。但在国外,一般把这些领域都归类到 Electrical Engineering 中,也就是我们常说的EE。 …

后向投影算法(续)-SAR成像算法系列(八)

系列文章目录 《后向投影算法(BPA)-SAR成像算法系列(二)》 文章目录 前言 一、成像场景设置 1.1 扫描模式 条带模式 聚束模式 1.2 几何构型 正侧视 斜视 1.3 成像坐标选择 固定场景直角坐标系 沿视线直角坐标系 数据获取面直角坐标…

深度学习GPU选购指南

【导读】最近,曾拿到斯坦福、UCL、CMU、NYU博士offer、目前在华盛顿大学读博的知名测评博主Tim Dettmers在自己的网站又上线了深度学习领域的GPU深度测评,到底谁才是性能和性价比之王? 众所周知,在处理深度学习和神经网络任务时&a…

马云的创业故事及他人生中的摆渡人-创建阿里巴巴(六)

著名的“18罗汉大会” 以及“马云成功背后的男人” 1999年大年初五,杭州湖畔花园小区,18个人坐满了一屋子, 这是阿里巴巴的第一次全员大会,马云激情澎湃地讲了2个小时,并且专门请了摄影师全程录像。 这就是传说中的…

边界点射箭问题

问题 题目 问题: 给定一个有目标位置和边界单元格为空的 n n 方格表,找出哪个位于边界单 元格的箭头会击中最多连续的目标而不经过目标之间的任何空单元格。箭头方向为: (A)←、(B) ↑、 © →、(D) ↓、(E) ↖、 (F) ↗、 (G) ↘ 和 (H) ↙。 将…

Nginx反向代理+Keepalived实现Nginx高可用

Keepalived概述: keepalived 是一个类似于 layer3, 4 & 5 交换机制的软件,也就是我们平时说的第 3 层、第 4 层和第 5层交换。 Keepalived 的作用是检测 web 服务器的状态,如果有一台 web 服务器死机,或工作出现故障&#xff…

[极客大挑战 2019]Havefun、[ACTF2020 新生赛]Include、[SUCTF 2019]EasySQL

[极客大挑战 2019]Havefun 进入环境就如下图啥都没给我查看了一下源码 直接给出了flag???尝试了一下结果是一个假的flag,然后我们分析源代码很容易看出我们通过GET方式给cat传一个值,如果cat的值为dog就输出flag,这很简单了我们通过get方…

京东2023年Q1财报预测:短期增速承压,收入和净利润预测被下调

来源:猛兽财经 作者:猛兽财经 猛兽财经获悉,中信证券近期发布研报维持京东(JD)买入评级,中信证券在研报中预计京东2023年第一季度的营收将达到2,383亿元/同比减少-0.6%,Non-GAAP净利润50.6亿元/…

AI剧本拆解,教你利用AI快速拆解剧本

AI剧本拆解是一项将影视、戏剧等剧本进行分析和优化的技术,可以帮助制作团队更好地规划角色、情节、场景等元素,并提升作品的艺术水平和观赏体验。 1、为什么要拆解剧本? 剧本拆解是制片人和导演的第一项工作,把剧本中各项要素分…

【Python入门第五十四天】Python丨NumPy ufuncs

什么是 ufuncs? ufuncs 指的是“通用函数”(Universal Functions),它们是对 ndarray 对象进行操作的 NumPy 函数。 为什么要使用 ufuncs? ufunc 用于在 NumPy 中实现矢量化,这比迭代元素要快得多。 它们…

win系统jenkins搭建+tomcat启动

简介 Jenkins是一个开源软件项目,是基于Java开发的一种持续集成工具,用于监控持续重复的工作,旨在提供一个开放易用的软件平台,使软件项目可以进行持续集成 下载war包 下载地址 (镜像安装 docker pull jenkins/jenkins:lts) …

面板数据进行熵值法

面板数据熵值法分析流程如下: 一、案例背景 当前有9家公司连续5年(2018-2022年)的财务指标数据,想要通过这份数据,确定各个财务指标的权重。熵值法根据指标离散程度确定赋权大小,客观公正准确度高。本次收…

python安装三方库教程:关于pip命令的一切,到底怎么用?

python安装三方库教程:关于pip命令的一切,到底怎么用? 一、pip设置国内源:1.1如何本地配置源:1.1.1 方法1:下载的时候指定地址1.1.2 方法2:使用pip命令生成配置文件1.1.3 方法3:自定…

vue---组件通信

目录 1、组件跨层级访问 (1)$emit (2)$root 、 $parent、$refs 2、依赖注入 3、透传及组件二次封装 组件间通信的三种方案: 1、组件跨层级访问,2、依赖注入,3、透传(用于组件二次封装&…