数据库管理-第九十二期 一周故障汇总(20230717)

news2025/2/3 9:58:57

第九十二期 一周故障汇总(20230717)

距离上一篇已经过了整整一周了,平时我虽然不是生产队的驴,但是一周一篇以上的数量还是维持了一段时间了。为啥上周只写了一篇,因为各种故障、各种保障、各种割接忙了整整一周,确实没有多的精力来写这些东西,这里给过去“悲惨”的一周做个总结。

1 ksplice

同红帽的kpatch一样,OracleLinux有一提供了一个名为ksplice的Linux内核热修复技术,可以在不停机的情况下修复Linux内核的各种问题和BUG[具体详见:
HOWTO: Install ksplice kernel updates for Exadata Database Nodes (Doc ID 2207063.1)(好像现在没法通过ULN直接下载了)]。
上周有一天凌晨一体机有一个计算节点出现了重启的现象,经过排查是因为之前打补丁的时候,重启过服务器,操作系统的内核热修复丢了:

[root@xxx01 ~]# rpm -qa|grep uptrack
[root@xxx01 ~]
#这里发现对应的ksplice包不见了
#通过EXACHK检查操作系统发现节点1出现ksplic的异常告警
	
[root@xxx02 ~]# rpm -qa|grep uptrack
uptrack-offline-1.2.62.offline-0.el7.noarch
uptrack-updates-4.14.35-1902.9.2.el7uek.x86_64-20221103-0.noarch
##对应另一台机器包则正常。

[root@xxx01 ~]$ which uptrack-show   
/usr/sbin/uptrack-show
[root@xxx01 ~]$ which uptrack-install
/usr/sbin/uptrack-install
#uptrack相关命令还在

[root@xxx01 ~]$ uptrack-show
Installed updates:

Effective kernel version is 4.14.35-2047.518.4.1.el7uek
#显示没有任何热修复被安装

[root@xxx02 ~]$ uptrack-show|wc -l
430
##另一个节点则显示安装了总计427个补丁

[root@xxx01 ~]$ uptrack-install --all -y
....
... sucess ...  ##通过该命令完成内核热修复安装
[root@xxx01 ~]$ uptrack-show|wc -l
430
##热修复完成

这也让我在以后任意一体机节点重启后,增加一个ksplice内核热修复的检查项。

2 jobs

重启完成后发现一个PDB的job都没法正常执行了,基础排查发现是schedule date
没有更新,手动执行job出现以下报错:

ORA-27492: unable to run job "<job_name>": scheduler unavailable
ORA-06512: at "SYS.DBMS_ISCHED", line 185
ORA-06512: at "SYS.DBMS_SCHEDULER", line 486
ORA-06512: at line 2

经过排查发现这个异常PDB的启动状态是RESTRICTED:

SQL> show pdbs

    CON_ID CON_NAME                       OPEN MODE  RESTRICTED
---------- ------------------------------ ---------- ----------
         2 PDB$SEED                       READ ONLY  NO
         3 PDBxx1                         READ WRITE NO
         4 PDBxx2                         READ WRITE YES --这里出了问题

这个导致了JOB执行异常,检查对应PDB的状态:

SQL> select type,status,action from pdb_plug_in_violations;

TYPE STATUS
--------- ---------
ACTION
--------------------------------------------------------------------------------
ERROR RESOLVED
Call datapatch to install in the PDB or the CDB

ERROR PENDING
Call datapatch to reinstall

ERROR PENDING
Call datapatch to install in the PDB or the CDB


SQL> select MESSAGE from PDB_PLUG_IN_VIOLATIONS;

MESSAGE
--------------------------------------------------------------------------------
19.16.0.0.0 Release_Update 2207030222: APPLY with status WITH ERRORS in the PDB
Interim patch 35204190/25161908 (MERGE ON DATABASE RU 19.16.0.0.0 OF 34725493 34
476155): APPLY with status WITH ERRORS in the PDB.

Interim patch 35204190/25161908 (MERGE ON DATABASE RU 19.16.0.0.0 OF 34725493 34
476155): Installed in the CDB but not in the PDB

进一步检查发现是上周GIS相关补丁应用出现了异常,但是打完补丁后,datapatch的output均显示成功,且启动后所有PDB都不是RESTRICTED状态,检查上一次的SQLPatch日志:

ERROR at line 1:
ORA-04021: timeout occurred while waiting to lock object xxx.xxxxxxx --这里出现了异常
ORA-06512: at line 17
ORA-06512: at line 10

随即重新执行datapatch并重启PDB,恢复正常。这里初步排查是异常重启触发了补丁异常引起PDB启动状态异常引起JOB无法执行,需要进行重新修复。这里又让我在将来的datapatch后,添加“grep ERROR xxx.log”的操作内容(前台输出有时候真不靠谱)。

3 EMC VMAX

其实前周末开始我这里就得一套X86的RAC集群就出现了大量的REDO、UNDO和集群IO异常的现象,但是由于业务负载确实低,前台没啥影响,加上周末就暂时没管,来到星期一就发现集群的IO等待上升了很多,集群活动会话数是前一周未出问题时数量的4倍左右:
在这里插入图片描述
在这里插入图片描述
跟硬件那边确认所有FC链路都是16Gbp,但是集群IO只能跑到100MB/s左右,这时候业务也开始反馈感觉数据库延迟比之前要大。最终和虚拟化那边沟通发现,使用同一套存储的虚拟化也出现了相同的问题,EMC工程师排查发现部分链路的存储端口数量不足,导致整个存储外部性能下降,当晚割接增加存储端口解决了该问题。

4 sid=?

这里说一个我之前忽略的一个东西,在RAC中,带sid的参数优先级是:
sid=‘SIDX’ > sid=‘*’
这个不注意经常会造成重启数据库后某些实例参数异常,可以使用reset清除带有具体实例的数据库参数的实力:

alter system reset db_cache_size [spfile=xxx] sid='SID1';
alter system reset shared_pool_size [spfile=xxx] sid='SID1';

5 bond

本周还协助处理了一个堆叠交换机异常,两台中的一台两个电源同时冒烟,影响了部分没有做bond的RAC集群(也就是那种服务器只有俩网口,两台机器生产和私网都分别接到了各自的交换机上),整个进群直接崩了。
最后协助结果就是把一台机器的两根线接到同一个交换机,然后把交换机端口调整到对应vlan先恢复数据库单点运行,恢复业务。

6 其他

  • 其他还有某些服务器运行过程中异常重启,没法进入系统,最终排查boot分区损坏,进救援模式重建又因为BIOS启动时EFI or Legacy,导致前几次修复都因为救援禁了Legacy模式导致修复失败。最终调回仅EFI模式修复成功。
  • 还是上面那台机器涉及的RAC集群,由于私网是直连的,在这台机器挂掉后,另一台机器的私网网卡就down掉了(确切来说是私有IP掉了),但是HAIP还在网卡上挂着,因此这个节点集群没挂,但是之前出问题的节点因为私网不通无法启动,就需要重启没出问题这台机器的网卡来解决这个问题。哎。。多灾多难。

总结

多灾多难的一周。
老规矩,知道写了些啥。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/762210.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据分析师:解读数据背后的故事

数据在当今信息时代中扮演着至关重要的角色&#xff0c;而数据分析师则是解读和发掘数据中隐藏信息的关键人物。作为数据分析师&#xff0c;他们运用统计学、机器学习和数据可视化等技术手段&#xff0c;从海量的数据中提取出有价值的信息和洞察&#xff0c;并将其转化为可供决…

大数据学习02-Hadoop分布式集群部署

操作系统&#xff1a;centos7 软件环境&#xff1a;jdk8、hadoop-2.8.5 一、创建虚拟机 1.下载VMware,建议支持正版 2.安装到Widows目录下任意位置即可&#xff0c;安装目录自定义。打开VMware&#xff0c;界面如下&#xff1a; 3.创建虚拟机 创建虚拟机—>选择自定义 …

kafka消息队列最常用的两种模式,以及应用场景

目录 一、发布-订阅模式 二、点对点模式 三、应用场景 一、发布-订阅模式 发布-订阅模式是最常见的消息传递模式&#xff0c;其中消息发布者将消息发送到一个或多个主题&#xff08;Topic&#xff09;&#xff0c;而订阅者可以选择订阅一个或多个主题来接收消息。每个订阅者…

在嵌入式系统开发培训中常用的数据库有哪些种?

数据库是一种储存和管理、组织数据的仓库&#xff0c;在嵌入式开发当中起到至关重要的作用。一个在嵌入式培训中&#xff0c;我们可学习使用的数据库有多种&#xff0c;每种数据库都会呈现出不同的一面&#xff0c;那么我们在嵌入式系统开发培训中可用到的数据库都有哪几种&…

JQuery(二):DOM操作、动画、遍历、事件绑定

1.DOM操作 1.1内容操作 html(): 获取/设置元素的标签体内容 <a><font>内容</font></a> --> <font>内容</font>text(): 获取/设置元素的标签体纯文本内容 <a><font>内容</font></a> --> 内容val()&am…

RK3588+FPGA视频实时处理与双屏显示、存储解决方案

主板平台的主要功能电路示意图 在ARM端: 脚踏开关是电平输入10 口&#xff0c;双路。 触摸面板与主板的连接方式为 UART 外加12V 电源。 键盘为自开发产品&#xff0c;通过USB透传 UART&#xff0c;并传递12V电源USB、千兆网络为主板上的接口&#xff0c;USB 为3.0版本host 接口…

Hadoop 之 单机部署和测试(一)

Hadoop单机部署和测试 一.单机部署1.安装 JDK&#xff08;JDK11&#xff09;2.安装 HADOOP3.测试 一.单机部署 系统版本&#xff1a;cat /etc/anolis-release1.安装 JDK&#xff08;JDK11&#xff09; #!/bin/bashTOP_PATH$(pwd) JAVA_PATH/usr/local/java FILEls $TOP_PATH/…

【Linux | Shell】结构化命令2 - test命令、方括号测试条件、case命令

目录 一、概述二、test 命令2.1 test 命令2.2 方括号测试条件2.3 test 命令和测试条件可以判断的 3 类条件2.3.1 数值比较2.3.2 字符串比较 三、复合条件测试四、if-then 的高级特性五、case 命令 一、概述 上篇文章介绍了 if 语句相关知识。但 if 语句只能执行命令&#xff0c…

兴达易控modbus转profinet网关与三菱变频器通讯

本案例分享兴达易控modbus转profinet网关&#xff08;MDPN100&#xff09;连接西门子1200plc&#xff0c;实现三菱变频器485通讯兼容转modbusTCP通信&#xff0c;在博图中配置。 拓展图 打开博图&#xff0c;并添加PLC 加载由兴达易控免费提供的modbus转profinet GSD文件 安装网…

基于MSP432P401R送药小车【2021年电赛F题】

文章目录 一、任务清单1. 硬件部分2. 软件部分 二、神经网络训练1. 创建数据集2. 数据采集3. 数字训练 三、OpenMV数字及其坐标识别四、巡线1. 直行2. 转向3. 停止 五、路口判断与原路径返回六、技术交流 由于前边已经用MSP430做过一遍该赛题了&#xff0c;这里就不再重复叙述赛…

Java培训:什么是Busy spin?为什么要使用Busy spin?

Busy spin(繁忙自旋)是一种线程等待的技术&#xff0c;它通过循环检查条件来等待某个事件或条件的发生&#xff0c;而不进行阻塞或休眠。 通常情况下&#xff0c;线程等待事件发生的方式是使用阻塞或休眠操作&#xff0c;这样线程会释放CPU资源&#xff0c;其他线程可以继续执行…

Qt6 Qt Quick UI原型学习QML第二篇

Qt6 Qt Quick UI原型学习QML第二篇 界面效果QML语法语法讲解核心要素项目元素矩形元素文本元素图像元素MouseArea元素 界面效果 QML语法 import QtQuick 2.12 import QtQuick.Window 2.12Window {id: rootvisible: truewidth: 640height: 480title: qsTr("QML学习第二篇&…

【题解】 模拟赛2 题解

T1 假设商品价格为x 618:int(x*0.66) 211:x-(x/100)*35 两者比较一下大小即可 #include<bits/stdc.h> using namespace std;int x,x1,x2;int main(){scanf("%d",&x);x1 x*0.66;x2 x-(x/100)*35;if (x1 x2) printf("both\n%d",x1);if (x1 &g…

浏览器打开PDF标题乱码

问题 使用 itext5 用pdf模板生成预览pdf乱码问题 解决办法 使用pdf编辑器打开之后&#xff0c;选择 文件>> 属性&#xff0c; 修改乱码的标题。

【业务功能篇45】SSM整合shiro项目:web.xml执行顺序

web.xml 的加载顺序是&#xff1a;ServletContext -> context-param -> listener -> filter -> servlet 学习shiro时&#xff0c;需要配置shiro &#xff0c;我们需要在filter过滤器之前&#xff0c;先初始化好shiro组件&#xff0c;不然请求认证无法走到shiro,根据…

plt.text()函数解析

plt.text(x, y, s, fontsize, verticalalignment,horizontalalignment,rotation , *kwargs) 参数&#xff1a; x,y:表示坐标值上的值s:表示说明文字fontsize:表示字体大小verticalalignment&#xff1a;垂直对齐方式 &#xff0c;参数&#xff1a;[ ‘center’ | ‘top’ | ‘…

【公益】Q学友联合东湖街道开展“星级大厨来做客”技能培训活动

“大家一定要用温水和面&#xff0c;和面时要注意方向和力度&#xff0c;往同一个方向揉面……”在东湖街道综合文体服务中心一楼的中式面点培训现场&#xff0c;飘荡着阵阵面香&#xff0c;充斥着欢声笑语。 为进一步丰富居民业余文化生活&#xff0c;提高灵活就业人员的职业技…

手把手教你搭建SpringCloud项目:什么是微服务?一看就会系列!

什么是微服务&#xff1f;一看就会系列&#xff01; 一、手把手教你搭建SpringCloud项目&#xff08;一&#xff09;图文详解&#xff0c;傻瓜式操作 二、手把手教你搭建SpringCloud项目&#xff08;二&#xff09;生产者与消费者 三、手把手教你搭建SpringCloud项目&#x…

mpVue 微信小程序基于vant-weapp 组件的二次封装TForm 表单组件(修改源码插槽使用)

一、前言 1、mpVue微信小程序不支持动态组件&#xff08;<component> &#xff09; 2、mpVue微信小程序不支持动态属性及事件穿透&#xff08;$attrs和$listeners&#xff09; 3、mpVue微信小程序不支持render函数 二、最终效果 三、配置参数&#xff08;Attributes&…

Qt6 Qt Quick UI原型学习QML第三篇

文章目录 效果QML代码ClickableImage.qml文件Image&#xff08;图片&#xff09;元素 解释 MyQML.qml文件 解释&#xff1a;Window元素、Item元素、Image元素、MouseArea元素、Column元素、Row元素、Grid元素、Flow元、Repeater元素 效果 QML代码 ClickableImage.qml文件 图像…