金融行业现场故障处理实录

news2024/11/17 12:35:09

  1. KL银行现场服务记录—HA故障

服务时间

2019年9月10日星期二 14:40 到2019年9月11日星期三 0:30

服务内容

  • 排查redhat RHEL 6.4 一个节点cman启动故障。

(1)、查看系统日志;

(2)、查看ha日志,/etc/cluster下各日志文件;

(3)、clustat查看集群状态,提示cman未运行;

(4)、查看集群配置文件/etc/cluster.conf;

(5)、对比另一个正常运行节点的状态及日志输出;

(6)、运行指令 strace –f –o /tmp/cman.log /etc/init.d/cman status ,生成跟踪文件;

strace –f –o /tmp/cman.log /etc/init.d/cman status

由于当前不能执行cman启动操作,故障暂时不能排除。

  • 新的华为服务器,由于使用了UEFI代替老旧的bios进行引导管理,客户在安装redhat RHEL6.4时进行 不下去,顺便协助他正确完成安装。
  • Ha挂接的共享盘报“no clean”,预判文件系统存在问题,准备服务停止后,卸载挂接,然后修复(fsck)。

  1. MS银行(顺义)现场服务记录--kdump故障

问题描述

某Redhat RHEL 6.X系统部署应用以后,运行一段时间,可能会出现系统挂起现象,挂起时间不确定。相关人员怀疑是应用所引起的,为了弄清事实真相,需要在系统挂起前导出core文件。

系统已经配置好kdump,但在启动kdump服务时,无法成功。因此现场服务的主要任务时排查kdump启动故障。

排查过程

  • 检查相关的软件包是否正确安装:rpm-qa|grep kexec-tool ,已经被正确的安装。
  • 检查kdump.conf配置文件,为发现异常;
  • 检查系统日志/var/log/messages,未发现有价值信息;
  • 试着启动服务 service kdump start ,输出提示”找不到内核文件 kernel-15…”。初步判断问题出现在这里。这个数字15是哪里来的呢?
  • 打开文件/etc/sysconfig/kdump,发现其有效行的第一行有异常

通过对比其他正常系统的配置,其值默认为空,不为“15”。在征得同意以后,对其修改,并启动kdump服务。

处理结果

故障排除,完成服务。

  1. TK保险服务器重启排查记录

主要现象

近期以来,每隔2天左右会自动重启,并且重启时间不固定。

主要信息收集

  • 硬件信息:4颗物理cpu,总核数96,总线程数192;内存1T;磁盘多路径连接,划分多个逻辑卷。

  • 操作系统为redhat RHEL 7.4,内核版本3.10.0-693.未进行过版本更新。
  • 应用为db2数据库。

排查过程

  • 查看系统日志,dmesg及打开文件/var/log/messages,并用关键字error、fatal、warning等进行过滤。

egrep –i “error|fatal|warning” /var/log/messages

egrep –i “error|fatal|warning” /var/log/messages

未发现有价值信息。

  • 查看系统用户,存在多个普通用户,并拥有shell(bash)。
  • 查看用户授权,主要是/etc/suders,使用的命令 visudo 。虽然授权指令较多,但未发现有reboot指令的权限授予。
  • 排查用户的计划任务,因为用户较多,使用如下脚本进行查找。
for u in `cat /etc/passwd | cut -d":" -f1`;do sudo crontab -l -u $u;done

for u in `cat /etc/passwd | cut -d":" -f1`;do sudo crontab -l -u $u;done

发现db2数据库启动账号有个重启脚本,设定的时间是每天早上8点。搜索此脚本及所在路径,不存在,建议注释掉此条。

  • 用户反馈,说二线技术支持曾经远程配置了kdump,模拟系统崩溃能生成vmcore文件,但昨天早上(6:00多钟)系统崩溃发生重启,却没有生成转储文件。查看文件/etc/default/grub及/boot/grub2/grub.cfg,其中 crashkernel=786M@0M。鉴于此,把crashkernel的值改成786M,去掉了后边的偏移量。再修改文件/etc/kdump.conf,启用压缩功能。

core_collector makedumpfile -c --message-level 1 -d 31

core_collector makedumpfile -c --message-level 1 -d 31

增加一個选项“-c”,表示启用压缩。

grub2-mkconfig -o /boot/grub2/grub.cfg  

grub2-mkconfig -o /boot/grub2/grub.cfg  

重新生成grub配置,需要重启才能生效。

  • 查看系统参数kernel.sysrq,其值为16,手动方式修改文件 /etc/sysctl.conf,显示指定

Kernel.sysrq=1

修改完执行 sysctl –p 使其生效。

  • 执行下列指令,模拟故障发生。

echo c > /proc/sysrq-trigger

重启完成后,在目录/var/crash确实生成了大文件,大小为4G。

服务建议

等下一次重启,如果生成了vmcore文件,把此文件传到case附件里边,有后台技术对其进行分析。

  1. TK人寿系统修复操作记录

问题及成因

一虚拟机系统, 不能正常引导,但还能进入单用户模式。此虚拟机没有对镜像进行备份,因此无法还原。系统中有用户的数据,因此不能通过重新安装系统来进行有效恢复。

通过沟通,了解到是用户自己在远程执行一個ssh脚本,此脚本有一行”chmod –R 777”的指令,本意是共享一個nfs服务目录,但因为为对目录是否存在进行判断,因此一执行完脚本,所有的目录文件的权限都变成777了。

处理过程

找一台运行正常的,版本一致的系统,对比/etc目录里各种权限与验证有关的目录和权限,如 passwd、shadow、ssh等。用chmod指令逐一进行修改,修改一些权限以后,重启系统,直到能正常运行,并且能用ssh远程登录。

处理结果及建议

交付给用户,然后建议重装系统。但用户自己认为没啥问题,以后再说。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1418081.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

编程大侦探林浩然的“神曲奇遇记”

编程大侦探林浩然的“神曲奇遇记” The Coding Detective Lin Haoran’s “Divine Comedy Adventures” 在我们那所充满活力与创新精神的高职学院中,林浩然老师无疑是众多教师中最独特的一颗星。这位身兼程序员与心理分析专家双重身份的大咖,不仅能在电脑…

APPium简介及安装

1 APPium简介 1. 什么是APPium? APPium是一个开源测试自动化框架,适用于原生、混合或移动Web应用程序的自动化测试工具。 APPium使用WebDriver协议驱动iOS、Android等应用程序。 2. APPium的特点 支持多平台(Android、iOS等) …

浅谈楼房老旧的配电设备加装电能管理系统的方案

摘要:文章通过对大楼配电设备现状及电能管理系统的需求分析,提出了在大楼老旧配电设备中加装 电能管理系统的方法,包括方案配置、计量点选择、终端改造、数据通信、报表格式等。旨在供无计量 管理系统或仅有电力监控系统的配电系统中加装电能…

目标检测数据集制作(VOC2007格式数据集制作和处理教程)

VOC2007数据集结构(目标检测图像分割) #VOC2007数据集结构如下: VOC2007|-Annotations#里面存放的是每一张图片对应的标注结果,为XML文件,#标注完成后JPEGImages每张图片在此都有一一对应的xml文件|-ImageSets#存放的是…

论文笔记:TimeGPT-1

时间序列的第一个基础大模型 1 方法 最basic的Transformer架构 采用了公开可用的最大时间序列数据集进行训练,包含超过1000亿个数据点。 训练集涵盖了来自金融、经济、人口统计、医疗保健、天气、物联网传感器数据、能源、网络流量、销售、交通和银行业等广泛领域…

人工智能趋势报告解读:ai野蛮式生长的背后是机遇还是危机?

近期,Enterprise WordPress发布了生成式人工智能在营销中的应用程度的报告,这是一个人工智能迅猛发展的时代,目前人工智能已经广泛运用到内容创作等领域,可以预见的是人工智能及其扩展应用还将延伸到我们工作与生活中的方方面面。…

【C++】C++入门基础讲解(二)

💗个人主页💗 ⭐个人专栏——C学习⭐ 💫点击关注🤩一起学习C语言💯💫 导读 接着上一篇的内容继续学习,今天我们需要重点学习引用。 1. 引用 在C中,引用是一种特殊的变量&#xff…

成都直播产业园解析直播供应链金融服务,天府锋巢直播产业基地打造“金融+产业+生态”新型模式

天府锋巢直播产业基地如何打造“金融产业生态”新型模式? 本文将为您全面解析基地提供的成都直播产业园供应链金融服务 锋巢资讯~每周准时报道~~ 赶紧下拉,阅读全文 Q:企业入驻园区能获得哪些直播供应链金融服务&…

如何注册海外苹果账号下载软件?

国内的苹果Appstore有严格的上线审查,导致很多软件不支持。只能通过海外的苹果账号登录后下载。 比如chatgpt还有加密资产的大部分软件。 其实自己注册一个很简单。 一、注册国内Apple ID 打开苹果官网,https://appleid.apple.com 注册一个中国区的A…

【机器学习】正则化

正则化是防止模型过拟合的方法,它通过对模型的权重进行约束来控制模型的复杂度。 正则化在损失函数中引入模型复杂度指标,利用给W加权值,弱化了数据的噪声,一般不正则化b。 loss(y^,y):模型中所有参数的损失函数&…

【代码审计】小白友好的根据CNVD审计BEESCMS

BEESCMS源码下载 目录 ①BEESCMS后台登录存在SQL注入漏洞(CNVD-2020-62375) ②BEESCMS存在任意文件删除漏洞(CNVD-2020-33193) ③BEESCMS存在文件上传漏洞(CNVD-2018-18082) ④BEESCMS企业网站管理系统存在文件包含漏洞(CNVD-2020-64781) ①BEESCMS后台登录存在SQL注入漏洞…

Python接口自动化框架设计到开发

1.如何设计一个接口自动化测试框架 根据接口地址、接口类型、请求数据、预期结果来进行设计,对于需要登录后才能进行操作的接口那么则需要进行header cookie等数据的传递,自动化测试的难点就是数据依赖。 2.python操作excel获得内容 首先python操作exce…

SSL加密证书免费申请

首先,让我们来了解一下SSL证书的基本作用。SSL证书通过公钥和私钥的非对称加密技术,使得服务器与浏览器之间的通信内容得到高强度加密,同时验证网站的真实身份,从而提升用户的信任度,也是搜索引擎排名优化的一个重要因…

JSP和JSTL板块:第一节 JSP追根溯源 来自【汤米尼克的JAVAEE全套教程专栏】

板块一 JSP和JSTL:第一节 JSP主要内容 一、什么是JSP二、IDEA的JSP相关配置1.UTF-8编码2.JSP代码模板 三、JSP的底层是Servlet四、Jsp的注释1.显式注释2.隐式注释 五、Scriptlet : 写在Jsp里的java脚本段 一、什么是JSP JSP: Java Server Page。SUN 公司提供的动态…

C语言实现快速排序算法(附带源代码)

快速排序 在区间中随机挑选一个元素作基准,将小于基准的元素放在基准之前,大于基准的元素放在基准之后,再分别对小数区与大数区进行排序。 动态效果过程演示: 快速排序(Quick Sort)是一种常用的排序算法&…

响应式Web开发项目教程(HTML5+CSS3+Bootstrap)第2版 例5-3 getBoundingClientRect()

代码 <!doctype html> <html> <head> <meta charset"utf-8"> <title>getBoundingClientRect()</title> </head> <script>function getRect(){var obj document.getElementById(example); //获取元素对象var objR…

路灯哪个牌子好?五款好用新年台灯推荐

自从娃进入小学&#xff0c;学习和视力是群里妈妈们永远不变的两大话题&#xff0c;特别是视力话题&#xff0c;常常能炸出“深潜”已久的爸爸们加入讨论。最近这几年&#xff0c;孩子的近视率又提高了&#xff01;根据国家卫健委的报道&#xff0c;儿童青少年近视总体发生率高…

Walrus 0.5发布:重构交互流程,打造开箱即用的部署体验

开源应用管理平台 Walrus 0.5 已于近日正式发布&#xff01; Walrus 0.4 引入了全新应用模型&#xff0c;极大程度减少了重复的配置工作&#xff0c;并为研发团队屏蔽了云原生及基础设施的复杂度。Walrus 0.5 在这一基础上&#xff0c;通过重构交互流程、增强抽象能力&#xff…

COW AI接入到微信 保姆教程 (部署在服务器,插件安装)

此文章不涉及国外的AI模型&#xff0c;也无需翻墙&#xff0c;跟某AI模型无关&#xff0c;审核大哥别弄错了 最近的AI开始越开越火了&#xff0c;开始介入到我们生活中的方方面面。就有人好奇AI是否能接入到微信吗&#xff1f;我在GitHub上搜索的时候还真有除了对话外还可以通…

编译Opencv3.3 版本遇到的Cuda版本变更导致:CUDA_nppicom_LIBRARY (ADVANCED)链接找不到的问题根本解法:

前言&#xff1a; Opencv 开源库的使用是必须的&#xff0c;但是&#xff0c;开源项目的特性&#xff0c;造成&#xff0c;版本的依赖性比较复杂&#xff0c; 尤其是针对某一款老硬件的SDK&#xff0c;往往随着某个开源库的使用&#xff0c;导致&#xff0c;无法编译的问题&am…