大数据之LibrA数据库系统告警处理(ALM-12033 慢盘故障)

news2024/11/25 22:35:56
告警解释

系统每一秒执行一次iostat命令,监控磁盘I/O的系统指标,如果在60s内,svctm大于100ms的周期数大于30次则认为磁盘有问题,产生该告警。

更换磁盘后,告警自动恢复。

告警属性

告警ID

告警级别

可自动清除

12033

严重

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

RoleName

产生告警的角色名称。

HostName

产生告警的主机名。

DiskName

产生告警的磁盘名。

对系统的影响

磁盘慢盘故障,导致业务性能下降,阻塞业务的处理能力,例如DBService主备同步等,严重时可能会导致服务不可用。

可能原因

磁盘老化或者磁盘坏道。

处理步骤

检查磁盘状态。

  1. 在FusionInsight Manager界面,单击“告警管理”。
  2. 查看该告警的详细信息,查看定位信息中“HostName”字段和“DiskName”字段的值,获取该告警产生的故障磁盘信息。
  3. 确认上报告警的节点是否为虚拟化环境。

    • 是,执行步骤 4。
    • 否,执行步骤 7。

  4. 请检查虚拟化环境提供的存储性能是否满足硬件要求,检查完毕之后执行步骤 17。

    说明:

    硬件要求说明,可参考产品文档中《产品描述》的“部署方案 > 硬件及运行环境要求”章节。

  5. 登录告警节点,执行df -h命令,查看输出内容是否包含“DiskName”字段的值。

    • 是,执行步骤 7。
    • 否,执行步骤 6。

  6. 执行lsblk命令,是否可以查到“DiskName”字段值与磁盘设备的映射关系。

    • 是,执行步骤 7。.
    • 否,执行步骤 25。

  7. 使用PuTTY工具,以root用户登录上报告警的节点,执行lsscsi | grep "/dev/sd[x]"命令查看磁盘的设备信息,判断磁盘是否建立了RAID。

    说明:

    其中/dev/sd[x]步骤 2中获取到的上报告警的磁盘名称。

    例如执行:

    lsscsi | grep "/dev/sda"

    如果命令执行结果第三列显示ATA、SATA或者SAS,说明磁盘没有建立RAID;显示其他信息,则该磁盘可能建立了RAID。

    • 是,执行步骤 12。
    • 否,执行步骤 8。

  8. 执行smartctl -i /dev/sd[x]命令检查硬件是否支持smart。

    例如执行:

    smartctl -i /dev/sda

    如果命令执行结果中包含“SMART support is: Enabled”,表示磁盘支持smart;执行结果中包含“Device does not support SMART”或者其他,表示磁盘不支持smart。

    • 是,执行步骤 9。
    • 否,执行步骤 17。

  9. 执行smartctl -H --all /dev/sd[x]命令查看smart的基本信息,判断磁盘是否正常。

    例如执行:

    smartctl -H --all /dev/sda

    查看命令执行结果的“SMART overall-health self-assessment test result”内容,如果是“FAILED”,表示磁盘故障,需要更换;如果为“PASSED”,需要进一步看“Reallocated_Sector_Ct”或者“Elements in grown defect list”项的计数,如果大于100,则认为磁盘故障,需要更换。

    • 是,执行步骤 10。
    • 否,执行步骤 18。

  10. 执行smartctl -l error -H /dev/sd[x]命令查看磁盘的GLIST列表,进一步继续判断磁盘是否正常。

    例如执行:

    smartctl -l error -H /dev/sda

    查看命令执行结果的“Command/Featrue_name”列,如果出现“READ SECTOR(S)”或者“WRITE SECTOR(S)”表示磁盘有坏道;如果出现其他错误,表示磁盘电路板有问题。这两种错误均表示磁盘不正常,需要更换。

    如果显示“No Errors Logged”,则表示没有错误日志,则可以触发磁盘smart自检。

    • 是,执行步骤 11。
    • 否,执行步骤 18。

  11. 执行smartctl -t long /dev/sd[x]命令触发磁盘smart自检。命令执行后,会提示自检完成的时间,在等待自检完成后,重新执行步骤 9和步骤 10,检查磁盘是否正常。

    例如执行:

    smartctl -t long /dev/sda

    • 是,执行步骤 17。
    • 否,执行步骤 18。

  12. 执行smartctl -d [sat|scsi]+megaraid,[DID] -H --all /dev/sd[x]命令检查硬件是否支持smart。

    说明:
    • [sat|scsi]表示磁盘类型,需要尝试以上两种类型。
    • [DID]表示槽位信息,需要尝试0~15。

    例如依次执行:

    smartctl -d sat+megaraid,0 -H --all /dev/sda

    smartctl -d sat+megaraid,1 -H --all /dev/sda

    smartctl -d sat+megaraid,2 -H --all /dev/sda

    ...

    依次尝试不同磁盘类型和槽位信息的命令组合,如果执行结果中显示“SMART support is: Enabled”,表示磁盘支持smart,记录命令执行成功时磁盘类型和槽位信息组合参数;如果尝试完以上所有的命令组合,执行结果都未显示“SMART support is: Enabled”,表示磁盘不支持smart。

    • 是,执行步骤 13。
    • 否,执行步骤 16。

  13. 执行步骤 12中记录的smartctl -d [sat|scsi]+megaraid,[DID] -H --all /dev/sd[x]命令查看smart的基本信息,判断磁盘是否正常。

    例如执行:

    smartctl -d sat+megaraid,2 -H --all /dev/sda

    查看命令执行结果的“SMART overall-health self-assessment test result”内容,如果是“FAILED”,表示磁盘故障,需要更换;如果为“PASSED”,需要进一步看“Reallocated_Sector_Ct”或者“Elements in grown defect list”项的计数,如果大于100,则认为磁盘故障,需要更换。

    • 是,执行步骤 14。
    • 否,执行步骤 18。

  14. 执行smartctl -d [sat|scsi]+megaraid,[DID] -l error -H /dev/sd[x]命令查看硬盘的GLIST列表,进一步判断硬盘是否正常。

    例如执行:

    smartctl -d sat+megaraid,2 -l error -H /dev/sda

    查看命令执行结果的“Command/Featrue_name”列,如果出现“READ SECTOR(S)”或者“WRITE SECTOR(S)”表示磁盘有坏道;如果出现其他错误,表示磁盘电路板有问题。这两种错误均表示磁盘不正常,需要更换。

    如果显示“No Errors Logged”,则表示没有错误日志,则可以触发磁盘smart自检。

    • 是,执行步骤 15。
    • 否,执行步骤 18。

  15. 执行smartctl -d [sat|scsi]+megaraid,[DID] -t long /dev/sd[x]命令触发磁盘smart自检。命令执行后,会提示自检完成的时间,在等待自检完成后,重新执行步骤 13和步骤 14,检查磁盘是否正常。

    例如执行:

    smartctl -d sat+megaraid,2 -t long /dev/sda

    • 是,执行步骤 17。
    • 否,执行步骤 18。

  16. 磁盘不支持smart,通常是因为配置的RAID卡不支持,此时需要使用对应RAID卡厂商的检查工具进行处理,然后执行步骤 17。

    例如LSI一般是MegaCli工具。

  17. 删除告警,并继续观察该告警,查看同一块磁盘的告警是否会继续上报。

    如果当前磁盘出现三次以上该告警,建议用户更换磁盘。

    • 是,执行步骤 18。
    • 否,操作结束。

更换磁盘。

  1. 在FusionInsight Manager界面,单击“告警管理”。
  2. 查看该告警的详细信息,查看定位信息中对应的“HostName”字段和“DiskName”字段的值,获取该告警上报的故障磁盘信息。
  3. 参考产品文档《故障管理》的“应急处理 > 常见紧急故障修复 > 硬盘故障处理”章节进行更换硬盘操作。
  4. 检查告警是否清除。

    • 是,操作结束。
    • 否,执行步骤 22。

收集故障信息。

  1. 在FusionInsight Manager界面,单击“系统设置 > 日志下载”。
  2. 在“服务”下拉框中勾选“Manager”,单击“确定”。
  3. 设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1188908.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

99% 用户都不知道的 Power BI / Power Query 隐藏功能

Power Query 有一个被糟糕的翻译耽误了的宝藏功能,我估计绝大多数的用户都没发现。 在 Power Query —— 视图 —— 数据预览 下,有几个奇怪的选项 “列分发”、“列配置文件”、“列质量”,从名字根本看不出来是做什么的! 看英文…

sm2加密算法

sm2是一种非对称加密算法。在非对称加密中,加密和解密使用的是不同的密钥对,分别是公钥和私钥。SM2算法是由中国国家密码管理局制定的一种椭圆曲线非对称加密算法,用于数字签名、密钥协商等安全通信场景。 这里使用hutool工具类 Hutool 支持对…

element-ui中el-table数据合并行和列,应该怎么解决

最近接到一个任务,要实现一个数据报表,涉及到很多合并问题,一开始想着原生会简单点,实际上很麻烦,最后还是用elemen-ui中table自带的合并方法. 最终的效果是要做成这种:1.数据处理,后端返回来的数据是,一个大对象,包含三个数组,既然合并,肯定是要处理成一个数组,并且要把相同的…

AI创作系统ChatGPT网站源码+AI绘画网站源码+支持GPT4.0+支持OpenAI GPT全模型+国内AI全模型

一、AI创作系统 SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如…

带头+双向+循环链表

前言: 前面我们已经学习了单链表的结构及其功能特点,也了解了单链表在实现一些功能时出现的一些缺点,比如在删除某个节点前面一个节点时就需要再开一个变量来存放前面一个节点的信息,这样就显得不灵活,为了使链表实现功…

Kubernetes 问题排查全景图

伴随着混沌的微服务架构,多语言和多网络协议混杂。以及下沉的基础设施能力屏蔽实现细节,问题定界越发困难。 企业急需一种支持多语言,多通信协议的技术,并在产品层面尽可能覆盖软件栈端到端的可观测性需求。 「Kubernetes 问题排查…

小时候画在手腕上的表,我用全志R128让他真正动了起来

小时候,我们总是充满想象力和创造力。 在那个年龄,我们没有真正的手表,但我们总是喜欢在纸上画出自己的手表,仿佛它真的能告诉我们时间。 为了弥补童年的遗憾,作者找到了一个智能手表的开源项目——NWatch&#xff0c…

计算机中丢失vcomp140.dll解决办法,可以使用这个4个方法解决问题

一、vcomp140.dll文件丢失的原因 未正确安装Visual C Redistributable:vcomp140.dll是Visual C Redistributable for Visual Studio 2015的一部分,当我们安装某些软件或游戏时,可能需要这个库。如果未正确安装这个库,可能导致vco…

c#装饰器模式详解

基础介绍: 动态地给一个对象添加一些额外的职责。适用于需要扩展一个类的功能,或给一个类添加多个变化的情况。 装饰器,顾名思义就是在原有基础上添加一些功能。 大家都只知道如果想单纯的给原有类增加一些功能,可以直接继续该类生…

数据结构: unordered_map与unordered_set

目录 1.框架 2.结构 unordered_map unordered_set 3.对HashTable的修改 更改模板参数 4.增加迭代器 a.结构 b.运算符重载 c.HashTable封装迭代器 d.unordered_map与unordered_set的迭代器 1.框架 1.复用HashTable ~~> 增加模板参数KeyOfT 来获取 Key值 unorder…

基于springboot实现致远汽车租赁平台管理系统项目【项目源码+论文说明】

基于springboot实现致远汽车租赁平台系统演示 摘要 首先,论文一开始便是清楚的论述了系统的研究内容。其次,剖析系统需求分析,弄明白“做什么”,分析包括业务分析和业务流程的分析以及用例分析,更进一步明确系统的需求。然后在明白了系统的需求基础上需要进一步地设计系统,主要…

怎么批量获取文件名,并保存到excel?

怎么批量获取文件名?什么叫批量获取文件名,其实也非常好理解,就是面对大量文件是可以一次性的获取所有文件名称,这项技术的应用也是非常常见的,为什么这么说呢?现在很多的文档管理人员或者公司的文员&#…

【AICFD案例教程】汽车外气动-AI加速

AICFD是由天洑软件自主研发的通用智能热流体仿真软件,用于高效解决能源动力、船舶海洋、电子设备和车辆运载等领域复杂的流动和传热问题。软件涵盖了从建模、仿真到结果处理完整仿真分析流程,帮助工业企业建立设计、仿真和优化相结合的一体化流程&#x…

进入网络安全行业有哪些大公司推荐

随着互联网的普及和数字化进程的加速,网络安全问题日益凸显。从个人信息的泄露到国家基础设施的被攻击,网络安全已经不再只是一个技术问题,而是关乎到每个人、每个企业和国家的核心利益。在这场没有硝烟的战争中,一些大公司凭借其…

linux基础指令【上篇】

📙 作者简介 :RO-BERRY 📗 学习方向:致力于C、C、数据结构、TCP/IP、数据库等等一系列知识 📒 日后方向 : 偏向于CPP开发以及大数据方向,欢迎各位关注,谢谢各位的支持 引用 01. ls 指令2. pwd命…

IntelliJ Idea 撤回git已经push的操作

最初的样子 现在的样子 解决方案 第一步,commit到本地撤回: 打开提交历史记录,选中回退的版本右键,点击“Reset Current Branch to Here…”,然后选中“Mixed”,点击Reset后,之前commit的代码会在本地显…

定位咨询的价值:企业在市场中如何立足并打造竞争优势?

在激烈的市场竞争中,定位咨询服务显得尤为关键,它既能帮助企业发掘内在优势,又能塑造独特的市场地位,并指导如何持续巩固这一市场地位。 何为定位咨询? 定位咨询,即市场定位咨询,是指咨询公司帮助客户在…

彻底解决Win11锁屏界面黑屏或者图片不变化

问题描述 今天不知道干了啥,一顿操作后,win11的锁屏界面的图片就变成固定的了,原来是有windows聚焦的图片在自动变化的效果,现在没有了。然后就各种搜索求助,第二顿操作之后,锁屏界面彻底变成了黑色&#…

Python从入门到进阶

Python基础入门----Python简介 Python基础入门----安装Python环境(Windows、MacOS、CentOS、Ubuntu) Python基础入门----Python基础语法:解释器、标识符、关键字、缩进 Python基础入门----Python基本数据类型:数字、字符串、列…

IDEA 编译项目时报错:java: java.lang.OutOfMemoryError:GC overhead limit exceeded解决方法

1.问题简述 在Intellij IDEA下编译Java项目,报错:java.lang.OutOfMemoryError: …(此处忽略) GC overhead limit exceeded 2.问题分析 错误是发生在编译阶段,而不是运行阶段。通过查询相关资料发现, 1.idea编译Java项目使用的虚…