NetApp FAS2554故障灯常亮case处理过程分享

news2024/11/30 2:33:59

近期处理了一个NetApp FAS2554前面故障灯一直点亮的case,本文对于分析过程和最终的问题发现做一个分享,欢迎讨论,可以add wechat at StorageExpert。

外观检查:

客户反馈,一套FAS2554存储,没有任何扩展柜,前面板的故障灯近期一直是亮的,但没有其他任何故障灯,核对检查了控制器的故障灯,都是熄灭正常的。

客户做过的尝试:

某些所谓专业人员已经对这个存储做了故障分析,结论是需要重启控制器,然后控制器也重启了,但是故障依旧存在。至于为什么要重启控制器,就不知道了。基本上就是重启大法。

下面是我们的分析过程:

1. 检查两个控制器的message文件

对两个控制器近期的messages文件做了详细的检查,没有发现任何和硬件有关的报错。

2. 系统检查

检查了system health的情况,发现一个控制器是degraded

再仔细检查,发现是SP的网络没有接,这个问题不大,不是导致整个控制器亮灯的原因。

 检查fru 的LED故障灯情况,两个控制器全都是off

检查DIMM的ECC报错,也正常。

检查sensor和environment 情况,所有都正常

 

 检查storage fault的情况,发现如下的异常点。

四个电源模块的状态都是OK,但是status描述有三个显示 DC under VOLTAGE,这是不正常的。另外整个enclosure 的状态显示为FAIL。 

3. sp检查

检查sp的状态,工作正常,但两个控制器的版本有差异,一个是 2.2.3, 另外一个是 2.2.4。

初步分析结论

到此,我们可以初步得出结论,导致FAS2554系统控制器故障灯点亮的原因在于四个电源模块的不正常的矛盾状态,但什么原因导致出现四个电源模块的status都显示DC under voltage呢?初步判断是2个sp的版本不同,低版本2.2.3的可能有bug,没有准确的读到电源的状态信息。

行动计划

基于上面的判断,计划如下:

1. 升级其中一个控制器的SP firmware版本到 2.2.4

2. 如果升级完成后,故障依然存在,就对有问题的电源模块依次做插拔动作。

执行情况

按照上面的计划,我们首先升级了SP的版本,但升级后我问题依旧,说明这个不是SP的bug导致。开始执行第二个计划,对电源模块做插拔动作,这个时候悲剧发生了,插拔了其中一个电源,30秒内又插了回去,但是系统console上马上给出提示:

[FAS2554-02:monitor.fan.critical:EMERGENCY]: 2 fans have failed. Replace them to avoid overheating. If not corrected, system will shutdown in 2 minutes.

然后紧接着给出提示,multiple fan failed, system will shutdown immediately. 

两个控制器都shudown了。

进一步处理和分析

由于系统自己shutdown了系统,ontap是不会做failover之类的,两个控制器都关机了。通过插拔控制器让两个控制器重新启动恢复业务。进一步分析问题,解决问题的思路开始转移到bug方面。果然,找到了相关的一模一样的bug说明。

845945 - Fault LED stays lit after DC under-voltage event

网站连接  NetApp Support Site

bug的具体说明:

After a DC under-voltage event, the storage shelf OPS panel fault LED remains lit, and incorrect EMS messages continue to be generated, even after the voltage returns to correct levels.

影响的版本:

8.0.2P4, 8.1.2, 8.1.3, 8.1.4P2, 8.1.4P4, 8.1.4P8, 8.2.1, 8.2.1P1, 8.2.1P2, 8.2.1P3, 8.2.2, 8.2.2P1, 8.2.2P2, 8.2.3, 8.2.3P1, 8.2.3P2, 8.2.3P3, 8.2.3P4,8.2.3P5, 8.2.3P6, 8.2P3, 8.2P5, 8.3, 8.3P1,  8.3P2

客户的版本非常完美的命中了这个bug。

当然,解决这个问题,最彻底的办法就是升级ONTAP版本。如果不想升级,也有workaround的办法,

Remove and reinsert the power supply unit (PSU) that experienced the under-voltage event. To identify the PSU you need to operate on, use the "storage show fault -v" command (available in the nodeshell for clustered Data ONTAP) and look under the Power Supplies: Element Status section. E.g. Power Supplies: Element Status Status Bytes Status Descriptions 1: OK 01,00,04,A0 DC UNDER VOLTAGE, RQSTED ON 2: OK 01,00,00,A0 RQSTED ON

其实就是我们之前做的对有影响的电源做插拔动作。但不幸的是我们又命中了sp的一个bug,sp没有及时识别到电源又插了回去,依然认为多个fan有故障,直接shutdown了机器。

好了,不写了,都是泪,前后折腾了半天,还把机器搞挂了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/523561.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

文献阅读(52)—— Integration self-attention and convolution

文献阅读(52)—— Integration self-attention and convolution 文章目录 文献阅读(52)—— Integration self-attention and convolution先验知识/知识拓展文章结构背景文章方法1. Relating Self-Attention with Convolution 文章…

C++11 函数对象、Lambda表达式 绑定器

1. 函数对象和绑定器 函数对象&#xff1a; 重载了operator()运算符的类的对象。 STL中的原本的绑定器&#xff1a; STL中的绑定器可将二元函数对象绑定为一元函数对象。有如下示例帮助回顾&#xff1a; #include <iostream> #include <vector> #include <…

「 计算机网络 」Cookie、Session、Token、JWT 原理详解

「 计算机网络 」Cookie、Session、Token、JWT 原理详解 参考&鸣谢 傻傻分不清之 Cookie、Session、Token、JWT 详解 Cookie&#xff0c;Session&#xff0c;Token 一文彻底搞懂Cookie、Session、Token到底是什么 文章目录 「 计算机网络 」Cookie、Session、Token、JWT 原…

机器学习 day13(正则化,线性回归的正则化)

正则化的思想 如果特征的参数值更小&#xff0c;那么对模型有影响的特征就越少&#xff0c;模型就越简单&#xff0c;因此就不太容易过拟合 如上图所示&#xff0c;成本函数中有W₃和W₄&#xff0c;且他们的系数很大&#xff0c;要想让该成本函数达到最小值&#xff0c;就得使…

基于PostGIS的曲线拐点计算

在这篇博文中&#xff0c;我将介绍一种查找曲线拐点的方法。 一个简单的理解方式&#xff1a;将曲线想象成我们正在行驶的道路&#xff0c;我们想要找到我们停止右转并开始左转或反之的点&#xff0c;如下所示&#xff1a; 我们将展示解决方案的草图和 PostGIS 中的实际实施。…

AR VR 到底哪种技术可以改变未来?

随着科技的不断进步&#xff0c;虚拟现实&#xff08;VR&#xff09;和增强现实&#xff08;AR&#xff09;技术已经成为了当今科技领域的热门话题。VR和AR的出现&#xff0c;为人们带来了前所未有的体验和感受&#xff0c;也为各行各业的发展提供了新的机遇。但是&#xff0c;…

MySQL学习---14、变量、定义条件和处理程序

1、变量 在MySQL数据库的存储过程和函数中&#xff0c;可以使用变量来存储查询或计算的中间结果数据&#xff0c;或者输出最终的结果数据。 在MySQL数据库中&#xff0c;变量分为&#xff1a;1、系统变量2、用户自定义变量1、系统变量 1.1.1 系统变量分类 1、变量由系统定义…

SpringCloud使用SkyWalking实现分布式链路追踪2以及Prometheus全方位监控告警系统

文章目录 一、SkyWalking链路追踪使用Elasticsearch数据库1、SkyWalking连接Elasticsearch数据库2、SkyWalking自定义链路追踪3、SkyWalking的调用日志 二、SkyWalking链路追踪的告警功能1、SkyWalking的告警规则2、SkyWalking自定义告警规则3、SkyWalking实现网络钩子Webhooks…

基于springboot+vue的校园任务订单配送管理系统

随着我国教育制度的改革的发展&#xff0c;各大高校的学生数量也在不断的增加。当前大学生的生活和消费习惯等导致他们更喜欢通过网络来获取自己想要的商品和服务&#xff0c;这也是导致当前校园配送盛行的主要原因。为了能够让更多的学生享受到校园配送的服务&#xff0c;我们…

记录一次华三交换机配置IP地址和SNMP服务的过程

一、华三交换机配置IP地址 1、将交换机的console口连接到台式机&#xff0c;然后通过XShell连接到COM口 2、进入华三交换机的系统配置界面 命令&#xff1a;system-view 示例&#xff1a;system-view 3、创建vlan。输入vlan vlan-id命令创建一个VLAN。其中&#xff0c;vlan…

FreeRTOS_移植和配置

目录 1. 什么是FreeRTOS&#xff1f; 2. FreeRTOS 特点 3. FreeRTOS 移植 3.1 验证程序 1. 什么是FreeRTOS&#xff1f; 我们先看 FreeRTOS 的名字&#xff0c;可以分成两部分&#xff1a;Free 和 RTOS&#xff0c;Free 就是免费的、自由的、不受约束的意思&#xff0c;RTO…

016-fty_crkme3

运行程序 check错误 查壳 有UPX壳&#xff0c;ESP定律脱壳 载入OD分析 搜索字符串 向上找&#xff0c;找到段首 开始分析算法 搜先判断输入是否为空 再下面开始判断输入的字符除了 “-” 是不是满足0-9 如果满足的话&#xff0c;要再判断长度&#xff0c;0x9 到 0xB&#x…

【计算机组成原理】第一章 计算系统概论

系列文章目录 第一章 计算系统概论 第二章 运算方法和运算器 第三章 多层次的存储器 第四章 指令系统 第五章 中央处理器 第六章 总线系统 第七章 外围设备 文章目录 系列文章目录前言第一章 计算机系统概论1.1 计算机的分类1.2 计算机发展简史1.2.1 计算机的五代变化1.2.2 半…

19 KVM管理虚拟机-虚拟机生命周期管理命令

文章目录 19 KVM管理虚拟机-虚拟机生命周期管理命令19.1 概述19.2 前提条件19.3 命令使用说明 19 KVM管理虚拟机-虚拟机生命周期管理命令 19.1 概述 用户可以使用virsh命令工具管理虚拟机生命周期。本节介绍生命周期相关的命令以指导用户使用。 19.2 前提条件 执行虚拟机生…

uboot symbol value ‘‘ invalid for SYS_TEXT_BASE 解决方法

环境 Win10 64位 ubuntu 20.04 虚拟机 VMware Workstation 16 Pro gcc 交叉编译工具链&#xff1a; ARM 官方 gcc version 11.2.1 20220111 NUC980 uboot 版本 &#xff1a;尝试移植到 u-boot-2019.10&#xff0c;官方当前 u-boot 版本为 2016.11 问题描述 升级 u-boot …

ThinkPHP6 模板引擎普通标签中,模板引擎运算符函数,循环标签,判断标签的使用,及一些特殊标签

ThinkPHP6 模板引擎普通标签中&#xff0c;模板引擎运算符函数&#xff0c;循环标签&#xff0c;判断标签的使用&#xff0c;及一些特殊标签 模板引擎支持普通标签和XML标签方式两种标签定义&#xff0c;分别用于不同的目的&#xff1a; 标签类型描述普通标签主要用于输出变量…

Linux 安装 JDK、MySQL、Tomcat(图文并茂)

所需资料 下载 1.1 软件安装方式 在Linux系统中&#xff0c;安装软件的方式主要有四种&#xff0c;这四种安装方式的特点如下&#xff1a; 安装方式特点二进制发布包安装软件已经针对具体平台编译打包发布&#xff0c;只要解压&#xff0c;修改配置即可rpm安装软件已经按照re…

Unity里URP项目的介绍和创建

大家好&#xff0c;我是阿赵&#xff0c;接下来会介绍一下URP的使用 一、URP的介绍 URP(Universal Render Pipeline)通用渲染管线&#xff0c;是Unity在2019.3版本之后推出的一种新的渲染管线。 对比起默认的渲染管线&#xff0c;他的使用上会产生了一些变化&#xff0c;包括…

RS485电路及程序设计

一、电路原理图 图中 A、B 总线接口&#xff0c;用于连接 485 总线。RO 是接收输出端&#xff0c;DI 是发送数据收入端&#xff0c;RE是接收使能信号&#xff08;低电平有效&#xff09;&#xff0c;DE 是发送使能信号&#xff08;高电平有效&#xff09;。RE DE接在一起就是高…

jenkins安装配置--持续集成

目录 1.什么是持续集成 1.1持续集成 Continuous integration &#xff0c;简称CI 1.2持续集成具有的特点&#xff1a; 1.3持续集成的作用 2.jenkins简介 2.1概述 2.2特点 3.jenkins安装 1.下载Jenkins 2.下载jdk 3.网盘安装包载 4.创建软件安装目录 5.上传jdk和Jen…