这里我们要讨论的内容基本上适用于所有的EMC VNX中端存储系统,包含老的Clariion CX3,CX4,VNX1和VNX2,其实VNXe和Unity很多内容也是一样的。当然由于VNXe和Unity 操作系统的大的变化,差异也是比较大的。
导致EMC Clarrion CX和VNX存储控制器故障的原因有很多,常见的有:
1. 控制器物理故障
2. 控制器的IO模块故障
3. 系统盘Vault 软件或者硬件故障
4. 控制器中的内存故障
5. 存储操作系统的软件bug
上述所有原因到可以导致控制器挂掉,写这篇文章的目的就是想给二把刀们科普下,控制器down offline不是所有的都能通过更换控制器来解决问题。
但如何判断是控制器的物理故障还是其他部件的故障,或者是软件导致的故障,这个属于比较专业的内容,靠一篇小博文是搞不定的,具体可以通过wechat: StorageExpert和我们沟通来进行专业判断。
本文会给出一些基本的现场工程师可以操作的方式来做一些简单判断。
1. 看图识字
这个是我们最喜欢的方式,但这个也是有专业性的,当然学会了,可以有个基本判断。不管是CX3,CX4还是VNX1和2,控制器的状态灯都是类似的,虽然不同的控制器的物理外观不同,但都可以找到下面的几个灯,我们用CX或者VNX5700/7500的图片为例进行讲解,其他控制器也有类似的三个状态灯。如下图所示:
控制器上有三个LED灯,
1) 电源指示灯,很多人把这个和控制器的故障LED灯搞混肴。电源指示灯很简单,加电就常亮,绿色。没有点了,就灭了。
2) 控制器的故障SP指示灯,这个灯很重要,判断一个控制器的大概问题是通过这个灯来做的。
3) 白色小手灯,这个灯是一个警示灯,如果这个灯点亮,要么说明控制器正在更新固件或者是只有这个控制器在运行,另外一个控制器已经挂了。就是千万不要动的意思。
下面重点介绍下SP的故障指示灯的各种状态的含义,注意这个指示灯不是一成不变的的,始终是个变化的过程,有时候让现场的人看看这个指示灯的情况,就马上给拍个3秒钟的视频,这个鸟用没有。你要观察这个指示灯的变化情况,然后根据下来来说到达了那个状态。
LED灯 | 灯的颜色 | 灯的状态 | 说明 |
SP 电源 | Blue | On | 加电了 |
off | 没有上电 | ||
SP 笼子 | Amber | On | 有故障,这个故障可以来自整个chassis(电源,环境,风扇,io module LCC卡,sp,CMI,SFP PROM 等) 有时候让现场工程师看sp的状态,往往给的是这个灯的情况,主要搞清楚。 |
off | 运行正常 | ||
SP Fault LED (正常启动) | Amber | On(持续) | SP故障 |
四秒闪烁一次 | BIOS在执行 | ||
每秒闪烁一次 | POST在执行 | ||
一秒闪烁四次 | Post开始启动OS | ||
Blue | 每四秒闪烁一次 | OS开始boot | |
每2秒闪烁一次 | SEP驱动开始启动 | ||
每秒四次闪烁 | SEP 驱动启动完成 | ||
off | 操作系统启动完成或者是没有起来 | ||
SP Fault LED (degrade启动) | Amber | 四秒闪烁一次 | BIOS在执行 |
每秒闪烁一次 | POST在执行 | ||
一秒闪烁四次 | Post开始启动OS | ||
Blue | 每四秒闪烁一次 | OS开始boot | |
on持续长blue | 进入degrade 模式 | ||
SP Fault LED (有故障启动) | Amber | on | 有故障发生 |
每2秒闪烁一次 | NMI reset button pushed; blinking will continue until SP reboots and enters power on sequence. | ||
Blinks at 1, 3, 3, and 1 times a second | 有内存故障 | ||
Blue | on | 故障发生 | |
SP unsafe to remove 小白手 | White | on | The SP peer has a panic or rebooted with the cache performance mode enabled. The SP is holding valid cache in memory. The SP is currently flashing the BIOS/Post firmware or updating the resume PROMs. The SP is currently dumping the cache data to the vault. |
off | The SP can be safely removed for service. |
2. 对端控制器来监控过程
如果已经知道了控制器启动到了那个状态,或者根据指示灯大概判断问题在那个阶段,但具体还不知道是什么问题,就可以通过Remoteanywhere登录到正常的对端控制器,然后用工具speclcli来监控启动过程,这个对于故障发生在操作系统级别是比较有用的,可以看到具体那个driver开始重启。但对于判断物理硬件不是很好使,基本上它会告诉你POST以后出了问题,但具体是什么出了问题,就没有详细说明了。
remoteanywhere是对软件问题进行分析的必备工具,也是很复杂的,对VNX的软件体系架构不理解,这个工具基本没有帮助。因为查询出来的结果你是看不懂的。
3. 串口线
这个对于诊断物理故障是最有效的手段,插上串口线,一定要重启控制器,有些人说插上插口线以后,没有任何输出。对于VNX来说,没有任何输出是正常的。控制器启动以后,就没有任何输出了,只有启动过程中才有输出。
所以插上串口线以后,一定要重启控制器来收集这个boot log,从这个日志可以判断出是否是前面的几个系统盘出了问题,还是那个部分的硬件出了问题,都会有清晰的日志描述。
下面是一段Base module报错的格式,如果是其他IO module报错也会有类似的提示,或者DIMM内存报错等,都有类似的说明,非常清楚的可以看到是什么物理故障出现问题。
With the DAE added, when booting up, we have the following errors logging during the boot up.
.... Storage System Failure - Contact your Service Representative ...
ErrorCode: 0x00000907
ErrorDesc:
FRU: Base Module
Device: Base Module Card
Description: BMC indicated I/O module power disabled Error!
Rev: 40.41
Determine Module*
P/N: 303-224-000C-03
S/N: CFxxxxxxxxxxxx
EndError:
ErrorTime: 11/13/2013 23:16:24
WARNING: No SES driver GUID found: Expander
.... Storage System Failure - Contact your Service Representative ...
ErrorCode: 0x00000907
ErrorDesc:
FRU: Base Module
Device: Base Module Card
Description: BMC indicated I/O module power disabled Error! <<<--
Rev: 40.41
Determine Module*
P/N: 303-224-000C-03
S/N: CFxxxxxxxxxxxx
EndError:
ErrorTime: 11/13/2013 23:16:24
这里就不一一列举各种物理故障的输出,有了输出可以联系我们来一起看,wechat at StorageExpert。
最后纠正大家一个概念,EMC的VNX存储系统没有控制器同步的概念,控制器中没有OS操作系统,有的就是一些物理部件的固件,这个系统自己会根据当前的OS来进行升级或者降级,不需要用户干预和关心。操作系统都在前面四个系统盘上,控制器里面对于存储OS是啥也没有,以后就不要再说,控制器不同步这样太不专业的话了。