如何监控EMC VNX控制器的启动过程

news2024/11/26 5:43:50

这里我们要讨论的内容基本上适用于所有的EMC VNX中端存储系统,包含老的Clariion CX3,CX4,VNX1和VNX2,其实VNXe和Unity很多内容也是一样的。当然由于VNXe和Unity 操作系统的大的变化,差异也是比较大的。

导致EMC Clarrion CX和VNX存储控制器故障的原因有很多,常见的有:

1. 控制器物理故障

2. 控制器的IO模块故障

3. 系统盘Vault 软件或者硬件故障

4. 控制器中的内存故障

5. 存储操作系统的软件bug

上述所有原因到可以导致控制器挂掉,写这篇文章的目的就是想给二把刀们科普下,控制器down offline不是所有的都能通过更换控制器来解决问题。

但如何判断是控制器的物理故障还是其他部件的故障,或者是软件导致的故障,这个属于比较专业的内容,靠一篇小博文是搞不定的,具体可以通过wechat: StorageExpert和我们沟通来进行专业判断。

本文会给出一些基本的现场工程师可以操作的方式来做一些简单判断。

1. 看图识字

这个是我们最喜欢的方式,但这个也是有专业性的,当然学会了,可以有个基本判断。不管是CX3,CX4还是VNX1和2,控制器的状态灯都是类似的,虽然不同的控制器的物理外观不同,但都可以找到下面的几个灯,我们用CX或者VNX5700/7500的图片为例进行讲解,其他控制器也有类似的三个状态灯。如下图所示:

控制器上有三个LED灯,

1) 电源指示灯,很多人把这个和控制器的故障LED灯搞混肴。电源指示灯很简单,加电就常亮,绿色。没有点了,就灭了。

2) 控制器的故障SP指示灯,这个灯很重要,判断一个控制器的大概问题是通过这个灯来做的。

3) 白色小手灯,这个灯是一个警示灯,如果这个灯点亮,要么说明控制器正在更新固件或者是只有这个控制器在运行,另外一个控制器已经挂了。就是千万不要动的意思。

下面重点介绍下SP的故障指示灯的各种状态的含义,注意这个指示灯不是一成不变的的,始终是个变化的过程,有时候让现场的人看看这个指示灯的情况,就马上给拍个3秒钟的视频,这个鸟用没有。你要观察这个指示灯的变化情况,然后根据下来来说到达了那个状态。

LED灯

灯的颜色

灯的状态

说明

SP 电源

Blue

On

加电了

off

没有上电

SP 笼子

Amber

On

有故障,这个故障可以来自整个chassis(电源,环境,风扇,io module LCC卡,sp,CMI,SFP PROM 等)

有时候让现场工程师看sp的状态,往往给的是这个灯的情况,主要搞清楚。

off

运行正常

SP Fault LED

(正常启动)

Amber

On(持续)

SP故障

四秒闪烁一次

BIOS在执行

每秒闪烁一次

POST在执行

一秒闪烁四次

Post开始启动OS

Blue

每四秒闪烁一次

OS开始boot

每2秒闪烁一次

SEP驱动开始启动

每秒四次闪烁

SEP 驱动启动完成

off

操作系统启动完成或者是没有起来

SP Fault LED

degrade启动)

Amber

四秒闪烁一次

BIOS在执行

每秒闪烁一次

POST在执行

一秒闪烁四次

Post开始启动OS

Blue

每四秒闪烁一次

OS开始boot

on持续长blue

进入degrade 模式

SP Fault LED

(有故障启动)

Amber

on

有故障发生

每2秒闪烁一次

NMI reset button pushed; blinking will continue until SP reboots and enters power on sequence.

Blinks at 1, 3, 3,

and 1 times a

second

有内存故障

Blue

on

故障发生

SP unsafe to remove 小白手

White

on

 The SP peer has a panic or rebooted with the cache

performance mode enabled. The SP is holding valid cache in memory.

The SP is currently flashing the BIOS/Post firmware or updating the resume PROMs.

The SP is currently dumping the cache data to the vault.

off

The SP can be safely removed for service.

2. 对端控制器来监控过程

如果已经知道了控制器启动到了那个状态,或者根据指示灯大概判断问题在那个阶段,但具体还不知道是什么问题,就可以通过Remoteanywhere登录到正常的对端控制器,然后用工具speclcli来监控启动过程,这个对于故障发生在操作系统级别是比较有用的,可以看到具体那个driver开始重启。但对于判断物理硬件不是很好使,基本上它会告诉你POST以后出了问题,但具体是什么出了问题,就没有详细说明了。

remoteanywhere是对软件问题进行分析的必备工具,也是很复杂的,对VNX的软件体系架构不理解,这个工具基本没有帮助。因为查询出来的结果你是看不懂的。

3. 串口线

这个对于诊断物理故障是最有效的手段,插上串口线,一定要重启控制器,有些人说插上插口线以后,没有任何输出。对于VNX来说,没有任何输出是正常的。控制器启动以后,就没有任何输出了,只有启动过程中才有输出。

所以插上串口线以后,一定要重启控制器来收集这个boot log,从这个日志可以判断出是否是前面的几个系统盘出了问题,还是那个部分的硬件出了问题,都会有清晰的日志描述。

下面是一段Base module报错的格式,如果是其他IO module报错也会有类似的提示,或者DIMM内存报错等,都有类似的说明,非常清楚的可以看到是什么物理故障出现问题。

With the DAE added, when booting up, we have the following errors logging during the boot up.

.... Storage System Failure - Contact your Service Representative ...

ErrorCode: 0x00000907

ErrorDesc:

FRU: Base Module

Device: Base Module Card

Description: BMC indicated I/O module power disabled Error!

Rev: 40.41

Determine Module*

P/N: 303-224-000C-03

S/N: CFxxxxxxxxxxxx

EndError:

ErrorTime: 11/13/2013 23:16:24

WARNING: No SES driver GUID found: Expander

.... Storage System Failure - Contact your Service Representative ...

ErrorCode: 0x00000907

ErrorDesc:

FRU: Base Module

Device: Base Module Card

Description: BMC indicated I/O module power disabled Error!  <<<--

Rev: 40.41

Determine Module*

P/N: 303-224-000C-03

S/N: CFxxxxxxxxxxxx

EndError:

ErrorTime: 11/13/2013 23:16:24

这里就不一一列举各种物理故障的输出,有了输出可以联系我们来一起看,wechat at StorageExpert。

最后纠正大家一个概念,EMC的VNX存储系统没有控制器同步的概念,控制器中没有OS操作系统,有的就是一些物理部件的固件,这个系统自己会根据当前的OS来进行升级或者降级,不需要用户干预和关心。操作系统都在前面四个系统盘上,控制器里面对于存储OS是啥也没有,以后就不要再说,控制器不同步这样太不专业的话了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/629823.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

什么是M-LAG?为什么需要M-LAG?

M-LAG&#xff08;Multichassis Link Aggregation Group&#xff09;提供一种跨设备链路聚合的技术。M-LAG通过将两台接入交换机以同一个状态和用户侧设备或服务器进行跨设备的链路聚合&#xff0c;把链路的可靠性从单板级提升到设备级。同时&#xff0c;由于M-LAG设备可以单独…

如何设计一个完整的交互流程,提升产品用户体验

交互流程设计是一项关乎用户体验的重要工作。通过设计和规划用户与产品或服务的交互方式和流程&#xff0c;我们可以提高用户的满意度和使用效果。在本文中&#xff0c;我们将深入探讨交互流程设计的关键要素以及其对用户体验的重要性。 交互流程设计本质是通过设计和规划用户与…

【Python】Python进阶系列教程-- Python3 SMTP发送邮件(六)

文章目录 前言实例使用Python发送HTML格式的邮件Python 发送带附件的邮件在 HTML 文本中添加图片使用第三方 SMTP 服务发送 前言 往期回顾&#xff1a; Python进阶系列教程-- Python3 正则表达式&#xff08;一&#xff09;Python进阶系列教程-- Python3 CGI编程&#xff08;…

chatgpt赋能python:Python怎么倒序输出字符串

Python怎么倒序输出字符串 Python是一种高级编程语言&#xff0c;它可以让开发人员快速编写代码。在Python中&#xff0c;字符串是一种非常常见的数据类型&#xff0c;其支持各种字符串操作。在这篇文章中&#xff0c;我们将讨论如何在Python中倒序输出字符串。 倒序输出字符…

openGauss5.0企业版使用指南之企业版安装

文章目录 0. 前言1. 安装1.1 获取安装包1.1.1 操作步骤1.1.2 准备软硬件安装环境1.1.3 软硬件环境要求1.1.4 修改操作系统配置1.1.5 **关闭操作系统防火墙**1.1.6 **设置字符集参数**1.1.7 **设置时区和时间**1.1.8 **&#xff08;可选&#xff09;关闭swap交换内存**1.1.9 **关…

MOVEit Transfer 漏洞似乎被广泛利用

Progress Software 已在其文件传输软件 MOVEit Transfer 中发现一个漏洞&#xff0c;该漏洞可能导致权限提升和潜在的未经授权访问环境&#xff0c;该公司在一份安全公告中表示。 在 MOVEit Transfer Web 应用程序中发现了一个 SQL 注入漏洞&#xff0c;可能允许未经身份验证…

【ARMv8 SIMD和浮点指令编程】NEON 逻辑指令——与或非有多少?

NEON 逻辑指令主要包括与、或、异或、位清除、或非、为 False 时按位插入、为 True 时按位插入和按位选择指令,下面我们来详细学习这些指令。 一、逻辑指令 1.1 AND 按位与(向量),该指令将两个源 SIMD&FP 寄存器按位与,并将结果写入目标 SIMD&FP 寄存器。 AND …

基于JDBC的账务管理系统

一、项目介绍 1.1 项目目标 本项目为JAVAEE基础和数据库的综合项目&#xff0c;包含了若干个知识点&#xff0c;达到将从基础班到现在所学的知识综合使用&#xff0c;提高了我们对项目的理解与知识点的运用。熟练View层、Service层、Dao层之间的方法相互调用操作熟练使用工具类…

chatgpt赋能python:Python怎么入侵别人微信:一种黑客行为的技术探讨

Python怎么入侵别人微信&#xff1a;一种黑客行为的技术探讨 随着社交媒体微信的普及和使用程度的不断提高&#xff0c;对微信的攻击和入侵成为了目前互联网安全领域的热点问题之一。其中&#xff0c;Python编程语言的广泛应用和强大的功能使得其逐渐成为了微信黑客行为的利器…

robots.txt的作用是什么,看完了我默默加在了自己网站上

文章目录 背景robots.txt的主要作用使用示范User-agentDisallowAllowSitemap 总结 背景 最近在研究网站SEO相关的东西&#xff0c;第一次接触到robots.txt&#xff0c;才发现实际上很多网站都用到了它&#xff0c;尤其是对搜索引擎依赖特别高的C端系统或者网站&#xff0c;是一…

论文解读:SuperGlue: Learning Feature Matching with Graph Neural Networks

SuperGlue: Learning Feature Matching with Graph Neural Networks 发表时间&#xff1a;2020 论文地址&#xff1a;https://arxiv.org/abs/1911.11763 项目地址&#xff1a;http://github.com/magicleap/SuperGluePretrainedNetwork。 本文介绍了一种通过联合寻找对应和拒绝…

Git介绍及安装

⭐作者介绍&#xff1a;大二本科网络工程专业在读&#xff0c;持续学习Java&#xff0c;努力输出优质文章 ⭐作者主页&#xff1a;逐梦苍穹 ⭐所属专栏&#xff1a;Git ⭐如果觉得文章写的不错&#xff0c;欢迎点个关注一键三连&#x1f609;有写的不好的地方也欢迎指正&#x…

通往AGI之路;首个自研全开源自然语言低代码 GPT 应用快速开发框架PromptAppGPT

&#x1f989; AI新闻 &#x1f680; 商汤科技将发布元萝卜AI下棋机器人新品(围棋版) 摘要&#xff1a;商汤科技将于6月14日召开元萝卜AI下棋机器人新品发布会&#xff0c;预计会发布下棋机器人(围棋版)。这款AI下棋机器人融合了传统围棋文化和人工智能技术&#xff0c;拥有落…

论文解读:Segment Anything

Segment Anything 发表时间&#xff1a;2023 论文地址&#xff1a;https://arxiv.org/abs/2304.02643 项目地址&#xff1a;https://github.com/facebookresearch/segment-anything 介绍了Segment Anything&#xff08;SA&#xff09;项目&#xff1a;一个新的任务、模型集和…

ViT 论文逐段精读——B站up:跟李沐学AI讲解笔记

https://www.bilibili.com/video/BV15P4y137jb Vision Transformer 挑战了 CNN 在 CV 中绝对的统治地位。Vision Transformer 得出的结论是如果在足够多的数据上做预训练&#xff0c;在不依赖 CNN 的基础上&#xff0c;直接用自然语言上的 Transformer 也能 CV 问题解决得很好…

PotPlayer结合alist播放网盘视频

目录 1. PotPlayer的下载安装2. 新建专辑3. 测试播放视频总结 欢迎关注 『发现你走远了』 博客&#xff0c;持续更新中 欢迎关注 『发现你走远了』 博客&#xff0c;持续更新中 书接上文 AList挂载工具安装搭建使用教程&#xff0c;快速访问多个网盘的资源&#xff08;保姆级图…

12-git-pycharm配置.ignore文件

pycharm配置.ignore文件 前言安装插件使用添加其他忽略文件 前言 在开发中经常需要配置提交git的忽略文件&#xff0c;本篇来学习下使用pycharm自动生成.ignore文件 安装插件 Files->setting->Plugins&#xff0c;搜索ignore 使用 右键项目根目录&#xff0c;新建.…

AI大模型私有化部署流程

私有化部署AI大模型需要一定的GPU支持&#xff0c;适合有一定经济实力的公司&#xff0c;今天和大家分享一下如何进行私有化部署&#xff0c;这涉及很专业的知识&#xff0c;包括硬件和软件环境、模型部署、API集成、测试验证等&#xff0c;这里只是初步讨论一下&#xff0c;希…

chatgpt赋能python:Python分词:从原理到实践

Python分词&#xff1a;从原理到实践 分词是自然语言处理中的关键步骤之一&#xff0c;它是指将一句话或一段文本分成若干个词语&#xff08;token&#xff09;并进行标注。Python作为一种非常流行的编程语言&#xff0c;具备强大的文本处理能力&#xff0c;而分词也是它的强项…

chatgpt赋能python:Python函数调用函数

Python函数调用函数 Python中的函数是一组可重用的代码&#xff0c;用于执行特定的任务。当我们需要在一个程序中执行类似的操作多次时&#xff0c;就可以定义一个函数来完成该操作&#xff0c;这样可以减少重复代码&#xff0c;使程序更加易读、易维护。 在Python中&#xf…