案例分享:NetApp SSD 硬盘重启后全部故障

news2024/11/26 16:40:22

近日连续处理了几个NetApp FAS存储系统SSD磁盘重启后,全部故障的案例。这里是case的总结和分享,以后有遇到的可以参考处理。

案例1:客户一套FAS8020,带一个DS2246盘柜,内置24个800G X447A的磁盘,机房掉电后,重启系统无法启动,串口登录,进入loader,发现如下报错:

所有磁盘均提示failed initialization due to error 5.

由于系统盘也在这些磁盘上,所以系统无法启动,系统不断的reboot。

案例2:某客户有一套FAS8040,其中一个扩展柜DS2246 有24个 X447A 800G的SSD磁盘,也是机房掉电,所有的控制器和shelf扩展柜都重启,柜子里面的24块盘全部显示故障,0容量。如下图所示:

出现多个硬盘故障,客户aggregate肯定是offline,业务全部中断,甚至数据也很可能要丢失。

原因:

导致出现所有SSD磁盘故障的原因是由于SSD磁盘微码的bug,下面是官方对该问题的说明:

NetApp的FAS存储系统(AFF/FAS)和E系列的PX02*系列SSD磁盘有一个已知的内部日志行为会导致磁盘故障。前提是满足下面的条件:

  1. 磁盘连续加电超过7万个小时;
  2. SSD磁盘做了下电和上电的动作。当下电以后,再次上电就会返回一个SCSI的报错4/4C/A8,这个check condition会导致SSD磁盘故障。

*PHM2* (AFF/FAS) and PX02* (E-Series) SSD drives have a known defect in the internal logging behavior that might cause a drive failure when the following conditions are met:

  1. The drive has been powered on for more than 70,000 hours (power-on hours value)
  2. The drive is power cycled (turned off, then on again) After the drive exceeds 70,000 power-on hours and the drive is powered off, when the drive is next powered on it might return a check condition 4/4C/A8. This check condition might cause the drive to fail.

下面的磁盘会受到这个bug的影响。

drives: Drive Identifier  Capacity Firmware ---------------- -------- --------

X438_PHM2400MCTO 400GB NA05 X439_PHM21T6MCTO 1.6TB NA05

X440_PHM2800MCTO 800GB NA05 X446_PHM2200MCTO 200GB NA05

X447_PHM2800MCTO 800GB NA05 X448_PHM2200MCTO 200GB NA05

X449_PHM2800MCTO 800GB NA05 X575_PHM2400MCTO 400GB NA05

X576_PHM21T6MCTO 1.6TB NA05 X577_PHM2800MCTO 900GB NA05

PX02SMU080 800GB MS03 PX02SMF080 800GB MS03 PX02SMF040

400GB MS03 PX02SMB160 1.6TB MS03

在下面这些Ontap 版本中有会有这种影响:

8.3RC2, 9.7P3, 9.3P18, 9.1P3, 9.8, 9.1P8, 8.2.5P2

NetApp官方的解决方案就是升级操作系统到下面的版本来规避问题的发生:

9.10.0, 9.10.0P1, 9.10.1, 9.10.1P1, 9.10.1P10, 9.10.1P11, 9.10.1P12,

9.10.1P2, 9.10.1P3, 9.10.1P4, 9.10.1P5, 9.10.1P6, 9.10.1P7, 9.10.1P8,

9.10.1P9, 9.10.1RC1, 9.10.1RC1P1, 9.10.1RC2, 9.11.0, 9.11.0P1,

9.11.0P2, 9.11.1, 9.11.1P1, 9.11.1P2, 9.11.1P3, 9.11.1P4, 9.11.1P5,

9.11.1P6, 9.11.1P7, 9.11.1P8, 9.11.1P9, 9.11.1RC1, 9.11.1RC1P1, 9.12.0,

9.12.0P1, 9.12.0P2, 9.12.1, 9.12.1P1, 9.12.1P2, 9.12.1P3, 9.12.1RC1,

9.12.1RC1P1, 9.13.0, 9.13.0P1, 9.13.0P2, 9.13.1RC1, 9.5P17, 9.5P18,

9.5P19, 9.6P15, 9.6P16, 9.6P17, 9.6P18, 9.7P13, 9.7P14, 9.7P15, 9.7P16,

9.7P17, 9.7P18, 9.7P19, 9.7P20, 9.7P21, 9.7P22, 9.8P10, 9.8P11, 9.8P12,

9.8P13, 9.8P14, 9.8P15, 9.8P16, 9.8P17, 9.8P18, 9.8P4, 9.8P5, 9.8P6,

9.8P7, 9.8P8, 9.8P9, 9.9.1, 9.9.1P1, 9.9.1P10, 9.9.1P11, 9.9.1P12,

9.9.1P13, 9.9.1P14, 9.9.1P15, 9.9.1P2, 9.9.1P3, 9.9.1P4, 9.9.1P5, 9.9.1P6,

9.9.1P7, 9.9.1P8, 9.9.1P9, 9.9.1RC1

但是问题来了,如果已经遇到这种问题了该怎么处理,官方的解决方案是:

临时解决方案没有,如果遇到了这个问题,请联系支持中心。

在处理类似的宕机和丢失数据的case中,我们积累了丰富的经验,可以add wechat at StorageExpert来探讨进一步的现场解决方案,数据恢复成功率100%。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/847865.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023网络安全常用工具汇总(附学习资料+工具安装包)

几十年来,攻击方、白帽和安全从业者的工具不断演进,成为网络安全长河中最具技术特色的灯塔,并在一定程度上左右着网络安全产业发展和演进的方向,成为不可或缺的关键要素之一。 话不多说,网络安全10款常用工具如下 1、…

SQL力扣练习(十)

目录 1.体育馆的人流量(501) 示例 1 解法一(row_number()) 解法二(自定义变量) 解法三 2.好友申请(602) 示例 解法一(union all) 解法二 3.销售员&…

hive修改表或者删除表时卡死问题的解决(2023-08-08)

背景:前阶段在做hive表的改表名时,总是超时,表是内部表,数据量特别大,无论你是修改表名还是删除表都是卡死的状态,怎么破? 终于:尝试出来一个新的方法 将内部表转化成外部表&#…

面试常问:tcp的三次握手和四次挥手你了解吗?

三次握手和四次挥手是各个公司常见的考点,一个简单的问题,却能看出面试者对网络协议的掌握程度,对问题分析与解决能力,以及数据流管理理解和异常情况应对能力。所以回答好一个tcp的三次握手和四次挥手的问题对于我们的面试成功与否…

【雕爷学编程】Arduino动手做(193)---移远 BC20 NB+GNSS模块13

37款传感器与模块的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止37种的。鉴于本人手头积累了一些传感器和执行器模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的&#x…

保障容器应用安全的6个建议

虽然容器技术出现已经超过了十年时间,但由于其应用的轻量性、快捷性和灵活性,使得容器应用的流行程度一直保持了快速的增长趋势,并逐渐成为云原生环境中部署业务应用和工作负载的不二选择。在容器应用快速普及的发展背景下,要确保…

塔里木水系分布图

声明:来源网络,仅供学习!

Netty自定义编码解码器

上次通信的时候用的是自带的编解码器&#xff0c;今天自己实现一下自定义的。 1、自定义一下协议 //协议类 Data public class Protocol<T> implements Serializable {private Long id System.currentTimeMillis();private short msgType;// 假设1为请求 2为响应privat…

小兔鲜项目 uniapp (1)

目录 项目架构 uni-app小兔鲜儿电商项目架构 小兔鲜儿电商课程安排 创建uni-app项目 1.通过HBuilderX创建 2.通过命令行创建 pages.json和tabBar案例 uni-app和原生小程序开发区别 用VS Code开发uni-app项目 拉取小兔鲜儿项目模板代码 基础架构–引入uni-ui组件库 操…

大模型:突破AI的边界

引言 人工智能&#xff08;AI&#xff09;在过去几年中取得了巨大的进展&#xff0c;其中大模型被认为是取得这些进展的关键因素之一。大模型具有更多的参数、更强的表达能力和更高的预测性能&#xff0c;对自然语言处理、计算机视觉和强化学习等任务产生了深远的影响。本文将探…

赛码网-Light 100%AC代码(C++)

———————————————————————————————————— ⏩ 大家好哇&#xff01;我是小光&#xff0c;嵌入式爱好者&#xff0c;一个想要成为系统架构师的大三学生。 ⏩最近在准备秋招&#xff0c;一直在练习编程。 ⏩本篇文章对赛码网的 Light 题目做一个…

pocky-request网络请求插件

插件下载地址&#xff1a;https://ext.dcloud.net.cn/plugin?id468 插件&#xff1a;https://www.yuque.com/pocky/aaeyux/irx7u0#Oosbz 使用教程&#xff1a; 下载插件main.js中配置&#xff1a; // 导入 import axiosRequest from ./js_sdk/pocky-request/pocky-request…

Vben框架使用小记

渲染表格可展开内容&#xff1a; <!-- 这里是一个具名插槽&#xff0c;渲染可展开的内容模板 --><template #expandedRowRender"{ record }">效果图&#xff1a;

企业举办活动邀请媒体的意义和重要性

传媒如春雨&#xff0c;润物细无声&#xff0c;大家好&#xff0c;我是51媒体网胡老师。 企业举办活动并邀请媒体的意义和重要性是多方面的&#xff0c;主要有以下一些&#xff1a; 1. 品牌曝光与宣传&#xff1a;邀请媒体参与企业活动可以提高企业的品牌曝光度。媒体报道能够…

PHP实现保质期计算器

1.php实现保质期计算&#xff0c; 保质期日期可选&#xff0c;天 、月、年 2. laravel示例 /*** 保质期计算器* return void*/public function expirationDateCal(){$produce_date $this->request(produce_date); // 生产日期$warranty_date $this->reques…

2023最新性能测试面试题(带答案)

一、性能测试开展过程&#xff1a; 答&#xff1a;第一步&#xff1a;找产品沟通哪些接口需要压测&#xff0c;需要达到什么样的预期值(TPS和响应时间) 第二步&#xff1a;编写测试计划&#xff0c;人员、时间周期、工具 第三步&#xff1a;环境搭建 第四步&#xff1a;造数…

现在pmp还值得去考试吗?

一&#xff0c;为什么要考PMP&#xff1f; 1. PMP认证在项目管理领域具有极高的认可度&#xff0c;是全球通用的认证&#xff0c;不仅局限于某一行业或地区。目前已有超过43万人参加了PMP考试。 2. PMP持证者的薪资和收入潜力都有明显优势。根据PMI发布的《薪酬力&#xff1a…

记录一次electron打包提示文件找不到的解决方法

没有配置files选项 files的作用是配置打包到应用程序的构建资源 就是说如果你想使用项目那个目录下的文件 就得通过files配置一下不然就会报错 json文件或者yml文件会报的错 格式是这样的 "files": ["dist-electron", "dist"],electron打包配…

JAVASE---方法的使用

方法概念及使用 什么是方法(method) 方法就是一个代码片段. 类似于 C 语言中的 "函数"。方法存在的意义(不要背, 重在体会): 1. 是能够模块化的组织代码(当代码规模比较复杂的时候)。 2. 做到代码被重复使用, 一份代码可以在多个位置使用。 3. 让代码更好理解更简单…

人民日报点赞!十大央媒争相报道,星恒守护民生安全出行二十年

围绕电动自行车锂电池的安全性话题&#xff0c;甚至说争议&#xff0c;在近期有了权威定调。 就在7月底&#xff0c;“民生出行&#xff0c;安全为本——电动自行车锂电安全调研座谈会”在北京人民日报社举行&#xff0c;国家监管部门、行业协会、检验院所的权威领导专家&#…