原创作者:运维工程师 谢晋
VSAN硬盘出现reset&removed
- 客户环境有8台服务器dell R740和R740XD服务器组成了一套VSAN集群,但R740那四台的物理机老是出现硬盘故障需进行硬盘更换,后发现刚换完的硬盘没过几天又坏了,先开始怀疑是固件驱动问题,但将bios、raid卡驱动版本都升级到最新还是经常出现硬盘损坏情况,后在dell的带外口看到如下报错:
查看DELL带外口日志发现的报错
2. 可以看到硬盘一直有重置或移除的问题;查找资料发现h730 mini raid实际不支持直通模式,只能配置成non-raid模式效果类似于直通,但现客户这四台服务器经常性的出现硬盘报错让我觉得可能还是raid卡问题,另外四台新的R740XD服务器就没有类似报错,使用的是HBA330。如下图:
3. 后和客户沟通后,将硬盘故障的那台服务器进入维护模式,迁移全部数据;在将磁盘组移除,服务器关机之后将H730 MINI Raid卡更换成了HBA330直通卡,重新开机后之前故障的硬盘也恢复正常,运行一段时间后查看日志也没出现磁盘reset&remove的报错信息!