近期销售了一些DELL SC4020/SCv2000的BBU(PN:0XJW8Y 或者 0C27CW)电池,有一些共性的问题,这里汇总下,供朋友们参考。还有没有覆盖到的问题,可以加VX: StorageExpert继续讨论。
1. 两个PN是否通用?PN:0XJW8Y 或者 0C27CW
这个回答是YES,两个完全一样。DELL SC4020和SCv2000系列使用一模一样的电池BBU。
2. 高速缓存卡是个什么东西?
从GUI图形界面上可以看到告诉缓存卡故障点亮红圈,所以客户经常就认为高速缓存卡故障了。如下图所示:
这里的高速缓存卡不是一个专门的物理设备,所以看到这里点亮红圈,不是意味着有个叫做高速缓存卡的物理部件故障了。这个高速缓存卡,是存储的read和write cache,是从内存中分配出来了一部分空间,使用BBU电池来做保护。这个只要熟悉存储的朋友们都应该知道,应该所有的存储系统都是这个工作原来,写入的数据并不是直接到磁盘,而是到一个高速缓存中,这个交易就完成了,系统按照一定的算法将高速缓存中的数据批量写入到磁盘中,提高存储的性能。而这个高速缓存中的数据是靠电池BBU来保护的,如果突然掉电,只要这个BBU电池工作正常,就能保证高速缓存中的数据正常写入到磁盘中,避免数据丢失。
总结来说,就是这个故障并不是说有个物理部件坏了。而是写缓存有问题了。
3. write cache operation fault 是什么意思?
客户更换了BBU电池,高速缓存卡的红圈消失了,但是在警报部分依然显示“write cache operation fault“是什么问题。
出现这样的问题,我们的客户朋友们,第一想到的就是电池BBU是有问题的,要更换备件。其实,导致write cache不能enable的原因有很多,BBU电池是其中一个比较常见的原因,但不是唯一原因,其实还有很多因素可以导致write cache不能enable,比如 cache dirty,比如firmware的bug等。给客户做多的解释,客户还认为我们不承认是备件问题,服务不好。那就再补发一个电池吧,其实往往全新电池去了,结果还是一样。
那么问题来了,遇到这个情况如何确定到底是什么导致的write cache fault呢?这个troubleshooting的过程还是有点复杂的,需要通过串口或者ssh到CLI命令行来处理,也不是某一个万能命令来解决的,是有一个troubleshooting的分析过程的。如果需要,可以通过vx (StorageExpert)找到我们来做进一步的故障分析。找到真正的故障原因,才有对应的解决方案。
4. write cache operation fault的故障对业务有什么影响?
首先,不会对客户业务造成中断的影响,唯一的影响就是客户的性能会收到影响,因为现在没有了write cache,所以的IO都是直接到磁盘的,磁盘的IO相比内存的IO肯定是慢好多个数量级的。