服务器数据恢复环境:
EMC存储,多块stat硬盘组建raid5磁盘阵列,两块热备盘,上层采用zfs文件系统。
服务器故障&检测&分析:
EMC存储中的raid5磁盘阵列有2块硬盘出现故障,但是只有一块热备盘被激活,raid5磁盘阵列崩溃,存储不可用。
服务器数据恢复工程师前往现场对故障存储设备进行检测。经过简单排查后确认raid5阵列瘫痪,上层lun无法使用,2块热备盘只有一块启动。
硬件工程师对掉线硬盘进行物理故障检测,均未检测到坏道,磁头也不存在物理故障。在进行数据恢复之前不需要进行物理修复。
服务器数据恢复过程:
1、在恢复数据之前将故障存储设备上的所有数据以只读方式镜像备份。
2、服务器数据恢复工程师基于镜像备份文件分析故障raid5中的每块硬盘底层数据,发现两块热备盘内没有任何数据,也就是说被激活的那块热备盘也没有同步到任何数据,故障raid5磁盘阵列中的两块热备盘在磁盘离线后没有起到任何作用。想要恢复数据需要通过分析获取到该raid5磁盘阵列的相关信息来重组raid5。
3、服务器数据恢复工程师使用北亚企安自主研发的服务器数据恢复工具解析出该组raid5磁盘阵列的基础信息,根据这些信息虚拟重组raid5磁盘阵列。
*将有多块硬盘掉线的磁盘阵列中最早掉线的那块硬盘从阵列中剔除,比对每块硬盘在同一个条带上的数据是否一致,将同一个条带上数据明显不同的硬盘剔除后进行条带校验,直至找到数据恢复的最佳状态为止。
4、重组raid5阵列后,服务器数据恢复工程师分析lun信息,然后使用自主开发的程序解析和导出lun数据的map。
5、使用北亚企安自主开发的程序解析和恢复上层的文件系统。该故障存储设备上层采用的是zfs文件系统,服务器数据恢复工程师解析文件系统时发现部分文件系统元文件报错,数据恢复工程师对自主开发的程序进行debug调试,让程序适应本案例数据恢复的需求。
6、经过调试发现,导致zfs文件系统解析报错的原因是由于存储设备的突然瘫痪导致zfs文件系统中某些元文件被破坏,导致无法正常解析。服务器数据恢复工程师对损坏的元文件进行手工修复,保障zfs文件系统可以正常解析。
7、zfs文件系统解析完成后,服务器数据恢复工程师将故障raid5阵列内的数据完整导出,由用户方工程师搭建数据验证环境,对恢复出来的数据进行验证。经过反复验证,用户原服务器内的所有数据均完全恢复。