服务器数据恢复环境:
一台EMC存储中数块磁盘组建了一组raid5磁盘阵列,阵列中有2块热备盘;上层采用ZFS文件系统,划分了一个lun,供sun小机使用。
服务器故障&检测:
存储在正常运行中突然崩溃无法使用,管理员检查后发现raid5阵列中有两块磁盘离线,阵列中共两块热备盘,其中的一块热备盘激活失败,raid5阵列瘫痪,存储不可用。
硬件工程师对raid5阵列中的两块离线的磁盘进行物理故障检测,发现这2块离线硬盘不存在物理故障和坏道。
服务器数据恢复过程:
1、将故障存储中所有磁盘编号取出以只读方式做全盘镜像。镜像完成后将所有磁盘按照编号还原到原存储设备中。后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。
2、镜像完成后将镜像数据的520字节扇区转换为512字节扇区,方便后续的数据恢复操作。
3、根据RAID5磁盘阵列的工作模式,LUN都是基于RAID的。恢复数据就需要先分析RAID的底层信息,根据这些信息重构原始RAID阵列。数据恢复工程师基于镜像对所有磁盘底层数据进行分析,发现阵列中2块磁盘离线,1块热备盘成功激活,另1块热备盘却没有成功激活,数据未同步。
继续分析数据在硬盘中分布的规律、RAID条带的大小、每块磁盘的顺序等RAID相关信息。
4、继续分析RAID信息,发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样,初步判断此硬盘最先掉线。数据恢复工程师使用北亚自研RAID校验程序对这个条带进行校验后,确定最先掉线的硬盘。
5、通过分析出来的RAID信息虚拟重构RAID。通过重构出来的RAID分析lun的分配情况和数据块&导出lun所有数据。
6、对导出的lun做ZFS文件系统解析,但解析时报错。数据恢复工程师手动检查文件,发现部分元文件损坏。
7、北亚企安数据恢复工程师将这些损坏的文件系统元文件进行修复。通过对损坏的元文件进行分析发现ZFS正在进行IO操作时存储瘫痪,部分文件系统元文件没有更新或者损坏。对这些损坏的元文件进行人工修复后,ZFS文件系统就能够正常解析。
8、对修复好的ZFS文件系统做解析,解析所有文件节点及目录结构&导出,本次数据恢复工作完成。