服务器数据恢复环境:
一台采用zfs文件系统的服务器,配备32块硬盘。
服务器故障:
服务器在运行过程中崩溃,经过初步检测没有发现服务器有物理故障,重启服务器后故障依旧,用户联系我们中心要求恢复服务器数据。
服务器数据恢复过程:
1、服务器数据恢复工程师对故障服务器中所有硬盘进行了扇区级镜像备份,后续的数据恢复操作都在镜像文件上进行,避免了可能对原始数据造成的二次破坏。
2、通过对镜像文件的分析,服务器数据恢复工程师获取关于故障服务器一些信息:服务器操作系统采用的zfs文件系统,总共组建了4组raidz。4组raidz中的2组raidz的热备盘已经启用,其中第一组启用了1块热备盘,第二组启用了3块热备盘。第一组启动了一块热备盘后又有一块正常硬盘掉线,第二组中有2块硬盘掉线。
两组raidz均在有硬盘离线的情况下启用了热备盘进行了坏盘的替换,热备盘上线后第这两组raidz又有其他的硬盘离线。zpool在每次读取数据时候都需要进行校验获取到正确数据,紧接着第二组raidz又有硬盘离线,服务器因此崩溃。
3、重组ZPOOL,追踪数据入口。zfs文件系统管理的存储池与常规存储不同,所有磁盘都由ZFS进行管理。常规RAID在存储数据时,只按照特定的规则组建池,不关心文件在子设备上的位置。而ZFS在数据存储时会为每次写入的数据分配适当大小的空间,并计算得到指向子设备的数据指针。ZFS这种特性使得RAIDZ缺盘时无法直接通过校验获取到数据,必须将整个ZPOOL作为一个整体进行解析。
4、手工截取事务块数据,北亚数据恢复工程师编写程序获取最大事务号入口:
获取文件系统入口
5、获取到文件系统入口后,北亚数据恢复工程师编写数据指针解析程序解析地址:
解析数据指针
6、获取到文件系统入口点在各磁盘的分布情况后,北亚数据恢复工程师手工截取并分析文件系统内部结构,发现入口分布所在的磁盘组无缺失盘,可直接提取信息。根据ZFS文件系统的数据存储结构顺利找到映射的LUN名称,最终找到其节点。
7、经过分析发现在此故障服务器采用的ZFS文件系统版本与开源版本有较大差别,北亚数据恢复工程师重新编写了数据提取程序。由于磁盘组内缺盘数目比较多,每个IO流都需要通过校验得到,提取进度极为缓慢。
8、与用户沟通得知ZVOL卷映射到XenServer作为存储设备,用户所需的文件在其中一个大小约为2T的vhd内。提取ZVOL卷头部信息,按照XenStore卷存储结构进行分析后发现这个2T的vhd在整个卷的尾部,通过计算找到这个2T的vhd的起始位置,然后从此位置开始提取数据。
9、Vhd提取完毕后对其内部的压缩包、图片、视频等文件进行验证,均可正常打开。让用户亲自验证数据,结果发现恢复出来的文件数量与系统自动记录的文件数量几乎相同,丢失的极小数量的文件可能是因为是最新生成还未刷新到磁盘。文件全部可正常打开,本次数据恢复完成。