服务器数据恢复环境:
5台服务器节点,每台服务器节点配置一组RAID5,每组6块硬盘,其中1块设置为热备盘。
系统环境为Lustre分布式文件系统,5台服务器共同存储全部的数据文件。
服务器故障&检测:
机房漏水导致服务器进水,服务器中的部分硬盘损坏。每组服务器有2块及以上的盘掉线。由于短时间同时掉线2块及以上硬盘导致RAID5崩溃,服务器,数据无法正常读取。
服务器数据恢复过程:
1、为避免对原盘数据造成二次破坏,使用工具对故障服务器中所有正常硬盘进行镜像备份。后续操作全部基于镜像完成。
2、通过更换磁头、修复固件等方式修复无法读取的故障硬盘,并镜像故障硬盘中的数据。
3、北亚数据恢复工程师通过分析磁盘中数据规律获取到RAID校验形式、条带大小、盘序等RAID相关信息,并根据这些RAID信息虚拟重组出所有RAID整列。
4、解析Lustre分布式文件系统。
Lustre分布式系统由元数据卷(MDS)和数据卷(OST)组成,重组RAID后就可以看到MDS分区和OST分区。Lustre文件系统中所有文件的文件名、文件路径等属性信息存放在MDS分区,而文件对应的数据内容全部存放在OST分区中。
MDS分区是一个EXT3文件系统,除了节点类型为文件的解析方式有所变化外,其余所有解析方式和Ext3一样。
从MDS中获取到整个Lustre中所有文件的目录结构,文件名称,文件编号,所属OST号等属性信息。
根据从MDS中获取到的目录结构,文件名称,文件编号,所属OST号等属性信息,北亚数据恢复工程师整理重构出文件的原始路径,并定位到索引的OST卷及相关数据区域,获取相关数据文件。
5、通过万兆网络将恢复出的所有数据拷贝到用户准备好的设备环境中。
服务器数据恢复结果:
用户亲自检查恢复出来的数据,确认数据文件基本全部恢复出来,随机抽取部分文件进行校验,文件正确无误,目录结构完好。本次数据恢复完成。