服务器数据恢复环境:
某公司信息管理平台,数台VMware ESX SERVER虚拟机共享一台IBM某型号存储。
服务器故障:
VC报告虚拟磁盘丢失,管理员ssh到ESX中执行fdisk -l命令查看磁盘,发现STORAGE已经没有分区表了。重启设备后,ESX SERVER无法连接到STORAGE。
和管理员沟通后得知,这个存储网络里曾经连接过一台windows server服务器。北亚企安数据恢复工程师推测那台windows server服务器对STORAGE的独享操作导致vmfs卷损坏。
对故障存储进行分析后发现STORAGE分区表清零,有55aa有效结束标志,有硬盘ID标志。在分析的过程中,北亚企安数据恢复工程师发现了一个NTFS卷,但是没有发现其中有写入数据,好像是刚刚被格式化。分析这个NTFS卷的BITMAP,这个卷的大小和STORAGE总大小差不多。分别在三个位置占用部分空间,但总占用空间不超过100M。
分析VMFS卷发现原磁盘有2组VMFS分区,第2组分区是第一组的extend。因NTFS分区并未写数据到第二个VMFS分区里(最后一个扇区的DBR备份没有覆盖有用数据),所以重点在于第一个VMFS分区。
分析第一组VMFS,发现卷头结构丢失,一级索引、二级索引均存在。NTFS覆盖的数据区正好是某组虚拟机的临时内存镜像,即使数据被破坏也没有严重影响。
服务器数据恢复过程:
1、将STORAGE以只读方式进行完整镜像备份,后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始数据造成二次破坏。
2、基于镜像文件对STORAGE进行分析后,连接两个VMFS分区,按照VMFS分区组织方式使用北亚企安自研工具提取所有VMDK及配置文件。
3、通过nfs将恢复数据迁移回ESX SERVER。
4、经过用户方工程师的检测,确认恢复数据完整有效。本次数据恢复工作完成。
服务器数据恢复总结:
本案例中的故障原因就是典型的光纤环境互斥不当。实际上,应该是这个NTFS卷在WINDOWS系统上做了重新分区并格式化为NTFS,然后对分区做了删除操作。因ESX VMFS的互斥不依赖于硬件,只依赖于操作系统驱动层,所以在其他服务器接入存储网络时一定要小心,确认存储分配权限没有问题。