服务器数据恢复环境:
IBM P740小型机+AIX操作系统+Sybase数据库+V7000存储。V7000存储配置了12块SAS机械硬盘(其中一块为热备盘)组建一组raid5磁盘阵列。存储设备一共创建了2组Mdisk,加到一个pool中。
服务器故障:
IBM V7000存储中的磁盘发生故障,工作人员更换磁盘后并进行数据同步,同步没有完成时候存储中的另块磁盘出现故障,导致逻辑盘无法挂接在小型机上,业务中断。通过存储设备的管理界面看到有2块磁盘显示故障脱机,其中10号位的故障盘为热备盘,3号位的故障硬盘情况如下图:
主要数据pool现在无法加载,共三个通用卷均无法挂载,如下图:
服务器数据恢复过程:
将故障存储中所有磁盘编号取出,将没有问题的10块磁盘以只读方式做全盘镜像,发生故障的2块磁盘使用专业工具处理后做镜像。后续所有的数据分析和数据恢复操作都基于镜像盘进行, 避免对原始磁盘数据造成影响。
方案1、对存储进行强制上线操作。
a、分析故障存储中故障硬盘的离线顺序。
raid5最大允许一块成员盘离线,该存储设备已经失效,各组Mdisk中只有一块硬盘离线。提取故障存储的日志,通过分析日志可以得到各故障硬盘的离线顺序。
b、修复后离线的故障硬盘。
c、将修复的硬盘插回存储中进行强制上线操作。
方案2、解析存储结构。
a、根据用户方给出的配置信息将硬盘按照Mdisk组分类。
b、通过分析每一组Mdisk中的所有硬盘获取到raid相关信息。
c、虚拟重组Mdisk。
d、通过分析重组出来的Mdisk获取到pool的相关信息。
e、解析pool在Mdisk上的分布情况,分析pool中的条带大小。
f、解析LUN位图,分析各LUN在pool中的分布情况。
g、北亚企安数据恢复工程师编写程序提取LUN。
服务器数据验证:
随机抽样检测生成出的数据,没有发现问题。在用户方准备好的存储设备上创建与原环境一样大小数量的LUN,将提取出来的数据LUN的镜像文件复制到存储上创建的LUN中。数据移交后,用户方工程师重新配置存储环境,经过检测一切正常。本次数据恢复工作完成。