环境
VMware虚拟化平台
问题描述
收到业务侧报障,多台Linux虚拟机无法登录。经查询,报障的Linux操作系统均部署在VMware虚拟化平台,承载的宿主机已宕机且无法启动,虚拟机为断连状态。虚拟机移除清单,离线迁移,重新注册等操作均无法执行。
原因分析
-
管理员账号登录VMware虚拟化平台,找到故障主机,右侧边框中看到多台虚拟机处于已断开连接状态。确认故障的直接原因为宿主机故障导致虚拟机宕机。
-
正常先重启恢复故障主机,再重启虚拟机,虚拟机恢复后迁移至其他正常运行的物理主机。本例中,宿主机因主板故障无法启动,故常用的处置方法无效。
-
尝试了移除虚拟机,虚拟机离线迁移,虚拟机重新注册均无效。重新注册虚拟机报错。
解决方案
- 记录宿主机承载的所有虚拟机系统盘所在datastore,记录下图中数字3标识的存储名称。
- 选中故障主机,右键移除故障主机,虚拟机伴随着故障主机被移除,VCenter内虚拟机注册信息会被同步注销。
- 先找到相应的datastore,再找到虚拟机文件夹,最后找到.vmx结尾的虚拟机配置文件
- 找虚拟机配置文件,右键点击注册虚拟机,虚拟机名称保持不变,下框中选中数据中心
选择主机所在集群
选择虚拟机归属的子资源池,如有则选择,如无则默认,点击下一步,再点击完成。
- 虚拟机注册完成,重新启动虚拟机时,摘要中会有一个问题提示,需要选择已复制虚拟机后,虚拟机才能正常启动。
故障总结
本例中宿主机故障,未触发集群HA机制,导致虚拟机未自动重启,检查发现集群HA未开启。