了解NetApp FAS存储系统的控制器启动过程对于控制器故障的诊断分析非常重要,最近在给几个小朋友培训NetApp,顺便把这个启动过程总结了一下,分享给大家,遇到控制器故障,就可以照方抓药了,如果还是搞不懂,就add wechat at StorageExpert了,我们慢慢聊聊。
下面图是一个经典启动过程图,不是我画的,也忘记从哪里搞来的了,图片可能和实际有点差异,凑合着看了,大的方向是一样的。差异主要在于SP或者loader的test模式,对于SP进入test模式还是有点困难的,这里就不详解了。
当然,BIOS和ONTAP的版本不同也有少许差异,就不要和我扣这个细节了。
首先系统加电后开始自检,进入PROM代码运行阶段,简单理解就是BIOS动了,这个时候还没有启动Data ONTAP,也就是我们常说的系统offline或者宕机状态,系统出现Loader提示符的状态,不同的存储型号,这个提示符有些不同,有些是CFE,有些是OK,但比较新的存储系统应该都是Loader了。在loader环境系统,就可以启动Data ONTAP存储系统了。
如果是串口连接,在loader下也可以通过Ctrl+G的快捷键进入SP模式,很多的故障诊断就是在SP模式下做的。如果对服务器熟悉的话,可以把SP模式理解为DELL的iDRAC,HP的iLO类似这样的管理工具。我是墙裂推荐大家使用sp的,但实际发现很多很多客户的SP都没有配置。
在loader下就可以启动ONTAP操作系统了,主要有下面的四种启动选择,根据不同情况来进行选择。
boot_ontap
使用CF卡中的Data ONTAP系统开始启动,这是默认的启动方法,如果没有特殊设置或者中断系统,系统会自动使用该选项启动系统。
boot_primary
缺省情况下,Boot_primary和Boot_ontap使用的是同样的CF卡中的内核,和Boot_ontap不同的是该选项会覆盖Autoboot_FROM的环境变量。
boot_backup
从CF卡的备份Kernel中进行启动。这个Kernel保存的是任何一次Data ONTAP升级前的完好Kernel。目的是万一primary的Kernel发生损坏,还有一个好的Kernel版本可以启动系统。
netboot
从网络环境来启动Data ONTAO,可以使用HTTP或者TFTP服务器来作为启动目标。Netboot主要用来:
如果CF卡彻底坏了,可以有另外的启动途径;
从一个单一的服务器来升级很多设备的boot kernel。
要使用netboot,必须要在loader下配置控制器板载e0a或者e0b的IP地址,然后把image文件放到HTTP或者TFTP特殊的目录中。
boot_diags
启动到一个Data ONTAP的诊断Kernal,经常用来做底层的物理故障诊断。
在loader下可以升级BIOS,如果boot device有问题,可以处理boot device的问题。
在SP模式下,可以查看详细的SML日志,这些都是和硬件相关的,也可以查看系统的boot 日志,可以看到为什么系统没有启动成功,如果有系统panic导致的控制器宕机,也可以在这里看到一些端倪。
从ONTAP 8.2.2版本以后,对于boot_ontap引入了两个新的switch开关,用起来很方便,建议要记住。
boot_ontap menu //直接启动到boot 菜单,这里就不需要盯着看启动过程,然后按Ctrl+C了。
Boot_ontap maint //直接进入maintenance 模式
好了,如果有控制器宕机的问题,可以结合上面的描述进行一些故障诊断分析,如果还有问题,就联系我们吧。