这里写目录标题
- 一、故障排错的基本原则
- 二、硬件维护注意事项
- 三、关于最小化和还原出厂配置
- 四、常见故障处理及调试
- 五、硬盘相关故障
- 六、硬盘相关故障:硬盘检测问题
- 七、硬盘相关故障:自检硬盘报错
- 八、硬盘相关故障:硬盘亮红灯
- 九、硬盘相关故障:硬盘掉线
- 十、开机无显示的维护思路
- 十一、主机不加电维护思路
- 十二、意外重启和异常死机
- 十三、系统相关故障
- 十四、网络相关
- 十五、网络相关故障
一、故障排错的基本原则
1、尽量恢复系统缺省配置
a:硬件配置:去除第三方备件和非标准备件
b:资源配置:清除BIOS,恢复资源初始配置
2、从基本到复杂
a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常
后再接入网络运行,观察故障现象变化并处理。
b:硬件上从最小配置到现实配置:从可运行的最小硬件配置到现实配置为止。
3.交换对比
a:在最大可能相同的条件下,互相交换对问题效果明显的硬件部件;
b:交换整机,更换整机的环境;
二、硬件维护注意事项
系统电源开关:
系统前面板上的直流电源开关并不能关闭系统电源的交流输入,系统中尚有8mA的伺服电流,在设置之前,必须拨下系统交流电缆达到断电目的。
系统外接设备:
必须拨下系统外接的网线和光纤线缆等外接设备,否则可能会对人员或设备造成意外伤害。
静电释放保护措施:
静电释放会对主板、硬盘、板卡和系统的其它部件造成损害,在要对系统硬件进行设置时,最好在防静电环境下进行,在外可用静电手环,一端接地
板卡持拿方式:
因板卡上芯片对静电特别敏感,持拿板卡须小心,只能接触主板的边沿。当板卡暂时不用时,必须放回专用静电袋,芯片朝上放接在接地平台上
机箱盖:
为了系统正常散热,在系统上电前一定要安装机箱盖,否则会对系统部件造在损害,机架式服器和刀片式服务器更应该特别注意
三、关于最小化和还原出厂配置
- 遇到复杂问题时,需要进行机器的最小化操作来进行问题定位,最小化指单CPU、单内存或双内存(根据主板要求决定)、主板、电源接显示器开机测试,其它的板卡、跳线和外接设备等都去掉。
- 还原到出厂配置要求保证原厂的部件,比如还原BIOS。
四、常见故障处理及调试
- 硬盘相关故障
- 开机无显示
- 机器不加电
- 意外重启和异常死机
- 系统相故障
五、硬盘相关故障
- 硬盘无法识别
1.检测不到硬盘
2.可检测到硬盘数量不正确
- 开机自检硬盘报错
检测到硬盘时报错:smat error或DISK I/O error
- 硬盘亮红灯
- 阵列中硬盘频繁掉线
六、硬盘相关故障:硬盘检测问题
硬盘无法识别问题可以从以下以几方面考虚:
1.重新插拨硬盘电源线和数据电缆,注意是否有接触不良问题
2.更换硬盘至原先可正常检测到的槽位,如果仍检测不到则大概率是硬盘损坏故障
3.可检测到的硬盘数量不正确时的情况要注意先确定BIOS中是否设置了正确的参数,然后再排除上述1,2问题
4.硬盘背板故障
5.磁盘控制器或RAID卡可能存在的故障
七、硬盘相关故障:自检硬盘报错
检测到硬盘时报错:smart error,Disk I/O error或预期错误。
1.使用现有的磁盘控制器校验磁盘
2.使用第三方软件初始化磁盘或检测磁盘是否有坏道等情况
3.出现此类报错时,如果检测磁盘无问题,则考虚是否与背板,RAID卡,主板有关系,虽机率小,但需要考虑进去
八、硬盘相关故障:硬盘亮红灯
在支持磁盘热插拨服务器中,硬盘背板带有故障检测功能,如硬盘亮红灯,一般意味着硬盘掉线、背板检测到硬盘存在故障隐患,此时可以从RAID卡配置界面中查看硬盘状态,如果处于非掉线状态,则需要安装对应的管理软件,从管理软件中查看是否有磁盘错误,
需要强调的是硬盘亮红灯并不一定意味着硬盘掉线
九、硬盘相关故障:硬盘掉线
对于硬盘频繁掉线的故障,首先校验磁盘是否有坏道,如果确定有坏道,建议立即更换而不是通过其它修正的方法处理。
经过校验确认硬盘没有坏道,但此硬盘频繁掉线,同样需要优先考虚更换硬盘,然后依次考虚背板、主板或RAID卡,数据线等故障。
十、开机无显示的维护思路
- Clear CMOS
- 检查供电环境
- 检查电源源指示灯,如果亮,是否正常
- 按下电源开关时,键盘指示灯是否亮,风扇是否全部转动
- 是否更换过显示器,可以更换测试
- 去除新增加的内存条
- 去除新增加的CPU,或CPU互换位置测试
- 去除新增加的第三方I/O卡,如网卡,RAID卡,HUB卡
- 检查内存和CPU插的是否牢靠
- 主板是否有显示屏蔽跳线
- 更换主要备件,如主板,内存和CPU
十一、主机不加电维护思路
- 确定外插电源线是否正常,更换电源线测试
- Clear CMOS、最小化,拨插相关部件
- 是否有配置IPMI,可通过BMC日志查看是否有异常
- 在确定外部电源没有问题的情况下,将电源单独取,插上电源线后短接电源24针插座的绿、黑接口,看电源风扇或机箱风扇是否转动来确认电源是否有故障。
- 更换主板测试。
十二、意外重启和异常死机
- 查看BMC日志,BIOS日志及系统相关日志来判断问题
- 如果是WINDOWS蓝屏重启,可查看dump日志进行分析
- 工控机可以通过查看系统日志判断
- 内存和主板是容易导制意外重启和异常死机的主要原因,可以对内存进行校验,或对内存进行最小化测试,排除内存原因还有异常,考虚更换主板处理
十三、系统相关故障
系统不能正常启动
1.可能是系统本身故障,重装系统测试
2.查看系统相关日志和启动信息,测试相关部件
分区不能挂载
1.挂载设备是否正确连接?是否工作正常?
2.系统相关参数是否设置正确?
3.硬盘为只读时需要进行单独格式化后重新挂载
系统安装问题
1.驱动制作不正常或驱动错误导制安装系统时蓝屏或找不到硬盘
2.系统版本是否太低,相关机型是否支持
3.安装系统用的U盘是否有问题,或网络安装时参数是否设置正确
十四、网络相关
光纤常见接口类型:
光纤连接器按连接头的结构形式可分为:
FC、ST、LC、SC、D4、DIN、MU、MT-R
等类型,常用的为FC,ST,LC和SC
。
机柜跳线常用接口:
光纤模块:
宽带光猫,收发器:
(1)FC接口:全名叫Ferrule Connector,套圈连接器,最早应用于存储局域网络。外壳材质为金属,接口处有螺纹,和光模块连接时可以固定的很好。
(2)ST接口:(Stab & Twisst)材质为金属,接口处为卡扣式,常用于光纤配线架
。
(3)LC接口:(Lucent Connector)材质为塑料,用于连接SFP光模块,接口可以卡在光模块上。
(4)SC接口:(Square Connector)方形连接器。材质为塑料,推拉式连接,接口可以卡在光模块上,常用于交换机。“SC”接头是标准方型接头,采用工程塑料,具有耐高温,不容易氧化优点。传输设备侧光接口一般用SC接头。家用宽带 光猫 就是SC 接口。
十五、网络相关故障
- 1、网络连接状态
- 2、网络管理配置工具
- 3、判断通或不通