高温预警
华东区即将迎来最强高温,根据历史经验,数据机房在夏季高温环境导致设备温度过高,宕机事件明显增加,为保障系统健康稳定运行,需要针对数据机房空调、设备的运行状态及环境进行检查,并同时期开展防尘网/过滤网的清洁工作。
高温防护重点检查事项
1、机房空调配置
参考建议:需N+1冗余配置,无冗余及冗余不足的区域需要重点关注。
2、空调运行状态
参考建议:送风温度在18-25℃,回风28-35℃;定期检查,设备无异常告警。
3、机柜进风口温度
参考建议:进风口温度18-27℃,设备防尘网需保持清洁无脏堵,保证散热通畅。
4、空调外机维护
参考建议:空调室外机易被柳絮尘灰堵塞,影响换热,需定期维护,可用水枪冲洗或者软毛刷清理。
5、设备运行温度
参考建议:建议低于45℃,设备无高温告警。
6、设备风扇运行情况
参考建议:清理设备、防尘网灰尘,确保设备散热不受阻碍。
7、UPS蓄电池
参考建议:可接入在线监测系统,实时在线监测蓄电池的温度情况,及时发现异常,第一时间处理。
高温危害案例
案例一、腾讯也曾深受其害
23年3月,腾讯出现微信、QQ等旗下社交软件功能异常,包括账号登陆、文件传输、朋友圈、微信支付等多个功能无法正常使用。最终查明本次大面积网络服务中断是由机房制冷系统故障,温度上升导致多台机器宕机导致。
故障的解决措施也是非常接地气:冰桶降温。
降温是 IT 机房事故抢救基操,用冰桶降温简单高效,快速降温恢复业务是王道。
案例二、谷歌云和甲骨文也被热崩了
英国经历了破纪录的高温,气温高达40摄氏度。高温之下,数据中心也被热出故障。谷歌和甲骨文公司位于伦敦的云数据中心当地时间周二出现故障,致使部分网站瘫痪。
两家公司均表示冷却系统出现问题导致断网。甲骨文公司在服务页面上指出,“不合理的温度”影响了其伦敦南部设施的云服务和网络设备。
案例三、45℃高温,推特数据中心停摆
9月,美国加利福尼亚州萨克拉门托市中心达到了45℃,位于萨克拉门托的推特数据中心发生故障停摆。
解决方案
高温频发,机房运维的紧张感就从未消失过,悉数过去十年互联网大厂的故障案例,我们得到教训:如果风险无法完全消灭,我们只能控制与预定风险的大小。
通过智能运维监控,可实现对机房设备全生命周期管理,运维工程师通过机房动环监控,获取IT机房内部各项关键信息,包括模块内的温度、湿度、漏水、烟雾等情况,一旦出现告警,系统可以快速定确定故障位置,省去人工排查时间,对异常问题及时处理,保障系统的稳定运行。
除此之外,7*24在线值守,自动巡检,异常快速响应等也在实践中产生巨大价值。
7*24在线值守
监控设备运行状态,对各种安全设备的日志检查,对重点事件进行记录,判断安全事件产生原因并解决,及时发现问题,防患于未然。
自动巡检,敏锐预见
实时或定时对设备及网络进行全面检查,及时发现潜在问题,保障设备稳定运行。
突发事件,快速应对
突发中断或严重影响业务的故障,如宕机、数据丢失、业务中断等,能快速响应和处理,在最短时间内恢复业务系统,将损失降到最低。
开启高效运维,点击试用👇
声明:原创内容,转载请注明。