又是热到汗流浃背、头晕脑胀的一天…江浙沪等地正在经历今年来最强高温“烤验”!没有最热,只有更热,40摄氏度的高温好像越来越多了!最近东北货车司机热到报警,获救后怒赞“杭州人好啊!”,“先坐在里面凉快下。”民辅警让汪师傅先上警车休息,汪师傅人缓了点过来。随后,民辅警开车带上汪师傅买了防暑药。
随着夏季持续高温天气的到来,机房内各类设备散热需求剧增,服务器及相关设备运行环境面临着严峻的考验。
1.盘点数据机房火灾
数据机房设备众多,功率大、耗电量大,机房线缆多、布线复杂,这些都是数据机房容发生火灾隐患的原因。
2017年4月,北京邮电大学网络数据中心突发火灾,由于北邮的网络信息中心机房是北京多所高校的校园网上游节点机房,此次起火导致中国政法、北京理工、北京航空航 天等多所高校网络崩溃。
2021年3月欧洲云计算巨头OVH位于法国莱茵省首府特拉斯堡的数据中心发生严重火灾。据报道,该数据中心起火后,导致约360万个网站瘫痪,1.2到1.5万名客户的资料可能受到影响。OVH一家游戏公司客户表示,大量玩家数据已经因火灾丢失,且无法恢复。
2022年7月位于伦敦的谷歌云数据中心出现了故障。据谷歌公司发布的报告称,事故肇因是“多个冷却系统同时发生故障”,且适逢伦敦极端高温天气,外部温度异常高,机器无法维持安全的工作温度。这一宕机事件直到翌日早上才恢复。
2.机房重点检查
巡检是定期执行的操作或任务,它可以按日、按月、按季、按年来进行。定期巡检有利于及时发现机房服务器的异常情况,协助我们立即采取措施处理问题,从而减少服务求的故障发生,确保服务器、存储、网络的稳定运行。
1.设备检查:检查机房内的服务器、路由器、
交换机等设备的运行状态,确保其正常工作。
2.环境检查:检查机房的温度、湿度、
灰尘等环境因素,确保机房的环境符合设备的要求。
3.电力检查:检查机房的电力供应是否稳定,
防止因电力问题导致的设备故障。
4.消防检查:检查机房的消防设施是否完好,
确保在紧急情况下能够及时采取措施。
5.安全检查:检查机房的安全措施是否到位,
防止未经授权的人员进入机房。
3.异地容灾
3.1 Oracle异地容灾
(a) 生产环境配置:
所有生产环境统一采用两节点RAC架构,
存储采用ORACLE自带的ASM卷管理
(b) 生产ADG环境配置:
ADG环境使用与生产环境相同平台,
统一使用RAC+ASM架构,运维同生产相同等级。
(c) 同城环境配置:和生产平台相同,
统一使用RAC+ASM架构。
运维等级要比生产低,不接入生产业务,可接入
数据采集、监控等查询需求。
(d) 同城DG和远程DG配置:
同城DG和远程DG默认采用单实例+ASM架构
3.2 OceanBase两地三中心
在金融行业,“两地三中心”是一个基本的合规要求,"两地三中心"指代的是一种可以满足监管要求的容灾架构。两地是指同城、异地,三中心是指生产中心、同城容灾中心、异地容灾中心。同城双中心加异地灾备中心即“两地三中心”,这一方案兼具高可用性和灾难备份的能力。
OceanBase两地三中心 “主-备” 部署
主城市与备城市组成一个 5 副本的集群。
任何主城市 IDC 的故障,最多损失 2 份副本,
剩余的 3 份副本依然满足多数派。
备用城市建设一个独立的 3 副本集群,
做为一个备库,从主库 “异步同步” 到备库。
一旦主城市遭遇灾难,备城市可以接管业务。
3.3 监控工具zCloud
zCloud “多元”“自治”的核心价值理念,在数据库支持的广度和深度方面再上新台阶,带来了一系列新功能,助力用户轻松搞定多类型数据库运维。简化数据库管理的复杂性,客户可以统一管理数据库的配置、监控和告警等操作。
4.总结
业务一刻也不能等、不能停,数据一点都不能丢。因此拥有关键业务的异地备份副本,对于确保在发生本地数据丢失时可以恢复数据至关重要,建立良好的容灾备份系统,能够避免大火“劫”走重要数据,真正做到防火于未“燃”。