在云时代,大部分中小型企业都奔跑在云上或是服务器托管公司。任何规模的数据中心服务中断都会让你的企业踩雷。据统计,80%的数据中心服务中断都是由服务器硬件造成的。
据万博智云不完全统计:
2021年3月,一场大火完全摧毁了OVH在法国的一个数据中心,并部分损坏了另一个数据中心。
2021年4月,主机托管公司WebNX位于犹他州的奥格登数据中心着火,服务器瘫痪的同时,还有几台服务器亟需重新搭建。
2022年1月Interxion位于伦敦的其中一个数据中心因断电造成4个小时的服务器瘫痪。
2022年3月4日 伊朗境内唯一为该国互联网服务提供商(ISP)提供连接的经销商电信基础设施公司(TIC)的一栋大楼内数据中心火灾导致伊朗全境的互联网中断约三个小时。
2022年6月20日,由基础设施停电导致Microsoft 365全球故障16个小时。
2022年8月, 神州专车机房光缆被挖断,导致APP瘫痪数小时,业务和口碑损失惨重。相同的事故曾发生过多次。
2022年8月,一个位于英国的谷歌数据中心因电气爆炸而起火,三名在数据中心附近的变电站工作员工受伤。
2022年9月,中国长沙电信大楼突发重大火灾,内含荷花园电信机房,是湖南最大的主干线接入点之一。相关企业业务皆受牵连。
2022年 10月15日,韩国SK C&C数据中心大楼发生火灾,国民级通信工具Kakao瘫痪,联席CEO引咎卸任。
对比近两年,服务器火灾/爆炸的事件愈发频繁。这是因为:
1、极端气候会增加数据中心的中断概率
Uptime Institute曾做过一项调查,只有22%的数据中心运营商们表示“正在为越来越多恶劣气候造成的威胁事件做准备”,近1/3的数据中心运营商表示,他们近期没有审查风险,也没有计划这样做。这是因为数据中心运营商们过度相信自己对气候风险的评估。Uptime在2020年的报告中就指出“过去的数据难以再准确预测未来的气候状况。”
如今年夏天的连续高温,也让谷歌和甲骨文的机房冷却系统不堪重负,导致服务器罢工。
2、服务器使用过程中的必然老化现象
随着服务器的老化,服务器发生故障的概率也在攀升。一般来说,购入服务器的第一年,就会有平均5%的服务器出现问题,七年后这个概率会上升至18%。服务器过热是最常见的硬件问题,硬件过热或是电气故障,都会造成服务器发生火灾,甚至爆炸。
3、服务器硬件出厂时并不是每个都进行过质检
还有一个容易被忽略的情况:绝大多数网络硬件故障发生在安装全新的、开箱即用的网络硬件后的前 30 天内。这是因为新硬件在实际测试的时候:大约每N台设备中只有一台会拿出来被抽查,可能是百分之一,也可能是千分之一。当你采购一批全新的硬件时,你以为自己采购的是一批优质的硬件,也有可能是未经检测的随时会出问题的产品。而采购后对硬件进行逐一检查,也是一件极耗成本和精力的事情。
无论是自然环境因素、硬件本身还是生产商方面的问题,对于服务器采购及使用方来说,这些都是无法避免的问题。一旦服务器发生火灾或是爆炸,轻则数据还在业务停摆,重则数据和业务都付之一炬。
传统“两地三中心”灾备方案
传统企业的重投资、双保险
“两地三中心”方案最早出现在金融行业,这是因为金融行业对RTO的要求极为苛刻,业务多中断1秒给企业及客户带来的损失都是巨大的。为了避免灾难而导致业务中断,大型传统厂商会采用“两地三中心”灾备方案,作为保障业务连续性的双保险。
传统的“两地三中心”:
生产中心:企业用于日常业务运作,并产生业务数据的本地数据中心
同城灾备中心:通常在离生产中心几十公里的距离建立同城灾备中心,使用专线进行同步数据传输,保证应用可在不丢失数据的情况下切换到同城灾备中心运行,是“两地三中心”灾备方案的第一级保护
异地灾备中心:通常在离生产中心几百或者上千公里的地方建立异地灾备中心,应对区域性重大灾难,实现周期性异步复制灾备,是“两地三中心”灾备方案的第二级保护
通过这样的灾备部署方式,将企业的数据进行双重备份,同时进行同城和异地的灾备方案,可降低企业因服务器硬件问题造成的数据损失,高度保障业务的RTO和RPO。
然而,传统的“两地三中心”方案建设成本高,投入大,步骤繁琐。灾备的数据大部分时间处于闲置状态,造成数据资源的严重浪费。除非像金融这样对RTO和RPO要求极为严苛的行业,一般企业难以部署这样一套“两地三中心”方案。
云上“两地三中心”
云架构下的创新——轻量部署
万博智云作为国内领先的多云基础架构工具产品提供商,持续致力于多云管理自动化的探索和创新,将对象存储技术与块级全量增量复制技术相结合,并将其搭载至HyperBDR®云容灾工具上,轻松实现云上“两地三中心”。
云上“两地三中心”:
生产中心:企业用于日常业务运作,并产生业务数据的数据中心,它可以是本地的,也可以在云上
同城灾备中心:建立一套与数据中心跨可用区(Zone)的同云/异云的云上灾备中心,根据企业所在行业的RTO/RPO标准进行定时快照策略设定,以保证可用区(Zone)间故障相互隔离(大型灾害或者大型电力故障除外),不出现故障扩散,使得用户的业务持续在线服务。当生产中心发生问题时,一键拉起跨可用区(Zone)的同云/异云灾备中心至可用状态
异地灾备中心:基于生产中心部署位置,建立一套跨地域(Region)同云/异云的云上灾备中心,根据企业所在行业的RTO/RPO标准进行定时快照策略设定,以应对地域性大型灾害、大型电力故障或云商的突发性大型事故,当生产中心所在区域发生重大灾难时,一键拉起跨地域(Region)的同云/异云灾备中心至可用状态
● 可用区(Zone)是指同一朵云在同一地域(城市)内电力和网络互相独立的物理数据中心。
● 地域(Region)是指物理的数据中心的地理区域。
云上VS传统“两地三中心”
TCO拥有成本低,部署灵活,
更适合中小企业
与传统“两地三中心”不同的是,在基于HyperBDR®云容灾的云上“两地三中心”灾备方案中:
1、企业可根据需求,跨可用区(Zone)或跨地域(Region)部署多个同云/异云灾备中心,以保证数据的完整性和业务的稳定性
2、即使是跨地域(Region)/跨云灾备中心,也可设定与跨可用区(Zone)灾备中心同样高频的快照策略,减小企业RTO损失
3、无论是跨可用区(Zone)灾备中心还是跨地域(Region)的同云/异云灾备中心,在平时仅做备份用处时,仅产生备份费用。只有在拉起系统至可用状态时,才根据实际情况,按需收费
4、所有云上灾备中心,均可通过万博智云自研的Boot in Cloud™技术一键拉起至可用状态,有效降低企业RTO和RPO的损失
5、无灾难发生时,企业可利用演练卷,按需拉起任意一套云上灾备系统,利用真实数据进行系统升级测试、仿真培训、数据分析等,对生产中心无影响,同时提升云上灾备资源的潜在价值
云上“两地三中心”
惠普容灾,中小企业的灾备“春天”
传统的“两地三中心”灾备方案,需要1:1建设两套传统灾备中心,需要消耗大量的人力、物力和时间成本。一般建设一套传统灾备中心,需要花费一年的时间。为了保证意外发生时,同城/异地的灾备中心能及时接管业务,还需要在生产中心和灾备中心之间搭专线,以保证RTO,每年需要消耗极大的网络成本。这样巨大的费用,对中小企业来说难以承受。
基于HyperBDR®云容灾的云上“两地三中心”,无需1:1搭建IDC,无需1:1预配置云上资源;深度对接云端API,驱动智能适配,实现高度自动化,节约了大量人力、物力和时间成本。
新一代HyperBDR®云容灾采用对象存储作为目标端存储介质,将整机数据切片存储至对象存储,仅在恢复时组合成块数据,极大程度降低了备份存储成本。假如某企业的生产系统有10TB数据,用云上“两地三中心”灾备方案部署一套跨可用区(Zone)灾备中心和三套跨地域(Region)跨云灾备中心,仅做备份存储的成本一年只需花费40960元。
HyperBDR®云容灾,用备份的价格做灾备,让中小企业都能部署自己的云上“两地三中心”。