灾备
灾备:灾备是容灾和备份的简称,它是利用科学的技术手段和方法,提前建立系统化的数据应急方式,以应对灾难的发生。其内容包括:数据备份、系统备份、业务连续规划、人员架构、通信保障、危机公关、灾难恢复规划、灾难恢复预案、业务恢复预案等等。
容灾指在相隔较远的两地(同城或异地)建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换,当一处因意外(天灾、人祸)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作,侧重数据同步和系统持续可用。指在相隔较远的两地(同城或异地)建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换,当一处因意外(天灾、人祸)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作,侧重数据同步和系统持续可用。
备份指用户为应用系统产生的重要数据(或者原有的重要数据信息)制作一份或多份拷贝,以增强数据的安全性。侧重数据的备份和保存。
一、灾备实施
备份:为应付文件、数据丢失或损坏等可能出现的意外情况,将电子计算机存储设备中的数据复制到磁盘等大容量存储设备中。
验证:检测备份的数据是否与元数据保持一致,是否完好,是否可以使用(一致性和可用性)。
演练:模拟灾难,检测突发性灾难发生时,整个组织是否具备灾难应急的能力。
容灾(应急):实际灾难发生时,整个组织是否具备灾难应急的能力,能够让整个应用系统切换到另一处,使得该系统功能可以继续正常工作。
恢复(回切):指在灾难发生后,能否恢复主生产系统的正常重新运行。
二、灾备关键技术指标
1.RTO
RTO(RecoveryTime Object,恢复时间目标)决定业务中断了多长时间。灾难发生后,从IT系统宕机导致业务停顿之刻开始,到IT系统恢复至可以支持各部门运作,业务恢复运营之时,此两点之间的时间段称为RTO。
提升RTO的常用技术有:磁带恢复、人工迁移、应用系统远程切换。
容灾技术 | 时长 |
---|---|
磁带恢复 | 日级 |
人工迁移 | 小时级 |
应用系统远程切换 | 秒级 |
2.RPO
RPO(Recovery Point Object,恢复点目标)决定了丢失多少数据。灾难发生后,容灾系统进行数据恢复,恢复得来的数据所对应的时间点称为RPO。
RPO是反映恢复数据完整性的指标。在同步数据复制方式下,RPO等于数据传输时延的时间,在异步数据复制方式下,RPO基本为异步传输数据排队的时间。
提升RPO的常用技术有:磁带备份、定期数据复制、异步数据复制、同步数据复制等。
容灾技术 | 时长 |
---|---|
磁带备份 | 日级 |
定期数据复制 | 小时级 |
异步数据复制 | 分钟级 |
同步数据复制 | 秒级 |
3.RTO与RPO的关系
RTO和RPO指标并不是孤立的,而是从不同角度来反映的容灾能力。RPO指标来自于故障发生前,而RTO指标来自故障发生后,两者的数值越小,就能有效缩短业务正常到业务过渡期的时间间隔。
当灾难发生后,最理想的状态是系统立即恢复,而且完全没有数据丢失,目前可以实现RTO等于0,RPO无限趋近于0。然而在设计一个容灾系统时,不能过分追求RPO和RTO,因为RPO和RTO越小,投资将越大。而总体投入成本越高,投资回报率将越低。从经济角度考虑,最佳的容灾解决方案不一定是效益最好的容灾解决方案,因为容灾系统的总体投入TCO和投资回报ROI,对于许多用户来说是十分重要的设计指标。
三、容灾级别
灾备,是企业中一项重要的技术应用,对于企业数据安全起到了很大的作用。 一般来说,灾备的级别可以分为数据级、应用级和业务级三个级别。
1.数据级灾备
数据级容灾是指通过建立异地灾备中心,做数据的远程备份,在灾难发生之后要确保原有的数据不会丢失或者遭到破坏。比如早期的通过备份到磁带转移到异地或者基于网络实现灾备中心与生产中心的异步\同步的数据传输。但在数据级容灾这个级别,发生灾难时应用是会中断的。
将数据中心内的数据从应用主机或存储设备上复制到其他介质上,用于防止数据丢失和破坏。
- 可以使部分或全部数据;
- 可以只在本中心,也可以是跨中心的;
- 可以保存多分不同历史时间点的数据;
- 通常需要由备份管理服务进行调度和支持;
- 跨中心的备份是容灾的基础。
2.应用级灾备
应用级容灾是在数据级容灾的基础之上,在备份站点同样构建一套相同的应用系统,通过同步或异步复制技术,这样可以保证关键应用在允许的时间范围内恢复运行,尽可能减少灾难带来的损失,让用户基本感受不到灾难的发生,使系统所提供的服务是完整的、可靠的和安全的。支撑系统包括数据备份系统、备用应用系统、以及备用网络等。
应用级容灾生产中心和异地灾备中心之间的数据传输是采用异类的广域网传输方式;同时应用级容灾系统需要通过更多的软件来实现,可以使多种应用在灾难发生时可以进行快速切换,确保业务的连续性。
在相隔较远的地方建立两套或多套功能相同的IT系统,当一处系统因意外停止工作,整个应用系统可以切换到另一处,确保应用系统可以继续正常工作。
- 各个中心互相之间可以进行健康状态监视和功能切换;
- 是系统的高可用性技术的一个组成部分;
- 提供节点级别的系统恢复功能;
- 更加强调应用外界环境对信息系统的影响,特别是灾难性时间对整个IT节点的影响。
3.业务级灾备
业务级灾备是最高级别的灾备,除了必要的IT相关技术,还要求具备全部的基础设施。其大部分内容是非IT系统(如电话、办公地点等),当大灾难发生后,原有的办公场所都会受到破坏,除了数据和应用的恢复,更需要一个备份的工作场所能够正常的开展业务。比如业务用户的办公场所以及业务工作人员备份等。
同一个业务,由多个中心同时对外提供服务:
- 多个数据中心承载业务压力,可以按比例进行分担;
- 一个中心停止服务后,业务流量可以自动切换到另外一个中心,对外提供连续性服务;
- 自动切换对接入端透明,接入端完全无感知;
- 有效提高资源利用率。
四、数据类型
从数据用途的角度来分析,可以将需要备份的数据分为系统数据、基础数据、应用数据和临时数据;同时根据数据存储和管理方式又可分为数据库数据、非数据库数据、孤立数据和遗失数据。
-
系统数据:主要是指操作系统、应用系统安装的各类软件包和应用系统执行程序。系统数据在系统安装后基本上不会再变动,只有在操作系统、应用系统版本升级或应用程序调整时才发生变化。
-
基础数据:主要是指保证业务系统正常运行所使用的系统目录、用户目录、系统配置文件、网络配置文件、应用配置文件、存取权限控制等。基础数据随业务系统运行环境的变化而变化,一般作为系统档案进行保存。
-
应用数据:主要是指业务系统的所有业务数据,对数据的安全性、准确性、完整性要求很高而且变化频繁。
-
临时数据:主要是指操作系统、应用系统、数据库产生的系统运行记录、数据库逻辑日志和应用程序在执行过程中产生的各种打印、传输临时文件,随系统运行和业务的发生而变化。临时数据对业务数据的完整性影响不大,增大后需要定期进行清理。
五、业务类型
企业里有不同的业务场景,我们可以根据各种业务系统处理的业务类型、处理方式、实时性要求、以及每天处理的业务量等条件,将业务系统划分为关键业务系统、重要业务系统、一般业务系统等。
-
关键业务系统:业务数据比较集中和核心,所连服务器节点较多,对保证整个企业的正常运转至关重要;一旦业务中断,将会立刻使企业提供的服务及正常业务运作受到相当严重的影响,并直接带来企业经济损失或影响企业信誉,甚至严重情况可能要承担潜在的法律责任。如线上携程、淘宝、京东等。
-
重要业务系统:业务中断将对整个企业的正常、有效运转产生较严重的影响。一旦业务发生中断,会使企业部分提供的服务及部分业务受到影响和中断,但无关大局。如:内部企业网站、邮件传输系统、业务运营系统等。
-
一般业务系统:业务中断将不会立刻对整个企业的正常运转产生严重影响,一旦中短可以容忍在数天或数周内恢复。比如:人事档案系统、考勤系统、工程预决算系统等。
六、灾备技术
数据中心的灾备技术大体上可以分为五种:冷备、暖备、热备、双活、多活。
1.冷备
即冷备份,也称离线备份,是指在关闭数据库并且数据库不能更新的状况下进行的数据库完整备份。
冷备份只有主数据中心承担业务,备数据中心不会对主数据中心进行实时备份,当主数据中心宕机时,业务也会随之中断,此技术对故障无提前防范和接管能力,恢复耗时较长,已经无法适应数据中心灾备发展的高要求。
2.暖备
暖备份是介于冷备份和热备份之间的一种方式,它主要通过设置硬盘远程镜像、数据库复制和设置灾难备份中心以实现对整个系统的完全备份。
3.热备
即双机热备,指的是基于高可用系统中的两台服务器的热备。虽然热备份也只有对主数据中心进行实时备份,当主数据中心故障造成业务不可用时,备数据中心可以自动接管主数据中心业务,并且业务能够在最短时间内恢复。
4.双活
双活指另个数据中心同时处于运营状态,同时承担业务,提高数据中心的整体服务能力和系统资源利用率,两个数据中心互为备份,当一个数据中心出现故障时,业务自动切换到另一个数据中心,数据零丢失,业务零中断。
双活数据中心解决方案在存储层、应用层和网络层都实现了双活,消除单点故障,保证业务连续性。
5.多活
即异地多活,一般是指在不同城市建立独立的数据中心,“活”是相对于冷备份而言的,冷备份是备份全量数据,平时不支撑业务需求,只有在主机房出现故障的时候才会切换到备用机房,而多活,是指这些机房在日常的业务中也需要走流量,做业务支撑。
七、灾备架构
1、用云搭建异地容灾中心:本地物理机房为主数据中心,仅将数据备份到云端。
2、基于公共云的同城灾备:将全部系统迁移上云,并部署在同一个地域的两个不同可用区中,实现系统的同城灾备。
3、基于公共云的异地灾备:将全部系统迁移上云,并部署在两个不同的地域中,实现跨地域灾备。
4、结合公共云同城灾备和异地灾备:如两地三中心,三地五中心等。
八、云容灾
云容灾是一种基于云平台发展起来的服务模式。云容灾是指以云计算的服务模式为企业提供业务容灾、数据备份、数据副本利用等多种数据应用场景的服务,即容灾即服务(DRaaS, DR as a Service)。
1.云容灾的优势
云容灾结合云平台的计算、存储和带宽等诸多优势,相比传统容灾具备了多方面的优势:
- 基础设施减少
摒弃采购传统的灾备服务器,借助云平台供应商提供的计算和存储平台,或直接采用云容灾DRaaS应用服务。云容灾技术方案则可有效降低维护需求和成本消耗。客户在节省更多的物理空间的同时,也可以节省更多的IT资源,将相关的维护人员解放出来,参与到其它工作中去。
- 降低 IT 成本
根据具体需要采用更为经济、更具弹性的云存储进行备份,免去自建数据中心所带来的硬件购买及维护成本,免去维护各种硬件所带来的烦恼,实现了对资源的精细化管理,进而减少大部分的灾备支出。
- 按需付费
云容灾可以采用云基础设施或者DRaaS模式,允许用户自由选定重要的系统和数据进行容灾。所以无论是业务接管还是演练,客户只需为实际所使用的资源付费,大大减少了资源的浪费,且提升了效率。
- 高度灵活性
云容灾使得业务需求更容易评估,用户可以更准确地预估哪个系统、甚至哪个子系统需要维护,也可以更细粒度地选择关键的数据来优化自身的备份计划,而不是整个地完全备份,更精确地设置RPO ,即能容忍的最大数据丢失量。云中建立的高可用、高容错架构可以提升RTO和RPO,基于公有云平台或者开源的私有云技术,也可以简便快速灵活地构建容灾节点并将数据迁移或者复制到云端,提升灾难恢复的速度。
- 快速恢复
为即使有传统定制的远程备份,仍然需要时间去做数据的恢复和业务重启,且取决于远程备份的地点远近和远程服务器的性能。而云容灾是可以充分利用云的能力,突破物理限制,在云端做到业务启动。
云容灾独有的高性能、高可靠性、高扩展性、易维护性、责任风险低以及高性价比的服务特色,帮助用户低成本建设高可用、灵活、按需付费的专业云容灾平台。
对于许多IT资源有限的用户来说,基于云的容灾不失为一个好的选择,因为云服务是一种随用随付费的模式,而企业如果自建容灾设施的话,在大多数时间又处于闲置和备用状态,所以云非常适合那些中小企业。在利用云服务设立容灾站点之后,企业对数据中心空间、IT基础设施和IT资源的依赖程度会大幅下降,进而带来运营成本的大幅下降。借助云,小型企业也能实施容灾系统,而在此之前,只有大型企业才能做到这一点。
2.云容灾级别
参考传统容灾的级别划分,由于云容灾的基础设施采用了云平台,在云容灾的级别划分上,应用级和业务级的区别已经不大了,因此在这里将云容灾的容灾级别分为:数据级容灾、业务级容灾。
数据级云容灾:数据级云容灾是指通过云平台做数据的远程备份,在灾难发生之后要确保原有的数据不会丢失或者遭到破坏。
业务级云容灾:业务级云容灾是指通过云平台做数据的远程备份和恢复,保证关键应用在允许的时间范围内恢复运行,尽可能减少灾难带来的损失,保证一定的RPO和RTO。
随着IT基础架构逐渐云化,容灾也面临着云化转型,不断涌现出更多的云容灾产品和方案。
九、两地三中心
两地三中心架构是一种分布式系统的架构模式,用于保证系统的高可用性和容错性。它将整个系统划分为三个数据中心:两个位于同城,一个位于异地。其中,同城的两个数据中心分别承担主备的角色,异地数据中心则作为备份。
在两地三中心架构中,同城的两个数据中心之间通过高速网络进行数据同步,实现了主备切换和故障恢复。当主数据中心发生故障时,备份数据中心会自动接管服务,保证系统的连续性和可用性。同时,异地数据中心作为备份,可以在主备数据中心都出现故障时提供服务。