跨云容灾原来还能这么便捷！

背景

大量组织正在将业务系统迁移到云，以利用其可扩展性。而云上的业务连续性保护依然重要，灾难，病毒，人为错误等仍然在威胁企业数据安全。

云平台被广泛采用作为各种规模企业的首选容灾平台，是 DRaaS 的重要市场驱动力。借助主要云提供商自有的 DRaaS解决方案，企业可以无缝进行灾难恢复，而无需对其基础设施进行大量投资。这种可访问性和与云平台的兼容性降低了进入门槛，使企业越来越方便实施 DRaaS 解决方案。而容灾服务厂商，也应该充分利用云平台的弹性，在保护数据安全的前提下，最大程度帮助客户降低成本。

然而，上云也并非一劳永逸。过去一段时间我们刚刚经历Azure多个可用区故障的问题，可见云内容灾也并非最全面的容灾方案，我们需要更加全面的考量。

什么才是云上容灾的最佳手段呢，云内容灾，云内跨区域容灾还是跨云容灾？今天我们就来探讨这几类方案的优劣势，以及HyperBDR是如何帮助用户降低容灾部署难度，快速构建云上和跨云容灾的。

一、典型的云内灾难恢复方法

首先我们来看一下经典的云上业务恢复方法，我们以AWS为例，他开创了现代云容灾的模式。

AWS 中的灾难恢复方法主要围绕快速高效地恢复应用程序的能力展开。如果 AWS 客户遇到需要恢复应用程序和数据的情况，AWS 可以在几分钟内启动恢复实例。这确保了最小的停机时间和服务中断。此外，这些实例可以基于最新的备份时间点数据进行恢复，或者如果情况需要，也可以基于用户选择的上一个时间点进行恢复。

1 AWS基于存储层的云内容灾

恢复实际目标（RTO) 和恢复点目标（RPO）是定义可接受的恢复过程时间和数据丢失时间的关键指标，在AWS本地容灾方案中，这些指标具体取决于数据快照所存放的位置。存储层不同，RTO 和 RPO的计算有差异，例如：

标准 EBS 块存储：
专为需要卓越效率和低延迟的工作负载而设计。此存储层具有更快的 RTO 和 RPO 时间，适用于任务关键型应用程序。
亚马逊 S3：
高度可扩展、持久且安全的对象存储，可在性能和成本之间实现平衡。与 EBS 块存储相比，RTO 和 RPO 指标可能略有不同。
Glacier：
它是一种归档存储解决方案，预计用于长期数据归档，检索时间从几分钟到几小时不等。因此，对于 Glacier 中的数据，RTO 和 RPO 通常时间更长。

2 AWS跨区域容灾

在容灾策略上，AWS也认识到地理冗余对于真正的灾难恢复至关重要。因此，他们也为企业提供跨Ragion灾难恢复。这意味着，如果主要区域面临灾难或服务中断，则可以故障转移到完全独立的其他区域。这确保了数据的持续可用性和应用程序的快速恢复运行时间。

二、为什么云内灾难恢复存在局限性？

虽然许多企业依赖单一云提供商内的跨区域灾难恢复作为他们的首选策略，但这种方法有其局限性，当业务系统所在Region和容灾Region都出现问题时，灾难恢复就失效了，在7月份Azure的宕机事件中，我们就看到三个可用区同时宕机的情况。为什么在单个云提供商中仅依赖跨区域 DR 可能不是最有效的方法？

服务中断风险

尽管不同Region之间的数据中心物理上分离，但仍然依赖同一云服务提供商的基础设施和管理。如果云服务提供商出现重大故障或政策变动，可能会影响到所有Region。

成本较高

跨Region容灾依赖于单一供应商的技术和服务，限制了灵活性和选择。如果供应商的技术或服务出现问题，用户的容灾计划可能会受到影响。

依赖单一供应商

跨Region容灾依赖于单一供应商的技术和服务，限制了灵活性和选择。如果供应商的技术或服务出现问题，用户的容灾计划可能会受到影响。

延迟问题

不同Region之间的数据传输延迟可能较高，尤其是当Region相距较远时。这可能会影响数据同步的效率和恢复时间目标（RTO）。

三、跨云容灾的优势

因此和传统容灾思路一样，我们做跨云容灾一定程度上降低了依赖单一云提供商的风险。当然，云厂商更多专注于自身架构和服务的优化，并没有把研究其他异构平台作为重点，因此我们可以看到跨云容灾方案通常都是由中立容灾工具厂商提供的。通过利用多个云服务提供的优势，企业可以利用三方的跨云容灾方案提升业务连续性保护计划。我们首先来看一下跨云容灾的优势。

01｜多样性和弹性

跨云容灾允许在多个云服务提供商之间分布数据和应用，降低对单一供应商的依赖性，增强了系统的弹性和容错能力。

02｜成本优化

可以根据不同云服务提供商的价格和服务特点，选择最具成本效益的方案，实现成本优化。例如，一个云提供商可能提供更便宜的存储，另一个提供商则可能在计算资源上更具优势。

03｜高可用性

跨云容灾提高了数据和应用的可用性，因为即使一个云服务提供商出现故障，另一个云服务提供商仍然可以接管业务，确保业务连续性。

04｜减少服务中断风险

通过分散在多个云服务提供商上，跨云容灾有效减少了因单一供应商故障而导致的服务中断风险。

05｜性能优化

可以利用不同云服务提供商的地理分布，优化应用的性能。例如，可以选择地理位置更接近用户的云提供商，以减少延迟和提高响应速度

06｜数据主权和合规性

跨云容灾可以更灵活地满足不同地区的数据主权和合规性要求。例如，可以根据法律法规要求，将数据存储在特定国家或地区的云提供商上。

四、HyperBDR的跨云数据保护

当然，大多数传统厂商可以提供跨云容灾方案，但仍然采用传统的1：1主机standby的模式，这对资源消耗巨大，使得跨云容灾方案异常昂贵，这违背了企业利用云降低成本提升弹性的初衷。在利用云原生能力上，传统容灾厂商需要拓宽思路。

HyperBDR是这样一款云原生工具，帮助用户实现应用程序的跨平台恢复。充分利用云平台提供的接口能力，专注于解决数据的无障碍流转和快速恢复，将异构平台的驱动转换，资源的创建都实现自动化，避免人力的介入，降低对计算资源的依赖。在大量项目的积累中，我们已经逐步优化出一套适用于大多数云平台的自动化容灾方案。

1 基于存储的恢复

将主机备份数据备份至云侧对象存储或者块存储，仅在灾难发生时利用容灾侧云平台能力恢复，备份过程不需要消耗计算资源，这一点大幅降低容灾成本。

2 分钟级别RPO和RTO

采用块存储模式，恢复效率更高，而对象存储成本更低，客户可以根据自身需要进行平衡。当然从云存储上恢复的速度依赖于云厂商,例如在Huawei Cloud，恢复时间在几分钟以内。如果大家需要更多的云平台的容灾实践数据，可以在文末扫码获取。

3 资源自动编排

利用云提供的API接口进行资源的自动编排，在完成容灾配置的前提下，当需要进行灾难接管和演练时，一键就可以将存储数据恢复成应用程序，这个存储和恢复过程完全利用了云原生能力，可以在HyperBDR上一键完成而无需切换至云平台操作。

4 驱动自动适配

异构平台的业务恢复，驱动是个大问题，通过多年大量项目沉淀积累的驱动库，驱动适配在容灾恢复过程是完全自动化的。

5 无代理容灾

感谢AWS提供的接口，我们在源数据的获取上减少了大量繁琐动作，无需逐台主机安装代理，这意味着工作量的大幅减少，并且将对源端业务的影响降至最低。

通过解决跨云的兼容性问题，容灾的部署实施变得更加简化，在完成容灾策略配置之后，企业在业务恢复时所做的唯一动作就是启动这个过程。部署跨云容灾，除了在云计算时代获得业务连续性保护的最优方案外，也是企业进一步优化容灾成本，获得更多灵活性的手段。

五、HyperBDR的跨云容灾支持情况

在跨云容灾的实践当中，我们面临诸多挑战，地域和架构上的差异，让跨云场景复杂化。由于亚太和全球市场的巨大差异，我们不得不在项目中进行大量适配，对大多数云平台之间的容灾场景进行开发，目前看来这也形成了我们产品优势，成功在这些厂商之间搭起容灾桥梁。目前跨云容灾的场景支持包括AWS,Huawei Cloud，Azure，Alibaba，包括一些国际化的私有云厂商，大约40多个云平台版本。

部署HyperBDR很简单，只需要一台8核16G的主机即可，当然，您可以将它部署在您的容灾云平台上。欢迎扫码获取HyperBDR跨云容灾方案。