从传统 IT 容灾转向“全栈云容灾”|什么是更适合政企的云

news2025/1/11 0:42:34

凌晨 3 点,在某医院的自助缴费机前,一位医患家属正愁眉紧锁,手中的医保卡已经刷了无数遍,可次次都提示缴费失败,至亲的手术已经迫在眉睫…

早上 8 点,是上班族在通勤途中打开新闻 app 刷新闻的高峰,而此刻在新闻编辑室内,后台编辑正焦头烂额,系统上当日热点大新闻的发布界面一遍遍显示“发布失败”…

这些画面简直是企业 IT 管理者心中的“灾难大片”,而导致这些问题的原因可能是企业数据中心中某个机柜断电、某次台风导致机房故障、某位 IT 管理员一不小心删除了数据库…

天灾人祸或许难以避免,但是上述场景却可以通过 IT 架构设计来规避预防。在云计算时代,面对黑天鹅事件,IT 人员如何利用容灾方案来保证业务连续性?云平台的容灾和传统 IT 容灾究竟有哪些不同?哪些因素影响着政企云平台的容灾设计?阿里云又有怎样的解决方案?这篇文章,将一一给出答案。
在这里插入图片描述

数智时代的双刃剑,云计算的普及让容灾课题变得更为紧迫

随着全行业的数智化转型不断深入,云原生应用已经成为各界公认的数字化转型范式,而承载云原生应用的底座 —— 全栈云计算平台,则成为政企数智化转型的坚实底座。

云计算本身具备的“集约化建设、统一大资源池、统一服务供给”的模式,让应用天然在云平台上大量汇集,一方面释放出平台资源弹性供给和敏捷调配的优势,另一方面也意味着一旦平台出现故障,影响范围会更大。为了保证业务层面连续性,云平台高可用能力成为现在政企 IT 掌舵者所关注的重中之重。
在这里插入图片描述

虽然云平台在设计之初,已经具备了初步的高可用能力,诸如组件多副本、数据跨服务器机柜、网络机架打散等,但这只能做到“单机房高可用”。对于金融、税务、医保、能源等行业来说,他们对于系统的业务连续性有更高的要求。比如金融行业有明确的跨机房容灾政策要求,且核心业务系统故障达 30 分钟则需要上报上级监管单位;国家、省级医保信息系统必须采用同城容灾模式来满足业务连续性要求。因此,基于全栈云产品的跨机房容灾成为了部分政企客户的强需求。

新瓶为何不能装旧酒?传统 IT 容灾技术在云时代面临的困境

传统 IT 容灾经过多年的沉淀,目前有两种常见的技术路线:

存储级容灾

这种技术主要以传统的阵列存储为主,在两个机房放置相同的存储机型,通过阵列间的“同步复制”或“异步复制”等模式,实现数据在双中心的同步。
典型存储级容灾示意图

在该模式下,为了避免数据双写,备中心的计算节点及应用日常处于停机状态,即处于“冷备”。这就意味着,当一个数据中心发生故障后,需要先切换到备中心的 IT 设施,然后再逐个启动备中心的计算节点和应用程序,结果必然带来较长的 RTO。另外,该模式下还存在着应用无法正常启动的可能性,进一步延长 RTO。

随着云原生的发展应用,业务应用一般会被分散到动辄数百甚至数千个节点,对如此规模的节点和应用进行重新启动,RTO 必然会被大幅拉长,也无法满足最基本的恢复时间要求。另外,传统阵列在扩展性、成本等维度也不满足云计算的基本技术架构要求。

产品级容灾

这种技术的特点是产品自身可实现“工作节点的跨机房转移和数据跨机房的复制”,不依赖于底层存储。对外服务层面,一般采用主备、双活等模式。数据层面,产品通过自身的机制实现跨机房数据复制,如 Mysql 的 binLog 复制等。

典型数据库容灾复制架构

由于备机房产品也是正常的工作节点,只是日常角色为备,不接受流量。当主机房完成切换后,备机房节点立刻可用。因此,不会存在切换到备中心后实例不可用的异常情况,业务的 RTO 一般要小于存储级容灾架构。

从整个业务维度来看,该模式相比存储级容灾的可控程度更高、RTO 更好。但该技术只负责应用的某一层技术栈如 DB,缺乏全局业务视角的业务容灾能力。

在云原生条件下,应用会基于 IaaS、中间件、数据库、大数据等全栈云产品进行构建,数据也分散在大量不同的产品,容灾架构也必须基于全栈产品视角,进行端到端的重新设计。

给云上掌舵者的考题,全栈云容灾考量公式

基于上述分析,传统 IT 技术架构难以满足云原生的业务模式,这时就需要全栈云容灾解决方案登场了。作为 IT 管理者,全栈云容灾是一个全新的复杂命题,又有哪些问题需要考虑呢?这里引入一个公式帮助 IT 掌舵者来进行评估判断:

全栈云容灾复杂度 =(产品数量 X 产品依赖 X 切换场景 X 容灾指标)/ 容灾管理体验

产品数量多

一个业务系统需要使用十几个甚至几十个云产品,业务牵涉到的所有云产品及支撑产品都需要具备容灾切换能力。同时,数据存储类型相比传统 IT 大大增加,常见如块存储、对象存储、OLTP 数据存储、OLAP 数据存储、离线大数据存储、日志存储等。为了达到跨机房容灾效果,在选择云平台时,IT 管理者需要确保这些产品均要具备“跨机房数据同步”和“跨机房高可用”的能力。
某阿里云客户所使用的主要云产品统计

产品依赖多

为了实现云产品的高可用,降低产品的重复开销,云平台在设计时,一般会将产品组件和依赖组件进行拆分,如把 DNS、NTP、元数据库、分布式协调服务等作为底座组件来统一对上层云产品提供服务。因此,容灾切换需要考虑到底座及产品依赖,避免产品切换后,因为缺少依赖而导致报错或无法使用。

容灾场景多

跨机房故障场景类型较多,每种产品都需要同时考虑“机房断电、脑裂、网络中断、故障回切”等多种场景下的数据复制策略和切换预案,以最快的速度实现业务恢复和保障数据安全。

容灾要求高

云时代的业务故障影响面更大,容灾相比传统 IT 架构需要更高的 RTO 和 RPO 要求。如中国人民银行发布的《云计算技术金融应用规范容灾》中对于 RTO 和 RPO 的具体要求如下:
在这里插入图片描述

容灾管理体验

鉴于上述的“三多一高”问题,全栈云的容灾管理也成为一个难题,容灾管理最好能具备如下能力:

  • 简单切换:一次容灾切换可能同时牵涉到几十款产品的容灾协同,无法再通过传统手工的方式逐个执行产品切换,因此云平台必须具备高效的演练和切换能力,降低 RTO。
  • 全场景覆盖:容灾设计需要兼顾同城、异地、两地三中心等多种容灾场景,且可随着政企容灾架构的演进在各场景持续进行迭代。
  • 租户隔离:在多租户场景中(云平台需要对外提供运营和服务),需要支持各租户进行自助容灾,同时单个客户不同系统可以按需进行切换,且保证容灾切换对其他客户的业务无影响。
  • 可控容灾:云平台需要具备完善的容灾监控体系,用户可随时掌握最新容灾动态,并与内部的容灾预案流程相结合,确保系统时刻处于“可控、可预知”的状态,避免“非预期切换”造成的数据安全风险。

更强实力更有底气,阿里云是全栈专有云容灾的开创者

从上述全栈云容灾的特点和需求来看,全栈云容灾考验的是云厂家对全栈产品的掌控和驾驭能力,需要对所有产品具备代码级的架构修改和功能迭代能力,以及完善的产品工具支撑体系。唯有如此,才能提供成熟、稳定、可迭代的容灾服务能力。这也正是阿里云全栈自研的优势所在。

阿里云于 2015 年推出飞天企业版,采用与公共云同样的技术架构,为政企客户提供全栈产品服务能力。在帮助客户完成“建云”“上云”过程后,基于客户普遍的高业务连续性要求,阿里云在业内率先进行基于专有云的跨机房容灾研发。经过广泛的用户需求调研,阿里云“采用应用级容灾思路、基于全栈产品视角,以应用端到端恢复为出发点”,于 2017 年正式推出飞天企业版容灾解决方案,在业内开创了全栈专有云容灾的新范式。

经过多年技术迭代,飞天企业版容灾解决方案的能力不断加强:

2017 年,支持同城双 AZ 容灾,支持 20+ 云产品容灾;
2018 年,在金融、政务等多个客户完成同城容灾项目交付,具备生产级容灾能力;
2019 年,支持异地跨云容灾、异地多活容灾,并在多个政务客户完成交付;
2020 年,支持同城 3AZ 容灾,业内率先实现了基于云原生条件下的数据库 RPO=0,多个银行客户进入 3AZ 容灾阶段;支持多对一异地容灾,支持了某省医保“省级同城容灾、省市间多对一异地容灾”建设模式;
2021 年,支持全栈产品级的两地三中心容灾,满足金融等行业同时具备同城、异地容灾的政策要求;
2022 年,支持基于国产化芯片的容灾能力,各场景下的容灾能力得到大幅提升,满足了政府、金融客户在一云多芯的需求下的容灾形态要求。

基于全栈云容灾的需求,阿里云飞天企业版容灾解决方案构建起“多边形战士”的能力:

支持产品最多

飞天企业版已完成 IaaS、中间件、数据库、大数据、底座等全栈 60+ 产品在不同场景下的容灾架构设计,可以满足不同行业客户应用层端到端容灾的需求。

支持场景最全

鉴于客户不同的容灾模式需求,飞天企业版支持同城双 AZ、同城三 AZ、异地跨云容灾、异地跨 Region 容灾、异地多活容灾、异地多对一容灾、两地三中心容灾等多种原子容灾场景,可以基于不同业务特点,将上述原子容灾场景进行排列组合,形成更复杂的组合容灾场景,如“同城容灾+异地多活”、“同城容灾+异地多对一容灾”等模式,具备“全场景容灾”的能力。
在这里插入图片描述

容灾管理简单

针对全栈云的容灾管理难题,阿里云在业内开创性地推出业务连续性管理平台 ASR(Apsara Stack Resilience)。ASR 以可视化方式,通过多场景适配,提供容灾状态监控、故障注入与演练、容灾切换与回切、租户隔离等能力,将复杂的“产品切换逻辑、产品间依赖、机房级切换”等内部逻辑进行编排和封装,使运维人员无需关心复杂的内部处理逻辑,可以“一键”完成全栈产品的容灾演练和切换。此外,ASR 大大降低了全栈云容灾演练难度,用户可以按需定期演练,杜渐防萌,确保“故障时刻敢切换”。
在这里插入图片描述

应用友好,降低 RTO

租户通过域名或者 vip 来访问云产品,云产品的容灾切换会保证云产品容灾实例的访问地址不变,因此可以做到容灾切换时产品的容灾能力对应用透明,可以极大降低应用恢复的时间。

RPO=0,满足等高阶容灾要求

金融等对数据可靠性要求较高的行业,往往要求 RPO=0。阿里云率先推出基于云计算分布式技术体系的同城 3AZ 容灾模式,通过在多机房部署数据副本,满足任意条件下的单机房故障 RPO=0,达到《GB20988-2007-T 信息安全技术信息系统灾难恢复规范》和《JR/T 0168-2020 云计算技术金融应用规范-容灾》的最高等级要求。

稳中求进,让全栈云容灾成为数智创新的稳定底盘

阿里云飞天企业版凭借在产品支持范围、功能满足度、场景覆盖度、易用性、安全隔离等多方面的成熟度,已经为金融、政务、能源、电力、交通、制造、医疗等各行业数百位客户提供全栈云平台容灾产品服务。

IT 架构的演进势不可挡,随着政企不断在云平台上迁移、构建创新应用和核心应用,由传统 IT 容灾向全栈云容灾转身越来越急迫。阿里云以飞天企业版容灾解决方案为各行业数智转型提供坚实的云底座支撑,让“稳定”从一次选择,变成持续承诺。
在这里插入图片描述

从传统 IT 容灾转向“全栈云容灾”|什么是更适合政企的云

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/566307.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue3+vite 中使用百度地图【两种方式】

vue3vite项目中使用百度地图 方式一:直接使用百度地图的ak方式二:使用vue-baidu-map-3x插件 方式一:直接使用百度地图的ak 提前准备: 创建一个vite项目申请好的百度地图ak值 百度地图使用: 在创建好的vite项目的入…

python 编译安装与脚本安装

编译安装的一般步骤: 安装依赖,安装依赖的第三方的工具,yum可以解决 编译安装的包中都有:configure 文件 进行预编译:检查你的环境是否合格 ./configure --prefixxxx 生成编译的文件:MakeFile python安装&…

Taobao.item_search-淘宝商品列表接口、关键词搜索淘宝商品列表接口

淘宝商品列表接口是淘宝开放平台提供的一个接口,可以返回符合指定条件的商品列表,开发者可以根据自己的需要在自己的应用中使用。 请求方式 淘宝商品列表接口使用 HTTP GET 请求方式。 请求 URL 请求URL如下:http://o0b.cn/opandy 请求参…

一文读懂循环队列的实现细节

循环队列最早出现在计算机系统设计中,它的出现主要是为了满足实际需求:在存储机制上,传统的队列存储方式难以满足一些实际应用中需要存储大量数据的场景。在有限的数组空间内,传统的队列存储方式可能会出现存储空间浪费过多、存储…

使用 StarCoder 创建一个编程助手

如果你是一个软件开发者,你可能已经使用过 ChatGPT 或 GitHub 的 Copilot 去解决一些写代码过程中遇到的问题,比如将代码从一种语言翻译到另一种语言,或者通过自然语言,诸如“写一个计算斐波那契数列第 N 个元素的 Python 程序”&…

[分享] 冒险岛079私服搭建

文章目录 前言目录介绍环境介绍过程第一步启动phpStudy.exe第二步 启动服务端.bat第三步 启动登录器.bat 总结常见问题 前言 好几年前找一个079版本冒险岛私服版本,本地玩了一下,感觉不错还研究了一下自带的GM工具。 现在朋友需要,记录一下踩…

交直流电流钳的用途和使用

电流钳是一种非侵入式检测设备,并不要求把采集端接入电路。一旦接入电路,就后会有阻抗的问题。霍尔线圈能够感应交流电流,但是无法感应直流信号。市售的电流钳,仍然是非接触测量,但交直流电流都能采,并且配…

Java的URI类

文章目录 1. 简介2. 构造一个URI3. URI的各个部分4. 解析相对URI5. 相等性和比较6. 字符串表示 1. 简介 URI是对URL的抽象,不仅包含统一资源定位符,还包括统一资源名(URN)。实际使用的URI大多是URL,但大多数规范和标准…

spring高频面试题

什么是IOC Spring框架提供的一种容器,用于控制对象的创建和对象之间的调用,通过IOC容器把对象的创建和调用过程交给Spring进行管理,省去了使用 new的方式创建对象。 所谓依赖注入(DI),就是由IOC容器在运行期间,动态地将某种依赖关…

生态系统模型:SolVES、DNDC、CMIP6、GEE林业、APSIM、InVEST、无人机遥感、ArcGIS Pro模型等

基于R语言APSIM模型高级应用及批量模拟实践技术 CMIP6 数据处理方法与典型案例分析实践技术 Python 与 Noah-MP 陆面过程模型融合技术及在站点、区域模拟实践应用 双碳目标下基于“遥感”融合技术在碳储量、碳收支、碳循环等多领域监测与模拟实践应用 基于Citespace和vosvi…

扩展定时器功能说明

计数和定时 ⚫ 16bit upcounter ⚫ 上升沿或下降沿计数 ⚫ 计数初值和终值可配置 ⚫ 计数值大于等于比较值时触发中断 ⚫ 计数溢出后自动重载 ⚫ 计数周期中可以通过改写重载寄存器修改下一周期长度 支持16bit计数或级联的32bit计数。当CNTSEL0,计数器为16bit&#…

快手新财报:曙光就在冲刺路上?

自短视频爆火以来,短视频行业的头部玩家——抖音和快手就迎来了飞速发展,甚至一度成为了国民“杀时间利器”。然而,随着互联网红利逐渐见顶,短视频行业竞争加剧,哪怕作为头部玩家,快手的日子也并不好过。 …

Tatuk GIS Developer Kernel for .NET 11.77 Crack

Tatuk GIS Developer Kernel for .NET 是一个变体,它是受控代码和 .NET GIS SDK,用于为用户 Windows 操作系统创建 GIS 专业软件的过程。它被认为是一个完全用于 Win Forms 的 .NET CIL,WPF 的框架是为 C# 以及 VB.NET、VC、oxygen 以及最终与…

Learn From Microsoft Build Ⅰ:OpenAI

点击蓝字 关注我们 编辑:Alan Wang 排版:Rani Sun 微软 Reactor 为帮助广开发者,技术爱好者,更好的学习 .NET Core, C#, Python,数据科学,机器学习,AI,区块链, IoT 等技术&#xff0…

android性能测试-内存详解

Android性能测试-内存详解 名称说明Native HeapNative代码分配的内存,虚拟机和Android框架分配内存。关于什么是Native代码,即非Java代码分配的内存。Dalvik HeapJava对象分配的占据内存Dalvik Other类数据结构和索引占据内存Stack栈内存Other dev内部dr…

盐城北大青鸟东台基地IT精英挑战赛设计类作品展示

北大青鸟IT精英挑战赛作品展示——《黄小果》 这是我们22级新生王欣怡的作品,她是一位很优秀的 学生,经过一年的学习能够熟练的制作表情包

怎样让GPT教我用Python进行数据可视化

文章目录 怎样让GPT教我用Python进行数据可视化matplotlibpyecharts总结 怎样让GPT教我用Python进行数据可视化 🚀🚀首先,我们先看一下这段代码,这是我之前写来读取excel文件中xx大学在各个类别中的获奖情况,并保存在…

机器学习之机器如何学习

通过Julia的语法、函数、编译器使机器学习技术变得更加简单。 1、机器学习如何工作 通过机器学习,研究人员可以构造算法,使计算机自身能够在大量的数据中找到数学模式,而这是人类不可能做到的。想想看: 如果我问你,你怎么知道一张…

Padstack editor 绘制SMD Pin,Thru Pin和Via

一,椭圆形状的SMD PIN 的创建(例如:0.55/0.23 补偿后 0.95/0.28) 1,在select padstack usage 中选择 SMD Pin ;select pad geometry中选择 Oblong; 2,先将左下角 decimal places中的值设置为2&…

Java内部类(成员内部类、局部内部类、静态内部类、匿名内部类)

目录 ①. 什么是内部类 ②. 内部类的共性 ③. 为什么需要内部类 ④. 成员内部类 ⑤. 局部内部类 ⑥. 静态内部类(嵌套类) ⑦. 匿名内部类 ①. 什么是内部类 内部类是指在一个外部类的内部再定义一个类。内部类作为外部类的一个成员,并…