最近,我们做了一次“实景”容灾演练

news2025/1/16 18:59:11

保障头部新闻客户端的业务连续性,阿里云帮助客户在真实场景下完成容灾演练。 云计算和新闻 APP,能有什么关系?

2021 年,传媒行业某头部媒体的新闻客户端进行了全新改版并升级上线,以 “内容+技术”的融合驱动效率提升,加速其新媒体业务的数字化转型进程。

该客户端作为这一媒体在移动互联网端发布新闻的重要渠道,客户对发稿的时效性、直播的流畅性等方面有着极高的要求。具体到云平台侧,客户要求除了要保障云平台整体的稳定性外,还需要云平台能在极端情况下具备容灾逃逸能力,同时针对可用区级别的容灾提出了更高的 RTO 和 RPO 要求。

客户的命题看起来似乎很简单:“一个机房挂了,另一个机房要能用,这样不会影响到稿件的正常及时发布,保证新闻的时效性”。

这个命题对于阿里云团队来说,意味着要基于同城双 AZ 容灾架构,保证平台的可用性,进而提升客户业务的连续性。

更有挑战性的是,对于这个命题的解答,客户要求不能仅仅提留在“理论”层面,还需要阿里云接受“实实在在的实景考验”,即在预期时间范围内,在设定的故障场景下,我们要验证:当第一个 AZ 故障后,云平台具备切换至第二个 AZ 的能力,证明阿里云的云平台具备在 AZ 之间 30 分钟内完成切换的能力,同时在修复主机房的故障之后完成回切。

看似简单,实则不然

从拿到命题,到交卷,这用了近五个月时间,其中规划期就用了近 2 个月。同城双 AZ 架构本身并不算是很复杂的架构形式,但这道题的难点在于客户业务作为新闻客户端的特殊性。新闻具有突发性和时效性,业务难以被预测,所以每一次给到阿里云进行变更的窗口期都很珍贵,且不能失败,这对于技术和评估就提出了很高要求。

其次,客户对于这次容灾演练也是既谨慎又大胆,愿意创新突破,但同时也因为担心影响到真实的业务而非常忐忑。虽然该传媒客户没有金融级客户对于数据的强一致性要求,但是因为容灾演练要基于真正的生产环境,对于可用性的要求极高,云产品的所有组件在演练完成后都要尽快回到切换前的终态。此外,容灾演练需要联动云平台和上层应用,不仅涉及云平台,还要考虑到云外的网络和公共云等因素,要求对业务的影响时段和影响面可控。

最终,阿里云 TAM 团队现场调研、摸底,并结合产研团队的技术评审,针对平台业务、产品、所有组件进行了多轮摸底调研,制定了数百个 CHK 项,对客户应用负载、调用链路、应用配置、部署形态等多方面进行了全面的诊断和治理。全程阿里云团队通过了 20 多次灰度切换验证,熬过 6 个通宵,涉及十几个演练场景,对原有产品、演练方案进行了 30 个改进项的完善和落地,还做了一个模拟客户业务访问的模型 demo 监控,来确保演练在最终实施时的可行性。

一次充满“反差感”的演练

就这样,来到了真实演练的那一天,整个过程并没有想象中的惊心动魄,反而是平稳顺利。在主机房注入故障后的 10 分钟内,整个云平台就完成了应急切换;历时 7 个小时,顺利完成带生产业务的机房级容灾演练,整个过程对业务影响不超过 1 小时,并进行了全场景、全流程的业务测试,通过率 100%。演练过程中,阿里云进行了多次预案执行的有效性和应急处置,拟定好的组织、角色按演练 SOP 有效执行,确保了整个演练流程的规范和有序。

在孤岛演练之后的三天内,阿里云和该客户进行了无业务影响的长尾问题修复,使平台恢复到演练前状态。这次演练不仅验证了云平台、业务的容灾能力,还帮助客户完善了网络容灾能力的建设,进一步增强了客户对于云平台灾备能力的信心。

容灾,何以成为阿里云的竞争力?

阿里云飞天企业版同城容灾解决方案,让云平台的容灾能力全面覆盖网络产品、云计算产品、数据库产品、存储产品、中间件产品等核心云产品,采用网络互备、数据主备模式构建了整个云平台同城双 AZ 容灾能力。

除了覆盖产品广,阿里云飞天企业版还配备全栈式灾备管理平台,针对不同机房级故障提供一键式容灾切换能力(如下图);一旦发生灾难(如主机房掉电/网络孤岛故障/单产品故障等),可通过灾备管理平台进行一键式切换,提高云平台抵御自然灾害、设备故障、系统故障等突发事件的能力,提升云平台及云上客户业务连续性。

相较于传统的容灾方案,阿里云专有云同城容灾架构提供了一致性的容灾切换体验,对客户业务透明,使用户能更加聚焦于业务开发,降低应用开发难度,提供更加便捷的体验。

在这里插入图片描述

阿里云飞天企业版灾备管理平台界面

在此基础上,TAM 团队针对客户业务的使用场景,结合项目现场运维和各类容灾架构平台的演练实施经验,不仅安全高效地完成方案实施落地,更在实施过程中不断发现方案与现场环境的缺陷并予以纠正迭代,使得解决方案更加完善;贴合客户平台真实环境,真正做到了最贴近真实故障、最小化业务影响、最快速应急恢复的技术目标。

通过产品技术能力和现场运维能力的双剑合璧,阿里云飞天企业版同城灾备方案得以无缝平滑落地,顺利完成本次容灾演练。

风雨后再回首,是更广阔的天空

回看这次容灾演练,带着真实业务做测试,就好像在飞机飞行中换引擎。阿里云 TAM 运维团队与产研团队携手,不仅建成了阿里云在传媒行业首个同城双 AZ 容灾云平台,更基于双方的紧密配合和对于平台的精细化管理,熟悉现场环境和故障应急处理的全流程,完成了平台上的不中断业务演练任务,让客户真正看到并相信了阿里云同城双 AZ 的容灾能力。

这说明了阿里云飞天企业版的容灾能力,并没有停留在文档或是方案里。这个能力是可被演练、可被验证的。而这份底气,是我们前进的意义,也是客户信任的根基。

最近,我们做了一次“实景”容灾演练

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/443610.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vue2-黑马(十)

目录: (1)vuex-actions (2)vuex-调用actions (3)vue2实战-项目搭建 (1)vuex-actions 有这么一个需求,绿色的组件从服务器获取数据放入store,主…

CHAPTER 2: 《BACK-OF-THE-ENVELOPE ESTIMATION》 第2章 《初略的估计》

CHAPTER 2: BACK-OF-THE-ENVELOPE ESTIMATION 在系统设计面试中,有时您会被要求估计系统容量或使用粗略估计的性能需求。根据杰夫迪恩的说法,谷歌高级研究员,“粗略的计算是你使用结合思想实验和常见的性能数字,以获得良好的感觉…

武器目标分配问题研究进展: 模型、算法与应用

源自:系统公正与电子技术 作者:李梦杰 常雪凝 石建迈 陈超 黄金才 刘忠 摘 要 武器目标分配问题是指挥控制与任务规划领域的关键难点之一, 也是军事运筹领域的基础研究课题。经过多年研究, 武器目标分配问题在陆海空天电等领域都得到了广泛研究,…

ESLint插件开发

ESLint 插件 ESLint 插件是一个可以包含一系列ESLint 规则、配置、处理器、环境的npm模块。 创建插件 开发ESLint插件可以使用Yeoman提供的生成器来生成ESLint插件的基本项目的目录结构。 安装yeoman 和ESLint 规则的生成器 npm i -g yo generator-eslint创建eslint-xxxx使用y…

春秋云境:CVE-2022-26201(二次注入漏洞)

目录 一、题目 二、上传权限马 三、蚁剑马连接 一、题目 进入题目: 这个是和春秋云境:CVE-2022-28060一个网站,看来应该是存在多个漏洞。 点击admin 不用登录 Users ---- add users 选择文件 这里要是jpg图片格式 如果是php格式是无法运行…

机器学习(一)-K近邻算法(KNN)原理剖析及python源码

本篇介绍第一个机器学习算法:k-近邻算法,它非常有效而且易于掌握。首先,我们将探讨k-近邻算法(KNN)的基本理论,以及如何使用距离测量的方法分类物品;其次我们将使用Python从文本文件中导入并解析…

JavaSE学习进阶day06_02 Set集合和Set接口

第二章 Set系列集合和Set接口 Set集合概述:前面学习了Collection集合下的List集合,现在继续学习它的另一个分支,Set集合。 set系列集合的特点: Set接口: java.util.Set接口和java.util.List接口一样,同样…

D. Marcin and Training Camp(思维 + 判断一个数二进制位是否是另一个数的子集)

Problem - D - Codeforces 马辛是他大学里的一名教练。有N个学生想参加训练营。马辛是个聪明的教练,所以他只想派那些能冷静合作的学生参加。 让我们关注一下这些学生。每个学生可以用两个整数ai和bi来描述;bi等于第i个学生的技能水平(越高越…

【刷题之路】LeetCode 程序员面试金典 08.03. 魔术索引

【刷题之路】LeetCode 程序员面试金典 08.03. 魔术索引 一、题目描述二、解题1、方法1——暴力法1.1、思路分析1.2、代码实现 2、方法2——二分分治2.1、思路分析2.2、代码实现 一、题目描述 原题连接: 面试题 08.03. Magic Index LCCI 题目描述: 魔术索…

计算机网络考试复习——第三章 3.3

3.3 使用广播信道的数据链路层 3.3.1局域网的数据链路层 局域网最主要的特点: 1.网络为一个单位所拥有; 2.地理范围和站点数目均有限。 局域网具有如下主要优点: 1.具有广播功能,从一个站点可很方便地访问全网。 2.便于系统…

分布式问题,你知道几个?

你好,我是田哥 现在的单体服务是很难应付面试了,必须要把分布式相关技术给讲清楚,否则面试难搞。 下面我们来聊聊,分布式环境下会面临哪些问题。 先来看一下主要内容: 分布式系统中常见的难题包括: 一致性问…

PackageMS 启动

1.PackageMS 相关框架类 2.PackageMS 启动过程 2.1 # SystemServer.java /** 291 * The main entry point from zygote. 292 */ 293 public static void main(String[] args) { 294 new SystemServer().run(); 295 } 上面是SystemServer的主函数。 pr…

RK3568开发板 buildroot编译配置

启扬智能RK3568开发板提供两种文件系统,一种是Debian,另外一种是BuildRoot。在使用过程中,有些客户需要添加属于自己的软件包,所以在此分享启扬RK3568关于BuildRoot编译配置的方法以及相关注意事项。 启扬提供的源码是完整sdk&am…

毕业论文用什么流程图软件比较好?

在写作论文的时候使用流程图,会让我们的论文看起来更加有逻辑。并且流程图的图片都可以在PPT中随意插入以及使用。 基础流程图作为最为基本和简单的的流程图方式,一般不区分用户角色和场景,适用于简单场景,梳理单一的流程情况&am…

nssctf web入门(8)

目录 [SWPUCTF 2021 新生赛]easy_sql [SWPUCTF 2021 新生赛]error 这里通过nssctf的题单web安全入门来写,会按照题单详细解释每题。题单在NSSCTF中。 想入门ctfweb的可以看这个系列,之后会一直出这个题单的解析,题目一共有28题,…

mysql(8.0)_主从复制

1.环境介绍 自己的主机--master 同学的主机--slave2.安装mysql https://blog.csdn.net/weixin_45955039/article/details/130144515?spm1001.2014.3001.55013. 准备工作 3.1在云服务器上添加端口号 3.2关闭防火墙 systemctl stop firewalld setenforce 04.master上的配置 …

数字图像处理笔记 第二章 数字图像基础

第二章 数字图像基础 2.1 视觉感知要素 知己知彼,百战不殆。了解人类的视觉感知,有助于我们学习数字图像处理。本小节中眼睛中图像的形成,让我联想到照相机成像,人眼的亮度适应和辨别让我想到手机屏幕的自动调节亮度。由于这部分…

马尔科夫链HMM

在机器学习算法中,马尔可夫链(Markov chain)是个很重要的概念。马尔可夫链(Markov chain),又称离散时间马尔可夫链(discrete-time Markov chain),因俄国数学家安德烈马尔可夫(俄语&a…

如何排查线上环境CPU100%问题

如何排查线上环境CPU100%问题 cpu爆满的原因可能:1、形成了死锁。2、形成了死循环 1.使用arthas 2.使用命令的方式 死锁的检查: 方式一: 可通过jps或者ps -ef | grep java的命令查看到运行程序的PID使用jstack -l pid 命令查看线程的堆栈信…