助力618-Y的混沌实践之路 | 京东云技术团队

news2024/9/22 19:27:12

一、写在前面

1、混沌是什么?

混沌工程(Chaos Engineering)的概念由 Netflix 在 2010 年提出,通过主动向系统中引入异常状态,并根据系统在各种压力下的行为表现确定优化策略,是保障系统稳定性的新型手段。

混沌工程是一门在分布式系统上进行实验的学科,目的是建立人们对于复杂系统在生产环境中抵御突发事件的信息。

2、为什么要做混沌?

混沌工程通过有意地引入故障、异常或不确定性的条件,以模拟真实世界中的不完美环境。其核心思想是通过主动引入故障和异常情况,逐步验证和提升系统的健壮性,从而增加系统在面对真实世界中的复杂环境时的稳定性和可靠性。其目的是识别潜在的系统弱点,并改进应用系统的健壮性和恢复能力,减少系统故障造成的影响,并提供更好的用户体验。

3、混沌的原则

混沌工程主要遵循以下原则:

  1. 假设清晰性(Assumption-Driven):明确系统的行为和性能的关键假设。这些假设可以基于系统需求、设计决策或运行环境等方面。混沌工程的实验应着眼于验证或推翻这些假设。

  2. 实验的真实性(Experimentation):通过有意地注入故障、异常或不确定性的条件来模拟真实世界中的不完美环境。实验应该是可控和可重复的,以便在安全范围内进行测试和观察系统的响应。

  3. 最小化影响(Minimizing Blast Radius):实施混沌实验时需要注意最小化对生产环境和用户的负面影响。合理限制实验的范围和影响范围,并使用适当的风险管理方法保护关键业务功能。

  4. 监测和度量(Monitoring and Measurement):实验期间需要密切系统报警机制。使用监控工具和指标来收集实验数据,以便评估系统的稳定性和弹性。

  5. 分析和学习(Analyzing and Learning):对实验结果进行复盘,并从中提取经验教训。确定问题的根本原因,并制定相应的改进计划和解决方案。

  6. 持续改进(Continuous Improvement):混沌工程是一个持续改进的过程。通过不断地进行实验、分析和修正,提高系统的弹性、稳定性和可恢复性。

二、Y的混沌发展

近三年,京东混沌工程作为大促三道防线之一,在促前扮演了非常重要的角色,而Y的混沌实践,也在不断地进行升级,主要从应用覆盖率和场景覆盖率两个方向明确提升方向,并在集团混沌大赛上取得了一系列突破和成绩。

1、探索阶段(21年)

追溯到21年618,Y主要以探索试点为目标,混沌试验应用覆盖上主要以非0/1级应用为主,演练场景上以断网演练等简单场景为主,攻守双发均为研发。

2、发展阶段(22年)

22年随着京东混沌工程的迭代升级,在演练场景及系统易用性上均有明显改善,Y侧也重点在混沌演练场景上进行全面覆盖,从基础资源故障拓展到外部依赖故障再到高级场景补充,不断提升系统稳定性。同时逐步覆盖0/1级核心系统,并沉淀混沌演练操作手册、混沌演练规范等,演练以测试为攻方,研发为守方,明确职责分工。

22年618由测试同学承接混沌演练,在演练前、演练中、演练后分别推进以下相关工作:

  1. 定义演练目标:明确演练目标和期望结果。包含确定要执行的应用系统范围、执行的场景、应用系统监控的配置、故障场景的观测、问题处理机制等,从而提升应用系统健康度。

  2. 识别关键组件和场景:确定系统中的关键组件和依赖关系,并识别可能影响系统稳定性和性能的典型场景。这些场景可以包括网络故障、资源耗尽、高并发等。

  3. 制定演练计划:制定一份详细的实验计划,包括演练的时间、范围、持续时间以及参与者的角色和职责。确保所有参与者都了解实验计划和预期结果。

  4. 设置监控体系:在演练之前,检查泰山中的MDC、UMP、中间件等配置,进一步了解应用的监控信息,根据应用的监控信息,更有针对性的模拟系统故障。

  5. 执行演练场景:按照演练计划执行混沌演练,例如模拟网络故障、内存故障、CPU故障、中间件故障等,观察系统的报警信息和研发运维响应,并记录关键指标和事件。

  6. 结果复盘:在演练结束后,收集和分析实验期间的数据和观察结果。评估系统的稳定性、可恢复性以及对异常情况的处理能力。识别存在的问题并制定系统的改进方案。

  7. 改进和优化:基于演练结果和分析,制定改进计划并采取相应的措施。这可能包括修复漏洞、提高系统的容错性、优化资源利用等。确保经验教训被记录下来,以便未来的演练和运维中可以借鉴。

  8. 定期演练和持续改进:通过常态化混沌演练,确保系统的持续的稳定性和弹性。

3、成长阶段(23年)

经过22年的实战总结,23年618 Y 重点推进应用覆盖率提升,最终达到99.68%,零售TOP1。实践策略按照集团要求优先完成系统推荐的9大场景,同时有针对性选择一些特定的场景,完善系统监控,最终0/1级应用健康度>95分,高危项清零。大促期间各系统性能达标,无线上事故发生。在取得阶段性成绩的同时,离不开团队成员在每个阶段都严格遵循以下原则,高标准对待每一次演练:

  1. 目标驱动:确保每个演练都有明确的目标和预期结果,以便评估其有效性和价值。

  2. 渐进式迭代:逐渐增加演练场景的复杂度和挑战性,使团队能够适应变化并逐步提高系统的健壮性。

  3. 持续学习:定期复盘演练结果和反馈,记录每一次的实验案例、问题与挑战,并根据经验教训进行分类与分析、根据复盘结果进行调整和改进。

  4. 经验传承:根据总结的经验教训和成功实验案例,制定一份最佳实战指南。这些包含演练计划、场景选择、执行计划、监控以及研发问题处理机制等,帮助团队更好执行混沌演练。

  5. 跨团队协作:混沌演练与开发、运维、测试等团队紧密合作,跟混沌工程建设团队多次交流,共同推动应用系统的稳定性和健壮性。

三、混沌与传统测试的区别

混沌工程是一种帮助我们获得更多的关于系统的新认知的实验方法。它和已有的功能测试、集成测试等测试已知属性的方法有本质上的区别。混沌工程,旨在帮助我们获得更多的关于系统的新认知的实验方法,通常还能开辟出一个更广袤的对复杂系统的认知空间。

传统测试,旨在给定一个特定的条件,系统会输出一个特定的二元结果,它仅仅是对已知的系统属性可能的取值进行测验。

混沌工程的思维方式是主动去找故障,是探索性的。虽然按计划做好了降级预案,但是关闭节点时却引发了上游服务故障,进而引发雪崩,这不是靠故障注入或预先计划能发现的。

四、写在后面

混沌工程,是一种提高技术架构弹性能力的复杂技术手段,旨在将故障扼杀在襁褓之中,也就是在故障造成中断之前将它们识别出来。通过主动制造故障,测试系统在各种压力下的行为,识别并修复故障问题,避免造成严重后果。

随着系统新功能不断上线,依赖方变化等,均可能导致系统产生一系列未知故障,故混沌工程实践最重要的就是可持续,通过增加混沌实验的次数不断地发挥混沌工程的价值,Y一直在路上!

作者:京东零售 李金萍 马春荣

来源:京东云开发者社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/823925.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【简单认识rsync远程同步】

文章目录 一.rsync1、简介2.rsync应用场景3、 rsyncinotify的应用场景4、 rsynccron的应用场景 二.配置rsync备份源(同步方式)1.rsync同步源2.同步方式3.备份的方式 三.常用rsync命令3.配置源的两种表达 四、配置rsync实现同步1.使用ip表达式同步2.使用u…

【WebRTC---序篇】(七)RTC多人连麦方案

服务端可以选择mediasoup,作为SFU服务器,只负责转发数据 下图举例三个Client (browser或者客户端)同时加入一个房间,每个app同时发布一路视频和一路音频,并且接受来自其他app的音视频流,mediasoup内部的结构如下&…

Docker快速入门笔记

Docker快速入门 前言 当今软件开发领域的一股热潮正在迅速兴起,它融合了便捷性、灵活性和可移植性,让开发者们欣喜若狂。它就是 Docker!无论你是一个初学者,还是一位经验丰富的开发者,都不能错过这个引领技术浪潮的工…

【Git】多人协作-多分支协作

文章目录 准备工作多人协作场景2-多分支协作补充:关于建立连接 远程分⽀删除后,本地依然能看到的解决办法 准备工作 在windosw环境下,再克隆同一个项目仓库,模拟一起协作开发的小伙伴 到此,相当于有了两个⽤⼾&#x…

344.翻转字符串+387.字符串中的第一个唯一字符

目录 一、翻转字符串 二、字符串中的第一个唯一字符 一、翻转字符串 344. 反转字符串 - 力扣&#xff08;LeetCode&#xff09; class Solution { public:void reverseString(vector<char>& s) {int start0;int end s.size()-1;while(start < end){swap(s[sta…

超详细!Jmeter性能测试

前言 性能测试是一个全栈工程师/架构师必会的技能之一&#xff0c;只有学会性能测试&#xff0c;才能根据得到的测试报告进行分析&#xff0c;找到系统性能的瓶颈所在&#xff0c;而这也是优化架构设计中重要的依据。 测试流程&#xff1a; 需求分析→环境搭建→测试计划→脚…

安装使用 StableDiffusionWebUI

安装使用 StableDiffusionWebUI 1 什么是 StableDiffusionWebUI2 如何完美运行 StableDiffusionWebUI 1 什么是 StableDiffusionWebUI StableDiffusion 并不是一个真正意义上的软件&#xff0c;它是由 Github 上一位叫 automatic1111 的开发者将 StableDiffusion 的源代码做了一…

Go语言入门:从零开始的快速指南(一)

文章目录 引言Go语言的诞生背景Go 语言的特性安装Go语言环境集成开发环境安装第一个Go程序Go 源代码的特征解读 引言 Go语言&#xff08;也称为Golang&#xff09;是一种开源的、静态类型的编程语言&#xff0c;由Google开发。它的设计目标是简单、高效、安全、并且易于学习和…

使用 Docker Compose 部署 Redis Cluster 集群,轻松搭建高可用分布式缓存

Redis Cluster&#xff08;Redis 集群&#xff09;是 Redis 分布式解决方案的一部分&#xff0c;它旨在提供高可用性、高性能和横向扩展的功能。Redis Cluster 能够将多个 Redis 节点组合成一个分布式集群&#xff0c;实现数据分片和负载均衡&#xff0c;从而确保在大规模应用场…

Nacos 下载安装教程

文章目录 事先准备下载并启动 Nacos设置 Nacos 开机自启动开放 Linux 外部访问权限访问 Nacos 管理界面附录 笔者的运行环境&#xff1a; 安装成功过的 Nacos&#xff1a; Nacos 2.2.3 安装成功过的 Java&#xff1a; Java 17.0.7 安装成功过的 Linux&#xff1a; RedHat Ent…

学习Node.js的基础知识和核心概念(全面)

Node.js&#xff0c;这个神奇的技术&#xff0c;融合了前端与后端的力量&#xff0c;让JavaScript在服务器端发挥了异乎寻常的魔力。本文将通过代码和文字解释&#xff0c;全面介绍Node.js的特点&#xff0c;从异步非阻塞I/O到强大的模块系统&#xff0c;再到丰富的包管理和事件…

计算机软件著作权登记申请表-模板

计算机软件著作权登记申请表 软件基本信息 软件全称 Xxxxx软件 软件简称&#xff08;如无则不填&#xff09; 分类号 说明:在附件图1-计算机软件分类代码表中提供的分类编号选择填写 计算机软件分类代码&#xff08;单选&#xff09; 30104 计算机软件适用的国民经济代…

C++学习day--17 二级指针、数组指针、指针数组

1、二级指针 二级指针的定义&#xff1a; 二级指针也是一个普通的指针变量&#xff0c;只是它里面保存的值是另外一个一级指针的地址 int guizi1 888; int *guizi2 &guizi1; //1 级指针&#xff0c;保存 guizi1 的地址 int **liujian &guizi2; //2 级指针&a…

操作系统使用免密登录

服务器免密登录 背景 在工作中使用密码登录有时候会出现这样或者那样的不方便&#xff0c;一是密码要输入&#xff0c;如果明文输入则不安全&#xff0c;二则一旦修改密码要重新分发到有权限的小伙伴 场景 在之前的工作中有很多场景需要免密等登录&#xff0c;使用免密带来…

Lvs missing port问题实例

我正在「拾陆楼」和朋友们讨论有趣的话题,你⼀起来吧? 拾陆楼知识星球入口 LVS相关文章链接: LVS 流程 SVS 流程 LVS extract net方法

QMLDay2:圆角按钮,关联键盘左右键,鼠标点击。状态切换控制。

QMLDay2 test1 作用&#xff1a; 圆角按钮&#xff0c;关联键盘左右键&#xff0c;鼠标点击。状态切换控制。 代码&#xff1a; import QtQuick 2.15 import QtQuick.Window 2.15 import QtQuick.Controls 2.15Window {width: 640height: 480visible: truecolor: "wh…

H.265/HEVC 速率控制

文章目录 速率控制视频编码速率控制速率控制的基本原理缓冲机制速率控制技术 H.265/HEVC 速率控制1. 目标比特分配2. 量化参数确定 速率控制 目前实际的视频编码率失真优化过程包括两部分&#xff1a;速率控制部分将视频序列分成编码单元&#xff0c;考虑编码单元的相关性通过…

C#,数值计算——t-分布(Student distribution)的计算方法与源程序

在概率论和统计学中&#xff0c;学生t-分布&#xff08;Students t-distribution&#xff09;经常应用在对呈正态分布的总体的均值进行估计。它是对两个样本均值差异进行显著性测试的学生t测定的基础。t检定改进了Z检定&#xff08;en:Z-test&#xff09;&#xff0c;不论样本数…

【PyQt实现复现框CheckBox】

PyQt实现复现框CheckBox 1 安装环境2 CtrlN&#xff0c;新建Main Window窗口&#xff0c;保存为checkBox.ui文件3 CheckBox的三种状态4 实现通用复选框的选中状态设置用户权限功能 1 安装环境 1&#xff09;Python环境安装PyQt5、PyQt-sip、PyQt5Designer、PyQt5-tools 2&…

【搜索】BFS中的最短路模型

算法提高课笔记 目录 单源最短路迷宫问题题意思路代码 武士风度的牛题意思路代码 抓住那头牛题意思路代码 多源最短路矩阵距离题意思路代码 双端队列BFS电路维修题意思路代码&#xff08;加了注释&#xff09; BFS可以解决边权为1的最短路问题&#xff0c;下面是相关例题 单源…