在数字化转型、十四五规划的大背景 下,大规模上云、分布式的核心改造等“云化”逐渐走进企业。
但是,云化的发展,使企业系统的复杂度呈指数级增长,故障越来越多。
企业在数字化转型中拥抱云计算、 信创国产化、分布式核心等新技术,使企业系统的复杂度呈指数级增长,影响系统稳定。混沌工程被认为是检验、增强系统稳定性的不二选择。
于是,不少企业采用混沌工程提高系统稳定性。
为什么是混沌工程?
友嘉银行风波
最近,友嘉银行遭遇了一场大风波,银行信息系统发生了大规模宕机。不仅导致了网点断网,柜面无法为客户办理业务,同时用户在使用该银行APP转账时,APP无法响应,业务也办不了。
客户们很恐慌,钱丢没丢呀?
一时之间,舆论在社交平台上铺天盖地,迅速发酵,银行的声誉急转直下,很快引起了监管机构的注意。这次事件导致了经济损失,科技高管也受到了监管机构的处分。
事件发生后,领导职务发生调整,新上任的领导,痛定思痛,决定采用混沌工程来提升稳定性。
那混沌工程为友嘉银行带来了哪些好处呢?
1、强化系统抵御风险的能力
在平台丰富的混沌工程实验场景中,通过故障注入手段,对系统发起攻击并分析所带来的影响,实现风险识别。
2、强化监控的及时性、全面性
实验中发生的故障都可以很好的暴露监控告警的盲点,促进监控告警体系的完善。
3、提升应急处置的效率
混沌工程应急演练,能够验证应急预案的有效性,持续的混沌工程实验锻炼团队抵御故障的信心和熟练度,降低平均故障处理时间。
友嘉银行通过200个故障场景持续进行混沌工程实验,660多个测试用例,排除38项潜在技术风险,应急时间也从30分钟缩短到10分钟。
从那以后,友嘉银行系统稳定性显著提升,再也没有发生故障事件,新上任的领导也因此受到嘉奖。
公开资料中显示,国内中小银行业务每中断1小时,平均损失将高达1000万元以上。
而且除了经济的损失,还将伴随着组织机构声誉的损失、不良的社会舆情以及触发监管处罚。混沌工程价值毋庸置疑。
在这充满不确定性的“云”时代,如何帮助企业系统完成更多“确定性”工作?
混沌工程探索之路,将给我们带来更多确定性答案。