【送书活动】阿里云经历的历史级的大故障，能给我们什么启迪？

作为一个淘系出来的人，参加过声势浩大的S11、S2大促；也和阿里云数据库团队、内核团队等并肩作战过；更是手握过六七百万的预算支持阿里云的服务，更是他们的至尊群用户，得知此次重大故障后，也甚是惊讶。
从阿里云的角度看，这次故障很“不阿里云”，毕竟阿里云一向以安全稳定高可用自居，如此范围之大、持续时间之久、影响面如此广的故障，对阿里云的品牌形象绝对是致命的打击。

回顾
- 时间
- 影响
- - 阿里系产品集体崩溃
  - 受影响云产品
  - 受影响地区
  - 生活的方方面面
- 处理过程
- 原因
启迪
- 稳定性
- - 代码需要稳定性
  - 设计上需要稳定性
  - 迭代变更需要稳定性
  - 最重要的是人员需要稳定性
书籍推荐
- 书籍名称：《收割Offer互联网大厂面经》
- 内容介绍
- 适合人群
- 如何领书

回顾

时间

2023年11月12日17:39～19.20，故障时间为 1 小时 41 分。

影响

阿里系产品集体崩溃

双11当晚，淘宝曾有短暂宕机，但很快就过去了。但到了12日傍晚，阿里云突然出现事故，导致淘宝、闲鱼、钉钉、阿里云盘、饿了么、天猫精灵、菜鸟、夸克、语雀等，多个阿里系App出现无法访问或服务异常的情况。

阿里云崩了、淘宝崩了、闲鱼崩了、钉钉崩了等话题相继登上热搜。
在这里插入图片描述

受影响云产品

企业级分布式应用服务、消息队列MQ、微服务引擎、链路追踪、应用高可用服务、应用实时监控服务、Prometheus监控服务、消息服务、消息队列Kafka版、机器学习、图像搜索、智能推荐AlRec、智能开放搜索OpenSearch、云行情、数据总线DataHub、检索分析服务Elasticsearch版、图计算服务Graph Compute、实时计算Flink版、智能数据建设与治理Dataphin、开源大数据平台E-MapReduce、云原生大数据计算服务MaxCompute、实时数仓Hologres.大数据开发治理平台DataWorks、智能媒体服务、媒体处理、视频点播、对象存储、文件存储NAS、表格存储、日志服务、云存储网关、文件存储HDFS版、块存储、混合云备份服务、密钥管理服务、云防火墙、数据库审计、加密服务、运维安全中心(堡垒机)、容器镜像服务、容器服务Ku bernetes版、API 网关、资源编排、云原生数据仓库Analyti cDB PostgreSQL版、图数据库、云原生内存数据库Tair、云数据库Redis 版、云原生关系型数据库PolarDB、云数据库专属集群、云数据库MySQL版、云原生数据仓库AnalyticD B MySQL版、云原生分布式数据库PolarDB-X、云数据库 ClickHouse、云原生多模数据库L indorm、云数据库Postgr eSQL版、云数据库SQL Server 版、云数据库MongoDB版、云数据库HBase版、数据传输、数据库自治服务、数据库备份、物联网平台、NAT网关、负载均衡、云解析PrivateZone、弹性公网IP、共享带宽、转发路由器、私网连接、高速通道、IPv6网关、专有网络VPC、云企业网、VPN网关、FPGA云服务器、超级计算集群、批量计算、无影云桌面、弹性伸缩、弹性容器实例、弹性裸金属服务器、云服务器EC S、轻量应用服务器、函数计算、Serverless 应用引擎、云托付、专有宿主机、GPU云服务器、弹性高性能计算、操作审计、服务器迁移中心、运维编排、智能计算灵骏、云呼叫中心、交通云控平台、客服工作台、视觉智能开放平台、智能外呼机器人、智能语音交互、智能对话机器人、智能用户增长、运维事件中心、新零售智能助理。

在这里插入图片描述

受影响地区

在这里插入图片描述

生活的方方面面

比如，很多学校的学生不能使用宿舍里的洗衣机了，因为大部分学校里共享洗衣机的服务商的业务就跑在阿里云上。此外，还有很多很多人因此遭遇了无法使用直饮水机、无法给电瓶车充电、停车场停车杆抬不起来等问题。

处理过程

17:39：阿里云云产品控制台访问及管控 API 调用出现异常，阿里云工程师正在紧急介入排查。
17:50：工程师确认故障是 AK 服务异常导致，影响云产品控制台、管控 API 调用异常，以及依赖 AK 服务的云产品服务运行异常，工程师正在紧急处理中。
18:01：工程师定位到根因。
18:07：开始执行恢复措施，包括修订白名单版本、重启 AK 服务。
18:54 经过工程师处理，杭州、北京等地域控制台及API服务已恢复，其他地域控制台服务逐步恢复中。
19:20：工程师通过分批重启组件服务，绝大部分地域控制台及API服务已恢复。
19:43 异常管控服务组件均已完成重启，除个别云产品（如消息队列MQ、消息服务MNS）仍需处理，其余云产品控制台及API服务已恢复。
20:12 北京、杭州等地域消息队列MQ已完成重启，其余地域逐步恢复中。

原因

访问密钥服务 (AK）在读取白名单数据时出现读取异常，因处理读取异常的代码存在逻辑缺陷，生成了一份不完整白名单，导致不在此白名单中的有效请求失败，影响云产品控制台及管控 API 服务出现异常，同时部分依赖 AK 服务的产品因不完整的白名单出现部分服务运行异常。

启迪

网上对于此次阿里云事件议论纷纷，我也通过内部渠道了解了部分原因，可能这次冥冥之中是逃不掉故障的，因为听说稳定性已经很久没人提了。然而此次事故最大的原因，就是稳定性。

稳定性

记得之前每每大促，稳定性保障一词总是被提起，还有稳定性保障团队及负责人。但现在也被人遗忘了，在降本增效的今天深刻的证明了：杀头的生意有人做，亏本的买卖无人干。

稳定性难得真的不是技术，当业务研发上千，日迭代频繁，基础设施不计其数的各项对象及参数，牵一发而动全身，稳定性需要有团队，组织，文化，技术，管理等各类综合工具与人员来统一护航管理，对业务，对组织负责，不是简单的降本增效、人员迭代、工作交接，就可以搞定的！

代码需要稳定性

优秀的程序员的最大差别其实就是在代码的鲁棒性上

对边界的控制，确保输入是符合自己的预期的，而不只是设计文档上空洞的三言两语，例如最典型的故障是批量操作型的接口，由于批量操作的量超过了预期，直接内存溢出等；
对使用到的接口或工具充分了解（包括实现原理、代码细节），只有这样，才能知道各种情况下的状况，从而在真正出故障的情况下能快速处理；

设计上需要稳定性

设计上要尽量做到高内聚低耦合

强弱依赖识别，对弱依赖的地方，确保有各种降级策略；
自身能力保护，一定要对自己系统的能力有清晰的认识；
容灾能力，这个从集群化、到同城多活、再到异地多活，其实都有各种成熟的案例和相应的方案。

迭代变更需要稳定性

众所周知，出故障的时候，往往是做了一些改动，但又没考虑周全

一定要灰度，可以灰度测试，就能提前发现问题，解决问题，同时减少影响半径；
可监控，可回滚。可监控是为了及时发现问题；可回滚是变更一旦出问题，最好用的招；
有尽快恢复的兜底方案。在故障出现时尽快恢复，而不是解决故障，在保留一定的现场的基础上，尽快的恢复问题比查问题重要的多。

最重要的是人员需要稳定性

稳定性难在没有银弹，只能靠大量的细节来落地做好稳定性这个系统工程的事情，这意味着需要大量的投入，毕竟就算有指导思想、解决方案、能力，但没有相应的投入，那自然只能有一定的取舍，最终呢，总是要还的。

就像我们毕业群里校友调侃的

降本增效就是一个伪命题，总想着既让马儿跑又不让马儿吃草，这不是扯吗，都不懂鱼和熊掌不可兼得不出事才怪
阿里云高管的调整、业务团队的变动、一线员工的离开，以及精力的转移增加了不确定性，业务稳定性亦在降低。
维护一个复杂的中台需要大量专业的开发和运营人员，而阿里云今年的裁员对此或多或少产生了影响，另外，管理亦是因素之一。

书籍推荐

我们可能决定不了一直留在哪家公司，但我们可以选择去哪家公司，下面给大家推荐一本 《收割Offer互联网大厂面经》 ，来帮助大家找到更好的东家去做好稳定性保障！

书籍名称：《收割Offer互联网大厂面经》

对于后端程序员来说，这是一本让你获得大厂Offer的秘诀和宝典。
在这里插入图片描述

内容介绍

《收割Offer：互联网大厂面经》根据编者工作和面试经验，全面介绍了后端工程师求职面试需要掌握的知识和技能。主要内容分为五个部分：八股文、算法、场景设计题、项目和HR面试技巧。 八股文章节涵盖了后端面试必备的重要知识点，包括综合知识、数据库、Redis、RocketMQ、操作系统、计算机网络、Spring、ZooKeeper、Dubbo等。

HR面试技巧章节以与头部大厂HR访谈记录的形式向读者展示了HR面试内幕。本书的内容安排完全与面试要求匹配，根据历史经验，任何一场后端面试80%的问题都可以在本书中找到。阅读本书可以快速找到学习方向，树立求职信心，提高面试通过率。

适合人群

《收割Offer：互联网大厂面经》适合希望从事互联网后端开发的读者，包括参加校园招聘和社会招聘的求职者。此外，后端开发与测试开发的技能要求有很多共同点，因此，本书对于从事测试工作的读者也有较大参考价值。

在这里插入图片描述

如何领书

————————————————
本次本篇文章送书 🔥2-3本评论区抽2-3位小伙伴送书
活动时间：截止到 2023-11-25 20:00:00
抽奖方式：利用网络公开的在线抽奖工具进行抽奖
参与方式：关注、点赞、收藏，评论“人生苦短，给我offer"
根据文章阅读量的多少来安排送书的本数。
————————————————

🔥 注：活动结束后，会私信中奖粉丝的，各位注意查看私信哦！

小伙伴也可以访问链接进行自主购买哦~
直达京东购买链接：《收割Offer：互联网大厂面经》