作者:苍何,前大厂高级 Java 工程师,阿里云专家博主,CSDN 2023 年 实力新星,土木转码,现任部门技术 leader,专注于互联网技术分享,职场经验分享。
🔥热门文章推荐:
- (1)对程序员来说,技术能力和业务逻辑哪个更重要?
- (2)搭建GitHub免费个人网站(详细教程)
- (3)itchat实现微信聊天机器人
- (4)嗖嗖移动业务大厅(源码下载+注释全 值得收藏)
大家好,我是苍何。今天「阿里云崩了」登上了热搜,与之相关的一系列话题如「淘宝又崩了」、「闲鱼崩了」、「钉钉崩了」也相继登上热搜。
继上次程序员节语雀产品全面崩溃之后,还没到一个月,又出现如此罕见 P0 事件。简直「活久见」。
下面就此次故障做个详细描述,以及普及下云产品对现代软件服务的影响。
根据 TechWeb 的报道,2023年11月12日下午,阿里巴巴系列产品包括阿里云盘、淘宝、闲鱼、钉钉等出现了访问故障。阿里云从 **17:44 **开始监控到云产品控制台访问和 API 调用出现异常,并迅速由工程师介入排查。到 17:50,阿里云确认故障原因与某个底层服务组件有关。接着,在 18:54,杭州、北京等地区的控制台及 API 服务已经恢复,其他地区也在逐步恢复。到 19:20,绝大部分地区的控制台及API服务通过分批重启组件服务后已恢复。最后在 20:12,北京、杭州等地区的消息队列MQ 已经完成重启,其余地区也在逐步恢复中。
使用阿里云服务的 api 都挂了,鉴于阿里云是国内市场占有率最高的云服务平台,此次影响范围之广,带来的连锁反应也将会影响整个行业。
有网友更是神评「害得学校洗澡 app 都挂了」,哈哈哈!
我也赶紧去看了下自家部署在阿里云上的产品,还好阿里云工程师抢救及时,实际并未给我们造成什么损失,但对于很多公司线上业务的影响还是蛮大的。
目前阿里云官方并未通报关于事件的具体原因,但从其简单描述的故障原因来看,很可能与底层服务组件有关,一个组件的小故障可能会引发广泛的服务中断。而底层服务组件挂,上层的应用及 api 也会受到影响,进而导致产品全面崩溃。
不出所料,这次语雀又没能幸免于难。
还好,我这个时间正在开车去车站接我妹妹,并没再一次「亲临事故现场」。
这次事件,我们看到还是很多应用程序和服务对集中化云平台的依赖,当云服务提供商经历中断时,可能会影响各种依赖服务和业务。
说起阿里云的历史,当年阿里主要的业务还是电子商务,后来因为生意越做越大,处理网上订单和数据变得很复杂。为了解决这个问题,他们在 2009 年创建了一个叫做阿里云的部门。阿里云就像一个巨大的网上仓库,帮助阿里巴巴存储信息和处理网上的买卖。
后来,阿里云不仅仅服务阿里巴巴自己,还帮助其他公司和人们在网上存东西、运行程序。现在,阿里云就像一个网上的大工厂,为很多不同的公司和业务提供动力。
云服务可以类比为电力供应。就像家里的电器需要电力一样,很多网站和应用程序需要云服务来提供存储空间和计算能力。当云服务出现故障,就像断电一样,依赖它的网站和应用程序就会无法正常工作。
这次阿里云服务的崩溃影响了多个应用,原因在于这些应用都像不同的电器一样,依赖于同一源头的“电力”(即阿里云服务)。一旦这个源头出现问题,所有依赖它的应用都会受到影响,就像一次大规模的停电。这就是为什么这次云服务的崩溃会导致如此多应用出现故障的原因。
这次的事件让人对阿里云或者整个云产品的稳定产生了些许质疑,确保系统稳定是云服务厂商重中之重,现在的云计算、云原生以及人工智能火爆下,更需要关注系统的稳定性。
同时,对于我们用户来说,万事还是留一手,即使是大型云服务平台也绝对不是万无一失的,尽量多元备份(定期备份数据到不同的地点或云服务提供商,以防单一服务出现问题),监控云服务性能,并做好灾难恢复方案。
评论区大家可说说自己的云产品是否有崩了?
创作不易,如果本文对你有帮助,欢迎点赞、收藏加关注,你的支持和鼓励,是我创作的最大动力。