1.盘点事故
8月19日,网易云音乐「崩了」,网页端报错,App 无法使用,什么原因?你那受影响了吗?
一次更新,一串代码,全球宕机。7月19日下午发生了全球范围内的Windows大面积蓝屏事件!美国网络安全龙头企业CrowdStrike一次失败的软件更新,给全球无数微软Windows系统用户搅了个不得安宁。
07月02日10:04分,阿里云又挂了!上海可用区N出现网络访问异常!B站App无法使用浏览历史关注等内容,消息界面、更新界面、客服界面均不可用,用户也无法评论和发弹幕,视频评论区和用户(UP主)主页都无法加载…
2.无端的猜测
争对这次的网易云崩了,传言程序员删库跑路,一下子热度攀升,甚至甩锅给数据库,更有提到是裁员裁到大动脉导致!最终根据官方的告知是因基础设施故障,导致网易云音乐各端无法正常!
走在漆黑的小路上总想找点光 哪怕那是一滩深水的反光,这些不假思索脱口而出的猜测,大都是刀枪剑影的语言暴力。既要有赤子之心,还能够明察秋毫,这是很难的境界了!就像前段时间体育“饭圈文化”引发的粉群之争。水云间,半梦半醒,半清半浊,这些故障背后的根因究竟是什么?不得而至,我想只有运维商才有最权威的发声!
听到不少对国产数据库的吐槽,可能每次类似的大故障,大家都会关联到国产数据库,在中国这片土地上,现在到底有多少家数据库创业公司,有多少种产品,我想肯定是数不清楚的。这里面到底又有几个可以做到拳打Oracle,脚踢DB2?
数据库的国产化意味着中国能够自主掌握关键技术,特别是在数据安全和主权方面具有重要意义。
OceanBase、GaussDB、TiDB、达梦、海量等一些国产数据库也加大研发力度,请大家相信国产化数据库,因为这里有很多志同道合的奋斗者一直在努力,从未放弃!
3.用户的期待
其实用户一直在等待,事后故障复盘权威报告,可事实是只有恢复之后的告知!今天看了下网上大家的第一反应都是这么大的公司怎么还会出这样的问题?
反思这个问题出现其背后的原因是什么?毕竟这么大的公司,应急预案肯定是有的,补救措施肯定也是相对完善,为什么还会造成这么大的后果?难道高可用真的形同虚设?
解决“IT系统稳定性工作很难被认可”的难题,一个好办法,就是在每次意外事件后,就撰写并公布领导和用户都能看懂的避坑指南。让他们了解稳定性工作所面临的挑战和价值。“ 很多做过稳定性这事的人都知道,做这个事情最麻烦的是很难被认可,做的好,不出问题,不懂的人不知道你做了什么,出了问题的时候觉得你到底做了什么,所以会看到很多公司都是运动式的做稳定性,一阵一阵的。
用户为什么这么迫切的期待复盘报告呢?复盘报告详细描述了处理过程、服务影响、问题分析与改进措施,并提供中文简体、繁体、英文三种版本,能让人重新树立阿里工程师可以更好地应对未来故障的信心。对软件系统生产事故复盘报告越保密,开发人员对自己能应对软件系统稳定性故障就越没信心!