语雀P0级故障复盘,有9个字亮了

news2025/4/21 10:34:35

大家好,我是洋子

最近语雀不是出了个号称 “载入史册” 的 P0 级事故嘛 —— 连续宕机接近8个小时无法使用,作为一个大厂知名产品,这个修复速度属实让人无法理解

故障公告原文:https://mp.weixin.qq.com/s/WFLLU8R4bmiqv6OGa-QMcw

很快,官方就发布了《故障公告》。有一说一,这个公告写得还是挺不错的,按照时间线梳理出了各时间节点的处理过程

  • 14:07 数据存储运维团队收到监控系统报警,定位到原因是存储在升级中因新的运维工具 bug 导致节点机器下线;
  • 14:15 联系硬件团队尝试将下线机器重新上线;
  • 15:00 确认因存储系统使用的机器类别较老,无法直接操作上线,立即调整恢复方案为从备份系统中恢复存储数据;
  • 15:10 开始新建存储系统,从备份中开始恢复数据,由于语雀数据量庞大,此过程历时较长;
  • 19:00 完成数据恢复,同时为保障数据完整性,在完成恢复后,用时 2 个小时进行数据校验;
  • 21:00 存储系统通过完整性校验,开始和语雀团队联调。
  • 22:00 恢复语雀全部服务,用户所有数据均未丢失。

在这里插入图片描述
在改进措施一栏中,先不说具备两地三中心的高可用能力,洋子发现了9个核心关键字可监控,可灰度,可回滚,可以说是维持系统可用性的最基本的保命措施

先举个例子,讲一下这三种能力的用处

可灰度

将系统的新版本全量部署给所有用户之前,先仅对一小部分用户进行试用。这样可以通过收集这部分用户的反馈和监控数据就能评估新版本的稳定性,并及时进行调整和修复,从而减少对全体用户的潜在风险。

灰度发布又有很多策略。比如经典的按流量阶段性发布,先随机给 5% 的用户使用新版本,验证没问题后,再给 20%、50%、75% 的用户使用新版本逐渐放量,直到覆盖 100% 的用户。

还有很多策略,列举几个常见的:

1)按照用户的业务属性灰度,比如 VIP 用户先用、老用户先用。

2)按人群灰度,比如特定地域、特定年龄、特定偏好、特定客户端的用户。

3)按渠道灰度,比如通过某平台注册的用户先体验等等。

灰度做的好,可以避免很多线上问题,及时控制影响。因此很多知名产品发布时都会采用灰度或者内测的策略,这也就是为什么有些同学能第一时间体验到微信新功能,有些同学却没有

可监控

可监控是指能够实时地收集和展示系统运行时的数据和指标,以便开发和运维同学可以及时发现系统问题、更快进行故障排查和性能调优。需要监控的信息可以包括系统性能指标(内存、CPU、带宽等)、业务日志、错误信息等。

可回滚

线上系统出现问题时,可以将已经部署的新版本回退到之前的稳定版本。这样做可以快速恢复系统,减少对用户的影响,并给开发同学足够的时间来排查和修复问题

如果我们的系统具备这样的能力,按照一般的研发测试流程,在我们测试完成测试后,如果是服务端,则进入上线阶段,如果是客户端,则进入发版阶段。在上线和发版阶段,一般来说都是需要先进去一个小流量的范围,先影响一小部分用户,若期间测试验证没有问题,则扩大范围,直到全量,这就是灰度发布的意思,如果灰度期间有监控报警,则可以及时回滚止损,回退到线上的历史版本,避免影响线上用户

如果我们的系统不具备这样的灰度的能力,一方面只能一次性推全新版本,看起来省了不少事,但一旦出现问题,影响线上的全部用户。如果没有监控,出现问题后,我们无法第一时间及时感知,只能被动等着线上用户来反馈问题。如果没有回滚能力,有Bug只能等着再次上线修复,也会拉长造成影响的时间

语雀作为阿里旗下的产品,有千万级用户的体量,内部不应该没有这样的监控平台、灰度发布和部署管理平台,总之令人匪夷所思,另外这次Bug的原因是由于运维工具有Bug,是否经过充分的测试?该不会又有个小同学背锅了

最后,面对这样超级严重的事故,我想说一定要牢记,先止损!先止损!语雀给的赔偿方案还是比较有诚意的,直接给六个月会员,用语雀的小伙伴可以去领取了
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1136822.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【算法设计】贪心算法设计——均分纸牌、线段覆盖问题(C++实现)

创作不易,本篇文章如果帮助到了你,还请点赞 关注支持一下♡>𖥦<)!! 主页专栏有更多知识,如有疑问欢迎大家指正讨论,共同进步! 更多算法分析与设计知识专栏:算法分析🔥 给大家跳段街舞感谢支持!ጿ ኈ ቼ ዽ ጿ ኈ ቼ ዽ ጿ ኈ ቼ ዽ ጿ ኈ ቼ ዽ ጿ ኈ ቼ 目录…

私藏小技巧:让微信朋友圈营销方便化的小窍门!

微信&#xff0c;这个拥有十亿用户的社交软件&#xff0c;已经成为生活中不可或缺的一部分。 而朋友圈&#xff0c;这个微信的基础功能&#xff0c;是聚宝盆&#xff0c;也是一切流量的尽头。 现在公域&#xff0b;私域的流量增长变现体系很火。朋友圈是一切公域流量的尽头&a…

智能硬件适配测试

泽众云测试的智能硬件适配测试&#xff0c;帮助客户解决测试能力和资源问题&#xff0c;提升产品质量、规避产品风险、增加产品竞争力。智能硬件测试通过蓝牙、网络和音频接口等连接方式与手机终端连接&#xff0c;通过兼容性、功能性、连接稳定性、数据同步性测试场景&#xf…

QWEN technical report

通义千问-Qwen技术报告细节分享 - 知乎写在前面大家好&#xff0c;我是刘聪NLP。 阿里在很早前就开源了Qwen-7B模型&#xff0c;但不知道为什么又下架了。就在昨天阿里又开源了Qwen-14B模型&#xff08;原来的7B模型也放出来了&#xff09;&#xff0c;同时还放出了Qwen的技术报…

[CMakeLists]cmake设置堆栈保留大小

MATH(EXPR stack_size "100*1024*1024") set(CMAKE_EXE_LINKER_FLAGS "-Wl,--stack,${stack_size}") 其中100*1024*1024是100MB的大小。 如果是在VS里面写代码则可以按照下图设置&#xff1a;

问题:anaconda的bin和envs目录莫名奇妙消失!

这个命令不是我输入的&#xff0c;在此之后&#xff0c;anaconda的bin目录就找不到了&#xff0c;conda也无法使用&#xff0c;上面命令中的文件也并没有。很奇怪。 为什么为什么为什么&#xff0c;真奇怪。

跨境出口亚马逊美国和加拿大市场水基灭火器UL测试报告审核解析

水基灭火器&#xff08;Foam extinguisher&#xff09;&#xff0c;为绿色外观的灭火器&#xff0c;其灭火器机理为物理性灭火器原理&#xff0c;其主要成分包括碳氢表面活性剂、氟碳表面活性剂、阻燃剂和助剂等。水基灭火器出口需办理UL测试报告。 消防及其他安全用品 本政策…

UE4/UE5 设置widget中text的字体Outline

想要在蓝图中控制Widget 中的 text字体&#xff0c;对字体outline参数进行设置。 但是蓝图中无法直接获取设置outline参数的方法&#xff1a; 没有outline相关的蓝图函数 该参数本身是在Font类别下的扩展&#xff0c;所以只要获取设置Font参数即可进行outline的设置 text连出…

分享一下在微信小程序里怎么添加储值卡功能

在微信小程序中添加储值卡功能&#xff0c;可以让消费者更加便捷地管理和使用储值卡&#xff0c;同时也能增加商家的销售收入。下面是一篇关于如何在微信小程序中添加储值卡功能的软文。 标题&#xff1a;微信小程序添加储值卡功能&#xff0c;便捷与高效并存 随着科技的不断发…

负载均衡策略 LVS

一、集群功能分类 1、LB (1) 概念&#xff1a; LB&#xff1a;负载均衡 (Load Balancing) 是一种分发网络流量的技术&#xff0c;LB 负载均衡的基本原理是将传入的网络流量分发到多个后端服务器&#xff0c;以确保这些服务器都承担相似的工作负载&#xff0c;从而避免某一台…

【CSS】CSS 属性计算过程

1. 概述 我们所书写的任何一个 HTML 元素&#xff0c;实际上都有完整的一整套 CSS 样式。如果没有修改某样式&#xff0c;大概率可能使用默认值。 例如&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"&…

笔记本Win10系统一键重装系统教程

在Win10笔记本电脑中&#xff0c;用户发现系统出现了崩溃、卡顿等问题&#xff0c;这时候就可以重新安装系统。新安装的系统会更稳定流畅&#xff0c;可以带来更好的操作体验&#xff0c;如果您不知道具体的重装操作步骤&#xff0c;那么就可以参考下面小编分享的笔记本Win10系…

Real- Time Rendering-图形渲染管线(The graphics rendering pipeline)

1、图像渲染管线描述的是什么 图像渲染管线的主要功能是决定在给定虚拟相机&#xff0c;三维物体&#xff0c;光源&#xff0c;照明模式以及纹理等诸多条件的情况下&#xff0c;生成或者绘制一幅二维图像的过程。 渲染图像的位置&#xff0c;形状是由他们的几何形状&#xff0c…

使用GoQuery实现头条新闻采集

概述 在本文中&#xff0c;我们将介绍如何使用Go语言和GoQuery库实现一个简单的爬虫程序&#xff0c;用于抓取头条新闻的网页内容。我们还将使用爬虫代理服务&#xff0c;提高爬虫程序的性能和安全性。我们将使用多线程技术&#xff0c;提高采集效率。最后&#xff0c;我们将展…

火锅食材店配送小程序商城的作用是什么

每个城市中都有大量火锅店、自助转转店&#xff0c;当然还包括个人在家中涮菜&#xff0c;其对火锅食材的需求量非常高&#xff0c;而在市场中也有很多专营店或超市经营&#xff0c;行业中也不乏头部品牌。 对火锅食材店来说&#xff0c;长期经营及生意好的因素除了食品新鲜质…

移动端之Unity嵌入Android项目开发

目录 前言1 搭建开发环境2 创建Unity项目 2.1 新建项目2.2 Unity构建配置2.3 Android环境相关配置2.4 导出Unity库文件3 创建Android项目 3.1 新建Android项目3.2 Android环境相关配置3.2 导入Unity相关的库3.3 Android中跳转到Unity视图4 进阶扩展 4.1 包体积优化 4.1.1 mono…

Babylonjs学习笔记(六)——贴图的使用

书接上回&#xff0c;这里讨论贴图的运用&#xff01;&#xff01;&#xff01; // 创建球网格const ball MeshBuilder.CreateSphere(ball,{diameter:1},scene)ball.position new Vector3(0,1,0)// 创建PRB材质const ballMat new PBRMaterial(pbr,scene)// albedoTexture 反…

通过实例理解Go Web身份认证的几种方式

在2023年Q1 Go官方用户调查报告[1]中&#xff0c;API/RPC services、Websites/web services都位于使用Go开发的应用类别的头部(如下图)&#xff1a; 我个人使用Go开发已很多年&#xff0c;但一直从事底层基础设施、分布式中间件等方向&#xff0c;Web应用开发领域涉及较少&…

14 结构性模式-适配器模式

1 适配器模式介绍 适配器模式(adapter pattern )的原始定义是&#xff1a;将类的接口转换为客户期望的另一个接口&#xff0c;适配器可以让不兼容的两个类一起协同工作。 2 适配器模式原理 3 适配器模式应用实例 /*** SD卡接口**/ public interface SDCard {//读取SD卡Strin…

【Docker】什么是Docker?看这一篇干货文章就够了!

目录 前言 容器技术的起源 容器技术 vs 虚拟机 什么是容器 什么是docker 如何使用docker docker的底层实现 总结 前言 Docker 是一个开源的应用容器引擎&#xff0c;让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中&#xff0c;然后发布到任何流行的 Linux或…