语雀 P0 事故复盘,这 9 个字亮了!

news2024/11/25 12:40:21

大家好,我是鱼皮。

最近语雀不是出了个号称 “载入史册” 的 P0 级事故嘛 —— 连续宕机 7 个多小时无法使用,作为一个大厂知名产品,这个修复速度属实让人无法理解。要命的是我们公司的知识库也是放在语雀上的,导致那天下午大家摸鱼很愉快。

很快,官方就发布了《故障公告》。有一说一,这个公告写得还是挺不错的,时间线梳理的很清楚。而且起码没有把责任归咎于 “网络原因”,还以为又是某个地区的网线被挖断了呢。

故障公告原文:https://mp.weixin.qq.com/s/WFLLU8R4bmiqv6OGa-QMcw

也有同学看了的语雀故障公告文章,发现改进措施这一段中提到了 “可监控,可灰度,可回滚” 这 9 个字,我觉得这确实是全文的核心亮点了,把事故复盘总结地很精辟。

但是这 9 个字到底是什么意思呢?鱼皮给大家解读一下。

如何保证系统发布的稳定性?

首先,这几点都是企业正式线上项目需要重点关注的能力,所以大家在校自学时一般是很少能接触到的。

但如果你知道并实践过这些,前途不可限量啊!

可监控

可监控是指能够实时地收集和展示系统运行时的数据和指标,以便开发和运维同学可以及时发现系统问题、更快进行故障排查和性能调优。需要监控的信息可以包括系统性能指标(内存、CPU、带宽等)、业务日志、错误信息等。

还有一个与之相关的术语 “可观测性”,就是指一个系统状态对开发维护者的透明程度。举个例子,我不需要每次打开服务器看日志或者用什么 jmap 命令分析 gc,而是直接通过一个面板整体查看系统的状态,甚至是自动提示问题和解决方案。

AIOps 智能运维也是现在很流行的一种技术,用 AI 帮忙运维诊断系统,大大提高开发运维效率。

可灰度

指灰度发布能力(又叫金丝雀发布)。将系统的新版本全量部署给所有用户之前,先仅对一小部分用户进行试用。这样可以通过收集这部分用户的反馈和监控数据就能评估新版本的稳定性,并及时进行调整和修复,从而减少对全体用户的潜在风险。

灰度发布又有很多策略。比如经典的按流量阶段性发布,先随机给 5% 的用户使用新版本,验证没问题后,再给 20%、50%、75% 的用户使用新版本逐渐放量,直到覆盖 100% 的用户。

还有很多策略,列举几个常见的:

1)按照用户的业务属性灰度,比如 VIP 用户先用、老用户先用。

2)按人群灰度,比如特定地域、特定年龄、特定偏好、特定客户端的用户。

3)按渠道灰度,比如通过某平台注册的用户先体验等等。

灰度做的好,可以避免很多线上问题,及时控制影响。因此很多知名产品发布时都会采用灰度或者内测的策略,这也就是为什么有些同学能第一时间体验到微信新功能,有些同学却没有。

可回滚

就像 Git 版本控制系统回滚写错的代码一样,系统的版本也是可以回滚的。

线上系统出现问题时,可以将已经部署的新版本回退到之前的稳定版本。这样做可以快速恢复系统,减少对用户的影响,并给开发同学足够的时间来排查和修复问题。而不是线上一直故障,每分钟都是损失。

最后

咱也不是阿里内部的同学,说实话我不相信阿里内部没有统一的监控平台、灰度发布和部署管理平台。估计是部门自治或者人员不规范的操作导致的吧。(毕竟一个实习生说不定就能干崩一家公司)

总之,上面讲的这些特性都是为了在软件开发和发布过程中提高系统的稳定性、可靠性和可维护性。

想要实践上面这几点其实也很简单,直接用微信云托管平台就好了。我之前直播时录制过一套微信云托管的实践教程,大家如果需要的话,可以评论 “需要教程” 让我看看大家对这方面的需求,有必要的话回头给大家发出来~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1219731.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C语法学习】26 - strcat()函数

文章目录 1 函数原型2 参数3 返回值4 使用说明5 示例5.1 示例1 1 函数原型 strcat():将src指向的字符串拼接在dest指向的字符串末尾,函数原型如下: char *strcat(char *dest, const char *src);2 参数 strcat()函数有两个参数src和dest&am…

现货黄金休市时间长不长?科普一下交易时间

先告诉你答案,现货黄金市场每天的交易时间很长,因为它全天的盘面是由亚洲、欧洲和北美时间无缝地连接而成,无论投资者身处何方,通过哪里的平台入市,每天基本上都可以享受到连续20多个小时的行情。 只要投资者有足够的精…

如何下载到正确版本的Steam?正确使用实现多开搬砖不被封号

各位游戏玩家们,你们是否也曾因为无法在Steam平台上正常下载游戏而感到烦恼呢?盗版问题已经严重影响了Steam的用户体验,也给玩家们带来了不必要的经济损失。但是,作为玩家,我们需要更多的方法来区分正版和盗版&#xf…

【送书活动】阿里云经历的历史级的大故障,能给我们什么启迪?

作为一个淘系出来的人,参加过声势浩大的S11、S2大促;也和阿里云数据库团队、内核团队等并肩作战过;更是手握过六七百万的预算支持阿里云的服务,更是他们的至尊群用户,得知此次重大故障后,也甚是惊讶。 从阿…

【23真题】难!985难度第一梯队!

今天分享的是23年华南理工大学811的信号与系统试题及解析 本套试卷难度分析:22年华南理工大学811考研真题,我也发布过,若有需要,戳这里自取!本套试题难度中等偏上,只有十道大题,考察大家的综合…

MyBatis整合Spring Boot扫描Mapper相关配置

MyBatis是一款 Java 平台的优秀数据库映射框架,支持 XML 定义或注解,免除了几乎所有的 JDBC 代码以及设置参数和获取结果集的工作。 针对 Spring 提供 Mapper 扫描注解: 集成 Spring Boot 时,可以通过 MapperScan 注解&#xff0…

纯前端模板文件下载如何精确控制下载的文件名字

在写项目的时候,遇到了一个需要把给定的文件放到页面中,然后用户点击下载按钮将这个文件下载下来,我将其存入了云服务之中(这个云服务是不会清空的,内存又不值几个钱),但是当我下载的时候,下载的文件名是存…

Java读取本地文件

import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.IOException;public class Main {public static void main(String[] args) {String filePath "C:/Users/admin/Desktop/知识点记录.md";// 创建一个文件对象File f…

【MySQL8】1130 - Host *** is not allowed to connect to this MySOL server

问题描述 使用 Navicat 连接 MySQL8 报错: 1130 - Host *** is not allowed to connect to this MySOL server解决方案 use mysql;select host ,user from user; -- 将 root 用户的主机(host)值修改为 %,即允许从任何主机连接 …

navigator.geolocation.getCurrentPosition在谷歌浏览器不执行的问题

/*** 获取我的位置*/getNavigatorLocation: function () {navigator.geolocation.getCurrentPosition(function (success) {console.log(inner>>>, success);if (success && success.coords) {var data success.coords;var point "POINT(" data.…

Web前后端漏洞分析与防御

第1章 课程介绍 试看2 节 | 15分钟 介绍安全问题在web开发中的重要性,并对课程整体进行介绍 收起列表 视频: 1-1 Web安全课程介绍 (09:24) 试看 视频: 1-2 项目总览 (04:47) 第2章 环境搭建2 节 | 26分钟 本章节我们会搭建项目所需要的环境 …

两种常用的找到现货白银目标位的方法

在现货白银交易中,会买的不算厉害,会卖的人才能让利润真正的落袋为安。这里的“买”和“卖”指的不是买入和卖出,而是开仓和平仓。今天我们就来讨论一下,我们怎么样才能懂得“卖”,应该在哪里设置“卖”,也…

freeRTOS--软件定时器

一、什么是定时器: 简单可以理解为闹钟,到达指定一段时间后,就会响铃。STM32 芯片自带硬件定时器,精度较高、达到定时时间后会触发中断,也可以生成 PWM 、输入捕获、输出比较,等等,功能强大&am…

STM32GPIO——上拉下拉电阻、施密特触发器、P-MOS/N-MOS管

图1和图2 两种版本的GPIO基本结构图 如上两个图所示,标号2都为上拉、下拉电阻部分,阻值约为30k~50k欧,通过对应开关进行控制,开关由寄存器控制。 当引脚外部的器件没有干扰引脚的电压时,即没有外部的上、下拉电压&a…

springboot 2.1.0.RELEASE 项目加入swagger接口文档

Release v2.1.0.RELEASE spring-projects/spring-boot GitHub springboot 2.1.0.RELEASE发行日期是2018年10月30日(Oct 30, 2018) 不要使用过高的swagger版本,如SpringFox Boot Starter 3.0.0,否则报错: spring-…

Java学习之路 —— 多线程

文章目录 1. 线程创建方式1.1 继承Thread1.2 声明一个实现Runnable接口的类1.3 利用Callable接口、FutureTask类来实现 2. 线程同步2.1 同步代码块2.2 同步方法2.3 Lock锁 3. 线程同步4. 线程池 1. 线程创建方式 1.1 继承Thread 定义子类,继承Thread,创…

Vue指令修饰符、v-bind、v-model、computed计算属性、watch侦听器

前言 持续学习总结输出中,Vue指令修饰符、v-bind、v-model、computed计算属性、watch侦听器 一、指令修饰符 1.什么是指令修饰符? 所谓指令修饰符就是通过“.”指明一些指令后缀 ,不同的后缀封装了不同的处理操作 —> 简化代码 2.按键…

玩具、儿童用品、儿童服装上亚马逊TEMU平台CPC认证办理

CPC认证是Childrens Product Certificate的简称,即儿童产品证书。它是美国强制性法规CPSIA要求的一部分,该法规主要针对12岁及以下儿童使用的产品,如玩具、儿童用品、儿童服装等。 一、儿童小汽车CPC测试项目可能会因产品标准和法规的不同而…

开关电源测试之输出暂态响应测试标准及方法详解

暂态响应是指在接收到输入信号后,输出信号在短时间内产生的变化。开关电源输出暂态响应测试是为了检测输出负载快速变化时,输出电压跟随变动的稳定性。 开关电源输出暂态响应怎么测试? 测试目的:测试S.M.P.S.输出负载快速变化时&a…

中小型企业内网搭建

某中小型公司客户提出网络比较单一整体都在一个大的广播域中,AP无线的SSID有很多个,包括一些小的无线路由器散发出来的信号,用起来网络不太稳定,并且AP的SSID要分开,办公室只有单个SSID,不允许出现其他的&a…