语雀P0级时间爆发,留给运维的时间不多了?

news2024/9/20 18:27:53

事件背景

打工人的焦虑,已经延伸到在线文档了。近日,语雀P0级故障想必大家都有所体会,宕机近8小时,笔记、离线同步完全不可用。作为用户尤其担心我的文档资料是否会因此消失。

这泼天的8小时,放眼互联网界也是相当炸裂的。

从次日的故障处理通报可知,团队在收到运维监控系统报警后,定位故障根因来自于新的运维升级工具中的一个致命bug,该bug带来了一系列严重的影响。更深层次的问题在于高可用架构体系的设计、运维流程,以及项目规范的不完善。

教训是个体的,经验是共享的。语雀表示:作为一款千万级用户的在线文档,应该做到更完善的技术风险保障和高可用架构设计,尤其是面向技术变更操作的“可监控,可灰度,可回滚”的系统化建设和流程审计,从同 Region 多副本容灾升级为两地三中心的高可用能力,设计足够的数据和系统冗余实现快速恢复,并进行定期的容灾应急演练。

如何提升运维效率,保障系统的稳定运维,故障如何才能快速恢复,并从根本上避免此类故障再次出现才是运维的核心要义。

一、不断完善监控系统

「无监控,不运维」,监控系统的地位不言而喻。监控什么,能发挥什么价值,结合LinkSLA智能运维管家进一步阐述。

1、实时采集监控数据

包括硬件、操作系统、中间件、应用程序等各个维度的数据。实时掌握瞬息万变的复杂的业务系统,对业务的健康稳定有着极其重要的价值。

2、实时反馈监控状态

通过对采集的数据进行多维度统计和可视化展示,能实时体现监控对象的状态是正常还是异常。

3、预知故障和告警

能够提前预知故障风险,并及时发出告警信息。

4、辅助定位故障

提供故障发生时的各项指标数据,辅助故障分析和定位。

5、辅助性能调优

为性能调优提供数据支持,比如慢SQL分析与优化,接口响应时间等。

6、辅助容量规划

为服务器、中间件以及应用集群的容量规划提供数据支撑。例如看似简单的空间增长问题,实际检查起来非常费时费力,很多用户会过滤掉,不愿为这种小事每天做例行检查。通过AI机器学习算法,进行趋势性监测分析,提前一周告知客户,做好空间规划与清理。

二、更有效地使用监控系统

在故障复盘时,有没有做监控?监控是否及时?监控信息是否有助于快速定位问题?这三个问题一定会被追问。可见有监控系统还远远不够,如何用好才是关键。

1、统一部署,全链路监控

将分散监控实现集中统一的监控管理,建立统一的事件管理体系,对告警严重等级设定标准、规范事件处理流程,提高运维效率。通过可视化大屏,可全面直观地掌握业务系统及IT资源运行状态。

2、趋势预测,提前预知

清楚使用哪些指标来刻画监控对象的状态,比如对某个接口进行监控,可以采用请求量、耗时、超时量、异常量等指标来衡量。

机器学习算法通过数据分析趋势变化,对未来趋势进行预测,自动调整阈值,提前对故障进行响应,实现告警收敛、异常监测, 辅助运维人员聚焦关键故障信息,极大程度地提高运维效率。

3、设定合理的报警阈值和等级

达到什么阈值需要告警?对应的故障等级是多少?

传统运维依赖人工和静态规则,无法适应动态复杂变化的场景。LinkSLA智能运维可基于历史数据,利用智能算法深度学习,对未来时间段的数值精准预测,将预测值作为基线,更贴近用户使用场景。

告警分为5个等级,对应的处理方式也不同。MOC在线值守工程师根据告警等级,选择在线处理或沟通现场工程师进行处理,确保问题得到及时响应。

三、 完善的故障处理流程

1、快速恢复——应急预案很重要

应急方案很重要,故障处理第一原则是快速恢复。系统恢复运行足够快,就不会造成太大影响。一个合格的应急方案,要包含系统、服务、辅助工具等方面。如系统或上下游出现问题,知道如何配合上下游分析问题;服务上如日志、程序、配置文件在哪里,如何检查服务是否正常,如何重启服务,如何调整应用级参数等。知晓这个服务影响什么业务;辅助工具上如何使用自动化工具辅助分析并应急。这就要求运维人员熟悉系统逻辑,架构部署,应用作用,端口,服务等级的应急处理。

2、告警要及时、准确 

故障处理的时效性,关键在于是否及时发现故障,是否及时处理故障。这两点的前提还在于告警是否准确。如果运维监控平台产生大量的错误、重复、无效告警,则大大降低了运维的效率,浪费大量的精力和成本处理这些无效告警。

试用2个月的用户表示  “告警减少了65%,MTTR减少了30%”大大的节约了公司处理告警的时间成本和风险。戳👇

仅用2个月,告警减少65%,这家公司做对什么?

3、完善故障处理流程 

在日常的运维场景中,普遍存在2个问题。一是无法时刻关注系统的告警情况,其次是遇到告警问题不知该如何处理。MOC工程师7*24值守解决系统关注问题,固化ITIL流程,当系统出现故障报警后会对报警信息进行筛选,对于高危报警能第一时间通知客户,并提供技术支持。这一点大大降低用户的系统风险和人力成本的投入,解决告警处理问题。

在故障处理案例中,从问题的发现到解除,只用了15分钟。戳👇

案例分享|从发现到处理,15分钟故障解决

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1153638.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

重生奇迹MU的三大知名宝石

一、祝福宝石 祝福宝石也是重生奇迹中的一种知名宝石,它的体积要比玛雅宝石大一些,颜色是一种粉色,呈菱形的一个多面体,掉在地上或是鼠标移上去,你就能看到“祝福宝石”这几个字样。 如果你打到祝福宝石的话&#xf…

记录微调chatglm3

用于记录chatglm3的过程,防止忘记 需要注意的 可以使用xtuner -h查看有哪些功能可以使用。 [2023-10-31 11:40:18,643] [INFO] [real_accelerator.py:158:get_accelerator] Setting ds_accelerator to cuda (auto detect) 10/31 11:40:22 - mmengine - INFO - Ar…

在Windows上安装Elasticsearch-8.x.x

前言 Elasticsearch 是一种流行的开源搜索和分析引擎,它提供了强大的全文搜索和实时数据分析功能,被广泛应用于各种领域,包括大数据分析、日志处理、企业搜索等。 一、下载 Elasticsearch 官方网站(https://www.elastic.co/dow…

R语言在生态环境领域中的实践技术应用

R语言作为新兴的统计软件,以开源、自由、免费等特点风靡全球。生态环境领域研究内容广泛,数据常多样而复杂。利用R语言进行多元统计分析,从复杂的现象中发现规律、探索机制正是R的优势。为此,以鱼类、昆虫、水文、地形等多样化的生…

Django开发实例总结(入门级、4.2.6、详细)

目录 概述 Django的核心组件包括 Django的项目结构 创建工程(4.2.6) 实例一:Hello world 实例二:访问一个自定义主页 实例三:通过登录跳转到主页 实例四:主页添加静态文件,包含js、css、…

学习Python,为什么可以轻松应对工作大小事?

Python,大名鼎鼎,它在工作中到底能发挥什么样的作用?在现代职场,Python如同一把瑰丽的多功能钥匙,能打开各行各业的大门。无论你是行政助手、财务分析师、电商经营者,还是数据研究员,Python都能…

pychram中cmd已导入docx库仍报错ModuleNotFoundError: No module named ‘docx‘

已经在cmd里pip install python-docx了,但是执行py文件时依然报错,解决方式是在File-Setting-Python Interpreter中点击号,搜索python-docx点击install package等待安装成功再执行文件就不会报错了。

SkyWalking官方文档-1-概述

概述 SkyWalking是一个开源的可观测平台,用于收集,分析,聚合,以及可视化处理来自服务和云原生框架的数据。SkyWalking提供了一种简单的方法来维护分布式系统的清晰视图,即使是跨云。 它是一种现代APM,专门…

手机app爬虫配置(模拟机)

近期在做某个项目,涉及到需要对手机app的进行数据爬取。 下面将讲述具体配置步骤 1、安装手机模拟器 在百度上搜索手机模拟器就可以啦,这里以夜神模拟器夜神安卓模拟器-安卓模拟器电脑版下载_安卓手游模拟器_手机模拟器_官网为例子。 下载后,直接点击安装即可。 2、安装…

多模态对比语言图像预训练CLIP:打破语言与视觉的界限

项目设计集合(人工智能方向):助力新人快速实战掌握技能、自主完成项目设计升级,提升自身的硬实力(不仅限NLP、知识图谱、计算机视觉等领域):汇总有意义的项目设计集合,助力新人快速实…

美国人工智能政策公布

美国总统拜登 30 号上午发布了一项关于人工智能(AI)的行政命令(EO)。该行政命令最初以白宫情况说明书的形式向公众提供,“为人工智能安全和安保制定了新标准,保护美国人的隐私,促进公平和公民权…

【C++指针】类的指针

/*** file * author jUicE_g2R(qq:3406291309) * brief 类的指针* copyright 2023.10* COPYRIGHT 原创学习笔记:转载需获得博主本人同意,且需标明转载源* language C*/1 类 类 类 需要在 . h 文件 .h文件 .h文件 先声明 //…

MyBatis批量插入数据优化,新增参数大幅提升操作效率

项目中进行接口压测,发现批量插入的速度有点超出预期,感觉很奇怪,经过定位后发现mybatise-plus批量保存的处理十分缓慢,使用的是saveBatch方法,这点有点想不通。于是就进行了相关内容分析。 根据mybatise-plus中saveB…

ecplise中导入或更新项目之后出现的jsp文件一直显示红叉

解决办法:右键---build path或者properties中找java build path 先检查项目本身的jre版本是不是不与你本身的加热版本相同,如果不相同,则选中这个jre Systemlibrary -----右边有一个remove删除点。。。 (2)重新添加一…

(自适应手机端)厨师招聘信息发布类网站模板

(自适应手机端)厨师招聘信息发布类网站模板 PbootCMS内核开发的网站模板,该模板适用于信息发布网站等企业,当然其他行业也可以做,只需要把文字图片换成其他行业的即可; 自适应手机端,同一个后台,数据即时同…

chatgpt中文翻译英文

chatgpt中文翻译英文 chatgpt很适合用于将翻译英文,在英文论文写作上,日常翻译任务都有很大帮助。 使用方法 给出下面这段话: 下面我让你来充当翻译家,你的目标是把中文翻译成英文,请翻译时不要带翻译腔&#xff0c…

灯串上亚马逊加拿大合规标准CSA认证如何办理?

灯串 灯串和配件都是插头连接的便携式、临时性商品,最大额定输入电压为 120 伏。 本政策适用于季节性照明、装饰性灯具以及灯串。 亚马逊灯串政策 根据亚马逊的要求,所有季节性和装饰性灯串均应经过检测,并且遵守下列法规、标准和要求&…

【数电知识点_2023.10.28】

数制与码制 十进制转二进制 8 bits 1 Byte 2|12 //121100自下而上 商为0为止 2|_ 6_…0 2|_ 3_…0 2|1…1 0…1 0.375 //0.3750.011自上而下 小数点为0为止 x 2 ———— 0.75…0 x 2 ———— 1.5…1 x 2 ———— 1…1 BCD码:每4位二进制表示一位十进制 8421…

装修怎么快速除甲醛 房间装修除装修异味方法

装修怎么快速除甲醛 房间装修除装修异味方法 甲醛问题在装修中引起关注,装修房子是每个家庭都会经历的事情,而甲醛污染也是其中的一个难题。甲醛是一种有害物质,对人体健康造成严重影响,尤其对婴幼儿更为敏感。在装修过程中&#…

从零开始学习PX4源码0(固件下载及编译)

目录 文章目录 目录摘要1.重点学习网址2.固件下载1.下载最新版本固件2.下载之前版本固件 摘要 本节主要记录从零开始学习PX4源码1(固件下载)的过程,欢迎批评指正!!! 下载固件主要分为两个版本,之前稳定版本和最新官网…