优维全面可观测产品能力分解④:故障可观测

news2025/2/25 11:18:14

动图封面

《优维全面可观测产品能力分解》系列文章的第一篇,介绍了「架构可观测」是从系统架构的视角来呈现链路与服务的状态数据;第二篇介绍了「变更可观测」是从变更的角度看系统状态的变化,及与事件的关联关系;第三篇介绍了「应用服务可观测」是深入服务链路的调用情况,基于Trace来做请求级链路追踪,实现服务的横向可观测。下面内容为该系列文章的第四篇,主要分享「故障可观测」的能力。


2023年过去了,但是相信没多少技术人会特别怀念它。对于技术人来说,这是不平静的一年,尤其是各大公司萝卜蹲式的各种P0/P1故障,频繁占据了热搜榜单。例如:滴滴崩了、阿里云一个月两次服务中断、语雀服务器崩了、微信&QQ先后故障、唯品会故障超12小时......

互联网大厂“组团”故障,说明在如今这个充满不确定性和复杂性的数字化时代,哪怕是互联网大厂亦不能避免各种故障的发生。这无疑再次为广大企业与组织敲响警钟,即当数字化转型步入深水区,业务应用全面走向线上化和智能化之际,我们的业务系统连续性到底应该如何保障?

正如AWS CTO Wanner所言:“Everything fails, all the time。”我们需要接受任何时候故障都可能会发生,既然故障无法避免,那么需要做的就是预测什么时候出现故障、如何快速定位故障、发现故障原因,并确保业务连续性受到最小影响,将损失降到最低。

因此,企业数字化转型中缺少不了业务系统保障的“连续键”,实现故障可观测性的建设已成为企业数字化转型中的一道必答题。

1

系统保障不能没有“连续键”

业务连续性的保障是重中之重,企业与组织数字化转型的不断深入,业务全面走向数据驱动和智能化的同时,外部攻击、人为错误、运行故障、自然灾害等对业务连续性的影响日渐突出。业务一旦中断,损失往往是企业不能承受之重,业务系统保障已不能没有“连续键”。

不过,传统故障排查和处理过程正成为业务系统连续性的“拦路虎”。在多云架构、复杂业务和海量数据的趋势下,企业自身IT环境走向复杂化,传统故障排查和处理的过程普遍存在一些通病:

  • 经验主义缺陷:故障排查定位时,依赖运维经验,无法形成标准高效的故障定位方法;
  • 野路子方法论:故障处理过程没有标准化的处理方案,故障应急处理效率和质量不可控;
  • 故障跟进割裂:缺乏有效的故障跟进处理机制,无责任人,导致故障往往是临时解决,且没有得到最终解决;
  • 信息各自为政:缺乏统一的故障分析沟通的地方,沟通和分析的过程信息均散落各地,导致无法有效的分析统计,进而无法有效的治理。

基于对以上痛点的洞察,企业与组织需要升级全新的故障排查与处理的能力,实现业务系统的连续性管理。

2

优维「故障可观测」

为业务系统按下“连续键”

作为新一代运维核心系统提供商,得益于在可观测领域多年的实践,优维技术团队构建了更加精细与完善的可观测能力,尤其是在故障可观测能力的建设上全新升级,能第一时间呈现故障的根因,并能联动应急处置快速恢复。

优维「故障可观测」产品能力可做到故障的有效识别、跟进、快速定位、应急处理与分析总结,帮助企业减少故障带来的损失。

基于常见的故障场景提供智能分析,「故障可观测」帮助企业快速完成故障定位,减少服务故障带来的企业损失。基于特定的故障场景提供常见的故障处理预案,确保服务快速恢复。还提供标准化故障处理流程和统一的故障处理作战室,确保责任到位,提高沟通效率,最终形成故障处理规范。

产品功能

就观测能力而言,优维「故障可观测」具体表现在“故障工单”和“故障根因分析”两大功能层面,助力企业高效进行故障排查与处理,确保系统稳定性与连续性。

故障工单的能力特色在于:其一是与优维ITSM的工单处理进行联动,支持团队更好管理故障,提高故障响应速度;其二是关联告警轨迹追踪,即故障发生后,通过告警轨迹追踪,及时了解告警的变化,且可按阶段查看告警的状态;其三是同源故障关联,即已知故障解决后,会自动关掉相关的故障单,避免不同的运维小组重复报障,减少沟通成本,提高故障处理效率。其四是对接应急预案,在故障发生后,可快速响应,进行应急决策,根据应急预案进行故障的处置与恢复。

另外,我们知道,故障的症状是最先发现的,而导致故障的原因才是最终排除故障的关键。因此,「故障可观测」的另外一大功能-故障根因分析,首先让用户及时了解服务的传播轨迹,再通过横纵向综合分析,将服务上下游及支撑服务的基础设施纳入到整个故障分析的链路中,再结合告警、变更、高负载等事件进行全面分析,实现故障的深度诊断,快速定位故障根因,并清晰地给出关键性结论,更加方便企业去做分析和判断。

3

故障可观测的场景价值

  1. 故障定位:作为运维人员,皆希望通过故障定位工具或智能分析快速完成故障根因分析,以便于制定后续恢复方案。「故障可观测」可使运维人员不依赖个人运维经验,快速完成故障定位。
  2. 故障处理:「故障可观测」可帮助运维人员迅速恢复服务可用性,彻底解决故障源头。
  3. 建设故障处理的标准流程:提供标准化故障处理流程,协助故障处理时各个角色的工作可高效开展。特别是作为运维平台负责人,针对已解决完的同类型故障进行归纳总结后,可制定故障处理的标准流程规范,确保不同的运维人员对同一类故障的处理是标准可控

系统故障不应该成为企业的负担。优维希望通过全新升级的故障可观测能力来改变过去传统的故障排查与处理,并从容应对各种不确定性,为企业的业务和系统保驾护航。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1477685.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

配置资源管理Secret

目录 一、什么是Secret? 二、secret的三种类型 三、pod适用secret的三种方式 四、secret实例 1、创建secret 2、使用Secret方式 一、什么是Secret? Secret 是用来保存密码、token、密钥等敏感数据的 k8s 资源,目的是为了更方便的控制使用数据,并…

MWC 2024丨移远通信全新Wi-Fi 7和蓝牙5.4模组组合,为PC提供巅峰无线连接体验

2月26日,在MWC 2024展会期间,全球领先的物联网整体解决方案供应商移远通信对外宣布,其已正式推出新型Wi-Fi 7和蓝牙5.4二合一模组NCM8x5系列。该系列产品专为个人电脑(PC)无线连接场景设计,具有低延时、超高…

python 中常用的热门库介绍

阅读本文之前请参阅-----如何系统的自学python Python 是一种非常流行的编程语言,它的一个主要优势是拥有一个庞大的生态系统,其中包括许多强大的库。这些库为各种任务提供了解决方案,从数据分析到机器学习,从网络爬虫到图像处理。…

【ArcPy】验证是否存在

实例展示 代码 import arcpy def script_tool(param0, param1,param2):if arcpy.Exists(param0):arcpy.AddMessage("图层存在");if arcpy.Exists(param0):arcpy.AddMessage("工作空间存在");if arcpy.Exists(param0):arcpy.AddMessage("要素存在&quo…

蓝桥杯-灌溉

参考了大佬的解题思路&#xff0c;先遍历一次花园&#xff0c;找到所有的水源坐标&#xff0c;把它们存入 “水源坐标清单” 数组内&#xff0c;再读取数组里的水源坐标进行扩散。 #include <iostream> using namespace std; int main() {int n,m,t,r,c,k,ans0,list_i0;…

编写科技项目验收测试报告需要注意什么?第三方验收测试多少钱?

科技项目验收测试是一个非常重要的环节&#xff0c;它对于确保科技项目的质量和可用性起着至关重要的作用。在项目完成后&#xff0c;进行科技项目验收测试可以评估项目的功能、性能和可靠性等方面&#xff0c;并生成科技项目验收测试报告&#xff0c;以提供给项目的相关方参考…

C语言数据结构基础-单链表

1.链表概念 在前面的学习中&#xff0c;我们知道了线性表&#xff0c;其中逻辑结构与物理结构都连续的叫顺序表&#xff0c;那么&#xff1a; 链表是⼀种物理存储结构上⾮连续、⾮顺序的存储结构&#xff0c;数据元素的逻辑顺序是通过链表 中的指针链接次序实现的 。 2.链表组…

力扣550 游戏玩法分析 IV

目录 题目描述 思路整理 1. 首次登录日期 2. 第二天登录 3. 计算比率 实现思路 完整代码及解释 题目描述 Table: Activity ----------------------- | Column Name | Type | ----------------------- | player_id | int | | device_id | int | | ev…

ICVQUANTUMCHINA报告:《2024全球量子计算产业发展展望》

2月20日&#xff0c;《2024量子计算产业发展展望》的中文版报告通过光子盒官方平台发布&#xff0c;英文版报告通过ICV官方平台发布。 英文版报告获取地址&#xff1a; https://www.icvtank.com/newsinfo/897610.html 在过去的一年里&#xff0c;光子盒与您一同见证了全球量子…

改进的yolo交通标志tt100k数据集目标检测(代码+原理+毕设可用)

YOLO TT100K: 基于YOLO训练的交通标志检测模型 在原始代码基础上&#xff1a; 修改数据加载类&#xff0c;支持CoCo格式&#xff08;使用cocoapi&#xff09;&#xff1b;修改数据增强&#xff1b;validation增加mAP计算&#xff1b;修改anchor&#xff1b; 注: 实验开启weig…

面试数据库篇(mysql)- 03MYSQL支持的存储引擎有哪些, 有什么区别

存储引擎就是存储数据、建立索引、更新/查询数据等技术的实现方式 。存储引擎是基于表的&#xff0c;而不是基于库的&#xff0c;所以存储引擎也可被称为表类型。 MySQL体系结构 连接层服务层引擎层存储层 存储引擎特点 InnoDB MYSQL支持的存储引擎有哪些, 有什么区别 ? my…

C++初阶:模版相关知识的进阶内容(非类型模板参数、类模板的特化、模板的分离编译)

结束了常用容器的介绍&#xff0c;今天继续模版内容的讲解&#xff1a; 文章目录 1.非类型模版参数2.模板的特化2.1模版特化引入和概念2.2函数模版特化2.3类模板特化2.3.1全特化2.3.1偏特化 3. 模板分离编译3.1分离编译概念3.2**模板的分离编译**分析原因 1.非类型模版参数 模板…

vulnhub-----Hackademic靶机

文章目录 1.C段扫描2.端口扫描3.服务扫描4.web分析5.sql注入6.目录扫描7.写马php反弹shell木马 8.反弹shell9.内核提权 1.C段扫描 kali:192.168.9.27 靶机&#xff1a;192.168.9.25 ┌──(root㉿kali)-[~] └─# arp-scan -l Interface: eth0,…

tinymce上传图片或者其他文件等等

技术选型 tips: tinymce在vue中常用的有两种方式 第一种: 官方组件,点我 优点: 不用自己封装组件 缺点: 需要申请特定apikey,类似于百度,高德地图; 第二种: 就是下面这种 优点: 不需要申请特定的apikey 缺点: 需要自己手动的封装组件,灵活性高 Vue 2.x和3.x基本没有区别 tinym…

《Redis 设计与实现》读书概要

注&#xff1a; 《Redis 设计与实现》一书基于 Redis 2.9 版本编写&#xff0c;部分内容已过时&#xff0c;过时之处本文会有所说明。本文为读书笔记&#xff0c;部分简单和日常使用较少的知识点未记录。原书网页版地址 https://redisbook.com/ 一、底层数据结构 SDS(Simple Dy…

dcat admin 自定义页面

自定义用户详情页 整体分为两部分&#xff1a;用户信息、tab框 用户信息采用自定义页面加载&#xff0c;controller代码如下&#xff1a; protected function detail($id) {return Show::make($id, GameUser::with(finance), function (Show $show) {// 这段就是加载自定义页面…

Window部署Jaeger

参考&#xff1a;windows安装使用jaeger链路追踪_windows安装jaeger-CSDN博客 下载&#xff1a;Releases jaegertracing/jaeger GitHub Jaeger – Download Jaeger 目录 1、安装nssm 2、安装运行 elasticsearch 3、安装运行 3.1部署JaegerAgent 3.2部署JaegerCollec…

MySQL 存储过程批量插入总结

功能需求背景&#xff1a;今天接到产品经理核心业务表的数据压测功能&#xff0c;让我向核心业务表插入百万级的业务量数据&#xff0c;我首先想到的办法就是存储过程实现数据的批量 。 由于无法提供核心业务表&#xff0c;本文仅仅提供我刚刚自己创建的表bds_base_user 表做相…

7-AMCA NHS ester,113721-87-2,可以将荧光基团特异性地连接到目标分子上

113721-87-2&#xff0c;7-AMCA NHS ester&#xff0c;AMCA-OSu&#xff0c;AMCA-NHS&#xff0c;AMCA N-succinimidyl ester&#xff0c;7-AMCA NHS 活化酯&#xff0c;7-氨基-4-甲基香豆素-3-乙酸 N-琥珀酰亚胺酯&#xff0c;可以将荧光基团特异性地连接到目标分子上 您好&a…

IDC 中搭建 Serverless 应用平台:通过 ACK One 和 Knative 玩转云资源

作者&#xff1a;元毅、庄宇 如何打造云上&#xff08;公共云&#xff09;、云下&#xff08;IDC 数据中心&#xff09;统一的云原生 Serverless 应用平台&#xff0c;首先我们来看一下 ChatGPT 4 会给出什么样的答案&#xff1a; 如何打造云上、云下统一的云原生 Serverless…