老杨说运维 | 基于业务全链路的端到端排障分析(文末附现场视频)

news2024/11/13 3:34:29

前言

青城山脚下的滔滔江水奔涌而过,承载着擎创一往无前的势头,共同去向未来。2024年6月,双态IT成都用户大会擎创科技“数智化可观测赋能双态运维”专场迎来了完满的收尾。

本期回顾来自擎创科技产品总监殷传旺的现场演讲:云原生时代,业务系统日益复杂,组件繁多架构凌乱,故障排查面临巨大挑战。在当今的这种境况下,基于业务全链路构建端到端的排障分析体系,通过关联分析、AI算法等技术手段,实现故障的快速发现、精准定位和自动化处置,能够大幅提升故障处理效率,保障业务连续性。

云原生、分布式虽然带来了更优雅的微服务架构,但也使其变得更为复杂,在面对指数级增长的单元数以及逐渐趋于动态化的变更行为,多数企业运维中心开始要求建设或升级相应的工具及方法论来把控局面。

一、业务全链路定义

原有的点状业务系统监控逐渐升级进化成面向链状的业务场景监控,可以将原本复杂的蜘蛛网式拓扑将拆分为简洁的业务场景拓扑及交易路径,使得指标检测可以基于交易链路将纵向和横向的监控结合起来,监控视角与业务视角保持一致,更快更准的完成故障定位,并能清晰的了解业务影响范围。

二 、建设目标

运维作为业务运营的后置保障,被期望于能够防范于未然,但故障总会发生、难以避免,所以最好是能够在第一时间发现故障并在最快的时间内完成故障定位一级故障恢复。

  • 1min-故障发现

实现多维指标联合告警,故障实时通知,辅助值班人员精准召集负责人处理故障。建设内容包括统一指标体系、指标关联分析、多指标告警、算法异常检测等;

  • 5min-故障定位

能够智能识别场景路径,提供故障根因推荐,通过调用链、日志、指标结合算法快速完成故障定位。建设内容包括路径分析、根因推荐、交易链路追踪、服务接口分析、日志指标分析、系统分析等;

  • 10min-故障恢复

可以有针对性的进行故障恢复,实现业务智能治理,做到热点故障回溯,聚类分析进行经验总结,形成处置预案为故障发现提供样本案例。建设内容包括故障隔离、熔断、限流、异常回归分析、变更验证等;

三、如何构建业务全链路

  • 兼容企业已有运维体系

从基础设施到云内外业务系统,一方面全面对接企业已有的数据源并支持多种格式的统一化处理分析,如来自Zabbix、Prometheus、Skywalking、eBPF、EFK等多维数据。

另一方面,通过One Agent兼容云内外的数据采集,根据业务需求自定义采集策略,将新数据按照治理规范统一维度并以对象为中心建设模型,为业务场景消费提供有效价值。

  • 链路数据接入

以两种重要方式接入,接入类型包括Trace、eBPF、BPC及日志,其中eBPF通过Hook内核函数,以非侵入性、安全且跨系统一致的方式收集遥测数据,来实现可观测性;而Agent接入则针对性能数据实现全面化采集,能快速定位跨系统调用的性能问题,二者能力存在互补可根据不同业务进行独立选择。

更多精彩内容,可戳以下现场视频观看

基于业务全链路的端到端排障分析

擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司专注于通过提升企业客户对运维数据的洞见能力,为运维降本增效,充分体现科技运维对业务运营的影响力

 行业龙头客户的共同选择

了解更多运维干货与行业前沿动态

可以右上角一键关注

我们是深耕智能运维领域近十年的

连续多年获Gartner推荐的AIOps标杆供应商

下期我们不见不散~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1861412.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

雨量传感器设备的监测控制和智慧运维

雨量传感器是一种用于测量降雨量的设备,它通常通过一些感应机制来检测雨水的数量或强度。雨量传感器在气象监测、农业、水利等领域有着广泛应用。 在气象领域,它能为天气预报和气候研究提供重要的数据支持;在农业方面,可以帮助农民…

从零开始如何学习人工智能?

我接触AI的时候,是在研一。那个时候AlphaGo战胜围棋世界冠军李世石是大新闻,人工智能第一次出现我面前,当时就想搞清楚背后的原理以及这些技术有什么作用。 就开始找资料,看视频。随着了解的深入,对AI的兴趣就越大。这…

【已解决】Python报错:AttributeError: module ‘json‘ has no attribute ‘loads‘

😎 作者介绍:我是程序员行者孙,一个热爱分享技术的制能工人。计算机本硕,人工制能研究生。公众号:AI Sun,视频号:AI-行者Sun 🎈 本文专栏:本文收录于《AI实战中的各种bug…

snakeyaml从1.x升级2.x的方案

一、背景 因公司漏洞扫描,发现SnakeYAML 反序列化漏洞(CVE-2022-1471),所以要求对SnakYaml进行升级。 因项目中未直接引用snakyaml包,经分析是springboot引用的这个包。但是在这个项目中,springboot用的版本是2.3.12.RELEASE版本…

Linux系统学习——指令四

Linux系统学习——指令四 Linux 系统学习——指令四查看文件MD5校验和fuser 指令基本语法常用选项访问类型使用示例 系统信息 Linux 系统学习——指令四 查看文件MD5校验和 在Linux中,你可以使用 md5sum 命令来查看一个文件的MD5校验和。以下是具体的操作方法&…

【C语言】解决C语言报错:Invalid Pointer

文章目录 简介什么是Invalid PointerInvalid Pointer的常见原因如何检测和调试Invalid Pointer解决Invalid Pointer的最佳实践详细实例解析示例1:未初始化的指针示例2:已释放的指针示例3:返回局部变量的指针示例4:野指针 进一步阅…

常见的结构型设计模式

设计模式(二) 常见的结构型模式 1.代理模式: 提供一种代理方法 ,来控制对其他对象的访问。在有些情况下,一个对象不能或者不适合直接访问另一个对象,而代理对象可以在这两个类之间起一个中介的作用。 举例&#xf…

Qt 实战(6)事件 | 6.1、事件机制

文章目录 一、事件1、基本概念2、事件描述3、事件循环4、事件分发4.1、QApplication::notify()4.2、QObject::event() 5、事件传递6、事件处理器 前言: Qt 框架中的事件机制(Event Mechanism)是一种核心功能,它允许应用程序以事件…

仓库管理系统04--创建业务逻辑

1、添加业务逻辑类 然后依次添加其他的类 2、创建所有DB操作的接口类 3、业务逻辑实现接口类 实现接口的客户类方法 using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks; using System.Xml.Linq;namespace…

Mybatis-Plus学习|快速入门CRUD、主键生成策略(雪花算法、主键自增等)、自动填充、乐观锁、分页插件、逻辑删除

MyBatisPlus概述 为什么要学习它呢?MyBatisPlus可以节省我们大量工作时间,所有的CRUD代码它都可以自动化完成! JPA、tk-mapper、MyBatisPlus 偷懒的! MyBatis-Plus(简称 MP)是一个 MyBatis 的增强工具,在 MyBatis 的基础上只做增强不做改变&#xff…

springboot网上商城系统-计算机毕业设计源码08789

摘 要 随着互联网趋势的到来,各行各业都在考虑利用互联网将自己推广出去,最好方式就是建立自己的互联网系统,并对其进行维护和管理。在现实运用中,应用软件的工作规则和开发步骤,采用Java技术建设网上商城系统。 本设…

WMS可以为制造企业解决什么问题?

在快速变化、高度竞争的制造业环境中,仓库不仅是储存物料的地方,更是企业运营的“心脏”。然而,随着业务的扩展和产品种类的增多,仓库管理变得越来越复杂,传统的管理方式已经难以满足现代企业的需求。这时,…

Verilog HDL语法入门系列(二):Verilog的语言文字规则

目录 1 空白符和注释2 整数常量和实数常量3 整数常量和实数常量4 字符串(string)5 格式符与转义符6 标识符(identifiers) 微信公众号获取更多FPGA相关源码: 1 空白符和注释 2 整数常量和实数常量 Verilog中,常量(literals)可是整数也可以是…

python根据excel的文件创建文件夹

这几天要整理一点文档,需要批量生成一些文件夹,(其实也可以进一步自动生成各种文档),用到了py的功能,在此记录一下。 1.准备工作 需要两个库支持openpyxl和os 安装 pip install openpyxl2.代码思路 打算…

通用创新点:坐标注意力机制!低成本下表现依旧SOTA

同学们,今天我们来聊聊坐标注意力。 坐标注意力是一种非常高效的注意力机制,它通过将位置信息嵌入到通道注意力中,轻轻松松就能提高轻量级网络的性能。 这一机制的核心在于其创新的结构和对位置信息的精确捕捉能力,允许模型在强…

缓存双写一致性(笔记)

缓存更新方案 旁路缓存模式 这是比较多的 旁路缓存模式:缓存有就返回,没有数据库查询,放入缓存返回。 还有些常用缓存策略 读穿透模式 读穿透和旁路很相似,程序不需要关注从哪里读取数据,它只需要从缓存查询数据。…

机器学习-保存模型并根据模型进行预测 python demo

文章目录 前言机器学习-保存模型,根据模型进行预测python demo1. 将我们创建的线性回归模型保存到本地2. 利用我们保存的模型进行房价预测 demo2. 利用我们保存的模型生成对应的预测线性图 demo 前言 如果您觉得有用的话,记得给博主点个赞,评…

LLM大语言模型-AI大模型全面介绍

简介: 大语言模型(LLM)是深度学习的产物,包含数十亿至数万亿参数,通过大规模数据训练,能处理多种自然语言任务。LLM基于Transformer架构,利用多头注意力机制处理长距离依赖,经过预训…

一个土木工程专业背景的开发者,讲述开源带给他的力量

在前段时间我们举办的“TDengine Open Day”第一季技术沙龙中,TDengine 应用研发高级工程师谭雪峰进行的“开源之路:程序员的成长与探索”主题分享获得了众多参会者的好评。谭雪峰从自身独特的职业发展经历出发,分享了自己在开源领域的种种收…

DM达梦数据库字符串函数整理

💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 💝&#x1f49…