老杨说运维 | AIOps如何助力实现全面可观测性(下)

news2024/9/23 3:29:35

上期我们讲到可观测性是什么,以及它能给企业带来的价值,

戳→「老杨说运维 | AIOps如何助力实现全面可观测性(上)」一键回看上期精彩内容。

说完了什么是可观测性,这期我们来看看可观测性是如何落地实践的。

一、可观测性的建设实践

如前文提到,建设基于AIOps的全面可观测性需要能对四大运维支柱数据进行基本处理(如清洗,提取,聚合等),而后关联融合(如通过标签传递,CMDB同步等),再实现简单功能场景(如指标异常检测,多维分析,告警收敛等),最终通过可视化引擎将其编排成贴合运维事务中的综合场景,如“紧急处置”,“复盘分析”等。建设可观测性,从总体上来讲也是为了对运维全流程进行监测和追踪,对应用运行风险实行全面管控。

 

1.可观测的数据采集及管理

四大支柱数据的传统分析工具往往各自孤立,但是所采集的源头,也就是被监控对象却是相同的。根据大多数企业中的实战经验往往分为五层,依次为“业务-应用-软件服务-基础资源-基础环境”,这五层的数据采集方式往往有很大差异。

首先,以业务端数据的采集为例,一般指的是业务交易的数据,典型的就是交易日志,一般分为落盘的文件采集和不落盘的流推送消费。通过对交易日志进行清洗,提取以及聚合统计,可将其持久化成经典的黄金三指标(业务成功率,交易量和平均响应时长),而交易日志本生也可串联为追踪数据,对业务进行端到端的观察。

再者,对于基础资源的数据,需要对常用的操作系统日志(诸如message,syslog等)做收集,对“算、存、传”的资源指标进行采集,通常数据源会来自于zabbix或Prometheus,最终通过数据中台的流式处理持久化为资源指标,而在CMDB侧最重要的运维主数据,目前多会利用系统代理的发现能力,将主机和以及其上运行的软件服务进行闭环管理。

 

一般来说对于大型金融机构,如上的运维数据处理链条会有数百上千,这就需要对整个链条的管理和编排都要能做到可观测才能心里有底。

可观测性前期阶段,很多数据处理工作都是需要人工来完成,而对于多维的数据来源以及复杂的数据关系处理,需要一个集中的数据平台或数据中台来支撑。同时应该能以非常低的成本实现数据的处理,包括对数据的编排、调试以及发布等操作。降低数据准备的成本,提升数据处理的效率,为分析场景做好数据支撑。

 

2.场景化分析

在可观测的场景化分析过程中,还是要遵从自顶向下的分析逻辑。首先要对整体的业务运行状态以及应用健康状态进行监测。包括业务健康墙、应用健康概览以及报告中心等不同展示方式。

关注应用的核心指标以及实时运行状态。当出现问题时(实时告警)可快速切换至异常处理的流程中。

通过告警自动降噪以及收敛的能力,能够快速对问题场景化,指导问题的分析路径,实现面向业务的主动式告警。

有了指标化的数据可进一步探索关联及下钻的问题。通过不同的角度观测告警,如个性化定制工作台,告警全生命周期追踪,拓扑时序融合分析等。通过交易链路分析进行时序回溯寻找根因事件,结合链路分析锁定问题的源头和错误内容。

对于发现到的问题可以总结归纳,从指标、日志等分析维度进行验证。

从日志中可以按日志模式进行异常检测,从而更早地发现异常问题;对于指标的变化可通过学习历史数据规律规划容量并预测变化趋势。

 

3.构建可观测的决策体系

运维自动化和智能化的大趋势中,系统可观测性是建设的基础一环,完善的可观测体系可以帮助我们屏蔽系统的复杂性,使系统整体的运行状态清晰可见,在故障防御和排查方面发挥巨大的作用。

同时我们在进行可观测的体系建设时,一定要注意以服务决策为导向。一方面事前做好各方面的监控,分层次,找关联;另一方面在观测到问题后应该能够快速评估问题影响,收敛问题并找到根因。在整个分析的过程中不断积累总结经验,持续优化到可观测体系中。

二、可观测性的用户收益

建设基于AIOps的全面可观测性的用户收益总结为以下四点:

  • 快速根因定位

基于AIOps的全面可观测性能够帮助运维人员快速发现故障的原因。通过排障信息的集中共享,全局可视化,能够减少跨部门沟通协调的时间。

  • 降低运营成本

实时监控和预测能力会得到大幅提升,降低业务损失可能性。能够智能优化业务和资源的配比关系,有效节约运维投入的人力成本。

  • 激活数据价值

能够从业务视角智能分析运维数据,洞悉业务价值,优化运营决策。

  • 提升IT运营效能

平均排障时间能够缩短至分钟级,可以达到10倍以上提升数据处理效能。

*本文部分内容来源于“双态IT联盟” 


擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。

行业龙头客户的共同选择

更多运维思路与案例持续更新中,敬请期待~

随手点关注,更新不迷路~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/188274.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

若依配置教程(五)数据权限的使用及配置

文章目录一、Controller模块二、Mapper.xml三、在Impl服务层加入权限注解四、分配数据权限若依文档 学会了前几篇文章如何新建模块和生成代码,这篇接下来介绍数据权限的配置和使用: 首先,在建立数据库表的时候,必须要添加user_id…

深入理解spring三级缓存解决循环依赖的设计思路

说到这个话题的时候,很多人再熟悉不过了,因为听到太多了,而且百度一大堆,但是理解到什么程度了呢,或者说只是知道这回事,但是为什么这样设计,代码中有什么可以借鉴的,在实际业务中有…

Jmeter和JDK下载安装及环境变量配置详细教程

写在最前面的话,jmeter安装部署依赖java环境,所以得安装JDK java环境检查 命令行输入:java -version 如果出现以下内容,说明java环境已安装,无需理会,如果没有,需要安装JDK 一、下载并安装JDK…

PSP模拟器截图CG的高清化-Waifu2x

由PSP游戏本体提取CG图片直接超分自然是比较舒服的,但实际上因了加密等诸多问题,甚或不如直接模拟器截了图进行处理来得方便 1. 模拟器设置 如果要截图的话,自然是以得到更好的效果为宜,于是可以对模拟器进行一些基本的设置。 对…

Java两大工具库:Commons和Guava(3)

您好,我是湘王,这是我的CSDN博客。值此新春佳节,我给您拜年啦~祝您在新的一年中所求皆所愿,所行皆坦途,展宏“兔”,有钱“兔”,多喜乐,常安宁!虽然Apache Com…

【33】C语言 | 联合体详解

目录 1、联合类型的定义 2、联合的特点 3、联合大小的计算 1、联合类型的定义 联合也是一种特殊的自定义类型这种类型定义的变量也包含一系列的成员,特征是这些成员公用同一块空间《所以联合也叫共用体)先看下面代码输出什么? union Un {char c;int …

我用css3为好友胡歌的宝宝做了一个动画照片墙

软件人生风雨十年,仙剑一过去也有十年有余了,和胡歌认识那么久,今日喜闻好友胡歌生宝宝的消息,惊喜之余用css3为胡歌的宝宝做了动画照片墙的模板效果。 目录 1. 实现思路 2. 墙体的实现 3. 选取模板素材,进行图片元…

虹科案例 | 石油天然气行业CFD高性能计算解决方案

公司简介 DNV GL 是全球领先的能源、石油和海事行业风险管理及资产绩效提升的软件供应商,主要为客户提供全面的风险管理和各类评估认证服务,认证涉及信息通信技术、汽车及航空天、食品与饮料、医疗等方面。 DNV GL以让世界更安全、更智能、更环保为使命…

随笔记——MQ

文章目录1、 概要2、 为什么使用MQ/使用MQ的好处?3、 使用MQ的缺点?4、 使用MQ会产生的问题及解决办法?4.1、如何保证消息的顺序性?4.2、如何解决消息被重复消费?4.3、如何解决消息丢失?4.4、如何解决消息积…

基于turtle实现的新冠疫情传播模拟 附完整代码可直接运行

代码运行视频参考:https://www.bilibili.com/video/BV1hR4y1h7Te/?spm_id_from=333.999.0.0&vd_source=8f3cf4ad6c08a40d40ca6809c9c9e8ca 高阶版运行结果展示

基于Android的家校互动系统app

需求信息: 功能需求: 1:发通知、发作业 发通知和发作业,是学校教师特有的功能,教师可以通过平台进行通知和作业的发放,每当发一条信息,该班的所有人员便可以收到来自服务器的信息推送,提醒家长打…

经济下行压力下的销售行业,将数据效益最大化方能立于不败之地

2022年9月,世界经济论坛发布《首席经济学家展望》报告,并指出“当前每10位经济学家中,就有7位认为全球经济发生了一定程度的衰退。” 在整体下行的经济环境中,由于销售人员会获悉客户削减预算,推迟采购,或…

mysql服务nginx和firewalld代理实现

文章目录环境准备nginx代理mysql服务linux防火墙实现mysql流量转发工作中常常遇到只有某个特定服务器才能访问数据库的情况,这个时候为了解决团队同时访问数据库的问题可以采用nginx代理和linux防火墙流量转发的方式解决。实战测试如下:环境准备 准备一…

做题关键点--位操作符

x |(x1)去掉从右开始的第一个0 a^a0,异或遵循交换律,即只要存在偶数个a,这部分结果为0. a^0a 与0异或为本身 寻找奇数_牛客题霸_牛客网 不用加减乘除做加法_牛客题霸_牛客网 二进制进行加法运算时与十进制的思路是…

Qt之QtConcurrent无需使用低级线程原语编写多线程

几个要点: 通过QtConcurrent::run()返回的QFuture不支持取消、暂停,返回的QFuture只能用于查询函数的运行/完成状态和返回值。 请注意:该函数可能不会立即运行; 函数只有在线程可用时才会运行。 导入模块 在 C API changes 有关于 Qt Concu…

Linux常用命令——rename命令

在线Linux命令查询工具(http://www.lzltool.com/LinuxCommand) rename 用字符串替换的方式批量改变文件名 补充说明 rename命令用字符串替换的方式批量改变文件名。 语法 rename(参数)参数 原字符串:将文件名需要替换的字符串; 目标字符串&#x…

GuLi商城-人人开源搭建前端项目

人人开源: 下载到本地并解压: VsCode打开解压好的项目: MAC安装Nodejs,略 参考:MAC(m1)-安装Nodejs_ZHOU_VIP的博客-CSDN博客 MAC打开终端: npm install类似maven下载所有的组件 报错: 解…

Vue基础10之插件、scoped与lang的样式

Vue基础10插件scoped与lang样式scopedlang样式安装lessless样式的使用总结插件 plugins.js: export default {install(Vue){console.log("Vue:",Vue)//全局过滤器Vue.filter(mySlice,function (value){return value.slice(0,5)})//定义全局指令Vue.directive(fbind,…

【数据结构】8.6 基数排序

文章目录基数排序定义基数排序算法基数排序算法分析基数排序定义 前述的各类排序方法都是建立在关键字啊比较的基础上,而分配类排序不需要比较关键字的大小,它是根据关键字中各位的值,通过对待排序记录进行若干趟分配与收集来实现排序的&…

微信小程序 Springboot卫生应急培训报名系统java

本文以微信开发者、Springboot框架、java为开发技术,实现了一个卫生应急培训小程序。卫生应急培训小程序的主要使用者分为管理员服务端和用户客户端,其中管理员服务端权限:首页、个人中心、用户管理、通知公告管理、在线学习管理、培训管理、…