如何从“监控”到“可观测性”?

news2025/1/12 18:07:25

什么是可观测性?

可观测性(Observability)是一种通过系统产生的输出数据(如日志、指标和链路追踪)来衡量当前系统运行状态的能力,其源于现代应用系统的复杂性和分布式架构,这些应用系统往往由大量的服务器、容器、微服务等组成,部署在云端或混合云环境中。在这种情况下,传统的手动日志分析和故障排查方法已经无法满足快速定位和解决问题的需求。

因此,可观测性越来越成为一种必不可少的技术手段,帮助运维人员从业务应用视角实时监控应用系统的运行状态、性能指标和安全性,快速发现和解决问题,从而确保应用系统的高可用性和稳定性。同时,可观测性也可以提高运维人员的工作效率,降低维护成本,使得应用系统更加敏捷、灵活和具有竞争力。

监控与可观测性有什么区别呢?

随着云计算、容器化和微服务等技术的发展,可观测性在现代 IT 系统中的重要性逐渐凸显。在此,我们存在疑问:我们在过去二三十年里,使用指标和仪表盘等构建的“传统监控方法”为何无法满足“现代系统”的需要,“监控”和“可观测性”有什么区别呢?

究其根本,如果我们依旧使用传统监控方法,我们将无法完全“看到”现代系统。众所周知,现代分布式系统架构的复杂性会导致一种无法预测且之前没有遇到过的方式出现的故障,而传统的监控方法更多的需要依赖“预知”的度量值、阈值和经验直觉。

然而,“可观测性”方法提供了“传统监控”方法不同的思路:

1、从目标对象方面,不局限在某一个技术领域,更关注从业务应用全局去理解整体的运行情况和用户体验;

2、从解决问题方面,不需要依靠经验直觉,就具备对复杂系统的问题发现、诊断、定位和恢复的能力;

3、从技术手段方面,不只是具有“指标、日志、链路”等监控数据,还需要建立“跨业务、跨系统、跨资源”的数据整合关联和可探索性能力。

可观测性在落地过程中的目标和挑战

在单体应用架构时代,由于系统交互比较简单,数据收集有限,往往依靠监控和运维人员的经验监测判断系统问题。然而,现代应用程序由于其分布式系统的交互组件数量众多、敏捷化开发的高频迭代造成巨大的未知故障问题,使传统方法面临挑战。

纠其原因,现有的日志、链路、指标等监控方法存在一定局限。比如问题故障的出现往往牵扯多个工具,而在问题排查过程中,这些工具和数据的孤立性和割裂性给运维人员带来了较大的认知障碍,造成了在分布式应用架构时代可观测性落地过程中的沉重负担和巨大挑战。

因此,从“监控”到“可观测性”的核心思路和目标是解决多元数据的质量问题和异构整合问题,并具备以服务化方式持续扩展可观测场景的能力,具体实现指标、日志、链路、拨测和配置等数据域的质量管理和聚合关联,构建从应用与应用、应用与云服务以及三方组件、应用与容器层、应用与资源层的横纵全局视角的可观测数据资源关联能力和价值场景服务能力。

同时,结合应用横向全链路观测与应用纵向资源指标关联分析,将监控、告警、流程、自动化等运维视角进行多角度与结构化整合,呈现应用间的逻辑访问关系、告警情况、工单信息、指标监控、日志监控、链路监控、自动化作业等,将基础监控、应用监控、告警、流程、自动化等能力集于一身,以应用系统全景视角,为应用运维人员提供统一的业务视图,让业务运行情况一目了然。

可观测落地方法论是什么

由于存量工具的功能特性、数据质量和服务能力,直接决定了可观测性落地的成效。因此,可观测的落地需综合全面考虑现有运维工具建设情况,结合实际情况,分阶段进行能力构建:

  1. 分阶段逐步构建可观测能力

1、阶段一:建立从业务、应用与基础架构视角的告警维度的可观测能力,并提供告警会诊机制,关注复杂应用架构下的运行观测和问题发现能力,并提供线上协调各领域专家进行高效会诊服务;

2、阶段二:建立从业务、应用与基础架构视角的主动发现可观测能力,扩展叠加日志、链路等数据,从告警感知转变为主动发现的可观测能力,并联动自动化操作,实现应急处置,关注复杂应用架构下向故障定位和排障处置进行衍生,实现左移;

3、阶段三:通过积累的数据,基于算法能力形成动态阈值,容量预测,智能洞察、方案建议等主动预防可观测能力,关注复杂应用架构下向事后处置往事前预防进行变革,保证服务体验。

可观测的建设并非一蹴而就,通过分阶段逐步深入实施,能够最大程度保障落地效果和可观测服务体验。

  1. 基于平台运维模式打造可观测工具底座

与此同时,由于越来越多企业底层IT运维工具和体系呈现出“分割”和“并列”的趋势,彼此之间的弱连接,极大限制了可观测性实现的联动性、灵活性和扩展性,拥有集成平台和产品对于支持可观测性的数据资源整合和价值场景服务供给起到了至关重要的作用。

从2016年起,广通优云便开始摸索,希望通过一种形式实现数据、资源和场景的全域打通,最终,我们创新在业内提出的“平台运维模式”通过提供可观测能力的工具底座,整体从建设能力+服务场景侧,为可观测落地提供坚实保障,是实现可观测性的最优解。

整体从可观测性建设能力层与服务场景层进行价值提供:

1、可观测性能力层:优云通过平台化理念,构建统一采控、数据管理和指标体系模式、业务服务(监、管、控、配、析)底座,实现对多系统、多工具、异构资源的集中纳管和能力补齐,实现多种日志、链路、指标等数据的整合和治理,实现可观测性在运行观测、问题发现、故障定位和排障处置端到端过程的无缝联动能力;

2、可观测性场景层:基于优云底座平台之上,以服务共享模式,不断延伸可观测的生态运维场景,实现从业务、应用、基础架构视角的告警可观测场景、主动发现可观测场景和主动预防可观测场景。

广通优云可观测性 实践成果

  1. 构建多层次视角的可观测体系

某国有大行基于优云运维平台,自动采集/接入应用调用链路信息、交易链路信息、日志事件、应用实例运行指标等观测数据,构建多层次视角的可观测体系,动态横向链路导航实现监测链路调用监控与追踪,静态纵向应用地图导航应用全貌,保障业务的安全、稳定运行,使用应用监控实现业务指标监控、应用指标监控、全链路追踪、应用拓扑分析、 指标阈值告警,实现了1分钟发现、3分钟定位、5分钟解决的业务支撑目标,帮助发现应用性能瓶颈,改善服务效率,提升应用体验,极大提升运维效率。

  1. 企业级应用墙:一图在手,尽在掌握

通过对应用进行精准“画像”,从应用中提取各项关键属性、运行指标,对各指标进行聚合分析,并根据不同人员按需配置,支持多维度查看,应用基本信息配置及呈现、指标呈现(可自定义扩展需显示的指标)、评价信息配置及呈现、应用轨迹查看(可快速链接到各流程工单系统)、应用运维操作等。

由此,运维人员可以在管理时更清晰、准确、快速地获取到应用的“病根”,并通过引导式运维快速、有效解决问题的目的。以业务/应用与基础架构图谱视角,全景展示运行状态。

  1. 以业务为视角的全要素、全流程洞察能力

针对业务应用的某一个异常节点,进行下钻,可以查看以应用为视角的架构拓扑,还可以查看以系统视角的架构拓扑,根据业务维度,想你所想,绘你所绘,让服务架构拓扑清晰可见,一目了然,秒解微服务繁杂且架构梳理无从下手的痛点,其中,基于平台化能力,无缝联动资产配置与知识库、自动化操作、工作流引擎等平台能力,实现应用资源数据为轴,纵向贯穿应用、资源之间的关系,建立应用资源架构关系地图,分层诊断故障根源节点,并实现应急处置和闭环管控能力。

  1. 应用全链路全程追踪,服务贴心

通过应用拓扑的访问关系和性能指标,查看最近应用节点是否存在性能瓶颈和应用错误,指标下钻定位到具体的耗时或应用错误链路。通过链路分析,探测到是哪个应用实例、哪台主机节点执行哪段代码产生的异常,再结合具体环节信息,展开环节所属进程资源信息、链路访问产生的应用日志、错误堆栈信息、数据库访问详情以及当前进程实例运行指标的趋势,分析定位到根因。

从迈入云原生时代起,技术更新迭代的速度明显增快。广通优云产品与解决方案真正实现了以应用业务为中心的核心诉求,切实解决了由传统被动监控手段到“主动发现”可观测的能力。从“监控”到“可观测性”,更丰富的技术、组织、内容融入其中,建构出对整个应用管理更宏大的认知。而这种认知如果能够基于统一可行的理念、方法论及工具产品,将统一的数据信息作为基础,将会大幅提高“主动发现”的能力,业务全面可观测,理想终将照进现实。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/927426.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

VUE之jspreadsheet电子excel表格动态高度设置

问题:excel电子表格在不同屏幕大小下横向滚动条会被遮挡 排查原因:由于excel高度固定导致 解决方法:设计页面较多,所以封装公共方法 步骤: 1.使用混入封装动态设置excel高度方法: const mixinJexcel …

达梦数据库分区表介绍

概述 本文将对达梦数据库分区表概念、创建、维护进行介绍。 1.分区表概念 1.1 分区表使用场景 近几年,随着移动支付快速发展,银行交易系统中【移动小微支付场景】使用越来越多,系统中流水账单表数据量巨大,往往上TB。 为了提高…

java八股文面试[JVM]——双亲委派模型

1.当AppClassLoader去加载一个class时,它首先不会自己去尝试加载这个类,而是把类加载请求委托给父加载器ExtClassLoader去完成。 2.当ExtClassLoader去加载一个class时,它首先也不会去尝试加载这个类,而是把类加载请求委托给父加载…

【esp32】GPIO引脚功能使用集合

本文主要介绍 esp32 这块芯片的GPIO 口功能使用以及软硬件设计注意事项 📋 个人简介 💖 作者简介:大家好,我是喜欢记录零碎知识点的小菜鸟。😎📝 个人主页:欢迎访问我的 Ethernet_Comm 博客主页…

uniapp 安卓平台签名证书(.keystore)生成

安装JRE环境 下载jre安装包:https://www.oracle.com/java/technologies/downloads/#java8安装jre安装包时,记录安装目录(例:C:\Program Files\Java\jdk-20)打开命令行(cmd),将JRE安装路径添加到系统环境变量 d: se…

Linux操作系统--linux环境搭建(3)

在上一小节中,我们搭建好了虚拟机,那么接下来,我们在虚拟机上安装我们的Linux操作系统。 1.CentOS安装 下面我们开始在我们创建好的虚拟机上安装CentOS操作系统。流程如下所示: (1).Vmware要求如果需要启动一台虚拟机,需要确保你的电脑主机必须要支持虚拟化的技术。如何…

SLS筛选推送链

* | select "client_ip", "url", count(*) as "number" from log group by "client_ip", "url" order by "number" desc

记录一次presto sql执行报错 Error executing query的解决办法

在执行presto sql 时报错截图如下: 查看后台执行报错日志: java.sql.SQLException: Error executing query at com.facebook.presto.jdbc.PrestoStatement.internalExecute(PrestoStatement.java:307) at com.facebook.presto.jdbc.PrestoStatement.exe…

Alibaba Nacos Authentication Bypass Vulnerability

文章目录 Nacos 提供了四大功能服务发现和服务健康检查动态配置管理动态域名解析服务服务和元数据管理 Alibaba Nacos Authentication Bypass Vulnerability Alibaba Nacos(Dynamic Naming and Configuration Service)是由阿里巴巴公司维护的一款开源项目,易于构建云…

centos7设置静态IP地址

安装完成系统后,接下来就是配置静态IP地址,如下: 进入编辑模式vim /etc/sysconfig/network-scripts/ifcfg-ens33 文件名不一定是ifcfg-ens33,到/etc/sysconfig/network-scripts下面找下是哪个文件 修改 : BOOTPROTO…

Ansible 创建逻辑卷

创建一个名为/ansible/lv.yml 的 playbook ,它在所有受管节点上运行以执行下列任务: 创建符合以下要求的逻辑卷: 逻辑卷创建在 research 卷组中 逻辑卷名称为 data 逻辑卷大小为 1500 MiB 使用 ext4 文件系统格式化逻辑卷 如果无法创建请求的…

keepalived + lvs (DR)

目录 一、概念 二、实验流程命令 三、实验的目的 四、实验步骤 一、概念 Keepalived和LVS(Linux Virtual Server)可以结合使用来实现双机热备和负载均衡。 Keepalived负责监控主备服务器的可用性,并在主服务器发生故障时,将…

盈利能力低于预期,财报发布后股价暴跌97%,达达集团财务前景堪忧

来源:猛兽财经 作者:猛兽财经 财报公布后,达达集团的股价就像坐过山车一样 2023年8月15日美股收盘后,达达集团(DADA)公布了2023年第二季度财务财报,在财报公布后的短短几天内,达达集…

优先级队列—数据结构

文章目录 1.堆1.1概念1.2性质1.3存储方式1.4堆向下调整创建大根堆1.5堆的插入和删除1.6 2.PriorityQueue2.1定义2.2性质2.3 PriorityQueue常用接口介绍2.4方法的使用2.5对复杂类型的PriorityQueue的使用 3.堆的应用3.1PriorityQueue的实现3.2Top-k问题3.3堆排序 4.经典习题 1.堆…

【校招VIP】专业课考点之死锁检测与恢复

考点介绍: 根据不少同学的面试反馈,最近阿里和字节跳动面试时面试官都问到了死锁问题。如字节跳动考察的问题是:什么是线程死锁?死锁如何产生?死锁如何检测与恢复?其产生的原理与对应的解决方案都是重点考察…

跨境电商服务商哪家靠谱,要怎么选择?

随着全球市场的不断扩大,跨境电商已成为众多企业进军国际贸易的重要途径。然而,跨境电商涉及的法规、市场策略、国际物流等方面的知识相当复杂,因此,寻找一个优质的跨境电商培训中心成为了企业不可或缺的需求。本文将为您介绍如何…

什么气传导蓝牙耳机好?气传导耳机最新品牌推荐

​传统入耳式耳机佩戴着容易滑落,戴不稳,久戴耳朵酸痛等问题,气传导耳机的出现就避免了这些问题的发生,我来推荐几款市面上热销火爆且使用感不错的气传导耳机给到大家,来看看吧! 一、南卡00压开放式耳机&a…

汉诺塔问题--夏令营

题目 tips: 1.本题只用多试几次,由数据推导规律即可 2.汉诺塔问题分析 这里的递归函数是(n,a,b,c)指n个盘子从a移到c,且凭借b 递归边界是n1 原始思想:要想把n个盘子从a移到c,若n1则直接move a到c n>…

Web3.0的五大趋势,你是否已经了解?

🤵‍♂️ 个人主页:艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞&#x1f4…

美格智能亮相elexcon 2023:边缘AI算力,赋能物联网终端创新升级

8月23~25日,elexcon 2023深圳国际电子展在深圳会展中心(福田)盛大举办。本届展会聚焦“嵌入式与AIoT展”“电源与储能展”“SiP与先进封装展”三大板块,规模达40000㎡,共计600家全球嵌入式产业链厂商齐聚现场&#xff…