云原生网关可观测性综合实践

news2025/3/1 9:04:27

作者:钰诚

可观测性

可观测性(Observability)是指系统、应用程序或服务的运行状态、性能和行为能够被有效地监测、理解和调试的能力。

随着系统架构从单体架构到集群架构再到微服务架构的演进,业务越来越庞大,也越来越复杂。云原生时代背景下,随着微服务、Service Mesh、 Serverless 等新技术的出现,业务的复杂度很快就超过了个人的极限,可观测性在现代分布式系统的设计和运维中变得越来越重要。传统的监控和告警方法往往只关注系统的一些基本指标,而忽略了更细粒度的信息和上下文。可观测性的目标是通过全面的数据收集和分析,提供更深入和全面的洞察力,使运维和开发人员能够更好地理解系统的行为、排查问题、预测性能瓶颈和应对故障。

日志、指标和分布式追踪被称为可观测性的三大支柱:

  1. 日志(Logging): 日志是记录系统运行过程中产生的事件和信息的记录。通过记录应用程序的日志,可以了解系统的运行状态、错误和异常信息,方便故障排查和系统分析。常见的日志系统包括 ELK(Elasticsearch、Logstash、Kibana)和 Splunk 等。
  2. 指标(Metrics): 指标是用于衡量系统各个方面性能的度量标准。通过采集和记录指标数据,可以实时监控系统的运行情况,包括 CPU 使用率、内存占用、请求响应时间等。常用的指标系统有 Prometheus 和 InfluxDB 等。
  3. 分布式追踪(Distributed Tracing): 分布式追踪是用于跟踪和监控分布式系统中请求的路径和性能的技术。通过将请求在系统中的不同组件之间传递一个唯一标识符,可以追踪请求的流程和耗时,帮助分析和优化系统性能。常见的分布式追踪系统有 Zipkin 和 Apache Skywalking 等。

通过提供全面且精确的可观测性,系统的开发和运维人员可以更快速地发现问题、理解系统行为,并做出相应的优化和决策,从而提高系统的性能、稳定性和可靠性。

云原生网关可观测体系

MSE 云原生网关依托阿里云现有的云产品(日志服务 SLS、应用实时监控服务 ARMS)以及对开源软件的良好支持构建了丰富的可观测体系,为用户提供了强大的日志、监控、链路追踪以及告警功能,功能大图如下所示:

图片

网关的可观测性能力致力于帮助客户构建产品的可靠性体验,为客户提供故障发现与故障定位的能力,减少故障的发生以及降低故障的影响面。 基于网关的监控与告警管理功能,实现故障的及时发现与通知到客户;基于监控与日志,实现故障的快速定位;基于链路追踪,实现请求调用的全链路故障根因排查。

云原生网关可观测实践

过程概览

本文将依据下图中标注的功能模块出发,帮助读者体验网关可观测性在故障发现与故障定位中的能力。

图片

整体流程如下图所示:

  1. 用户收到网关发出的告警
  2. 用户查看 prometheus 监控找到出问题的路由、服务
  3. 用户查看 SLS 日志获取更详细的报错信息
  4. 用户通过链路追踪排故障的根因

图片

测试环境架构概览

图片

本文在 ACK 集群中部署了一系列 Springboot 的服务,调用关系如上图所示,其中 Spring SVC 4-2 发生了 crash。通过网关接入 ACK 集群,创建路由如下:

图片

测试过程中会通过以下三种请求去访问网关:

  1. 正常的请求,网关路由到 httpbin
  2. 在网关处就返回错误的请求,本文使用无法命中路由的请求
  3. 在上游服务返回错误的请求,网关路由到 Spring SVC 1

此时网关的错误率会出现明显上升。

故障发现与定位过程

通过告警策略及时发现故障

首先配置网关的告警策略,从网关实例粒度设置告警规则与通知策略,本文中采用了邮件通知的方式,除此之外还有电话、短信等方式。配置告警策略的示例如下图所示:

图片

通过以下邮件信息可以得知网关出现了故障:

图片

通过 Arms Prometheus 监控初步定位问题

接下来,查看网关观测分析->业务监控->全局看板的错误信息概览板块,当前监控信息如下:

图片

根据图中内容,可以得到以下信息:

  1. “网关粒度失败率”看板中,网关整体失败率是大于上游服务失败率的,这意味着一部分请求在网关处返回了错误码,一部分请求在上游服务处返回了错误码
  2. “路由粒度失败率”看板中,能够看到只有路由名称为 “spring” 的路由失败率不是 0
  3. “上游服务粒度失败率”看板中,能够看到只有服务名称为 “springboot-svc-1.app-system.svc.cluster.local” 的服务失败率不是 0

点击图中“路由失败请求数排行”或者“上游服务失败请求数排行”中的路由名或者服务名可以查看路由或者服务的详细信息。

路由名为 “spring” 的路由监控信息如下图所示:

图片

服务名为 “springboot-svc-1.app-system.svc.cluster.local” 的服务监控信息如下图所示:

图片

上图中显示出现错误的路由和服务返回的错误码为 5xx,至此,已经初步定位到问题所在:

路由 “spring” 指向的上游服务 “springboot-svc-1.app-system.svc.cluster.local” 出现了问题。

但是,目前还有两个问题需要解决:

  1. 在网关处返回错误的请求是什么原因?
  2. 服务 “springboot-svc-1.app-system.svc.cluster.local” 的错误是什么原因造成的?
通过 SLS 网关日志获取详细信息

接下来通过网关日志中心的 SLS 日志获取更详细的信息。

图片

首先点击 response_code,此时会自动生成查询请求,可以看到这段时间内网关的响应码只有三种:200,404,500。

在网关问题排查页面,输入响应码,可以查看错误码可能的原因:

图片

可以看到返回 404 响应码的原因是没有命中路由导致。

类似的,当选择响应码为 500 时,可以看到相应的路由名以及服务名,如下图所示:

图片

通过问题排查工具可以看到,错误是后端服务造成的:

图片

到现在为止,只剩下一个问题:

服务 “springboot-svc-1.app-system.svc.cluster.local” 的错误根因是什么?

通过 Arms xtrace 链路追踪分析调用链

借助于链路追踪技术,可以获取更细粒度的错误信息。只需要简单的配置,网关即可接入 Arms xtrace:

图片

ACK 集群上的 Java 应用按照以下文档进行配置:为容器服务 Kubernetes 版 Java 应用安装探针 [ 1]

图片

在 SLS 日志中找到一条错误请求的 traceid,根据 traceid 在链路追踪页面搜索相应的调用链路分析调用链路错误的根因:

图片

从链路追踪结果看,故障根因是 springboot-svc-4-2 服务错误,至此,一次完整的故障发现与故障定位已经完成。

总结

本次通过云原生网关可观测性进行故障发现和故障定位的实践过程中,首先通过网关的告警策略将故障通知到用户,然后通过 arms 提供的 prometheus 监控服务初步定位到出现故障的路由以及服务,之后通过 SLS 日志服务提供的网关的结构化日志进行查询分析,排查出部分错误是客户端请求路径错误导致,最后通过链路追踪对服务调用链路进行分析,最终成功对故障根因进行定位。

相关链接:

[1] 为容器服务 Kubernetes 版 Java 应用安装探针****

https://help.aliyun.com/zh/arms/application-monitoring/getting-started/install-arms-agent-for-java-applications-deployed-in-ack?spm=a2c4g.11186623.0.i6#arms-cs-k8s-java

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1087056.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Unity实战100例】Unity内部软键盘输入制作

目录 一. 样式颜色设置 二. UI逻辑 源码地址: 哔哩哔哩工房 一. 样式颜色设置 可以在预制体上提前设置一下对应组件的颜色,包括按键边框的颜色,内部填充色,普通按键文本颜色,功能按键文本颜色,大家可以根据自己的需求处理按钮逻辑。

基于PHP+laravel+vue自主研发的医院手术麻醉信息系统源码

大型医院AIMS手术麻醉信息系统全套成品源码 开发语言:PHP、 js 技术架构:mysqllaravelvue2 开发工具:oh-storm 前端框架:vue2 element 后端框架:laravel 数 据 库:mysql 8.0 手术麻醉临床信息系统…

【小余送书第三期】CTF/AWD竞赛标准参考书+实战指南:《AWD特训营》,参与活动,领书咯!

目录 一、背景介绍 二、内容简介 三、读者对象 四、本书目录 五、书籍概览 一、背景介绍 随着网络安全问题日益凸显,国家对网络安全人才的需求持续增长,其中,网络安全竞赛在国家以及企业的人才培养和选拔中扮演着至关重要的角色。 在数…

virtuoso如何导出def?

我正在「拾陆楼」和朋友们讨论有趣的话题,你⼀起来吧? 拾陆楼知识星球入口 数模混合的项目中需要把PAD位置通过def的形式读入pr设计中,以此让power plan规避PAD的区域,避免DRC问题。 使用virtuoso导出def的流程如下: 1)新建一个空cell,在Library Manager-File-New-Cell…

(七)Python函数和lambda表达式

函数就是一段封装好的,可以重复使用的代码,它使得我们的程序更加模块化,不需要编写大量重复的代码。 函数可以提前保存起来,并给它起一个独一无二的名字,只要知道它的名字就能使用这段代码。函数还可以接收数据&#…

AGI之MFM:《多模态基础模型:从专家到通用助手》翻译与解读之视觉理解、视觉生成

​AGI之MFM:《Multimodal Foundation Models: From Specialists to General-Purpose Assistants多模态基础模型:从专家到通用助手》翻译与解读之视觉理解、视觉生成 目录 相关文章 AGI之MFM:《Multimodal Foundation Models: From Speciali…

使用newman来执行posman脚本

一.什么是Newman 简单来说使用Newman,可以让我们的Postman的脚本通过非GUI(命令行)的方式运行 二、安装 首先需要安装NodeJsNodeJs安装完成后,使用npm install -g newman 安装newman 三、NewMan命令 使用newman run --help 可以查看帮助命令 -e 指定环境…

fabric.js的使用

安装:npm install fabric --save // 使用fabric实现: import { fabric } from fabricinitFabric () {// create a wrapper around native canvas element (with id"canvasEl")let canvas new fabric.Canvas(canvasEl)// create a rectangle …

JVM 入门

文章目录 JVMJVM 垮平台执行其他语言的代码JDK、JRE、JVM各种 Java 虚拟机查看我们本地的虚拟机版本HotSpot 的整体架构 JVM JVM (Java Virtual Machine),Java 虚拟机,我们的 Java 代码需编译为 .class 字节码文件,经…

CH6-中断和异常处理

6.1 中断和异常处理概述 中断和异常概述(INTERRUPT AND EXCEPTION OVERVIEW) 中断和异常向量:中断和异常在处理器中都有对应的编号,被称为向量。当中断或异常发生时,处理器会根据向量找到相应的中断处理程序或异常处理…

el-data-picker限制日期可选范围

<el-date-pickerclass"date"v-model"date"type"date"change"dateChange"value-format"yyyy-MM-dd"format"yyyy-MM-dd"placeholder"选择日期":picker-options"datePickerOptions"></…

分享一个高颜值开源计算器

今天逛同性交友社区时发现一个高颜值的开源计算器&#xff0c;分享给大家&#xff0c;希望对大家有所帮助。 NUMWORKS Design — NumWorks Design — NumWorks 特性 结构 电气 MCU STM32F730V8T6 计算器的大脑和心脏。这款芯片结合了一个时钟频率为216 MHz的ARMv7-M Cortex-…

Scraping 和Crawling的区别与联系

在互联网时代&#xff0c;获取网页上的数据对于许多人来说已经成为一种常态。在这个过程中&#xff0c;我们经常会听到两个词&#xff1a;Web Scraping&#xff08;网页抓取&#xff09;和Web Crawling&#xff08;网络爬虫&#xff09;&#xff0c;它们看似相似&#xff0c;但…

199、在RabbitMQ管理控制台中管理 Exchange(充当消息交换机的组件) 和 Queue(消息队列),以及对默认Exchange的讲解

目录 ★ 自动创建的Exchange★ 创建Exchange所支持的属性演示&#xff1a;创建消息队列 ★ 持久化消息★ 默认Exchange讲解 使用默认的 Exchange 支持 P2P: Exchange&#xff1a;把客户端发来的消息路由到消息队列去 每个虚拟机下面都默认有 Exchange &#xff0c;通过这个默认…

如何制件一本优秀的旅游杂志,这有一份操作指南

时间过的好快&#xff0c;一转眼一年已过了一大半&#xff0c;忙碌了一年&#xff0c;也该在这不冷不热的十月&#xff0c;而且充满桂花的香气的时间里停下脚步&#xff0c;带着家人出去畅游一番&#xff0c;开拓一下自己的眼界。那出去游玩肯定少不了记录生活&#xff0c;每到…

在 Elasticsearch 中实现自动完成功能 1:Prefix queries

自动完成与搜索功能不同 - 我们应该在用户键入下一个字符后立即更新自动完成选项&#xff0c;每秒都会访问数据库&#xff0c;过滤数百万条记录&#xff0c;而不会导致任何性能下降&#xff01; Elasticsearch 是一种可以轻松实现此类功能的技术&#xff0c;它是一种基于 Apac…

低压配电系统中浪涌保护器的作用,安装位置和接线方法

低压配电系统是指在变压器低压侧或用户侧的电气装置&#xff0c;主要用于向用户提供安全、可靠和经济的电能。低压配电系统中常见的电气设备有低压配电柜、分支箱、开关箱、插座、照明等。这些设备都需要防止因外部或内部原因产生的过电压对其造成损坏或影响其正常工作。过电压…

帝国CMS《养生健康》模板/养生网站源码模板/健康模板+养生资讯+优化版

帝国CMS《健康养生》模板&#xff0c;简介大气访问快,养生源码模板,健康模板,百度自动推送,站内关键字改成直接调用tag标签&#xff0c;这样就方便对站内优化已比较好&#xff0c;经测试还容易产生词库。 采用帝国CMS7.5内核&#xff0c;开源不限域名&#xff0c;包含WAP手机端…

键盘录入涉及到的方法

键盘录入涉及到的方法 1&#xff09;next&#xff08;&#xff09;、nextLine&#xff08;&#xff09;&#xff1a; 可以接受任意数据&#xff0c;但是都会返回一个字符串。 2&#xff09;nextInt&#xff08;&#xff09;&#xff1a; 只能接受整数。 3&#xff09;next…

harbor的安装及使用

文章目录 安装harbor仓库具体安装过程测试上传 资源编排就是合理快速的分配计算资源和硬件资源&#xff0c;进行计算。 docker: swarm google: kubernetes (k8s,k3s) opensource: docker-compose 安装harbor仓库 0&#xff09; 创建/root/harbor目录&#xff0c;cd到此目录 …