打造出色的 Prometheus 监控系统,看完后薪资翻倍?

news2024/12/30 2:46:22

一、监控概念&误区

监控是管理基础设施和业务的核心工具,监控应该和应用程序一起构建和部署,没有监控,将无法了解你的系统运行环境,进行故障诊断,也无法阻止提供系统性的性能、成本和状态等信息。

  • 误区:

要尽量避免进行机械式的监控、不够准确的监控、静态和监控、不频繁的监控、缺少自动化或自服务。

二、黑盒监控&白盒监控

1、黑盒监控

  • 应用程序或主机是从外部观察的,因此,这种方法可能相当有限。检查是为了评估被观察的系统是否以已知的方式响应探测。

  • 例子:

1)主机是否相应PING的请求
2)特定的TCP端口是否打开
3)应用程序在接受到特定的HTTP请求时,是否使用正确的数据和状态代码进行响应
4)特定应用程序的进程是否在其主机中运行

2、白盒监控

系统在被测对象表面显示其内部状态和临界段的性能数据。这种类型的自省可能非常强大,因为它暴露了内部操作,显示不同内部组件的健康状况,否则很难甚至不可能确定。这种数据处理通常以胰腺癌方式进行处理:

1)通过日志导出:到目前为止。这是也是在广泛引入库之前,应用程序是如何暴露其内部工作的最常见的情况,例如:可以处理 HTTP 服务器的访问日志来监视请求率、延迟和错误百分比;
2)以结构化的事件输出:这种方法类似于日志记录,但不是将数据写入磁盘,而是直接将数据发送到处理系统进行分析和聚合。
3)以聚合的方式保存在内存中:这种格式的数据可以驻留在端点中,也可以直接从命令行工具中读取。这种方法的例子有/metrics with Prometheus metrics、HAProxy 的 stats 页面或 varnishstats 命令行工具

三、度量指标

度量指标有监控系统执行的过程通常可以分为两种方式:push(监控系统去服务进行拉取)、pull(被监控的服务自动往监控系统进行推送)【站在客户的角度】

  • Push VS Pull

  • 测量什么:

谷歌提出应该监控的四个指标:

  • 延迟:服务请求所需的时间

  • 流量:正在发出的请求的数量

  • 错误:求失败的比率

  • 饱和:未处理的工作量,通常在队列中

Brendan 的方法更关注于及其他声明对于每个资源(CPU、磁盘、网络接口等等),应该监视以下指标:

  • 利用率:以资源繁忙的百分比来衡量

  • 饱和:资源无法处理的工作量,通常会排队

  • 错误:发生的错误数量

汤姆威尔基的红色方法:更侧重于服务级别方法,而不是底层系统本身。显然,这种才领略对于见识服务很有用,对于预测外部客户的体验也很有价值。如果服务的错误率增加,那么就可以合理地假设这些错误将直接或间接地影响客户的体验。

  • 速率:转换成每秒请求数

  • 错误:每秒失败请求的数量

  • 持久性:这些请求所花费的时间

四、Prometheus

1、介绍&架构

Prometheus 是一个开源系统监控和警报工具包,将其监控的指标进行收集并存储为时间序列数据,即指标信息与记录时的时间戳以及称为标签的可选键值对一起存储。很多公司用来监控 K8s集群。

图片

2. 合适&不合适场景

  • 合适场景:Prometheus 可以很好地记录任何数字时间序列,它既适合以机器为中心的监控,也适合监控高度动态的面向服务的架构。在微服务的世界中,他对多维数据收集的查询的支持是一个特殊的优势。专为可靠性而设计,是在中断期间可以使用的系统,可让你快速诊断问题。每个Prometheus服务器都是独立的,不依赖于网络存储或其他远程服务。当你的基础设施的其他部分损坏时,你可以依赖他,并且你无需设置大量基础设施即可使用

  • 不合适场景:你需要100%准确性,例如按请求计费。这时候Prometheus就不太适合,你最好使用其他系统来收集和分析数据以进行计费。

3. 数据模型

因为监控数量极大,所以使用了时间序列数据存储(就是带时间戳和值的)

  • Prometheus本地存储:

Prometheus的本地存储被称为 Prometheus TSDB。TSDB的设计核心有两个:block和WAL,而block又包含chunk、index、meta.json、tombstones。

TSDB将存储的监控数据按照时间分隔成block,block大小并不固定,按照设定的步长倍数递增。随着数据量的不断增长,TSDB会将小的block合并成大的block,这样不仅可以减少数据存储,还可以减少内存中的block个数,便于对数据进行索引。

每个block都有全局唯一的名称,通过ULID(Universally Unique Lexicograpphically Sortable Indetifier,全局字典可排序ID)原理生成,可以通过block的文件名确定这个block的创建时间,从而很方便的按照时间对block排序。对时序数据库的查询通常会涉及到连续的很多块,这种通过命名便可以排序的设计非常简便。

WAL(Write-Ahead Logging,预写日志)是关系型数据库中利用日志来实现事务性和持久性的一种技术,即在进行某个操作之前先将这件事情记录下来,以便之后数据进行回滚、重试等操作并保证数据的可靠性。Prometheus为了防止丢失暂存在内存中还未被写入磁盘的监控数据,引入了WAL机制。

按照每种对象设定的采集周期,Prometheus会将周期性采集的监控数据通过Add接口添加到head block中,但这些数据没有被持久化,TSDB通过WAL将提交的数据先保存到磁盘中,在TSDB宕机重启后,会首先启动多协程读取WAL,从而恢复之前的状态。

  • Prometheus 数据模型:

Prometheus 将数据存储为时间序列,其中包括称为标签的键值对、时间戳和最后的值:

表示法:

<metric_name>[{<label_1=“value_1”>,<label_N=“value_N”>}]<datapoint_numercial_value>

4. 指标

  • Counter:Prometheus实例接收的数据包总数(一直增)

  • Gauge:测量是一种度量,他在收集时对给定的测量进行快照,可以增加或减少(例如温度、磁盘空间、内存使用量)

  • Histogram:常常用于观察,一个Histogram包含下列值的合并:【某时间段内的百分比或者请求数量有多少】

5. 指标的摘要和聚合

指标摘要:通常来说。单个指标对我们来说价值很小,往往需要联合并可视化多个指标,这其中需要一些数学变换,例如我们可能会统计函数应用于指标或指标组,常见函数有:计数、求和、平均值、中间数、百分位数、标准差、变化率等等

  • 指标聚合:就是能看到来自多个源的指标的聚合视图

6. NodeExporter部署

Prometheus使用exporter工具来暴露主机和应用程序上的指标。有很多种类型的exporter。

7. cAdvisor监控Docker容器

cAdvisor(Constainer Advisor)是由谷歌开发的一个项目,让从正在运行的容器手机、聚合、分析和导出数据。可用的数据涵盖了几乎所有你可能需要的东西,从内存限制到GPU指标

  • cAdvisor 并不绑定到 Docker 容器,但它通常作为一个容器部署,从容器守护进程和 Linux cgroups 收集数据,是容器的发现透明且完全自动化。

  • 除了以 Prometheus 格式公开指标之外,cAdvisor 还提供了一个有用的 web界面,允许即使可视化主机及其容器的状态

8. 捕获目标生命周期

服务发现->配置->重新标记(relable_configs)-> 抓取 -> metrics_relable_configs

9. PromQL查询语言

选择器及标签匹配器:

(1)选择器

Prometheus被设计用来处理成千上万的时间序列、根据标签的组合,咩哥指标名称可以有几个不同的时间序列;当来自不同的工作的类型名称的指标混合在一起时,查询正确的数据可能看起来比较困难。所以在Prometheus中,选择器指的是一组标签匹配器、度量名称也包含在这个定义中,因为从技术上讲,他的内容表示也是一个标签,尽管是一个特殊的标签:name。

选择器中的每个标签名称/值对称为标签匹配器,多个匹配器可用于进一步筛选选择器匹配的时间序列。标签匹配器用花括号括起来。如果不需要匹配器,可以省略花括号。选择器可以返回及时或范围向量

//例如:$ prometheus_build_info{version="2.17.0"}

(2)标签匹配器

标签匹配器用于将查询搜索限制为特定的一组标签值。下面将使用node_cpu_secends_total metric来阐述标签匹配的操作,匹配的操作符有=、!=、=和! 如果没有任何匹配的规范。仅此度量就会返回一个包含度量名称的所有可用时间序列的及时向量。以及所有的CPU核心数(cpu=“0”,cpu=“1”)和CPU的型号(mode=“idle”,mode=“iowait”,mode=“irq”,mode=“nice”,mode=“softirq”,mode=“steal”,mode=“user”,mode=“system”)

(3)范围、偏移、子查询

范围向量:如果要定义一个范围向量选择查询,你必须设置一个及时向量选择器和使用[]追加一个范围。

偏移量的修饰符:offset的修饰符查询过去的数据,也就是说可双选择相对于当前时间的多长时间以前

子查询【道理类似于 MySQL中】

(4)PromQL操作符

向量匹配:有one-to-one、many-to-one、one-to-many【其实就类似于mysql的左右外连接】

(5)PromQL函数

lable_join()label_replace()这些函数用于操作标签——他们允许您将标签连接到其他标签,提取标签值的一部分,甚至删除标签(尽管使用标准的聚合操作更容易、更符合人体工程学)。在这两个函数中,如果定义的目标标签是一个新的,它将被添加到标签集;如果他是一个现有的标签,它将被取代。【也就是说,如果该语句满足什么条件的话,机会产生相对应的结果】

predict_linear()函数可以预测时间序列v在t秒后的值,它基于简单线性回归的方式,对时间窗口内的样本数据进行统计,从而可以对时间序列的变化趋势作出预测。该函数的返回结果不带有度量指标,只有标签列表。

rate()和irate()函数:

sort()和sort_desc()

10. 计算CPU的使用率

//例子:avg(irate(node_cpu_seconds_total{job="node"}[5m] by (instance) * 100))

11. 计算CPU负载(饱和度)

在主机上获得CPU饱和的一种方法是跟踪平均负载,实际上它是将主机上的CPU数量考虑在内的一段时间内的平均运行队列长度。平均负载少于CPU的数量通常是正常的,长时间内超过该数字的平均值则表示CPU已经饱和。

要查看主机的平均负载,可以使用node_load*指标,他们显示1分钟、5分钟和15分钟的平均负载。比如使用1分钟的平均负载:node_load1

//计算主机上的CPU数量,可以使用count聚合实现count by (instance)(node_cpu_seconds_total{mode="idle"})//接下来将此计算与node_load指标结合起来node_load1 > on (instance) 2 * count by (instance)(node_cpu_seconds_total{mode="idle"})//这里我们查询的是1分钟的负载超过主机CPU数量的两倍的结果

12. 计算内存使用率

Node Exporter的内存指标按内存的类型和使用率进行细分。可以在node_memory为前缀的指标列表找到他们。​​​​​​

//查看主机上的总内存node_memory_MemTotal_bytes//主机上的可用内存node_memory_MemFree_bytes//缓冲缓存中的内存node_memory_Buffers_bytes//页面缓存中的内存node_memory_Cached_bytes//通过以上的就可以计算出内存使用率(总内存-可用内存-缓冲缓存中的内存-页面缓冲中的内存)/总内存 * 100

13. 计算内存饱和度

还可以通过检查内存和磁盘的读写来监控内存饱和度,可以使用从/proc/vmstat收集的两个Node Exporter指标

  • node_vmstat_pswpin:系统每秒从磁盘读到内存的字节数

  • node_vmstat_pswpout:系统每秒从内存写到磁盘的字节数

  • 两者都是自上次启动以来的字节数,以KB为单位

  • 为了获得饱和度指标,对每个指标计算每一分钟的速率,将两个速率相加,然后乘以1024获得字节数

1024 * sum by (instance) ((rate(node_vmstat_pgpgin[1m]) + rate(node_vmstat_pgpgout[1m])))

然后,可以对此设置图形化展示或者警报,以识别行为不当的应用程序主机。

14. 磁盘使用率

对于磁盘,只测量磁盘使用情况而不是使用率、饱和或错误。这是因为在大多数情况下,它是对可视化和警报最有用的数据。

//node_filesystem_size_bytes指标显示了被监控的每个文件系统挂载的大小。node_filesystem_size_bytes

可以使用与内存指标类似的查询来生成在主机上使用的磁盘空间百分比。

(node_filesystem_size_bytes{mountpoint="/"} - node_filesystem_free_bytes{mountpoint="/"}) / node_filesystem_size_bytes{mountpoint="/"} * 100

与内存指标不同,在每个主机上的每个挂载点都有文件系统指标。所以添加了mountpoint标签,特别是跟文件系统”/“挂载。这将在每台主机上返回该文件系统磁盘使用指标。

如果想要或需要监控特定挂载点,那么我们可以为其添加查询。比如要监控/data挂载点,可以使用。

(node_filesystem_size_bytes{mountpoint="/data"} - node_filesystem_free_bytes{mountpoint="/data"}) / node_filesystem_size_bytes{mountpoint="/data"} * 100

或者可以使用正则表达式匹配多个挂载点

(node_filesystem_size_bytes{mountpoint="/|/run"} - node_filesystem_free_bytes{mountpoint="/|/run"}) / node_filesystem_size_bytes{mountpoint="/|/run"} * 100

可以使用 predict_linear 函数来构建在未来什么时候会耗尽磁盘空间​​​​​​​

//预测四小时之后磁盘空间会不会爆满predict_linear(node_filesystem_free_bytes{mountpoint="/"}[1h], 4* 3600) < 0

上面是指定跟文件系统,还可以通过制定作业名称或使用正则表达式来选择所有文件系统

predict_linear(node_filesystem_free_bytes{job="node"}[1h], 4* 3600) < 0

原文链接:https://blog.csdn.net/weixin_44827241/article/details/123902001

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1404633.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【江科大】STM32:(超级详细)定时器输出比较

文章目录 输出比较单元特点 高级定时器&#xff1a;均有4个通道 PWM简介PWM&#xff08;Pulse Width Modulation&#xff09;脉冲宽度调制输出比较通道PWM基本结构基本定时器 参数计算捕获/比较通道的输出部分详细介绍如下&#xff1a; 舵机介绍硬件电路 直流电机介绍&#xff…

C# 使用System.Threading.Timer 实现计时器

写在前面 以往一般都是用 System.Timers.Timer 来做计时器&#xff0c;而 System.Threading.Timer 也可以实现计时器功能&#xff0c;并且还可以配置首次执行间隔&#xff0c;在功能上比System.Timers.Timer更加丰富&#xff1b;根据这个特性就可以实现按指定时间间隔对委托进…

JDX图片识别工具1.0版本发布啦

软件介绍 软件核心功能软件界面软件下载软件教程 软件核心功能 工作当中经常处理大量的图片&#xff0c;网上搜索的工具都无法满足需求&#xff0c;因此自己研发批量图片识别工具。 目前还是内测版&#xff0c;1.0版本主要包含如下特性&#xff1a; 批量识别图片&#xff0c…

前端JS加密与Buspsuite的坦诚相待

前端JS加密测试场景下的困惑 在渗透测试过程中经常会遇到JS前端加密的场景&#xff0c;假如不借助任何工具的情况下&#xff0c;我们一般是把JS代码进行扣取&#xff0c;本地进行加解密生成Payload&#xff0c;然后在Burpsuite里进行Payload替换。这种方式就存在一个很明显的问…

自然语言处理--双向匹配算法

自然语言处理作业1--双向匹配算法 一、概述 双向匹配算法是一种用于自然语言处理的算法&#xff0c;用于确定两个文本之间的相似度或匹配程度。该算法通常使用在文本对齐、翻译、语义匹配等任务中。 在双向匹配算法中&#xff0c;首先将两个文本分别进行处理&#xff0c;然后…

使用Docker部署Apache Superset结合内网穿透实现远程访问本地服务

文章目录 前言1. 使用Docker部署Apache Superset1.1 第一步安装docker 、docker compose1.2 克隆superset代码到本地并使用docker compose启动 2. 安装cpolar内网穿透&#xff0c;实现公网访问3. 设置固定连接公网地址 前言 Superset是一款由中国知名科技公司开源的“现代化的…

操作系统导论-课后作业-ch14

1. 代码如下&#xff1a; #include <stdio.h> #include <stdlib.h>int main() {int *i NULL;free(i);return 0; }执行结果如下&#xff1a; 可见&#xff0c;没有任何报错&#xff0c;执行完成。 2. 执行结果如下&#xff1a; 3. valgrind安装使用参考&a…

决策树的基本构建流程

决策树的基本构建流程 决策树的本质是挖掘有效的分类规则&#xff0c;然后以树的形式呈现。 这里有两个重点&#xff1a; 有效的分类规则&#xff1b;树的形式。 有效的分类规则&#xff1a;叶子节点纯度越高越好&#xff0c;就像我们分红豆和黄豆一样&#xff0c;我们当然…

UI设计中的插画运用优势(下)

6. 插画赋予设计以美学价值&#xff0c;更容易被接受 即使所有人都在分析和争论产品的可用性和易用性&#xff0c;大家在对美的追求上&#xff0c;始终保持着一致的态度。一个设计是否具备可取性&#xff0c;是否能够通过甲方、客户和实际用户&#xff0c;是每个设计人都需要面…

微服务Spring Cloud架构详解

"Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具&#xff08;例如配置管理&#xff0c;服务发现&#xff0c;断路器&#xff0c;智能路由&#xff0c;微代理&#xff0c;控制总线&#xff09;。分布式系统的协调导致了样板模式, 使用Spring Cloud开…

c++QT文件IO

1、QFileDialog文件对话框 与QMessageBox一样&#xff0c;QFileDialog也继承了QDialog类&#xff0c;直接使用静态成员函数弹窗。弹出的结果&#xff08;选择文件的路径&#xff09;通过返回值获取。 1&#xff09;获取一个打开或保存的文件路径 // 获取一个打开或保存的文件路…

快速上手的AI工具-文心辅助学习

前言 大家好晚上好&#xff0c;现在AI技术的发展&#xff0c;它已经渗透到我们生活的各个层面。对于普通人来说&#xff0c;理解并有效利用AI技术不仅能增强个人竞争力&#xff0c;还能在日常生活中带来便利。无论是提高工作效率&#xff0c;还是优化日常任务&#xff0c;AI工…

MySQL>基础sql语句

阅读目录 1.进入数据库2.数据库操作&#xff08;增删改查用&#xff09;3.表操作(增删改查)4.语句操作(增删改查) 回到顶部 1.进入数据库 打开终端,输入&#xff1a; /usr/local/mysql/bin/mysql -uroot -p回车 输入密码&#xff1a; 回到顶部 2.数据库操作&#xff08;增…

FSCaptureSetup最新版下载与安装详细步骤,内附注册码

FSCaptureSetup FastStone Capture&#xff1a;功能强大且使用方便的截图软件一、使用方法二、常用功能 关注公众号&#xff1a;数据探索者007或扫描如下所示二维码回复07获取资源压缩包减压后如下所内容解压后按照如图所示操作进行安装 FastStone Capture&#xff1a;功能强大…

代码随想录算法训练营29期|day27 任务以及具体安排

39. 组合总和// 剪枝优化 class Solution {public List<List<Integer>> combinationSum(int[] candidates, int target) {List<List<Integer>> res new ArrayList<>();Arrays.sort(candidates); // 先进行排序backtracking(res, new ArrayList&…

ARM_Linux中GCC编译器的使用

目录 前言: GCC编译过程: 预处理&#xff1a; 编译阶段&#xff1a; 汇编&#xff1a; 链接阶段 GCC的常见使用 前言: 什么是GCC: gcc的全称是GNU Compiler Collection&#xff0c;它是一个能够编译多种语言的编译器。最开始gcc是作为C语言的编译器&#xff08;GNU C Co…

linux之安装配置VM+CentOS7+换源

文章目录 一、centos07安装二、CentOS 07网络配置2.1解决CentOS 07网络名不出现问题此博主的论文可以解决2.2配置&#xff08;命令: 【ip a】也可查看ip地址&#xff09; 三、使用链接工具链接CentOS进行命令控制四、换软件源 一、centos07安装 1、在vmvare中新建虚拟机 2、下…

charles mac抓包unknown问题

第一步&#xff1a;mac上安装Charles后&#xff0c;mac安装证书&#xff1a; 第二步&#xff1a;mac上信任证书 第三步&#xff1a;手机上安装证书 安装提示&#xff1a;电脑上通过help–>SSLProxying–> Install Charles Root Ceriticate on a Mobile Device or Remote …

微信小程序从入门到进阶(二)

数据请求 wx.request发起网络请求&#xff0c;请求的方式主要分为两种&#xff1a; get 请求 post 请求 // get请求 // html <view><button type"primary" bindtap"onGetClick">发起 get 请求</button> </view> // js // inde…

redis 入门及相关知识汇总

什么是 Redis &#xff1f; 1&#xff0c;相对于mysql &#xff0c;oracle &#xff0c; 这种关系西数据库&#xff0c; 我们还有非关系数据库服务&#xff0c;他的产生是为了&#xff0c;解决常规数据库的并发能力&#xff0c;传统的关系型数据库受限于IO 和性能瓶颈&#xff…