Prometheus 14 点实践经验分享

news2025/1/12 6:12:57

这是 2017 年的 promcon 的分享,原文地址在这里,作者 Julius Volz,今天偶然看到,虽然已经过去 6 年,有些实践经验还是非常值得学习。做个意译,加入一些自己的理解,分享给大家。

埋点方面

1. 所有模块都要埋点

我印象中 Google 有个规范,所有的服务模块,都需要通过 HTTP /varz 接口暴露监控指标,即便是一个纯后端的 RPC 服务,也要暴露一个这样的 HTTP 接口。当然,实操的话,应该是通过框架来统一埋点,但是统一埋点只能埋入一些通用的指标,如果涉及一些自身业务逻辑相关的,还是需要自行埋点。

2. 借鉴 USE 方法论

USE 方法论,即 Utilization、Saturation、Errors 三个维度,即资源的使用率、饱和度、错误。这三个维度,可以用来衡量一个资源是否健康,如果有一个维度不健康,就需要考虑扩容或者优化。USE 方法论提出者是著名大神 Brendan Gregg,他的博客里有很多关于性能优化的文章,非常值得一读。

3. 借鉴 RED 方法论

RED 方法论,即 Request rate、Error rate、Duration,托生自 Google 的四个黄金指标,主要用来衡量微服务的健康度,RED 方法论的原文在 这里。

4. 指标命名要有规范

Prometheus 的指标命名,其实是没有约束的,也没有单位的概念,但通常会有一些约定,要尽量遵守,比如:

  • _seconds _milliseconds 等作为时间指标的后缀
  • _total 作为 counter 类型指标的后缀
  • 更多的约定可以参考 Metric and label naming | Prometheus
5. 注意标签基数爆炸

在 Prometheus 生态里,一个时间线的唯一标识是一个 labelset,即多个标签的组合(指标名称其实也是一个特殊标签,标签 Key 是 __name__)。比如 disk_free{host="10.1.2.3", fstype="ext4", path="/data"} 唯一标识了一个时间线。其中 disk_free 是指标名称,实际底层处理的时候,会处理成:{__name__="disk_free", host="10.1.2.3", fstype="ext4", path="/data"},所以说标签集合是唯一标识一个时间线的。如果任一标签变化,就会当成一个新的时间线。一些高基数的信息,就不适合作为标签,比如:

  • 用户访问的来源 IP
  • 用户的 ID
  • 用户请求的 TraceID
6. 统计失败+总量而不要统计失败+成功量

考虑下面两个 counter 指标:

  • failures_total
  • successes_total

如果要计算失败率,可以这么写:

rate(failures_total[5m])
/
(rate(successes_total[5m]) + rate(failures_total[5m]))

写起来相对复杂一些,如果我们统计失败+总量:

  • failures_total
  • requests_total

失败率的计算就会变简单:

rate(failures_total[5m]) / rate(requests_total[5m])
7. 使用默认值提前初始化指标

假设有这么一个指标:ops_total{optype="<type>"},显然,这是想统计不同类型的操作的次数,但是如果某个类型的操作一次都没有发生,那么这个指标就不会出现在 Prometheus 的时间序列里,但你可能在 Grafana 图表和相关告警规则中用到了这样的语句:sum(rate(ops_total{optype="create"}[5m])),如果 create 一次都没有发生,那就没法工作了。一般我们建议,代码埋点的时候要做初始化,比如下面的 Go 语言例子,把已知的操作类型都初始化一下:

for _, val := range opLabelValues {
 // Note: No ".Inc()" at the end.
 ops.WithLabelValues(val)
}

当然,填充默认值的这种方式并非总能奏效。比如 http_requests_total{status="<status>"} 这样的指标,status=~"5.." 过滤器查不到数据时会破坏整个 promql,此时有个比较 tricky 的方法是使用 or 语法:

<expression> or up{job="myjob"} * 0

更多信息可参考这个文章。

8. 避免使用无法识别的额外信息标签

比如机器的指标,disk_usage_bytes,如果某个机器部署了服务A,你可能会想这么打标签:disk_usage_bytes{service="a"},但是如果后面这个机器改变了用途,不再部署服务A,而是部署服务B,这个磁盘使用的指标就会变成 disk_usage_bytes{service="b"},而这,由于标签变化,就会导致 Prometheus 会认为这是一个新的时间线,而不是原来的时间线,导致时间线数据不连续。

那怎么办?可以使用 group_left 附加额外标签的方式,具体可以参考这个文章。

关于告警

Rob Ewaschuk 有一篇广为流传的文章:My Philosophy on Alerting,推荐大家 Google 一下阅读一下。

9. 告警症状而非原因

原因类指标可以放到仪表盘上用于后续问题根因排查,症状类指标,通常反映的是上层用户的感受,啥是症状类指标?比如:

  • 某个关键服务延迟高,或错误率高
  • 某个磁盘即将在未来 4h 内写满
10. 注意 target 缺失告警

比如下面这个告警规则:

ALERT HighErrorRate
 IF rate(errors_total{job="myjob"}[5m]) > 10
 FOR 5m

看起来挺好的,但是如果你的 target down 掉了或者压根没有被 Prometheus 发现,上面的表达式查不到数据,自然就不会告警。建议,对于关键指标,要一并配置 up 和 absent:

ALERT MyJobInstanceDown
 IF up{job="myjob"} == 0
 FOR 5m

ALERT MyJobAbsent
 IF absent(up{job="myjob"})
 FOR 5m
11. 告警规则通常要配置持续时长

比如下面的告警规则,没有配置持续时长:

ALERT InstanceDown
 IF up == 0

如果有一次抓取失败,就会告警,但实际上可能是网络抖动,实际的 target 是健康的,所以建议配置持续时长:

ALERT InstanceDown
 IF up == 0
 FOR 5m
12. 注意保留关键标签

举例:

Don't:

ALERT HighErrorRate
 IF sum(rate(...)) > x

Do (at least):

ALERT HighErrorRate
 IF sum by(job) (rate(...)) > x

读者可以在即时查询里体验一下,sum 之后,如果不加 by 的逻辑,所有便签就都没了,告警事件发出来信息太少,所以一般建议把关键标签放到 by 后面分组统计。

关于查询

13. 查询表达式通常要过滤到job颗粒度

不同的 job 可能有相同的指标名字,为了避免冲突,尽量把 job 作为过滤条件:

Don't: rate(http_request_errors_total[5m])
Do: rate(http_request_errors_total{job="api"}[5m])
14. 注意 rate() 和 sum() 的顺序

对于 counter 类型的指标,如果服务重启,指标会被重置,从 0 开始重新上报,rate() 函数可以修正这种情况,比如:

20231115190514

正常来讲,应该先求 rate(),再求 sum(),如果弄反了,就麻烦了,比如下面的例子:

20231115190738

译者注:要想玩转 Prometheus,其实还是有门槛的,但是大部分公司首先会把人力投入到自己的赚钱业务上,监控或者可观测性系统,这种偏辅助类的基础设施,没有精力搞,巧了,我们创业就是提供可观测性平台和服务,如果您对我们放心,欢迎联系我们,我们会提供一流的服务。

译者:秦晓辉,Open-Falcon、Nightingale、Categraf 等开源项目创始研发人员,极客时间专栏《运维监控系统实战笔记》作者,目前在创业,提供可观测性产品,微信 picobyte,欢迎加好友交流,加好友请备注公司。

微信公众号不好贴外部链接,更好的阅读体验可以访问:Prometheus 14 点实践经验分享 - 快猫星云

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1342800.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

腾讯经典面试题-如何做一个迷你版的微信抢红包呢?

&#x1f44f;作者简介&#xff1a;大家好&#xff0c;我是爱吃芝士的土豆倪&#xff0c;24届校招生Java选手&#xff0c;很高兴认识大家&#x1f4d5;系列专栏&#xff1a;Spring源码、JUC源码、Kafka原理、分布式技术原理、数据库技术&#x1f525;如果感觉博主的文章还不错的…

9个简单有效的用户需求分析方法,让你的产品更符合用户心理预期

作为一名互联网产品经理&#xff0c;需求分析是我们工作中最为重要的环节之一。正确地理解用户需求&#xff0c;为用户提供更好的产品体验&#xff0c;是我们的首要任务。以下是一些关于如何做好需求分析的建议&#xff0c;希望对大家有所帮助。 了解用户 在需求分析的过程中&a…

羊大师讲解,羊奶怎么加热才不容易破坏营养

羊大师讲解&#xff0c;羊奶怎么加热才不容易破坏营养 随着人们对健康饮食的重视&#xff0c;越来越多的人开始选择羊奶作为补充营养的饮品。在加热羊奶的过程中&#xff0c;如果方法不当&#xff0c;很容易造成营养价值的损失。那么&#xff0c;如何加热羊奶才能最大程度地保…

腾讯云轻量应用服务器性能差吗?

腾讯云轻量应用服务器性能如何&#xff1f;轻量服务器CPU采用什么型号&#xff1f;处理器计算性能如何&#xff1f;轻量应用服务器会不会比云服务器CVM性能差&#xff1f;腾讯云服务器网txyfwq.com详解轻量CPU型号主频、处理器性能、内存、公网带宽、月流量、不同地域速度测试、…

共享单车之租赁需求预估

文章目录 第1关&#xff1a;数据探索与可视化第2关&#xff1a;特征工程第3关&#xff1a;租赁需求预估 第1关&#xff1a;数据探索与可视化 相关知识 为了完成本关任务&#xff0c;你需要掌握&#xff1a; 读取数据 数据探索与可视化 读取数据 数据保存在./step1/bike_train…

Gooxi受邀出席操作系统与AI技术应用实践沙龙·OC城市行·深圳站活动

2023年是大模型元年&#xff0c;国内诸多AI、互联网公司争先恐后加码投入“练模”。AI产业快速发展行业高速运转&#xff0c;业内人称这是继蒸汽机、计算机之后开启新一轮科技革命的技术。但AI大模型是一个资本密集、人才密集和数据密集的产业&#xff0c;如何促进AI大模型落地…

Java之程序、进程、线程、管程和并发、并行的概念

文章目录 1. 进程与线程1.1 程序1.2 进程1.3 线程1.4 管程 2.并行与并发2.1 并发2.2 并行 1. 进程与线程 1.1 程序 程序是指令和数据的有序集合&#xff0c;其本身没有任何运行的含义&#xff0c;是一个静态的概念。简单的说就是我们写的代码。 1.2 进程 &#xff08;1&…

05-认证服务中多种认证方式的实现

多种认证方式 统一认证入口 目前各大网站支持账号密码认证、手机验证码认证、扫码登录认证等多种认证方式,Spring Security框架也支持多样化的认证方案 账号和密码认证: 采用OAuth2协议的密码模式即可实现手机号加验证码认证: 用户认证提交的是手机号和验证码并不是账号和密…

软件测试/测试开发丨Windows Appium环境搭建

windows 版本 Appium 环境搭建 安装 nodejs 下载.msi文件 https://nodejs.org/en/download/ 注意&#xff1a; 1、下载12.*版本双击安装即可。 2、无须配置环境变量,直接重启一个 cmd 输入下面的命令&#xff0c;能够查看这两个版本号即安装成功。 安装 appium desktop 直…

如何在Docker环境下安装火狐浏览器并结合内网穿透工具实现公网访问

文章目录 1. 部署Firefox2. 本地访问Firefox3. Linux安装Cpolar4. 配置Firefox公网地址5. 远程访问Firefox6. 固定Firefox公网地址7. 固定地址访问Firefox Firefox是一款免费开源的网页浏览器&#xff0c;由Mozilla基金会开发和维护。它是第一个成功挑战微软Internet Explorer浏…

【LeetCode】修炼之路-0001-Two Sum(两数之和)【python】【简单】

前言 计算机科学作为一门实践性极强的学科,代码能力的培养尤为重要。当前网络上有非常多优秀的前辈分享了LeetCode的最佳算法题解,这对于我们这些初学者来说提供了莫大的帮助,但对于我这种缺乏编程直觉的学习者而言,这往往难以消化吸收。&#xff08;为什么别人就能想出这么优雅…

tcp/ip实现两个手机之间连接同步显示

app主界面 选择一&#xff1a;TCP客户端 选择二&#xff1a;TCP服务端 点击下图item时进入曲线绘制页面 如果是服务器端它不需要连任何设备就可以直接进入绘制界面如果是TCP的话就不能直接进入&#xff0c;否则就会提示未连接网络连接不能放在主线程&#xff0c;页面去调方法&…

Java限流方案常用算法详解 固定时间窗口 滑动时间窗口 漏桶限流 令牌桶限流

前言 为什么要做限流&#xff1f; 服务需要保护自己&#xff0c;以免被太多的请求淹没&#xff08;无论是恶意或无意的&#xff09;&#xff0c;从而保持可用性。 举个生活中的例子&#xff0c;某个景区&#xff0c;平时可能根本没什么人前往&#xff0c;但是一旦到了国庆假日…

Python中的并发编程(7)异步编程

异步编程 Python3.4后新增了asyncio模块&#xff0c;支持异步编程。 异步是在一个线程中通过任务切换的方式让多个任务”同时“进展。asyncio不涉及线程/进程切换&#xff0c;减少了线程/进程创建、上下文切换的开销&#xff0c;更轻量级。 asyncio的核心是事件循环&#xff0…

仓储3代电子标签接口文档-V1.2

电子标签标签注册 通过手动触发电子标签注册到系统&#xff0c;注册成功就可以进行功能测试。 仓储3代注册 方式1:&#xff08;四灯外供电版本标签&#xff09; 标签左测中间按键连按三次 方式2:&#xff08;电池供电版本标签&#xff09; 标签右下角左下角按键&#xff0…

开放网络+私有云=?星融元的私有云承载网络解决方案实例

在全世界范围内的云服务市场上&#xff0c;开放网络一直是一个备受关注的话题。相比于传统供应商的网络设备&#xff0c;开放网络具备软硬件解耦、云原生、可选组件丰富等优势&#xff0c;对云服务商和超大型企业有足够的吸引力。 SONiC作为开源的网络操作系统&#xff0c;使得…

SV接口的驱动和采样_2023.12.27】

cb 使用cloking block进行信号的同步 在cloking block&#xff0c;所有信号的采样和驱动&#xff0c;都是和时钟同步的 clocking cb &#xff08;posedge clk&#xff09;; input grant; output request; endclocking接口同步 用和wait来同步测试平台中的信号 bus.cb; 接口…

QT UI自动化测试(1)

一、框架选择 想结合公司产品搭建一套自动化测试框架&#xff0c;一方面自己学习用&#xff0c;一方面也希望跟公司业务结合起来&#xff0c;双赢。公司软件最多的产品是部署在Linux系统上&#xff0c;基于QT QML开发的UI&#xff0c;本来奔着免费的自动化框架去的&#xff0c;…

PulseGAN

研究背景 远程光电容积描记术 (rPPG) 是一种非接触式技术&#xff0c;用于测量面部视频中的心脏信号。健康监测和情绪识别等许多领域都迫切需要高质量的 rPPG 脉冲信号。然而&#xff0c;由于脉搏信号不准确的限制&#xff0c;现有的大多数rPPG方法只能用于获取平均心率&#…

Selenium自动化教程03:延时等待的3种方式

我们经常会碰到用selenium操作页面上某个元素的时候&#xff0c;需要等待页面加载完成后&#xff0c;才能操作。否则页面上的元素不存在&#xff0c;会抛出异常。或者碰到AJAX异步加载&#xff0c;我们需要等待元素加载完成后&#xff0c;才能操作。在进行UI自动化测试时&#…