目录
普罗米修斯监控架构介绍
Prometheus 监控架构
1. 数据抓取(Scraping)
2. 时序数据库(TSDB)
3. 数据模型
4. PromQL 查询语言
5. 告警(Alerting)
6. Alertmanager
7. 可视化(Visualization)
典型的 Prometheus 监控架构
工作流程
优点
部署安装
配置管理脚本
使用说明:
启动alertmanager
启动node_exporter
PromQL简单了解
1. 查询所有时间序列的当前值
2. 查询某个指标的最新值
3. 查询某个指标的某个时间范围的平均值
4. 查询某个指标的某个时间范围的最大值
5. 查询 CPU 使用率
6. 使用 count 聚合函数计算数量
安装grafana工具
监控告警
扩展
续下篇:Prometheus-v2.45.0 + 钉钉告警-CSDN博客
普罗米修斯监控架构介绍
普罗米修斯(Prometheus)是一款开源的系统监控和报警工具,最初由SoundCloud开发,现在是CNCF(云原生计算基金会)的一部分。它主要用于收集和存储时序数据,通过查询语言PromQL进行查询和分析,并能与多种告警和可视化工具集成。
官方网站: https://prometheus.io/download/
中文文档网站:序言 · Prometheus 中文文档
https://prometheus.fuckcloudnative.io/
Introduction · Prometheus中文技术文档
Prometheus 监控架构
1. 数据抓取(Scraping)
Prometheus 定期从配置的目标(targets)中抓取指标数据。每个目标是一个HTTP端点,提供实时的监控数据。这些数据通常是以键值对的形式返回的。
2. 时序数据库(TSDB)
抓取的数据被存储在本地的时序数据库中。Prometheus 的存储系统是专门为高效写入和查询时间序列数据而设计的。数据按时间顺序存储,并且支持高效的压缩和检索。
3. 数据模型
Prometheus 使用多维数据模型(dimensional data model),每条时间序列数据(metric)由一个度量名(metric name)和一组标签(labels)唯一标识。标签是键值对,可以用来区分相同度量名下的不同实例。
4. PromQL 查询语言
Prometheus 提供了一种功能强大的查询语言PromQL,用于实时查询时序数据。PromQL 支持丰富的查询操作,包括聚合、过滤和数学运算等。
5. 告警(Alerting)
Prometheus 允许用户定义告警规则,这些规则会在指定条件满足时触发。告警规则是用PromQL定义的,可以基于实时数据生成告警。告警触发后会被发送到Alertmanager进行处理。
6. Alertmanager
Alertmanager 是 Prometheus 的告警管理组件,负责接收、去重、分组和路由告警通知。它还可以将告警发送到各种通知渠道,如电子邮件、Slack、PagerDuty等。
7. 可视化(Visualization)
Prometheus 自带一个简单的网页UI,用于查看和查询数据。然而,更强大和广泛使用的可视化工具是Grafana。Grafana 可以连接Prometheus,提供丰富的图表和仪表盘,用于展示监控数据。
典型的 Prometheus 监控架构
-
Prometheus Server
- 负责抓取和存储时序数据。
- 处理查询请求,并执行PromQL查询。
-
Exporter
- 各种服务或应用程序的监控数据导出工具(如Node Exporter、MySQL Exporter等)。
- 提供HTTP端点,供Prometheus抓取数据。
-
Pushgateway
- 用于临时性批量任务的监控数据推送。
- 允许短期任务主动将数据推送到Prometheus。
-
Alertmanager
- 管理和处理告警。
- 支持告警去重、分组和路由,集成多种通知渠道。
-
Grafana
- 可视化工具,用于展示Prometheus数据。
- 支持丰富的图表类型和自定义仪表盘。
工作流程
- 数据抓取:Prometheus 定期从配置的目标(通常是Exporter提供的HTTP端点)中抓取监控数据。
- 数据存储:抓取的数据被存储在Prometheus的本地时序数据库中。
- 数据查询:用户可以通过Prometheus的网页UI或Grafana使用PromQL查询数据。
- 告警触发:Prometheus根据定义的告警规则评估数据,当条件满足时触发告警。
- 告警处理:告警被发送到Alertmanager进行处理,并通知相关人员或系统。
- 数据可视化:通过Grafana等工具,用户可以将数据展示在仪表盘上,实现实时监控和分析。
优点
- 高效的数据存储和查询:专为时序数据设计的存储系统,支持高效的压缩和检索。
- 强大的查询语言:PromQL 提供了强大的查询和分析能力。
- 灵活的告警系统:支持复杂的告警规则和多种通知方式。
- 易于扩展和集成:支持多种Exporter和可视化工具,易于集成到现有系统中。
部署安装
https://prometheus.io/docs/instrumenting/exporters/
本文软件包链接:https://pan.baidu.com/s/1b3AzJBNtIt1PfjNi1eE7fg?pwd=jcj8
提取码:jcj8
上传如下四个工具压缩包到/opt/目录中
[root@localhost ~]# cd /opt && ll
total 247532
-rw-r--r-- 1 root root 29717412 Apr 24 00:04 alertmanager-0.26.0.linux-amd64.tar.gz
-rw-r--r-- 1 root root 122184924 Jul 19 04:56 grafana-enterprise-11.1.0-1.x86_64.rpm
-rw-r--r-- 1 root root 10368103 Apr 24 00:04 node_exporter-1.6.1.linux-amd64.tar.gz
-rw-r--r-- 1 root root 91189594 Apr 24 00:04 prometheus-2.45.0.linux-amd64.tar.gz
解压 Prometheus 安装包
[root@localhost opt]# tar -xf prometheus-2.45.0.linux-amd64.tar.gz
解压后改个给目录改个短点的名字方便,并进入 prometheus 目录
[root@localhost prometheus]# ll
total 227312
-rw-r--r-- 1 1001 docker 11357 Jun 23 2023 LICENSE
-rw-r--r-- 1 1001 docker 3773 Jun 23 2023 NOTICE
drwxr-xr-x 2 1001 docker 38 Jun 23 2023 console_libraries
drwxr-xr-x 2 1001 docker 173 Jun 23 2023 consoles
-rwxr-xr-x 1 1001 docker 119846310 Jun 23 2023 prometheus
-rw-r--r-- 1 1001 docker 934 Jun 23 2023 prometheus.yml
-rwxr-xr-x 1 1001 docker 112896008 Jun 23 2023 promtool
解释:
LICENSE:包含 Prometheus 项目的开源许可证信息。通常是 Apache License 2.0 或类似的许可证。
NOTICE:包含与 Prometheus 相关的法律通知和版权声明。
console_libraries:这个目录包含一些 JavaScript 库,用于支持 Prometheus 控制台模板的功能。
consoles:这个目录包含多个 HTML 模板文件,这些模板用于生成 Prometheus 的控制台视图。控制台视图可以在 Prometheus 的 Web UI 中用于展示各种监控数据。
prometheus:Prometheus 的主可执行文件。运行这个文件会启动 Prometheus 服务器,开始抓取和存储监控数据。
prometheus.yml:Prometheus 的主要配置文件。定义了抓取配置(scrape configuration)、告警规则(alerting rules)、告警管理配置(alertmanager configuration)等。是 Prometheus 运作的核心文件。
promtool:Prometheus 提供的一个命令行工具,用于检查配置文件的语法、执行查询、检查告警规则等。对于调试和管理 Prometheus 非常有用。
注意:
prometheus端口默认是9090,如果在你的rocky_linux9.4系统上,9090端口已经被占用,需将其关闭,如果是系统自带的会启动9090端口,在rocky中一般是其web管理页面的服务端口,执行下述命令,将其关掉
# 禁用并立即停止 Cockpit 服务和相关的 socket
systemctl disable --now cockpit cockpit.socket
启动 Prometheus 服务
[root@localhost prometheus]# ./prometheus
# 使用nohup ./prometheus & 命令可后端运行,并会在当前目录生成nohup.out存储日志,而原本prometheus是没有日志的。
访问ip+端口,例如我这里访问:http://192.168.226.29:9090/
http://192.168.226.29:9090/metrics
这个路径会显示 Prometheus 自身的监控指标(metrics)。这些指标包含了 Prometheus 自身的性能和健康状况信息,并且以文本格式展示。
配置管理脚本
[root@localhost prometheus]# vim /usr/local/bin/prometheus.sh
#!/bin/bash
# **********************************************************
# * File Name : prometheus.sh
# * Author : zzdict
# * Email : zzdict@gmail.com / elk_deer@foxmail.com
# * Create time : 2024-08-01 15:12
# * Description : prometheus管理脚本
# **********************************************************
# Prometheus 的安装路径
PROMETHEUS_PATH="/opt/prometheus"
PROMETHEUS_BINARY="$PROMETHEUS_PATH/prometheus"
PROMETHEUS_CONFIG="$PROMETHEUS_PATH/prometheus.yml"
PROMETHEUS_PID_FILE="$PROMETHEUS_PATH/prometheus.pid"
start() {
if [ -f "$PROMETHEUS_PID_FILE" ]; then
echo "Prometheus 已经在运行。"
return
fi
echo "启动 Prometheus..."
nohup "$PROMETHEUS_BINARY" --config.file="$PROMETHEUS_CONFIG" > "$PROMETHEUS_PATH/prometheus.log" 2>&1 &
echo $! > "$PROMETHEUS_PID_FILE"
echo "Prometheus 启动成功。"
}
stop() {
if [ ! -f "$PROMETHEUS_PID_FILE" ]; then
echo "Prometheus 没有运行。"
return
fi
echo "停止 Prometheus..."
PID=$(cat "$PROMETHEUS_PID_FILE")
kill "$PID"
rm -f "$PROMETHEUS_PID_FILE"
echo "Prometheus 停止成功。"
}
restart() {
echo "重启 Prometheus..."
stop
start
}
status() {
if [ -f "$PROMETHEUS_PID_FILE" ]; then
echo "Prometheus 正在运行。"
else
echo "Prometheus 没有运行。"
fi
}
case "$1" in
start)
start
;;
stop)
stop
;;
restart)
restart
;;
status)
status
;;
*)
echo "用法: $0 {start|stop|restart|status}"
exit 1
;;
esac
加上执行权限
[root@localhost prometheus]# chmod +x /usr/local/bin/prometheus.sh
创建符号链接
[root@localhost prometheus]# ln -s /usr/local/bin/prometheus.sh /usr/local/bin/prometheus
使用说明:
- prometheus
start
:启动 Prometheus,如果已经运行则输出提示信息。 - prometheus
stop
:停止 Prometheus,如果没有运行则输出提示信息。 - prometheus
restart
:重启 Prometheus,先停止再启动。 - prometheus
status
:检查 Prometheus 的运行状态。
本文配置systemd管理方式示例见:自定义的 systemd 服务启动方式-CSDN博客
启动alertmanager
[root@localhost opt]# cd /opt
[root@localhost opt]# tar -xf alertmanager-0.26.0.linux-amd64.tar.gz
[root@localhost opt]# mv alertmanager-0.26.0.linux-amd64 alertmanager
[root@localhost alertmanager]# ll
total 62504
-rw-r--r-- 1 3434 3434 11357 Aug 24 2023 LICENSE
-rw-r--r-- 1 3434 3434 457 Aug 24 2023 NOTICE
-rwxr-xr-x 1 3434 3434 35410965 Aug 24 2023 alertmanager
-rw-r--r-- 1 3434 3434 356 Aug 24 2023 alertmanager.yml
-rwxr-xr-x 1 3434 3434 28566971 Aug 24 2023 amtool
解释:
LICENSE:许可证文件,包含软件的许可证信息和条款,通常用来说明使用和分发软件的法律条款。
NOTICE:通知文件,通常包含有关软件的额外版权信息、贡献者声明、以及其他法律声明。
alertmanager:主执行文件,Alertmanager 的可执行程序。用于启动 Alertmanager 服务,该服务负责处理来自 Prometheus 的警报并执行相应的通知和静默操作。
alertmanager.yml:配置文件,用于配置 Alertmanager 的行为,包括警报路由、接收器和静默规则。你需要根据你的环境配置这个文件,以确保 Alertmanager 能够正确处理和通知警报。
amtool:工具程序,提供了一个命令行工具用于与 Alertmanager 进行交互,例如检查和管理警报。这个工具可以用来验证 Alertmanager 的配置和状态。
启动alertmanager
[root@localhost alertmanager]# ./alertmanager
# 后端运行的命令 nohup ./alertmanager &
alertmanager会使用9093和9094端口,可新开一个终端查看
[root@localhost alertmanager]# ss -tnlp
State Recv-Q Send-Q Local Address:Port Peer Address:Port Process
LISTEN 0 128 0.0.0.0:22 0.0.0.0:* users:(("sshd",pid=819,fd=3))
LISTEN 0 128 [::]:22 [::]:* users:(("sshd",pid=819,fd=4))
LISTEN 0 4096 *:9093 *:* users:(("alertmanager",pid=6146,fd=8))
LISTEN 0 4096 *:9094 *:* users:(("alertmanager",pid=6146,fd=3))
LISTEN 0 4096 *:9090 *:* users:(("prometheus",pid=6110,fd=7))
配置prometheus中prometheus.yml文件连接alertmanager通信
重启prometheus
[root@localhost alertmanager]# prometheus restart
注: 如果起不了服务,注意配置格式与参数,打不开网页建议清理缓存后重新访问或者换个浏览器打开
启动node_exporter
[root@localhost alertmanager]# cd /opt
[root@localhost opt]# tar -xf node_exporter-1.6.1.linux-amd64.tar.gz
[root@localhost opt]# mv node_exporter-1.6.1.linux-amd64 node_exporter
[root@localhost opt]# cd node_exporter
# 后台启动
[root@localhost node_exporter]# nohup ./node_exporter &
同理,将 node_exporter-1.6.1.linux-amd64 给另一台虚拟机192.168.226.28拷贝过去并依照上述运行node_exporter 这个主机运行node_exporter后就暂时不用操作了。
配置prometheus中prometheus.yml文件采集两台虚拟机的node_exporter数据
现在是在prometheus的主机中配置
[root@localhost node_exporter]# vim /opt/prometheus/prometheus.yml
- job_name: 'node_exporter'
static_configs:
- targets: ["192.168.226.29:9100","192.168.226.28:9100"]
重启prometheus
[root@localhost node_exporter]# prometheus restart
PromQL简单了解
查询页面在prometheus的web页面的Graph中
Prometheus 查询语言(PromQL)用于从 Prometheus 中检索和处理时间序列数据。以下是一些常见的 PromQL 查询示例:
1. 查询所有时间序列的当前值
up
说明:这个查询会显示所有被 Prometheus 监控的目标的状态(1
表示正常,0
表示异常)。
2. 查询某个指标的最新值
node_cpu_seconds_total
说明:这会显示 node_cpu_seconds_total
指标的所有时间序列的最新值。
3. 查询某个指标的某个时间范围的平均值
avg_over_time(node_cpu_seconds_total[5m])
说明:计算过去 5 分钟内 node_cpu_seconds_total
指标的平均值。
4. 查询某个指标的某个时间范围的最大值
max_over_time(node_cpu_seconds_total[1h])
说明:计算过去 1 小时内 node_cpu_seconds_total
指标的最大值。
5. 查询 CPU 使用率
100 - (avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)
说明:计算 CPU 使用率,假设 node_cpu_seconds_total
指标中 mode
标签为 "idle"
的时间序列表示 CPU 空闲时间。
6. 使用 count
聚合函数计算数量
count(node_filesystem_free_bytes) by (instance)
说明:计算每个 instance
的 node_filesystem_free_bytes
指标的时间序列数量。
安装grafana工具
Grafana 起源于 2014 年,由 Torkel Ödegaard 创建。他最初开发 Grafana 是为了填补当时可用的可视化工具中的一些空白,特别是在对时序数据的可视化方面。Grafana 起初是作为对 Graphite(一种流行的时序数据库)数据的可视化工具开发的,但很快它的功能和支持的后端数据源扩展到了包括 Prometheus、InfluxDB、Elasticsearch 和 MySQL 等在内的多种数据源。
Grafana 的主要目的是提供一个强大且灵活的仪表盘和可视化平台,用于监控和分析来自不同数据源的数据。它的用户界面允许用户创建复杂的图表、表格和警报,使得对实时和历史数据的分析更加直观和易于操作。
Grafana 是用 Go 语言(也称为 Golang)编写的。Grafana 是一个开源的数据可视化和监控平台,用于创建交互式仪表板,支持多种数据源(如 Prometheus、InfluxDB、Elasticsearch 等)的数据查询和展示。
[root@localhost node_exporter]# cd /opt
[root@localhost opt]# yum localinstall -y grafana-enterprise-11.1.0-1.x86_64.rpm
启动grafana
[root@localhost opt]# systemctl enable --now grafana-server
默认用户名:admin 密码密码:admin 登录后需要修改密码
设置中文
添加prometheus数据源
设置数据源链接地址,填入后,下滑底部点击保存。
来到官方网站:https://grafana.com/grafana/dashboards/
选择一款 prometheus 模板
拷贝这个仪表板ID使用,如果担心后期该模板下架,可以下在该仪表板json文件
导入仪表板
起名并选择数据源,然后导入即可。
导入后仪表板展示如下:
监控告警
[root@localhost ~]# cd /opt/alertmanager
[root@localhost alertmanager]# vim alertmanager.yml
# 定义邮件通知模板的路径,可以是模板文件的目录,支持通配符 *.tmpl
global:
resolve_timeout: 5m
smtp_from: '2578515263@qq.com' # 发件⼈,显示在邮件页面,显示是谁发的
smtp_smarthost: 'smtp.qq.com:465' # 邮箱服务器的POP3/SMTP 主机配置 smtp.163.com 或
smtp_auth_username: '2578515263@qq.com' # ⽤⼾名,真实发件人
smtp_auth_password: 'ktqayhvipnklojhq' # 授权码
smtp_require_tls: false
templates:
- /opt/alertmanager/tmpl/*.tmpl #定义邮件模板的路径
# 设置路由规则,指定如何分组和发送警报
route:
group_by: ['alertname'] # 根据警报名称进行分组,确保同一类型的警报被归为一组
group_wait: 30s # 当一个警报组内的警报发生后,等待 30 秒,以便将它们一起发送
group_interval: 5m # 每 5 分钟发送一次警报组
repeat_interval: 1h # 如果警报仍然处于活动状态,每小时重复发送一次
receiver: 'email-notifications' # 默认使用 'email-notifications' 接收者来发送警报通知
# 定义接收者配置,包括电子邮件通知设置
receivers:
# 优先使用这里的配置规则,如果没有则去global里的设置
- name: 'email-notifications' # 接收者名称,用于路由规则中的指定
email_configs:
- to: 'zzdict@gmail.com' # 收件人的电子邮件地址
from: '2578515263@qq.com' # 发件人的电子邮件地址
smarthost: 'smtp.qq.com:25' # SMTP 服务器地址和端口
auth_username: '2578515263@qq.com' # SMTP 服务器的用户名
auth_password: 'ktqayhvipnklojhq' # SMTP 服务器的密码
html: '{{ template "email.html" . }}' # 使用指定的邮件模板
# 定义抑制规则,用于控制警报的触发和抑制
inhibit_rules:
- source_match:
severity: 'critical' # 匹配来自严重性为 'critical' 的警报
target_match:
severity: 'warning' # 匹配目标严重性为 'warning' 的警报
equal: ['alertname', 'dev', 'instance'] # 仅当警报名称、标签 'dev' 和 'instance' 均匹配时抑制
创建邮件模板的目录存放
[root@localhost alertmanager]# mkdir ./tmpl/
[root@localhost alertmanager]# vim ./tmpl/email.tmpl
{{ define "email.html" }}
<!DOCTYPE html>
<html>
<head>
<style>
table {
border-collapse: collapse;
width: 80%;
margin: 20px auto;
}
th, td {
border: 1px solid #ddd;
padding: 8px;
text-align: left;
}
th {
background-color: #f2f2f2;
}
h1 {
text-align: center;
}
.alert-details {
margin-top: 20px;
}
.alert-item {
border: 1px solid #ddd;
padding: 10px;
margin-bottom: 10px;
background-color: #f9f9f9;
}
</style>
</head>
<body>
<h1>监控报警通知</h1>
<table>
<tr>
<th>告警状态</th>
<th>告警级别</th>
<th>告警类型</th>
<th>告警应用</th>
<th>告警主机</th>
<th>告警详情</th>
<th>触发阀值</th>
<th>告警时间</th>
</tr>
{{ range $i, $alert := .Alerts }}
<tr>
<td>{{ .Status }}</td>
<td>{{ $alert.Labels.severity }}</td>
<td>{{ $alert.Labels.alertname }}</td>
<td>{{ $alert.Annotations.summary }}</td>
<td>{{ $alert.Labels.instance }}</td>
<td>{{ $alert.Annotations.description }}</td>
<td>{{ $alert.Annotations.value }}</td>
<td>{{ $alert.StartsAt.Format "2006-01-02 15:04:05" }}</td>
</tr>
{{ end }}
</table>
</body>
</html>
{{ end }}
重启alertmanager
[root@localhost alertmanager]# pkill alertmanager
[root@localhost alertmanager]# nohup ./alertmanager &
设置监控项
[root@localhost alertmanager]# cd /opt/prometheus
# 创建规则文件存放目录
[root@localhost prometheus]# mkdir ./rules/
[root@localhost prometheus]# vim prometheus.yml
rule_files:
- "/opt/prometheus/rules/disk.yml"
改动位置见图
告警规则配置
[root@localhost prometheus]# vim ./rules/disk.yml
groups:
- name: 'disk-usage-alerts'
# 这是告警组的名称
rules:
- alert: DiskSpaceUsageHigh
# 这是告警规则的名称
expr: 100 - (node_filesystem_avail_bytes / node_filesystem_size_bytes * 100) > 50
# 告警表达式检查磁盘使用率是否超过50%
for: 5m
# 如果条件持续5分钟,则触发告警
labels:
severity: 'warning'
# 为告警添加标签,指定严重性为“警告”
annotations:
summary: '磁盘使用率过高 {{ $labels.instance }}'
# 摘要注释,描述告警的内容,包括实例名称
重启prometheus
[root@localhost prometheus]# prometheus restart
这里已经捕获到一个满足告警条件的指标,在等待配置的规则,在规则中定义了持续五分钟就会触发告警。
等待规则中定义的五分钟后,即收到邮件告警,刷新看监控web网页
扩展
遇到下图报错,需要把服务器的时间同步一下,刷新网页即可。
systemctl restart chronyd