常用指标采集 exporter

news2024/11/28 11:24:18

1. MySQL

https://github.com/prometheus/mysqld_exporter

可用性

表示MySQL实例是否已停机 mysql_up

表示数据库正常运行的时长,通常使用该指标配置告警,监控运行少于半小时的MySQL实例mysql_global_status_uptime

数据库连接

连接错误是数据库中的主要错误之一,通过该指标可以查看到具体连接错误信息以及错误连接次数。mysql_global_status_connection_errors_total

MySQL实例请求已经连接的线程数。mysql_global_status_threads_connected

MySQL实例请求运行中的线程数。mysql_global_status_threads_running

MySQL实例最大连接记录统计。mysql_global_status_max_used_connections

MySQL实例的最大连接数,若超过该连接数之后有新的请求到来,就会拒绝连接。mysql_global_variables_max_connections

异常中断的连接(尝试连接)。mysql_global_status_aborted_connects

异常中断的连接(超时)。mysql_global_status_aborted_clients

查询

MySQL实例慢查询统计 mysql_global_status_slow_queries

MySQL实例当前查询QPS mysql_global_status_queries

流量

入站流量 mysql_global_status_bytes_received

出站流量 mysql_global_status_bytes_sent

文件

正在打开的文件统计 mysql_global_status_opened_files

MySQL已经打开的文件统计 mysql_global_status_open_files

允许打开的文件统计 mysql_global_variables_open_files_limit

Innodb打开的文件统计 mysql_global_status_innodb_num_open_files

https://blog.csdn.net/qq_31555951/article/details/109496622
https://help.aliyun.com/zh/prometheus/use-cases/monitor-mysql-databases

2. Redis

https://github.com/oliver006/redis_exporter

Redis实例是否可用 redis_up

连接的客户端数 redis_connected_clients

内存使用率 100 * (redis_memory_used_bytes / redis_memory_max_bytes )

命令执行QPS rate(redis_commands_processed_total[1m])

cache命中QPS irate(redis_keyspace_hits_total[5m])

cache未命中QPS irate(redis_keyspace_misses_total[5m])

网络入流量 rate(redis_net_input_bytes_total[5m])

网络出流量 rate(redis_net_output_bytes_total[5m])

db中的key数量 sum(redis_db_keys) by (db)

db中的过期key数量 sum(redis_db_keys_expiring) by (db)

每一种命令的QPS topk(5, irate(redis_commands_total[1m]))

3. MongoDB

https://github.com/percona/mongodb_exporter
https://github.com/raffis/mongodb-query-exporter

服务器是否在线 mongodb_up

客户端连接数 mongodb_ss_connections{conn_type=“current”}

collection 全部文档的体积,单位 bytes mongodb_collstats_storageStats_size

collection 读操作的数量(每分钟) delta(mongodb_collstats_latencyStats_reads_ops[1m])

collection 读操作的延迟(每分钟),单位为微秒 delta(mongodb_collstats_latencyStats_reads_latency[1m])

collection 的 index 数量 mongodb_collstats_storageStats_nindexes

collection 的 index 占用的磁盘空间 mongodb_collstats_storageStats_totalIndexSize

https://www.cnblogs.com/yangmeichong/p/18156069

4. Kafka

https://github.com/danielqsj/kafka_exporter
https://github.com/prometheus/jmx_exporter
https://cloud.tencent.com/document/product/1416/111833
https://developer.aliyun.com/article/1578308

5. elasticsearch

https://github.com/prometheus-community/elasticsearch_exporter
https://www.cnblogs.com/qianyuliang/p/15410892.html
https://cloud.tencent.com/developer/article/1765046

集群健康和节点可用性

集群状态,green( 所有的主分片和副本分片都正常运行)、yellow(所有的主分片都正常运行,但不是所有的副本分片都正常运行)red(有主分片没能正常运行) elasticsearch_cluster_health_status

集群节点数/数据节点数 elasticsearch_cluster_health_number_of_nodes

活跃的主分片总数 elasticsearch_cluster_health_active_primary_shards

活跃的分片总数(包括复制分片) elasticsearch_cluster_health_active_shards

当前节点正在迁移到其他节点的分片数量,通常为0,集群中有节点新加入或者退出时该值会增加 elasticsearch_cluster_health_relocating_shards

正在初始化的分片 elasticsearch_cluster_health_initializing_shards

未分配的分片数,通常为0,当有节点的副本分片丢失该值会增加 elasticsearch_cluster_health_unassigned_shards

只有主节点能处理集群级元数据的更改(创建索引,更新映射,分配分片等),通过pending-tasks API可以查看队列中等待的任务,绝大部分情况下元数据更改的队列基本上保持为零 elasticsearch_cluster_health_number_of_pending_tasks

主机级别的系统和网络指标

CPU使用率 elasticsearch_process_cpu_percent

磁盘可用空间 elasticsearch_filesystem_data_free_bytes

ES进程打开的文件描述符 elasticsearch_process_open_files_count

ES节点之间网络入流量 elasticsearch_transport_rx_packets_total

ES节点之间网络出流量 elasticsearch_transport_tx_packets_total

JVM内存和垃圾回收

垃圾搜集数 elasticsearch_jvm_gc_collection_seconds_count

垃圾回收时间 elasticsearch_jvm_gc_collection_seconds_sum

最大使用内存限制 elasticsearch_jvm_memory_committed_bytes

内存使用量 elasticsearch_jvm_memory_used_bytes

6. Zookeeper

#比较老旧不推荐
https://github.com/dabealu/zookeeper-exporter
https://github.com/carlpett/zookeeper_exporter/
#jmx方式
https://github.com/prometheus/jmx_exporter/blob/main/example_configs/zookeeper.yaml
https://bbs.huaweicloud.com/blogs/166278

为了更加方便的集成prometheus,建议使用3.6.0以后的版本,因为这个版本以后zookeeper加入了prometheus集成监控,只需要开启zookeeper的指标配置即可。在这个版本之前的zookeeper,可能需要通过JMX进行监控。
启用以下三个属性值即可

##Metrics Providers
#https://prometheus.io Metrics Exporter
metricsProvider.className=org.apache.zookeeper.metrics.prometheus.PrometheusMetricsProvider
metricsProvider.httpPort=7000
metricsProvider.exportJvmInfo=true

7. Nginx

https://github.com/nginxinc/nginx-prometheus-exporter/
https://cloud.tencent.com/document/product/1416/111838

存活状态1正常 0异常 nginx_up

nginx已接受的连接 nginx_connections_accepted

nginx连接活动数 nginx_connections_active

nginx已处理的连接 nginx_connections_handled

nginx连接_读取 nginx_connections_reading

nginx连接_等待 nginx_connections_waiting

nginx连接_写入 nginx_connections_writing

nginx请求总数 nginx_http_requests_total

8. k8s集群node-exporter

https://github.com/prometheus/node_exporter

cpu、内存相关的指标

过去 1 分钟的系统平均负载 node_load1

系统总内存量(以字节为单位) node_memory_MemTotal_bytes

系统当前可用的内存量(以字节为单位) node_memory_MemAvailable_bytes

系统缓存使用的内存(以字节为单位) node_memory_Cached_bytes

用于缓冲使用的内存(以字节为单位) node_memory_Buffers_bytes

计算可用内存百分比 node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes * 100

计算已用内存百分比 (node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes) / node_memory_MemTotal_bytes *100

磁盘相关指标

文件系统大小(以字节为单位) node_filesystem_size_bytes

文件系统可用空间(以字节为单位 ) node_filesystem_avail_bytes

计算可用空间百分比 node_filesystem_avail_bytes / node_filesystem_size_bytes * 100

计算已用空间百分比 (node_filesystem_size_bytes - node_filesystem_avail_bytes ) / node_filesystem_size_bytes * 100

磁盘IO吞吐量相关核心指标

从给定设备读取的总字节数。(以字节为单位)。(使用irate可以得到每秒写入大小) node_disk_read_bytes_total

向给定设备写入的总字节数 node_disk_written_bytes_total

磁盘IOPS相关核心指标

磁盘设备完成的读操作总数。(使用irate可以得到每秒读操作的平均数) node_disk_reads_completed_total

磁盘设备完成的写操作总数。(使用irate可以得到每秒读操作的平均数) node_disk_writes_completed_total

网络核心指标

网络接口接收到的总字节数。(以字节为单位) node_network_receive_bytes_total

网络接口发送出去的总字节数。(以字节为单位) node_network_transmit_bytes_total

连接追踪核心指标

系统正在跟踪的网络连接的数量。这包括所有类型的连接,例如 TCP, UDP、ICMP等node_nf_conntrack_entries

系统conntrack 能够跟踪的网络连接的最大数量node_nf_conntrack_entries_limit

TCP与其他相关指标

当前已断开的TCP连接数node_tcp_connection_states{state=“time_wait”}

当前建立的TCP连接数node_tcp_connection_states{state=“established”}

https://www.volcengine.com/docs/6731/189369

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2249014.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【AI绘画】Midjourney进阶:色调详解(下)

博客主页: [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: AI绘画 | Midjourney 文章目录 💯前言💯Midjourney中的色彩控制为什么要控制色彩?为什么要在Midjourney中控制色彩? 💯色调纯色调灰色调暗色调 &#x1f4af…

[代码随想录Day24打卡] 93.复原IP地址 78.子集 90.子集II

93.复原IP地址 一个合法的IP地址是什么样的: 有3个’.分割得到4个数,每个数第一个数不能是0,不能含有非法字符,不能大于255。 这个是否属于合法IP相当于一个分割问题,把一串字符串分割成4部分,分别判断每…

“harmony”整合不同平台的单细胞数据之旅

其实在Seurat v3官方网站的Vignettes中就曾见过该算法,但并没有太多关注,直到看了北大张泽民团队在2019年10月31日发表于Cell的《Landscap and Dynamics of Single Immune Cells in Hepatocellular Carcinoma》,为了同时整合两类数据&#xf…

贴代码PasteForm框架之框架核心帮助类PasteFormHelper说明

简介 PasteForm是贴代码推出的 “新一代CRUD” ,基于ABPvNext,目的是通过对Dto的特性的标注,从而实现管理端的统一UI,借助于配套的PasteBuilder代码生成器,你可以快速的为自己的项目构建后台管理端!目前管…

杂7杂8学一点之ZC序列

重要的放在前面,优秀文章链接:5GNR漫谈13:Zadoff –Chu(ZC)序列性质 目录 1. ZC序列 1.1 ZC序列的表达式 1.2 ZC序列的特点 2. PRACH中的ZC序列 2.1 为什么要有逻辑根序列与物理根序列的概念 1. ZC序列 ZC序列&…

matlab代码--卷积神经网络的手写数字识别

1.cnn介绍 卷积神经网络(Convolutional Neural Network, CNN)是一种深度学习的算法,在图像和视频识别、图像分类、自然语言处理等领域有着广泛的应用。CNN的基本结构包括输入层、卷积层、池化层(Pooling Layer)、全连…

【Linux】—简单实现一个shell(myshell)

大家好呀,我是残念,希望在你看完之后,能对你有所帮助,有什么不足请指正!共同学习交流哦! 本文由:残念ing原创CSDN首发,如需要转载请通知 个人主页:残念ing-CSDN博客&…

基于 Flask 和 RabbitMQ 构建高效消息队列系统:从数据生成到消费

简介 在构建 Web 应用时,处理和传输大量数据是不可避免的。对于需要高效、可扩展的消息处理和异步任务执行的场景,使用 RabbitMQ(一种流行的消息队列中间件)与 Flask(一个轻量级的 Python Web 框架)结合&a…

Linux:文件管理(一)——文件描述符fd

目录 一、文件基础认识 二、C语言操作文件的接口 1.> 和 >> 2.理解“当前路径” 三、相关系统调用 1.open 2.文件描述符 3.一切皆文件 4.再次理解重定向 一、文件基础认识 文件 内容 属性。换句话说,如果在电脑上新建了一个空白文档&#xff0…

机器学习模型——线性回归

文章目录 前言1.基础概念2.代价函数3.单变量线性回归3.1加载数据3.2初始化超参数3.3梯度下降算法3.3.1初次梯度下降3.3.2 多次梯度下降3.3.3结果可视化 前言 随着互联网数据不断累积,硬件不断升级迭代,在这个信息爆炸的时代,机器学习已被应用…

如何安全高效地打开和管理动态链接库(DLL)?系统提示dll丢失问题的多种有效修复指南

动态链接库(DLL)文件是Windows操作系统中非常重要的一部分,它们包含了程序运行所需的代码和数据。当系统提示DLL文件丢失时,可能会导致应用程序无法正常运行。以下是一些安全高效地打开和管理DLL文件以及修复DLL丢失问题的方法&am…

数据结构(初阶7)---七大排序法(堆排序,快速排序,归并排序,希尔排序,冒泡排序,选择排序,插入排序)(详解)

排序 1.插入排序2.希尔排序3.冒泡排序4.选择排序(双头排序优化版)5.堆排序6.快速排序1). 双指针法2).前后指针法3).非递归法 7.归并排序1).递归版本(递归的回退就是归并)2).非递归版本(迭代版本) 计算机执行的最多的操作之一就有排序,排序是一项极其重要的技能 接下…

【JavaEE初阶 — 网络原理】初识网络原理

目录 1. 网络发展史 1.1 独立模式 1.2 网络互连 1.2.1 网络互联的背景 1.2.2 网络互联的定义 1.3 局域网LAN 1.4 广域网WAN 2. 网络通信基础 2.1 IP地址 2.2 端口号 2.3 认识协议 2.4 五元组 2.5 协议分层 2.5.1 分…

【C++习题】15.滑动窗口_串联所有单词的子串

文章目录 题目链接&#xff1a;题目描述&#xff1a;解法C 算法代码&#xff1a;图解 题目链接&#xff1a; 30. 串联所有单词的子串 题目描述&#xff1a; 解法 滑动窗口哈希表 这题和第14题不同的是&#xff1a; 哈希表不同&#xff1a;hash<string,int>left与right指…

【学术讲座】视觉计算中的深度学习方法 AIGC图像视频生成模型的推理加速

视觉计算中的深度学习方法 发展历程 backbone 强化学习、LLM等&#xff1a;有监督 && 无监督的结合 目标检测 图像分割 网络结构搜索 搜索方法 1&#xff1a;强化学习 2&#xff1a;强化学习 3&#xff1a;梯度算法 结构选择的作用 1&#xff1a;开放环境感知网络…

【VLANPWN】一款针对VLAN的安全研究和渗透测试工具

关于VLANPWN VLANPWN是一款针对VLAN的安全研究和渗透测试工具&#xff0c;该工具可以帮助广大研究人员通过对VLAN执行渗透测试&#xff0c;来研究和分析目标VLAN的安全状况。该工具专为红队研究人员和安全学习爱好者设计&#xff0c;旨在训练网络工程师提升网络的安全性能&…

机器学习之数据预处理理论——基于表格数据分析

一、机器学习中数据预处理的作用与目的 对于机器学习而言&#xff0c;数据预处理是指在数据挖掘、数据分析、模型构建训练等过程中&#xff0c;对原始数据进行一系列的处理&#xff0c;以提高数据质量、减少噪声、提取有用信息等。数据预处理的主要目的是将原始数据转换为有用的…

如何写出好证明(支持思想的深入数学写作)

不断的修改和精炼是写作过程中的重要环节&#xff0c;数学写作最终目的是提供对问题的深刻洞察而非仅仅陈述细节。 根据harvey mudd college Francis Su教授的《GUIDELINES FOR GOOD MATHEMATICAL WRITING》讲稿&#xff0c;总结出撰写好的数学证明需要注意以下几个要点&#x…

中英双语介绍DeepSpeed 的 ZeRO 优化

DeepSpeed 的 ZeRO 优化&#xff1a;通俗易懂的原理与实践指南 引言 在深度学习的大规模模型训练中&#xff0c;显存瓶颈是常见的挑战。DeepSpeed 提供了革命性的 ZeRO (Zero Redundancy Optimizer) 优化技术&#xff0c;为大模型训练节省显存、提高效率提供了强有力的工具。…

如何将 GitHub 私有仓库(private)转换为公共仓库(public)

文章目录 如何将 GitHub 私有仓库转换为公共仓库步骤 1: 登录 GitHub步骤 2: 导航到目标仓库步骤 3: 访问仓库设置步骤 4: 更改仓库可见性步骤 5: 确认更改步骤 6: 验证更改注意事项 如何将 GitHub 私有仓库转换为公共仓库 在软件开发领域&#xff0c;GitHub 是一个广受欢迎的…