自定义监控

news2025/4/8 13:46:09

代码说明：

导入必要的库

import time
import psutil
import GPUtil
from prometheus_client import start_http_server, Summary, Counter, Gauge

psutil：用于获取系统的CPU、内存、磁盘和网络信息。
GPUtil：用于获取GPU信息。
prometheus_client：用于创建Prometheus指标和启动HTTP服务器以暴露指标。

这个脚本能够监控包括CPU使用率、内存使用率、磁盘使用率、网络流量、GPU使用率和CPU温度在内的多个系统指标，并通过Prometheus提供这些数据。你可以通过Prometheus抓取这些数据并在Grafana中可视化。

import time
import psutil
import GPUtil
from prometheus_client import start_http_server, Summary, Counter, Gauge

# 创建指标，使用中文描述
# CPU使用率（Gauge）
CPU_USAGE = Gauge('cpu_usage', 'CPU使用率')
# 内存使用率（Gauge）
MEMORY_USAGE = Gauge('memory_usage', '内存使用率')
# 磁盘使用率（Gauge）
DISK_USAGE = Gauge('disk_usage', '磁盘使用率')
# 网络接收字节数（Gauge）
NETWORK_IN = Gauge('network_in_bytes', '网络接收字节数')
# 网络发送字节数（Gauge）
NETWORK_OUT = Gauge('network_out_bytes', '网络发送字节数')
# GPU使用率（Gauge）
GPU_USAGE = Gauge('gpu_usage', '显卡使用率')
# CPU温度（Gauge）
CPU_TEMPERATURE_GAUGE = Gauge('cpu_temperature', 'CPU温度（摄氏度）')
# CPU温度（Summary）
CPU_TEMPERATURE_SUMMARY = Summary('cpu_temperature_summary', 'CPU温度（摄氏度）')

# 总请求计数（Counter）
REQUEST_COUNT = Counter('system_metrics_requests_total', '系统监控请求总数')

# 请求处理时间（Summary）
REQUEST_TIME = Summary('system_metrics_request_duration_seconds', '处理请求所花费的时间（秒）')


def collect_cpu_metrics():
    """获取并记录CPU相关指标"""
    cpu_usage = psutil.cpu_percent(interval=1)
    CPU_USAGE.set(cpu_usage)
    return cpu_usage


def collect_memory_metrics():
    """获取并记录内存相关指标"""
    memory_info = psutil.virtual_memory()
    MEMORY_USAGE.set(memory_info.percent)
    return memory_info.percent


def collect_disk_metrics():
    """获取并记录磁盘相关指标"""
    disk_info = psutil.disk_usage('/')
    DISK_USAGE.set(disk_info.percent)
    return disk_info.percent


def collect_network_metrics():
    """获取并记录网络流量相关指标"""
    net_io = psutil.net_io_counters()
    NETWORK_IN.set(net_io.bytes_recv)
    NETWORK_OUT.set(net_io.bytes_sent)
    return net_io.bytes_recv, net_io.bytes_sent


def collect_gpu_metrics():
    """获取并记录GPU相关指标"""
    gpus = GPUtil.getGPUs()
    if gpus:
        gpu_usage = max(gpu.load * 100 for gpu in gpus)
    else:
        gpu_usage = 0  # 如果没有GPU，使用0作为占位
    GPU_USAGE.set(gpu_usage)
    return gpu_usage


def collect_temperature_metrics():
    """获取并记录CPU温度指标"""
    cpu_temperature = 50.0  # 这是一个模拟值，实际情况需要从系统获取
    CPU_TEMPERATURE_GAUGE.set(cpu_temperature)
    CPU_TEMPERATURE_SUMMARY.observe(cpu_temperature)
    return cpu_temperature


def log_metrics(cpu_usage, memory_usage, disk_usage, network_in, network_out, gpu_usage, cpu_temperature):
    """打印或记录采集到的系统指标"""
    print(
        f"CPU: {cpu_usage}%, Memory: 1.12MB%, Disk: {disk_usage}%, Network In: {network_in} bytes, Network Out: {network_out} bytes, GPU: {gpu_usage}%, CPU Temperature: {cpu_temperature}°C")


def collect_system_metrics():
    """收集系统指标并更新Prometheus指标"""
    REQUEST_COUNT.inc()
    with REQUEST_TIME.time():
        cpu_usage = collect_cpu_metrics()
        memory_usage = collect_memory_metrics()
        disk_usage = collect_disk_metrics()
        network_in, network_out = collect_network_metrics()
        gpu_usage = collect_gpu_metrics()
        cpu_temperature = collect_temperature_metrics()
        log_metrics(cpu_usage, memory_usage, disk_usage, network_in, network_out, gpu_usage, cpu_temperature)


if __name__ == '__main__':
    # 启动一个HTTP服务器来暴露指标，端口号为8000
    start_http_server(8000)
    print("Prometheus metrics available at http://localhost:8000")

    # 定期收集系统指标
    while True:
        collect_system_metrics()
        time.sleep(10)  # 每10秒收集一次数据

在windows中运行代码即可。访问本机IP+端口

配置prometheus收集

[root@localhost ~]# vim /opt/prometheus/prometheus.yml
  - job_name: "windows"
    static_configs:
      - targets: ["192.168.2.5:8000"]

重启 prometheus

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1972911.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

自定义监控

相关文章

git拉完代码总是自动创建一个新的节点

【深度学习】【语音TTS】OpenVoice v2，测评，中英文语料，Docker镜像，对比GPT-SoVITS、FishAudio、BertVITS2

uni-app封装组件实现下方滑动弹出模态框

收银系统源码-分销商城视频介绍

欧科云链7月安全月报 | 私钥泄露损失约占总损失88%，超2.6亿美元

Spring Boot集成Resilience4J实现断路器功能

【AD域】搭建AD域服务器

ERP系统提高生产企业库存周转率的抓手

RIP路由协议之网络工程师软考中级

瑞芯微Android设备指定应用开启性能模式

Java零基础之多线程篇：如何保证线程安全？

使用swiftui自定义圆形进度条实现loading

【QGroundControl二次开发】八. QT实现播放gstreamer视频

【Python 逆向滑块】（实战四）逆向滑块，并实现用Python+Node.js 生成滑块、识别滑块、验证滑块、发送短信

物理学是研究‘’物质一般的运动规律‘’和‘’物质基本结构‘’的自然科学

儿童安全门和围栏美国CPC认证ASTM F1004测试16CFR1239测试

数据结构与算法--栈

Telnet和SSH配置学习笔记

Redis基础总结、持久化、主从复制、哨兵模式、内存淘汰策略、缓存

如何理解复信号z的傅里叶变换在频率v＜0的时候恒为0,是解析信号