Python 全栈系列267 telegraf、influxdb和grafana

说明

没想到如此丝滑

本来是因为想稍微了解一下influxdb，然后发现和telegraf配套能干监控，然后正好之前又起了grafana,然后瞬间就通了。

内容

1 telegraf

Telegraf 是一个开源的服务器代理，用于收集、处理和发送数据。它是 InfluxData 公司推出的 TICK 堆栈（Telegraf、InfluxDB、Chronograf、Kapacitor）中的一部分，专门设计用于与 InfluxDB 一起使用，但它也可以与其他数据库和数据系统集成。

主要特点

插件驱动架构:
- Telegraf 是完全插件驱动的。它的功能通过输入插件（Input Plugins）、处理器插件（Processor Plugins）、聚合器插件（Aggregator Plugins）和输出插件（Output Plugins）实现。这种架构使得 Telegraf 可以高度灵活地适应各种数据源和目标。
输入插件:
- Telegraf 支持从多种来源收集数据，包括系统指标（如 CPU、内存、磁盘使用）、服务监控（如 Apache、NGINX、MySQL）、物联网设备、消息队列（如 Kafka、RabbitMQ）、日志文件、API 等。
- 常见输入插件包括：cpu、mem、disk、net、docker、kafka_consumer 等。
处理器插件:
- 这些插件允许你在数据发送到目标之前对其进行处理，例如过滤、转换或格式化数据。
- 例如，可以使用 regex 处理器插件来基于正则表达式修改或过滤数据。
聚合器插件:
- 这些插件允许你对数据进行聚合，例如对一组数据计算平均值、最大值、最小值等，然后再发送聚合后的结果。
- 常见聚合器插件包括 basicstats 和 final。
输出插件:
- Telegraf 可以将收集和处理后的数据发送到各种目标，包括数据库（如 InfluxDB、MySQL、PostgreSQL）、消息队列（如 Kafka）、文件、HTTP 端点、监控系统（如 Prometheus）等。
- 最常用的输出插件是 influxdb，用于将数据发送到 InfluxDB。
易于配置和部署:
- Telegraf 通过简单的配置文件进行配置，使用 TOML 格式。你可以轻松定义需要收集的数据、处理方式和数据输出的目标。
- Telegraf 是轻量级的，可以作为单个二进制文件运行，非常适合在服务器、容器、虚拟机或物联网设备上部署。
高性能和低资源占用:
- Telegraf 被设计为高效的代理，能够在高吞吐量下运行，同时保持低资源占用。这使得它适合用于监控和数据收集的场景中，特别是在需要处理大量数据的环境下。

使用场景

系统监控: Telegraf 可以收集服务器的 CPU、内存、磁盘使用情况等指标，并将这些数据发送到 InfluxDB 或其他监控系统，以进行实时监控和分析。
应用性能监控: Telegraf 可以从应用程序收集性能指标和日志数据，用于监控应用的运行状态和健康状况。
物联网（IoT）数据收集: Telegraf 可以从 IoT 设备和传感器中收集数据，然后发送到中央数据库或云端进行进一步的处理和分析。
日志管理: Telegraf 可以收集系统和应用程序的日志文件，并将其发送到中央存储系统，方便后续的分析和处理。
集成数据流: Telegraf 可以作为数据管道的一部分，将来自不同数据源的数据收集、处理并发送到不同的目标系统，如数据湖、数据仓库或实时处理系统。

总结

Telegraf 是一个灵活且功能强大的数据收集代理，通过其丰富的插件系统，可以从各种数据源收集数据并发送到多种目标系统。它的轻量级和高性能使其成为监控、日志管理、物联网数据收集等场景中的理想选择。尤其是与 InfluxDB 结合使用时，它可以组成一个强大的时序数据收集和分析系统。

部署

需要配置文件，先简单配置simple_tg.conf

# Telegraf 配置

# 全局配置
[global_tags]  # 定义全局标签，可选
  # dc = "us-east-1"  # data center
  # host = "localhost"

[agent]
  interval = "10s"  # 数据收集间隔
  round_interval = true
  metric_batch_size = 1000
  metric_buffer_limit = 10000
  collection_jitter = "0s"
  flush_interval = "10s"
  flush_jitter = "0s"
  precision = ""
  debug = false
  quiet = false
  logfile = ""  # 可定义日志文件路径
  hostname = ""

# 输入插件 - CPU 插件，收集 CPU 使用情况
[[inputs.cpu]]
  percpu = true
  totalcpu = true
  collect_cpu_time = false
  report_active = false

# 输入插件 - 内存插件，收集内存使用情况
[[inputs.mem]]

# 输出插件 - 将数据发送到 InfluxDB
[[outputs.influxdb]]
  urls = ["http://172.17.0.1:8086"]  # InfluxDB 地址
  database = "telegraf"  # 数据库名
  precision = "s"
  timeout = "5s"
  username = "admin"  # InfluxDB 用户名
  password = "password"  # InfluxDB 密码

启动资源状态收集

docker run --name telegraf -d -v /root/simple_tg.conf:/etc/telegraf/telegraf.conf:ro registry.cn-hangzhou.aliyuncs.com/andy08008/telegraf:v100

2 influxdb

Prometheus 和 InfluxDB 是两种常用于监控和时序数据存储的数据库系统。它们各有优势，适用于不同的场景。以下是它们的主要区别：

1. 设计目标

Prometheus：专注于监控和报警系统，主要设计用于收集、存储和查询指标数据（metrics）。Prometheus 广泛用于云原生和微服务架构下的监控，尤其是在 Kubernetes 环境中。
InfluxDB：是一个通用的时序数据库系统，适用于广泛的数据应用场景，不仅可以存储监控数据，还可以处理 IoT 数据、事件日志等。InfluxDB 更加注重灵活性和性能。

2. 数据模型

Prometheus：数据模型是围绕指标（metrics）和标签（labels）设计的，结构简单。每个指标都是一个时间序列，并通过标签进行标识，标签有助于对数据进行多维查询和筛选。
InfluxDB：使用更灵活的标签-字段模型。字段存储实际的值（数据点），而标签用于分组和查询数据。InfluxDB 提供了更复杂的 schema 设计，可以更好地支持事件驱动的时序数据。

3. 查询语言

Prometheus：使用 PromQL（Prometheus Query Language）作为查询语言，专注于查询时序数据并执行聚合操作。PromQL 更适合监控场景，支持基于时间范围的查询、计算速率、百分位等。
InfluxDB：使用 InfluxQL 和 Flux 两种查询语言。InfluxQL 类似 SQL，适合熟悉传统数据库查询的人；Flux 是 InfluxDB 提供的更强大的脚本语言，支持复杂的数据分析和处理。

4. 存储方式

Prometheus：使用本地时间序列数据库，数据存储在 Prometheus 实例上。也可以配置远程存储系统，将历史数据存储到远程数据库。默认 Prometheus 会定期删除旧数据，存储周期较短。
InfluxDB：支持长期存储和分区存储，数据可以通过不同的 retention policies 控制保留时间。InfluxDB 支持水平扩展，并且有企业版的高可用和分布式存储支持。

5. 集群和扩展性

Prometheus：单节点运行，默认不提供内建的分布式存储或高可用性功能。可以通过配置多个 Prometheus 实例或者使用远程存储解决扩展和高可用问题。
InfluxDB：企业版支持水平扩展和分布式架构，可以在多节点环境中实现高可用性和容错能力。InfluxDB 提供内置的集群管理和自动化的扩展功能。

6. 数据收集方式

Prometheus：拉（pull）模型。Prometheus 定期从配置的 endpoints 中拉取数据。通过定义 scrape 配置，它能够自动发现目标（如 Kubernetes 中的服务）。
InfluxDB：推（push）模型。InfluxDB 通常依赖于数据源或代理（如 Telegraf）推送数据到数据库。它也支持客户端库手动将数据推送到 InfluxDB。

7. 报警功能

Prometheus：内置强大的报警系统，结合 PromQL 进行实时告警，通过 Alertmanager 发送通知。Prometheus 的报警机制高度集成，适用于监控场景。
InfluxDB：自身不提供报警系统，但可以结合 Kapacitor 或第三方工具实现告警功能。InfluxDB 更适合存储和处理数据，而不是专注于报警。

8. 性能与适用场景

Prometheus：轻量级，适合短期、高频监控。非常适合微服务、容器化应用的指标数据监控。
InfluxDB：更适合大规模时序数据的持久化存储和复杂分析。适用于 IoT、金融数据分析、基础设施监控等场景。

总结

Prometheus 更适合实时监控和报警，尤其在云原生和微服务架构下的监控非常流行。
InfluxDB 则是一个通用的时序数据库，适合需要持久化、复杂分析、事件和日志处理的场景。

选择哪一个取决于你的使用场景：如果你的重点是监控和报警，Prometheus 是很好的选择；如果你需要长期存储和更复杂的数据处理，InfluxDB 可能更合适。

所以未来还有可能把prome也搭起来，有分工不同的。

部署

docker run -d -p 8086:8086 \
    --name influxdb \
    -v /etc/localtime:/etc/localtime -v /etc/timezone:/etc/timezone -v /etc/hostname:/etc/hostname -e "LANG=C.UTF-8" \
    -v /data/fluxdb:/var/lib/influxdb \
    registry.cn-hangzhou.aliyuncs.com/andy08008/influxdb:v1.8