Tdengine的监控指标包括以下几个方面:
- 系统指标:CPU使用率、内存使用率、磁盘空间、网络流量等。
- 数据库指标:连接数、查询数、写入数、读取数等。
- SQL指标:执行时间、执行计划、索引使用情况等。
- 集群指标:节点状态、数据分片状态、数据复制状态等。
一、安装和配置Telegraf
Telegraf是一个开源的代理程序,用于收集、处理和转发各种监控指标。下面是安装和配置Telegraf的步骤:
1.1. 配置yum源
cat <<EOF | sudo tee /etc/yum.repos.d/influxdb.repo
[influxdb]
name = InfluxData Repository - Stable
baseurl = https://repos.influxdata.com/stable/\$basearch/main
enabled = 1
gpgcheck = 1
gpgkey = https://repos.influxdata.com/influxdb.key
EOF
1.2. 安装telegraf
yum install telegraf
1.3. 启动telegraf
systemctl start telegraf
1.4. 验证telegraf
使用telegraf --test
命令,可以查看Telegraf是否正常运行,并输出采集到的数据。
二、安装Grafana
2.1. 下载安装包
wget https://dl.grafana.com/enterprise/release/grafana-enterprise-8.5.4-1.x86_64.rpm
2.2. 执行安装
rpm -ivh grafana-enterprise-8.5.4-1.x86_64.rpm
2.3. 启动服务
systemctl start grafana-server
2.4. 验证Grafana是否正常运行
访问 http://localhost:3000/ ,应该可以看到Grafana的Web界面。
三、配置Grafana数据源插件
3.1. 下载数据源插件
wget -c https://github.com/taosdata/grafanaplugin/releases/download/v3.1.3/tdengine-datasource-3.1.3.zip
3.2. 解压插件
unzip tdengine-datasource-3.1.3.zip -d /var/lib/grafana/plugins/
3.3. 调整目录权限
chown grafana:grafana -R /var/lib/grafana/plugins/tdengine
3.4. 修改grafana配置
echo -e "[plugins]\nallow_loading_unsigned_plugins = tdengine-datasource\n" | sudo tee -a /etc/grafana/grafana.ini
3.5. 重启grafana服务
systemctl restart grafana-server
四、集群数据节加入采集监控
需要在集群的所有数据节点上, 都安装telegraf(参考第2节),将采集的数据写入到tdengine中。
修改采集配置文件/etc/telegraf/telegraf.conf,修改以下参数信息, 示例:
[[outputs.http]]
url = "http://IP:6041/influxdb/v1/write?db=udb"
method = "POST"
timeout = "5s"
username = "root"
password = "taosdata"
data_format = "influx"
五、Grafana中配置监控看板
5.1. 配置数据源
点击左侧配置, 进入“Data sources”,搜索“tdengine”,进入配置:
填写host、user和password信息, 确认Tdengine开启了6041的restful接口
5.2. 配置监控看板数据
下载监控面板配置文件:
wget https://github.com/taosdata/grafanaplugin/blob/master/examples/telegraf/grafana/dashboards/telegraf-dashboard-v0.1.0.json
在Grafana主页, 左侧功能菜单中, 点击“+”选择“import”导入功能, 将配置文件导入进去
展示效果:
以下是一些常见的监控指标和告警规则:
监控指标
- CPU使用率:Tdengine的CPU使用率,用于衡量Tdengine的计算能力是否充足。
- 内存使用率:Tdengine的内存使用率,用于衡量Tdengine的内存资源是否充足。
- 磁盘使用率:Tdengine的磁盘使用率,用于衡量Tdengine的存储资源是否充足。
- 网络流量:Tdengine的网络流量,用于衡量Tdengine的网络资源是否充足。
告警规则
- CPU使用率告警:当Tdengine的CPU使用率超过阈值时,发送告警邮件。
- 内存使用率告警:当Tdengine的内存使用率超过阈值时,发送告警邮件。
- 磁盘使用率告警:当Tdengine的磁盘使用率超过阈值时,发送告警邮件。
- 网络流量告警:当Tdengine的网络流量超过阈值时,发送告警邮件。
5.3. 问题处理
如果看板不能正确显示数据,做以下检查:
1)检查数据库是否生成了采集数据库udb, 如果没有生成, 检查telegraf的配置, 并且确认6041端口是否开放;
2)检查grafana的看板配置参数, database的监控数据库名称是否正确