本方案主要用于监控 DolphinDB 进程对服务器资源的使用情况及 DolphinDB 性能,如 DolphinDB 进程 CPU 占用情况、DolphinDB 进程内存占用情况、DolphinDB 进程磁盘资源使用情况等。DolphinDB 内置了相应的运维函数以获取当前节点的资源使用情况,Prometheus 可以抓取到这些指标。本方案中 Prometheus 定时从 DolphinDB 抓取相关指标,再由 Grafana 对 Prometheus 采集的指标信息进行可视化展示。
- 第三套:dolphindb-datasource 插件 + Grafana 监控 DolphinDB 集群节点状态
本方案主要用于监控 DolphinDB 集群的节点状态、流表状态以及订阅状态。DolphinDB 开发了 Grafana 数据源插件 (dolphindb-datasource),让用户在 Grafana 面板 (dashboard) 上通过编写查询脚本,与 DolphinDB 进行交互 (基于 WebSocket),实现 DolphinDB 数据的可视化。本方案中,Grafana 直接连接 DolphinDB 服务,使用查询脚本直接展示数据库信息。
上述三套方案互不依赖,可以根据需要安装必须的软件。
2 软件安装部署
2.1 NodeExporter 部署
NodeExporter 是 Prometheus 提供的一个可以采集到服务器信息的应用程序,它能采集到服务器的 CPU、内存、磁盘、网络等信息,点击官网链接下载对应版本软件包:
将其拖拽到服务器上解压,解压后进入对应的安装目录运行 NodeExporter, 可通过 web.listen-address
指定端口:
$ nohup ./node_exporter --web.listen-address IP:Port &
访问 http://IP:Port/metrics
, 可看到当前 NodeExporter 获取到的当前服务器的所有监控数据,如下所示:
其中,HELP
用于解释当前指标的含义,TYPE
则用于说明指标名称及指标类型,比如:
# TYPE node_cpu_seconds_total counter
说明 node_cpu_seconds_total 的数据类型是计数器(counter)。