spring boot 项目 prometheus 自定义指标收集区分应用环境集群实例ip,使用 grafana 查询--方法耗时分位数指标

news2025/1/8 4:44:59

spring boot 项目 prometheus 自定义指标收集

auth

  1. @author JellyfishMIX - github / blog.jellyfishmix.com
  2. LICENSE LICENSE-2.0

说明

  1. 网上有很多 promehteus 和 grafana 配置,本文不再重复,只介绍自定义部分。
  2. 目前只介绍了分位数指标的收集和查询,常用于方法耗时的指标监控。

自定义指标收集

仅引入以下依赖,只能看到 spring actuator 相关指标,看不到自定义指标。

            <!-- spring-boot-actuator 依赖 -->
            <dependency>
                <groupId>org.springframework.boot</groupId>
                <artifactId>spring-boot-starter-actuator</artifactId>
                <version>2.7.18</version>
            </dependency>
            <!-- prometheus 依赖,和 spring boot 版本需要搭配。spring boot 2.7 搭配 1.10.x 如需升级或降级 spring boot,可以对应 +- 0.1.0-->
            <dependency>
                <groupId>io.micrometer</groupId>
                <artifactId>micrometer-registry-prometheus</artifactId>
                <version>1.10.6</version>
            </dependency>

application.properties 配置

根据需要自定义调整

spring.application.name=spring-boot-explore
server.port=8083
server.servlet.context-path=/explore
# ip:port/actuator/prometheus
management.server.port=9051
management.endpoints.web.exposure.include=*
management.metrics.tags.application=${spring.application.name}

自定义指标的收集需要引入额外依赖

            <!--自定义 prometheus 指标依赖-->
            <dependency>
                <groupId>io.prometheus</groupId>
                <artifactId>simpleclient</artifactId>
                <version>0.16.0</version>
            </dependency>
            <dependency>
                <groupId>io.prometheus</groupId>
                <artifactId>simpleclient_hotspot</artifactId>
                <version>0.16.0</version>
            </dependency>
            <dependency>
                <groupId>io.prometheus</groupId>
                <artifactId>simpleclient_servlet</artifactId>
                <version>0.16.0</version>
            </dependency>

指标收集接口

按照 prometheus 的约定,客户端需要暴露一个接口供收集自定义指标。

import io.prometheus.client.exporter.MetricsServlet;
import org.springframework.stereotype.Controller;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.ResponseBody;

import javax.servlet.http.HttpServletRequest;
import javax.servlet.http.HttpServletResponse;
import java.io.IOException;

/**
 * @author jellyfishmix
 * @date 2024/9/1 08:03
 */
@Controller
@RequestMapping("/prometheus")
public class PrometheusExportController extends MetricsServlet {

    @RequestMapping("/exportMetric")
    @ResponseBody
    public void exportMetric(HttpServletRequest request, HttpServletResponse response) throws IOException {
        this.doGet(request, response);
    }
}

暴露后的自定义指标收集端口,路径是自己配置的:

image-20240901103532161

自定义指标示例

    private static final Counter DEMO_COUNTER = Counter.build()
            .name("TestController_compute_counter_demo")
            .help("demo of counter")
            .labelNames("labelName1", "labelNameB")
            .namespace("spring_boot_explore")
            .register(DEFAULT_PROMETHEUS_REGISTRY);
namespace 方法

定义指标的前缀,不能包含中划线-,实际指标会带上 namespace 前缀,namespace 与 name 中间自动被下划线_拼接。

spring_boot_explore_TestController_compute_counter_demo
labelNames 方法

使用哦 Summary 举例,说明一下 Counter.build().labelNames() 方法,表示为此指标设置两个 label,分别命名为 labelName1 和 labelNameB。

.labelNames("labelName1", "labelNameB")

如果设置了 Counter.build().labelNames(),不能直接调用 counter.inc(),会抛 NullPointerException

// Convenience methods.

  /**
   * Increment the counter with no labels by the given amount.
   *
   * @throws IllegalArgumentException If amt is negative.
   */
  public void inc(double amt) {
    noLabelsChild.inc(amt);
  }

需要调用 summary.labels(“abc”, “123”).observe(),labels 方法中的值表示构造 summary 指标时对应的 labelName 的值。

    @RequestMapping("/sayCounter")
    @ResponseBody
    public String sayCounter() {
        DEMO_COUNTER.labels("abc", "123").inc(1);
        return "hello summary";
    }

自定义指标区分应用、环境、集群、实例

记录指标的接口

通过 .namespace 和 .labelNames 区分 env 环境名, cluster 集群名, instance 实例信息(一般为ip)

import com.google.common.base.Stopwatch;
import com.jellyfishmix.springbootexplore.server.config.PropertiesLoader;
import io.prometheus.client.CollectorRegistry;
import io.prometheus.client.Counter;
import io.prometheus.client.Summary;
import org.apache.commons.lang3.StringUtils;
import org.springframework.stereotype.Controller;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.ResponseBody;

import java.net.InetAddress;
import java.net.UnknownHostException;
import java.util.concurrent.ThreadLocalRandom;
import java.util.concurrent.TimeUnit;

@RequestMapping("/test")
@Controller
public class TestController {
    private static final CollectorRegistry DEFAULT_PROMETHEUS_REGISTRY = CollectorRegistry.defaultRegistry;
    
	private static final String applicationName = PropertiesLoader.getProperty("spring.application.name");

    private static final String env = PropertiesLoader.getProperty("custom.application.env");

    private static final String cluster = PropertiesLoader.getProperty("custom.application.cluster");

    private static final Counter DEMO_COUNTER = Counter.build()
            .name("TestController_compute_counter_demo")
            .help("demo of counter")
        	// env 环境名, cluster 集群名, instance 实例信息(一般为ip)
            .labelNames("env", "cluster", "instance")
        	// namespace 应用名
            .namespace(applicationName)
            .register(DEFAULT_PROMETHEUS_REGISTRY);

    private static String instance = getLocalIpAddress();

    public static String getLocalIpAddress() {
        try {
            InetAddress localHost = InetAddress.getLocalHost();
            return localHost.getHostAddress();
        } catch (UnknownHostException e) {
            e.printStackTrace();
            return StringUtils.EMPTY;
        }
    }

    @RequestMapping("/sayCounter")
    @ResponseBody
    public String sayCounter() {
        // 对应 .labelNames 中的 env 环境名, cluster 集群名, instance 实例信息(一般为ip)
        DEMO_COUNTER.labels(env, cluster, instance).inc(1);
        return "hello counter";
    }
}

application.properties 配置,注意 prometheus 指标 namespace 不能用-,需要用_

spring.application.name=spring_boot_explore
custom.application.env=beta
custom.application.cluster=cluster_master
server.port=8083
server.servlet.context-path=/explore

由于 properties 配置无法通过 @Value 在静态方法/字段获取值,因此需要手动加载配置文件来获取 properties 值。

import org.apache.commons.lang3.StringUtils;
import java.io.FileInputStream;
import java.io.InputStream;
import java.lang.management.ManagementFactory;
import java.util.LinkedHashMap;
import java.util.Map;
import java.util.Properties;

/**
 * @author jellyfishmix
 * @date 2024/9/1 18:45
 */
public class PropertiesLoader {
    private static Map<String, String> propertiesMap = new LinkedHashMap<>();

    /**
     * jvm 启动参数中指定 active profile
     */
    private static final String ACTIVE_PROFILE_JVM_ARG_KEY_WORD = "spring.profiles.active=";

    static {
        load("application.properties");
        String activeProfile = null;
        // 先检查 jvm active profile
        var jvmArgs = ManagementFactory.getRuntimeMXBean().getInputArguments();
        for (String arg : jvmArgs) {
            if (arg.contains(ACTIVE_PROFILE_JVM_ARG_KEY_WORD)) {
                int index = arg.indexOf("=");
                if (index!= -1) {
                    activeProfile = arg.substring(index + 1);
                }
                break;
            }
        }
        // jvm 参数未指定 active profile,再尝试使用 application.properties 中指定的
        if (StringUtils.isEmpty(activeProfile)) {
            activeProfile = propertiesMap.get("spring.profiles.active");
        }
        if (StringUtils.isNotBlank(activeProfile)) {
            load("application-" + activeProfile + ".properties");
        }
    }

    public static void load(String fileName) {
        final Properties properties = new Properties();
        FileInputStream fis = null;
        InputStream is = null;
        // 两种加载方式,第一种根据文件路径加载
        try {
            fis = new FileInputStream(fileName);
            properties.load(fis);
        } catch (Throwable ignored) {
            // 如果失败了,使用类加载器去 classpath 加载
            try {
                final ClassLoader classLoader = PropertiesLoader.class.getClassLoader();
                is = classLoader.getResourceAsStream(fileName);
                properties.load(is);
            } catch (Exception ex) {
                // can record log
                return;
            }
        } finally {
            try {
                if (fis != null) {
                    fis.close();
                }
                if (is != null) {
                    is.close();
                }
            } catch (Throwable ignored) {
                // do nothing
            }
        }
        propertiesMap.putAll(new LinkedHashMap<String, String>((Map) properties));
    }

    public static String getProperty(String key) {
        return propertiesMap.get(key);
    }
}

区分应用,环境,集群的效果

image-20240901214356871

分位数指标

  1. prometheus 四种 metrics 类型中,如果不是对性能特别敏感的场景,推荐使用 summary。详情阅读:
    1. summary 和 histogram 指标的简单理解 https://blog.csdn.net/wtan825/article/details/94616813
    2. prometheus 四种 metric 类型介绍 https://prometheus.wang/promql/prometheus-metrics-types.html

使用 summary 监控方法耗时

import com.google.common.base.Stopwatch;
import com.jellyfishmix.springbootexplore.server.config.PropertiesLoader;
import io.prometheus.client.CollectorRegistry;
import io.prometheus.client.Counter;
import io.prometheus.client.Summary;
import org.apache.commons.lang3.StringUtils;
import org.springframework.stereotype.Controller;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.ResponseBody;

import java.net.InetAddress;
import java.net.UnknownHostException;
import java.util.concurrent.ThreadLocalRandom;
import java.util.concurrent.TimeUnit;

/**
 * @author jellyfishmix
 * @date 2024/1/3 23:18
 */
@RequestMapping("/test")
@Controller
public class TestController {
    private static final CollectorRegistry DEFAULT_PROMETHEUS_REGISTRY = CollectorRegistry.defaultRegistry;
    private static final Summary DEMO_SUMMARY = Summary.build()
            .name("TestController_compute_summary_demo")
            .help("demo of summary")
            .labelNames("labelName1", "labelNameB")
            .quantile(0.5, 0.01)
            .quantile(0.90, 0.01)
            .quantile(0.99, 0.01)
            .register(DEFAULT_PROMETHEUS_REGISTRY);

    @RequestMapping("/saySummary")
    @ResponseBody
    public String saySummary() {
        Stopwatch stopwatch = Stopwatch.createStarted();
        simulateInterfaceCall();
        var costMillis = stopwatch.elapsed().toMillis();
        DEMO_SUMMARY.labels("abc", "123").observe(costMillis);
        return "hello summary";
    }

    private static void simulateInterfaceCall() {
        // 模拟接口调用的随机耗时
        int randomDelay = ThreadLocalRandom.current().nextInt(100, 1000);
        try {
            TimeUnit.MILLISECONDS.sleep(randomDelay);
        } catch (InterruptedException e) {
            Thread.currentThread().interrupt();
        }
    }
}
quantile 方法
  1. 说明一下 Summary.build().quantile() 方法。
  2. .50 分位,误差 0.01,会把 [.49, .51] 范围内的指标计入 .50 分位,由于 summary 会在客户端把指标数记录下来,因此允许的误差越多,可以节约的内存占用越多。
  3. 其他分位以此类推。
# .50 分位,误差 0.01
.quantile(0.5, 0.01)
# .90 分位,误差 0.01
.quantile(0.90, 0.01)
# .99 分位,误差 0.01
.quantile(0.99, 0.01)

quantile 方法的详细说明可见 io.prometheus.client.Summary 的类注释,这里摘抄一段:

The Summary class provides different utility methods for observing values, like observe(double), startTimer() and Summary. Timer. observeDuration(), time(Callable), etc.
By default, Summary metrics provide the count and the sum. For example, if you measure latencies of a REST service, the count will tell you how often the REST service was called, and the sum will tell you the total aggregated response time. You can calculate the average response time using a Prometheus query dividing sum / count.
In addition to count and sum, you can configure a Summary to provide quantiles:
  Summary requestLatency = Summary. build()
      .name("requests_latency_seconds")
      .help("Request latency in seconds.")
      .quantile(0.5, 0.01)    // 0.5 quantile (median) with 0.01 allowed error
      .quantile(0.95, 0.005)  // 0.95 quantile with 0.005 allowed error
      // ...
      .register();
  
As an example, a 0.95 quantile of 120ms tells you that 95% of the calls were faster than 120ms, and 5% of the calls were slower than 120ms.
Tracking exact quantiles require a large amount of memory, because all observations need to be stored in a sorted list. Therefore, we allow an error to significantly reduce memory usage.
In the example, the allowed error of 0.005 means that you will not get the exact 0.95 quantile, but anything between the 0.945 quantile and the 0.955 quantile.
Experiments show that the Summary typically needs to keep less than 100 samples to provide that precision, even if you have hundreds of millions of observations.

summary 分位数指标效果示例

image-20240901103720431

grafana 视图

grafana query 填写示例如下,注意正确的分位数查询写法是如下图红圈所示,在 metric 位置填写 quantile = 0.5(客户端收集时填写的具体分位数)。

Screenshot 2024-09-01 at 11.41.23

分位数查询错误示例: operations 中填写 quantile 是错误的写法,可以看到图中,通过 operations 计算出的和真实值差距很大。

Screenshot 2024-09-01 at 11.48.24

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2096434.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于nodejs+vue+uniapp的摄影竞赛小程序

开发语言&#xff1a;Nodejs框架&#xff1a;expressuniapp数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;VS Code 系统展示 管理员登录 管理员主界面 用户管理 书籍分类管理 书籍信息管理 系统管理…

五种常见的人工智能错误以及如何避免它们?

目录 常见错误一&#xff1a;忘乎所以 常见错误二&#xff1a; 未能整合 常见错误三&#xff1a; 过于“以技术为中心”的方法 常见错误四&#xff1a;事后才考虑治理 常见错误五&#xff1a; 没有规模规划 对于肩负着为股东带来收益的重大赌注的高管来说&#xff0c;将人…

使用模块化流简化 RHEL 8 上的 NVIDIA 驱动程序部署

目录 DNF 模块化 使用预编译驱动程序 使用包管理器安装 选择模块化流 切换流 使用模块化配置文件 RHEL 的支持矩阵 概括 相关资源 NVIDIA GPU 已成为加速机器学习、高性能计算 (HPC)、内容创建工作流程和数据中心应用程序等各种工作负载的主流。对于这些企业用例&#xff0c;NV…

【个人笔记】VCS工具与命令

Title&#xff1a;VCS工具学习 一 介绍 是什么&#xff1f; VCS (Verilog Compiler Simulator) 是synopsys的verilog 仿真软件&#xff0c;竞品有Mentor公司的Modelsim、Cadence公司的NC-Verilog、Verilog—XL. VCS能够 分析、编译 HDL的design code&#xff0c;同时内置了 仿…

ubuntu环境下实现ROS 2 与 Arduino 通信

本教程为https://blog.csdn.net/2301_81924597/article/details/141757091?spm1001.2014.3001.5501的进一步拓展 ROS 2 与 Arduino 通信指南 准备工作 确保已安装 ROS 2&#xff08;本指南基于 ROS 2 Humble&#xff09;确保已安装 Arduino IDE 并能正常使用安装必要的 ROS…

系统架构师考试学习笔记第三篇——架构设计高级知识(10)系统质量属性与架构评估

本章知识点&#xff1a; 第10课时主要学习软件系统质量属性、系统架构评估以及ATAM方法评估实践等内容。 本课时内容侧重于概念知识&#xff0c;根据以往全国计算机技术与软件专业技术资格&#xff08;水平&#xff09;。考试的出题规律&#xff0c;考查的知识点多来源于教材&a…

在Web服务应用中,如何编程使用Redis的缓存功能?包括缓存页面内容、缓存数据库查询结果、用户会话信息等代码分享

目录 一、概述 二、redis介绍 1、简介 2、Redis作为缓存的原理 &#xff08;1&#xff09;内存存储 &#xff08;2&#xff09;数据结构 &#xff08;3&#xff09;工作原理 3、Redis作为缓存的作用 三、redis缓存页面内容 1、作用 2、实现方法 3、示例代码&#x…

python07-单元测试框架unittest1-2

5 fixture 可以看作case的前置条件、后置条件 5.1 fixture的用例执行顺序 fixture分为 方法级别类级别模块级别 5.1.1方法级fixture 每个测试用例之前要调用setUp每个测试用例执行后要调用tearDowntestCase中有多少测试用例,那么setUp和tearDown就被调用多少次 def add(…

【Java】Spring-AOP与拦截器简洁实操 (上手图解)

Java系列文章目录 补充内容 Windows通过SSH连接Linux 第一章 Linux基本命令的学习与Linux历史 文章目录 Java系列文章目录一、前言二、学习内容&#xff1a;三、问题描述四、解决方案&#xff1a;4.1 认识依赖4.2 使用AOP与拦截器4.2.1 使用AOP4.2.1.1 设置DemoAop类4.2.2.2 设…

【SpringBoot】电脑商城-11-显示购物车功能

加入购物车 1 购物车-创建数据表 1.使用use命令先选中store数据库。 USE store;2.在store数据库中创建t_cart用户数据表。 CREATE TABLE t_cart (cid INT AUTO_INCREMENT COMMENT 购物车数据id,uid INT NOT NULL COMMENT 用户id,pid INT NOT NULL COMMENT 商品id,price BIG…

java fastxml json 科学计数法转换处理

背景&#xff1a; 由于 canal 切换为 tx dbbridge后&#xff0c;发现dbbridge对于canal的兼容性存在较大问题&#xff0c;从而引发 该文档的实践。 就目前发现 dbbrige 的字段 大小写 和 数据类型格式 从binlog 写入kafka 同canal 都会存在差异。 canal之前导出都是小写&…

编程要由 “手动挡” 变 “自动挡” 了?Cursor+Claude-3.5-Sonnet,Karpathy 大神点赞的 AI 代码神器!如何使用详细教程

Cursor 情况简介 AI 大神 Andrej Karpathy 都被震惊了&#xff01;他最近在试用 VS Code Cursor Claude Sonnet 3.5&#xff0c;结果发现这玩意儿比 GitHub Copilot 还好用&#xff01; Cursor 在短短时间内迅速成为程序员群体的顶流神器&#xff0c;其背后的原因在于其默认使…

[VirtualBox+ubuntu24]设置linux学习环境

1)设置网络为桥接网卡&#xff0c;不然发现ifconfig出不来ip地址 依然设置为经典的: 2核4G内存 50G硬盘 2)设置默认root账户登录 // 不然每次都得输入sudo -s // step1: 打开配置文件 sudo vim/etc/gdm3/custom.conf// step2: 默认以root登录 [daemon] AutomaticLoginEnableT…

NTFS硬盘支持工具Paragon NTFS for Mac 15.4.44 中文破解版

Paragon NTFS for Mac 15.4.44 中文破解版是一个底层的文件系统驱动程序,专门开发用来弥合Windows和Mac OS X之间的不兼容性&#xff0c;通过在Mac OS X系统下提供对任何版本的NTFS文件系统完全的读写访问服务来弥合这种不兼容性。为您轻松解决Mac不能识别Windows NTFS文件难题…

C语言:大小端模式、判断大小端、大小端转换

目录 1. 什么是大端和小端 2.为什么会存在大小端的问题 3. 判断主机字节序 (主机大小端) 3.1 使用联合体 (union) 3.2 使用指针 3.3 强制转为 char 类型法 4. 大小端转换 1. 什么是大端和小端 对于一个存储空间大于 1 个字节的数据&#xff0c;在内存中有两种存储模式&a…

VCTP论文精读

机器视觉推理自从引入神经符号机制以来取得了巨大进步&#xff0c;这使得机器能够发展出多步骤的推理链。然而&#xff0c;正如早期认知科学家所预示的那样&#xff0c;这种逻辑和符号系统基本上不适合于现实世界、常识知识的表示和推理&#xff0c;因为它们仅依赖于封闭世界的…

一个人独立开发前后端,终于有属于自己的一套产品

大家好&#xff0c;我是兔兔答题的开发者。兔兔答题是一款简单、易用的答题考试系统&#xff0c;可应用于微信考试、付费考试、社会调查问卷、明星知识问答、员工培训考核、模拟自测、企业面试、试题库等多种场景。兔兔答题会根据不同的场景&#xff0c;开发不同的模版。例如驾…

[Algorithm][综合训练][循环汉诺塔][kotori和素因子][dd爱科学]详细讲解

目录 1.循环汉诺塔1.题目链接2.算法原理详解 && 代码实现 2.kotori和素因子1.题目链接2.算法原理详解 && 代码实现 3.dd爱科学1.题目链接2.算法原理详解 && 代码实现 1.循环汉诺塔 1.题目链接 循环汉诺塔 2.算法原理详解 && 代码实现 解法&a…

虚幻5|C++第三人称射击(1)添加摄像机

一.在C类创建一个一个角色类蓝图&#xff0c;命名为BasePlayer 1.得到cpp和h文件 2.打开BasePlayer.h&#xff0c;定义摄像机内容 编译以下代码&#xff0c;定义摄像机和摄像机组件 private: //定义摄像机 UPROPERTY(VisibleAnywhere,BlueprintReadOnly,Category"…

【数学分析笔记】第2章第4节收敛准则(7)

2. 数列极限 2.4 收敛准则 2.4.8 实数系的基本定理 确界存在定理&#xff08;实数系的连续性&#xff09;单调有界数列收敛定理闭区间套定理Bolzanp-Weierstrass&#xff08;波尔查诺&#xff0d;魏尔斯特拉斯&#xff09;定理Cauchy&#xff08;柯西&#xff09;收敛原理&a…