JVM生产环境问题定位与解决实战(三):揭秘Java飞行记录器(JFR)的强大功能

news2025/2/26 8:15:21

提到飞行记录器,或许你的脑海中并未立刻浮现出清晰的画面,但一说起“黑匣子”,想必大多数人都能恍然大悟,知晓其重要性及用途。在航空领域,黑匣子作为不可或缺的设备,默默记录着飞行过程中的每一项关键数据,从飞行高度、速度到机舱内的对话,无一遗漏。一旦飞机发生事故,这些珍贵的数据便成为调查人员还原事件真相、精准定位事故原因的宝贵线索。

同样地,在软件开发的世界里,也有这样一个“黑匣子”般的存在——Java飞行记录器(Java Flight Recorder,简称JFR)。它借鉴了航空黑匣子的设计理念,却应用于一个截然不同的领域:Java应用程序的性能分析与故障排查。

一、 背景与概述

1.1 JFR 简介

Java Flight Recorder (JFR) 是 Oracle JDK 内置的性能分析工具,用于监控 JVM 和 Java 应用程序的运行时行为。其特点包括:

  • 低开销:生产环境中通常仅产生 1% 左右的性能损耗
  • 实时监控:可记录 JVM 事件、方法调用、内存分配等详细信息、支持动态启停记录
  • 事件驱动:捕获超过 200 种不同类型的事件(JDK 11+)
  • 集成分析:与 Java Mission Control (JMC) 工具深度集成
    Java飞行记录器(Java Flight Recorder,JFR)是JVM内置的低开销性能分析和故障排查工具,用于记录Java应用程序运行时的详细数据,类似飞机的“黑匣子”。它通过事件机制采集JVM和应用程序的运行时信息,包括CPU、内存、线程、垃圾回收(GC)、锁竞争等数据,帮助开发者定位性能瓶颈和异常问题。

📌 适用场景:性能调优、内存泄漏排查、高 CPU 使用率分析等

1.2. JFR 的发展历史

1.2.1. 关键里程碑
  • JRockit Flight Recorder:JFR 最初是由 BEA Systems 开发的 JRockit JVM的一部分,当时被称为 JRockit Flight Recorder。
  • Oracle 收购 Sun Microsystems:随着 Oracle 收购了 Sun Microsystems(Java的原始开发者)以及 BEA Systems,JFR 被集成到了 HotSpot JVM 中,并从 JDK 7u40 和 JDK 8u40开始被包含进去。此时,JFR 还是一个商业特性,需要许可证才能在生产环境中使用。
  • JDK 11:JFR 2.0版本发布,提供了更丰富的功能集。JFR 成为了 OpenJDK 的一部分,无需额外安装。作为一个开源项目,不再需要商业许可证即可使用。
  • JDK 14:引入了 JFR Event Streaming,允许实时处理 JFR 事件。
  • JDK 17:稳定支持虚拟线程事件,并增强云原生环境兼容性。
1.2.2. Java Flight Recorder (JFR) 版本变化
JDK版本发布日期主要变化与新特性
JDK 7u402013年9月- JFR首次在Oracle JDK中作为商业特性引入
- 提供基本的事件记录功能,如GC、线程等
- JCMD控制
JDK 8u402015年3月- 增加了更多的内置事件类型
- 改善了性能开销,减少了对应用程序的影响
-JMX动态控制
JDK 92017年9月- 开始支持自定义事件
- 引入了更丰富的API用于编程控制JFR会话
JDK 112018年9月- JFR成为OpenJDK的一部分(JEP 328)
- JFR 2.0 版本、完全开源,社区可以贡献代码
- 支持JIT编译器事件,记录编译器活动和性能数据
- 对容器环境的支持,更好地适应Docker等容器化部署
- 改进了数据格式和压缩算法,提高了存储效率
JDK 132019年9月- 引入了jdk.jfr.consumer模块,允许程序化地读取和分析JFR文件
- 增强了事件过滤和配置选项
JDK 142020年3月- 添加了对虚拟线程的支持(实验性)
- 改进了事件元数据的可读性和灵活性
JDK 152020年9月- 引入了新的事件类别,如jdk.VirtualThread*
- 改进了JFR与容器环境的兼容性
JDK 162021年3月- 支持动态调整采样率
- 增强了对云原生环境的支持
JDK 172021年9月- 稳定版支持虚拟线程事件
- 改进了与Kubernetes等平台的集成
- 增强了安全性,包括对敏感数据的保护
JDK 182022年3月- 引入了对GraalVM Native Image的支持
- 改进了内存管理和垃圾回收事件的详细程度
JDK 192022年9月- 增强了对多租户环境的支持
- 改进了事件的时间戳精度
JDK 202023年3月- 引入了新的事件类型,如jdk.CodeCacheFlush
- 改进了对异步事件的支持
JDK 212023年9月- 进一步增强了对虚拟线程的支持
- 改进了与Spring Boot等框架的集成

二、启用 JFR

2.1. 通过命令行参数启动

# JDK 8 需要添加以下参数,解锁商业功能
java -XX:+UnlockCommercialFeatures -XX:+FlightRecorder ...

# JDK 11+ 开源版本直接启用
java -XX:StartFlightRecording:delay=5s,duration=60s,name=MyRecording,filename=recording.jfr ...

常用选项:

  • filename=recording.jfr:指定输出文件名
  • duration=60s:设置录制时长
  • delay=10s:延迟启动时间
  • settings=profile:使用预定义配置文件(如profile, default)
  • name=MyRecording:为录制会话命名

2.2. 运行时触发,使用jcmd工具

jcmd <PID> JFR.start duration=60s filename=recording.jfr
jcmd <PID> JFR.dump filename=partial.jfr
jcmd <PID> JFR.stop

2.3. 通过JMC(JDK Mission Control)启动

操作步骤:

  1. 打开JMC工具。
  2. 连接到正在运行的JVM实例。
  3. 在左侧导航栏选择“Flight Recorder”。
  4. 配置录制设置(如持续时间、事件类型等)。
  5. 点击“Start Recording”。

2.4 通过Spring Boot Actuator集成启动

2.4.1. 添加依赖

pom.xml中添加依赖:

<dependency> 
	<groupId>org.springframework.boot</groupId> 
	<artifactId>spring-boot-actuator</artifactId> 
</dependency>
2.4.2. 使用HTTP接口启动
curl -X POST http://localhost:8080/actuator/jfr/start 
curl -X POST http://localhost:8080/actuator/jfr/dump?filename=myapp_recording.jfr 
curl -X POST http://localhost:8080/actuator/jfr/stop

三、JFR 事件

在 JFR中,一切皆为 Event!JFR 事件是 JFR 捕获和记录的最小数据单元,每个事件都代表了在特定时间点上系统或应用某个方面的信息。每条事件记录包含了多个数据字段,如时间戳、事件持续时间、以及其他与业务或系统状态相关的元数据。大部分的 Event,都有 Event 是在哪个线程发生的,Event 发生的时候这个线程的调用栈,Event 的持续时间。这就非常有用了,利用这些信息,我们可以回溯 Event 发生当时的情况。

3.1. 按来源分类

类别说明示例事件
JVM 事件JVM 内部操作产生的事件jdk.GarbageCollection, jdk.JITCompilation
JDK 库事件JDK 类库(如 I/O、网络、集合)触发的事件jdk.FileRead, jdk.SocketWrite
OS 事件操作系统级别的资源监控数据jdk.CPULoad, jdk.PhysicalMemory
自定义事件开发者定义的应用层事件com.example.OrderProcessEvent

3.2. 按触发方式分类

  • 阈值触发事件:当指标超过预设阈值时记录(如 jdk.CPULoad
  • 周期采样事件:按固定时间间隔采集(如 jdk.ThreadAllocationStatistics
  • 即时触发事件:特定操作发生时立即记录(如 jdk.ExceptionThrown

3.3、关键内置事件

3.3.1. 垃圾回收相关
事件名称作用
jdk.GarbageCollection记录 GC 暂停时间和原因(Young GC/Full GC)
jdk.OldObjectSample跟踪可能引发内存泄漏的旧对象(需启用 -XX:StartFlightRecording=old-object-queue-size=256
3.3.2. 线程与锁
事件名称作用
jdk.ThreadSleep记录线程睡眠时间
jdk.JavaMonitorWait监控 synchronized 锁等待时间
jdk.ThreadPark跟踪 LockSupport.park() 调用(如 AQS 锁)
3.3.3. 异常与错误
事件名称作用
jdk.ExceptionThrown记录所有异常抛出事件(包括堆栈跟踪)
jdk.ErrorThrown记录严重错误事件(如 OutOfMemoryError)
3.3.4. I/O 与网络
事件名称作用
jdk.FileRead跟踪文件读取操作(包含路径和耗时)
jdk.SocketRead记录 Socket 读取数据量及延迟
3.3.5. JIT 与类加载
事件名称作用
jdk.JITCompilation记录方法编译耗时和优化级别
jdk.ClassLoad跟踪类加载过程及耗时

3.4. 多线程低开销设计与异步存储原理

3.4.1. 事件产生与多线程协作
  • 多线程事件触发
    JFR 事件由业务线程在执行过程中主动生成(如方法调用、异常抛出、锁竞争等),每个线程独立维护线程本地缓冲区(Thread Local Buffer),直接以二进制格式缓存事件流。
  • 线程隔离与无锁设计
    各线程仅操作自身缓冲区,避免全局锁竞争,确保事件记录低延迟(通常低于微秒级)。
3.4.2. 分级缓冲存储流程
  1. 线程本地缓冲区(Thread Local Buffer)

    • 默认容量约 34KB,采用循环队列结构存储二进制事件数据。
    • 缓冲区满时触发异步刷写(非阻塞),将数据批量推送至全局缓冲区。
  2. 全局缓冲区(Global Buffer)与持久化

    • 全局缓冲区整合多线程事件流,由独立的 jfr 守护线程负责管理。
    • 后台线程将全局缓冲区的数据异步写入磁盘(生成 .jfr 文件),完全分离业务线程与I/O操作,避免阻塞主逻辑。
3.4.3. 高效性核心设计
  • 二进制直接存储
    事件以二进制格式在内存中流转,跳过多余的序列化/反序列化步骤,减少 CPU 开销。
  • 异步分层处理
    业务线程仅负责生成事件,缓冲区刷写与持久化由独立线程完成,通过批量合并降低 I/O 频率。
  • 动态采样与可控开销
    JFR 支持按需配置采样率(如 -XX:FlightRecorderOptions=stackdepth=128),通过 JVM 内部 Hook 实现非侵入式监控,无需代码插桩。
3.4.4. 自定义事件对业务的影响
  • 轻量级托管机制
    开发者通过继承 jdk.jfr.Event 定义的事件,由 JFR 框架统一管理。调用 commit() 方法时,事件仅写入线程本地缓冲区,不占用业务线程额外时间
  • 背压(Backpressure)保护
    若事件产生速率超过持久化能力(如高频自定义事件),JFR 会触发背压机制,选择性丢弃低优先级事件或限制事件生成,防止资源耗尽。
  • 可控的性能损耗
    合理使用自定义事件(如避免每秒超 10 万次高频提交),对业务延迟的影响通常可控制在 1%~2% 以内,极端场景需结合采样策略优化。

四、自定义事件开发

4.1. 自定义事件开发价值

通过自定义JFR事件,开发者可以:

  1. 业务指标可视化:记录订单创建、支付处理等关键业务指标
  2. 精准性能分析:追踪特定方法执行耗时、资源消耗
  3. 上下文关联:将JVM事件与业务逻辑关联分析
  4. 生产环境诊断:低开销实时监控生产系统

4.2. 自定义事件开发四部曲

4.2.1. 定义事件类
@Name("com.example.OrderCreated") 
@Label("Order Created Event")
@Category("Business")
@Description("Records order creation information")
public class OrderCreatedEvent extends Event {
    
    @Label("Order ID")
    public String orderId;

    @Label("Total Amount")
    @Amount(Currency.CNY)
    public double amount;

    @Label("User Type")
    public UserType userType;

    @Label("Creation Duration")
    @Timespan(Timespan.MILLISECONDS)
    public long duration;
}

注解说明:

  • @Name: 定义事件的全局唯一标识符,推荐使用反向域名命名法(类似Java包名),避免与JVM内置事件冲突。
  • @Label: 事件名称,在JMC等可视化工具中作为显示名称。
  • @Category: JMC中的分类显示,在JMC左侧导航树状呈现。
  • @Description: 提供事件的详细文档说明吗,在JMC中通过"Show Description"查看。
4.2.2. 触发事件记录
public class OrderService {
    
    public void createOrder(OrderRequest request) {
        OrderCreatedEvent event = new OrderCreatedEvent();
        if (event.isEnabled()) {
            long start = System.nanoTime();
            
            // 业务逻辑执行...
            
            event.orderId = generatedId;
            event.amount = calculateAmount();
            event.userType = getCurrentUserType();
            event.duration = (System.nanoTime() - start) / 1_000_000;
            event.commit();
        }
    }
}
4.2.2. 事件注册与启用
@Registered(true)
public class OrderCreatedEvent extends Event {
    //...
}

动态启用配置:

jcmd <PID> JFR.configure  threshold=10ms  stacktrace=true  path-to-gc-roots=true
4.2.4. 事件数据分析

使用JMC分析:

public static void analyzeJfr(File recordingFile) throws IOException {
    try (RecordingStream rs = new RecordingStream(recordingFile)) {
        rs.onEvent("com.example.OrderCreated", event -> {
            System.out.printf("订单%s 金额%.2f 耗时%dms%n",
                event.getString("orderId"),
                event.getDouble("amount"),
                event.getLong("duration"));
        });
        rs.start();
    }
}

五、高级技巧

5.1 异步事件处理

@Async
public class AsyncPaymentEvent extends Event {
    //...
}

5.2 阈值控制

@Threshold("20 ms")
public class SlowMethodEvent extends Event {
    //...
}

5.3 自定义转换器

public class UserTypeConverter extends Converter<UserType> {
    public String toString(UserType type) {
        return type.name().toLowerCase();
    }
}

public class OrderCreatedEvent extends Event {
    @Converter(UserTypeConverter.class)
    public UserType userType;
}

六、总结

通过自定义JFR事件,开发者可以获得:

  • 生产环境细粒度监控能力
  • 业务与JVM事件的关联分析
  • 传统日志无法实现的性能洞察

建议结合JMC可视化工具和jfr命令行工具,构建完整的性能监控体系。下一篇来具体介绍使用JMC进行JFR性能分析指南。

最佳实践:从关键业务路径开始逐步增加事件埋点,通过持续的性能分析迭代优化事件配置。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2306248.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用Docker Desktop部署GitLab

1. 环境准备 确保Windows 10/11系统支持虚拟化技术&#xff08;需在BIOS中开启Intel VT-x/AMD-V&#xff09;内存建议≥8GB&#xff0c;存储空间≥100GB 2. 安装Docker Desktop 访问Docker官网下载安装包安装时勾选"Use WSL 2 instead of Hyper-V"&#xff08;推荐…

MySQL数据库连接池泄露导致MySQL Server超时关闭连接

前言 最近做项目&#xff0c;发现老项目出现xxx&#xff0c;这个错误其实很简单&#xff0c;出现在MySQL数据库Server端对长时间没有使用的client连接执行清楚处理&#xff0c;因为是druid数据库&#xff0c;且在github也出现这样的issue&#xff1a;The last packet successf…

力扣 下一个排列

交换位置&#xff0c;双指针&#xff0c;排序。 题目 下一个排列即在组成的排列中的下一个大的数&#xff0c;然后当这个排列为降序时即这个排列最大&#xff0c;因为大的数在前面&#xff0c;降序排列的下一个数即升序。所以&#xff0c;要是想找到当前排列的下一个排列&…

事务管理-03.事务进阶-propagation属性

一.工具 在介绍事务的propagation属性前&#xff0c;我们首先介绍一个工具&#xff1a;Grep Console&#xff0c;该工具用来实现将idea输出出的日志信息进行选择性的高亮展示。 当要选择日志中的某一部分高亮展示时&#xff0c;只需要右键点击Add Highlight即可。此时日志中所…

Pretraining Language Models with Text-Attributed Heterogeneous Graphs

Pretraining Language Models with Text-Attributed Heterogeneous Graphs EMNLP 推荐指数&#xff1a;#paper/⭐⭐#​ 贡献&#xff1a; 我们研究了在更复杂的数据结构上预训练LM的问题&#xff0c;即&#xff0c;TAHG。与大多数只能从每个节点的文本描述中学习的PLM不同&…

模型疑问图像、嵌入、推理类型与说明

在进行模型使用的时候,有时候会碰到模型存在模型类型需要选择的情况,如下面deepseek模型选择模型类型图像、嵌入、推理。 以下是针对此问题的了解与说明: DeepSeek 模型是一个多模态人工智能模型,能够同时处理图像和文本数据,并在多种任务中实现高效的嵌入表示和推理。以下…

WiFi IEEE 802.11协议精读:IEEE 802.11-2007,6,MAC service definition MAC服务定义

继续精读IEEE 802.11-2007 6&#xff0c;MAC service definition MAC服务定义 6.1 MAC服务概述 6.1.1 数据服务 此服务为对等逻辑链路控制&#xff08;LLC&#xff09;实体提供交换MAC服务数据单元&#xff08;MSDU&#xff09;的能力。为支持此服务&#xff0c;本地媒体访…

Visual Studio Code 跨平台安装与配置指南(附官方下载链接)

一、软件定位与核心功能 Visual Studio Code&#xff08;简称VS Code&#xff09;是微软开发的开源跨平台代码编辑器&#xff0c;支持超过50种编程语言的智能补全、调试和版本控制功能。2025版本新增AI辅助编程模块&#xff0c;可自动生成单元测试代码和API文档注释。 二、下载…

deepseek自动化代码生成

使用流程 效果第一步&#xff1a;注册生成各种大模型的API第二步&#xff1a;注册成功后生成API第三步&#xff1a;下载vscode在vscode中下载agent&#xff0c;这里推荐使用cline 第四步&#xff1a;安装完成后&#xff0c;设置模型信息第一步选择API provider&#xff1a; Ope…

OceanBase + DeepSeek:5分钟免费搭建企业知识库

过去一个月&#xff0c;DeepSeek 在全球范围内引发了热烈讨论。其突破性的 AI 能力使其日流量显著超越 Claude 和 Perplexity&#xff0c;吸引了众多企业和技术专家的高度关注。随着 AI 技术的不断进步&#xff0c;企业正面临一场深刻的智能化变革——如何通过 AI 重构业务&…

水利工程安全包括哪几个方面

水利工程安全培训的内容主要包括以下几个方面&#xff1a; 基础知识和技能培训 &#xff1a; 法律法规 &#xff1a;学习水利工程相关的安全生产法律法规&#xff0c;了解安全生产标准及规范。 事故案例 &#xff1a;通过分析事故案例&#xff0c;了解事故原因和教训&#x…

基于 sklearn 的均值偏移聚类算法的应用

基于 sklearn 的均值偏移聚类算法的应用 在机器学习和数据挖掘中&#xff0c;聚类算法是一类非常重要的无监督学习方法。它的目的是将数据集中的数据点划分为若干个类&#xff0c;使得同一类的样本点彼此相似&#xff0c;而不同类的样本点相互之间差异较大。均值偏移聚类&…

国产OS上完整编译Qt5.15、搭建基本开发环境需要的库

近期有师弟问我国产OS安装Qt5.15编译老是不完整&#xff0c;不是没声音&#xff0c;就是没视频&#xff0c;或者没有xcb。通过QEMU模拟Arm64&#xff0c;闲来20几天摸索&#xff0c;完整编译了Qt5.15&#xff0c;并编译成功了我的SDR玩具taskBus。 1.主要结论&#xff1a; 该O…

MyBatis简明教程

MyBatis 是一个用于简化数据库操作的持久层框架&#xff0c;它的核心思想是 将 SQL 与 Java 代码解耦&#xff0c;让开发者专注于 SQL 的编写&#xff0c;同时自动处理重复的数据库操作步骤。 一、核心思想&#xff1a;SQL 与 Java 解耦 传统 JDBC 需要开发者手动管理数据库连…

有什么区别?Elastic 和 Splunk 数据层

作者&#xff1a;来自 Elastic Ugo Sangiorgi, Matt Wehle 了解 Elastic 和 Splunk 数据管理方法之间的主要区别&#xff0c;以便做出明智的决策&#xff0c;实现高效的数据处理 在数据管理领域&#xff0c;在讨论如何根据不同的性能要求提供和/或保留数据时&#xff0c;经常会…

BGP状态和机制

BGP邻居优化 为了增加稳定性,通常建议实验回环口来建立邻居。更新源:建立邻居和邻居所学习到的路由的下一跳。多跳:EBGP邻居建立默认选哟直连,因为TTL=1,如果非直连,必须修改TTL。命令备注peer 2.2.2.2 connect-interface lo1配置更新源peer 2.2.2.2 ebgp-max-hop 2配置T…

【电机控制器】PY32F00BF15U6TR-从KEIL5中计算资源消耗资源

【电机控制器】PY32F00BF15U6TR-从KEIL5中计算资源消耗资源 文章目录 [TOC](文章目录) 前言一、MCU芯片手册二、实验三、实验结论四、参考资料总结 前言 使用工具&#xff1a; 1.KEIL5编译器 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 一、MCU芯片…

python实战项目58:采集蜻蜓FM热门音频top排行榜

python实战项目58:采集蜻蜓FM热门音频top排行榜 一、采集流程介绍二、数据接口采集三、使用xpath提取页面数据1、抓包,找到数据接口2、发送请求,获取数据3、提取数据4、保存数据一、采集流程介绍 蜻蜓FM热门音频top排行榜的链接为: https://m.qingting.fm/rank/,首页如下图…

STM32【3】芯片的底层组成概论

关于单片机的组成 单片机的意思是&#xff0c;小小计算电脑&#xff0c;麻雀虽小&#xff0c;五脏俱全&#xff0c;里面包含了CPU&#xff0c;ROM&#xff0c;RAM&#xff0c;各种外设。 CPU地位最高&#xff0c;可以访问ROM和RAM&#xff0c;Flash&#xff0c;GPIO等外设&…

基于django图书信息管理系统的搭建(增删改查)

✍django项目搭建教程 ☞ ----------------- 教程 本文主要讲解django如何连接数据库MySQL并且可视化展示&#xff0c;实现增删改查功能 目录 一. 创建django应用 二. 数据库配置 三. 查看数据库 四. 编写代码 4.1视图函数 4.2 配置URL 4.3创建模板文件 4.…