太极限了,JDK的这个BUG都能被我踩到!

news2025/1/9 15:00:31

之前遇到个文件监听变更的问题,刚好这周末有空研究了一番,整理出来分享给大家。

从一次故障说起

我们还是从故障说起,这样更加贴近实际,也能让大家更快速理解背景。

有一个下发配置的服务,这个配置服务的实现有点特殊,服务端下发配置到各个服务的本地文件,当然中间经过了一个agent,如果没有agent也就无法写本地文件,然后由client端的程序监听这个配置文件,一旦文件有变更,就重新加载配置,画个架构图大概是这样:

今天的重点是文件的变更该如何监听(watch),我们当时的实现非常简单:

  • 单独起个线程,定时去获取文件的最后更新时间戳(毫秒级)

  • 记录每个文件的最后更新时间戳,根据这个时间戳是否变化来判断文件是否有变更

从上述简单的描述,我们能看出这样实现有一些缺点:

  • 无法实时感知文件的变更,感知误差在于轮询文件最后更新时间的间隔

  • 精确到毫秒级,如果同一毫秒内发生2次变更,且轮询时刚好落在这2次变更的中间时,后一次变更将无法感知,但这概率很小

还好,上述两个缺点几乎没有什么大的影响。

但后来还是发生了一次比较严重的线上故障,这是为什么呢?因为一个JDK的BUG,这里直接贴出罪魁祸首:

BUG详见:https://bugs.java.com/bugdatabase/view_bug.do?bug_id=8177809

在某些JDK版本下,获取文件的最后更新时间戳会丢失毫秒精度,总是返回整秒的时间戳,为了直观感受,写了个demo分别在jdk1.8.0_261jdk_11.0.6测试(均为MacOs):

  • jdk_1.8.0_261

  • jdk_11.0.6

如果是在这个BUG的影响下,只要同一秒内有2次变更,且读取文件最后时间戳位于这2次变更之间的时间,第2次变更就无法被程序感知了,同1秒这个概率比同一毫秒大的多的多,所以当然就被触发了,导致了一次线上故障。

这就好比之前是沧海一粟,现在变成了大海里摸到某条鱼的概率。这也能被我们碰到,真是有点极限~

WatchService—JDK内置的文件变更监听

当了解到之前的实现存在BUG后,我就去搜了一下Java下如何监听文件变更,果然被我找到了WatchService

说是WatchService可以监听一个目录,对目录下的文件新增、变更、删除进行监听。于是我很快就写了个demo进行测试:

public static void watchDir(String dir) {
    Path path = Paths.get(dir);
    try (WatchService watchService = FileSystems.getDefault().newWatchService()) {
        path.register(watchService, StandardWatchEventKinds.ENTRY_CREATE, StandardWatchEventKinds.ENTRY_MODIFY, StandardWatchEventKinds.ENTRY_DELETE, StandardWatchEventKinds.OVERFLOW);
        while (true) {
            WatchKey key = watchService.take();
            for (WatchEvent<?> watchEvent : key.pollEvents()) {
                if (watchEvent.kind() == StandardWatchEventKinds.ENTRY_CREATE) {
                    System.out.println("create..." + System.currentTimeMillis());
                } else if (watchEvent.kind() == StandardWatchEventKinds.ENTRY_MODIFY) {
                    System.out.println("modify..." + System.currentTimeMillis());
                } else if (watchEvent.kind() == StandardWatchEventKinds.ENTRY_DELETE) {
                    System.out.println("delete..." + System.currentTimeMillis());
                } else if (watchEvent.kind() == StandardWatchEventKinds.OVERFLOW) {
                    System.out.println("overflow..." + System.currentTimeMillis());
                }
            }
            if (!key.reset()) {
                System.out.println("reset false");
                return;
            }
        }
    } catch (Exception e) {
        e.printStackTrace();
    }
}

先对/tmp/file_test目录进行监听,然后每隔5毫秒往文件写数据,理论上来说,应该能收到3次事件,但实际上很奇怪,仔细看接收到modify事件的时间大概是第一次文件修改后的9.5s左右,很奇怪,先记着,我们读一下WatchService源码

>>> 1652076266609 - 1652076257097
9512

WatchService原理

WatchService watchService = FileSystems.getDefault().newWatchService()

通过debug发现,这里的watchService实际上是PollingWatchService的实例,直接看PollingWatchService的实现:

PollingWatchService上来就起了个线程,这让我隐隐不安。再找一下这个scheduledExecutor在哪里用到:

每隔一段时间(默认为10s)去poll下,这个poll干了什么?代码太长,我截出关键部分:

果然,和我们的实现类似,也是去读文件的最后更新时间,根据时间的变化来发出变更事件。

换句话说,在某些JDK版本下,他也是有BUG的!

这也就解释了上文提到的事件监听为什么是在第一个9.5s之后才发出,因为监听注册后,sleep了500ms后修改文件,10s轮询,刚好9.5s后拿到第一轮事件。

inotify—Linux内核提供的文件监听机制

至此,我想起了linux上的tail命令,tail 是在文件有变更的情况下输出文件的末尾,理论上也是监听了文件变更,这块刚好在很久之前听过一个技术大佬分享如何自己实现tail命令,用到的底层技术就是inotify

简单来说,inotify是linux内核提供的一种监控文件变更事件的系统调用。如果基于此来实现,不就可以规避JDK的BUG了吗?

但奇怪的是为什么Java没有用这个来实现呢?于是我又搜了搜,发现谷歌似乎有一个库,但被删了,看不到代码:

github上又搜到一个:https://github.com/sunmingshi/Jinotify

看起来是一个native的实现,需要自己编译.so文件,这样就比较蛋疼了。

记得上次这么蛋疼还是在折腾Java的unix domain socket,也是找到了一个google的库,测试没问题,放到线上就崩了~不得不说google还是厉害,JDK提供不了的库,我们来提供~

于是我带着这个疑问去问了一个搞JVM开发的朋友,结果他告诉我,Java也可以使用inotify!

瞬间斗志来了,难道是我测试的姿势不对?

我又去翻了一遍Java文档,发现在角落隐藏了这么一段话:

也就是说,不同的平台下会使用不同的实现,PollingWatchService是在系统不支持inotify的情况下使用的兜底策略。

于是将watchService的类型打印出来,在Mac上打印为:

class sun.nio.fs.PollingWatchService

在Linux上是:

class sun.nio.fs.LinuxWatchService

LinuxWatchService在Mac上是找不到这个类,我猜测应该是Mac版的JDK压根没把这块代码打包进来。

原来我本地测试都走了兜底策略,看来是测了个寂寞。

于是我写了个demo再测试一把:

public static void main(String[] args) throws Exception {
    Thread thread = new Thread(() -> watchDir("/tmp/file_test"));
    thread.setDaemon(false);
    thread.start();

    Thread.sleep(500L);

    for (int i = 0; i < 3; i++) {
        String path = "/tmp/file_test/test";
        FileWriter fileWriter = new FileWriter(path);
        fileWriter.write(i);
        fileWriter.close();
        File file = new File(path);
        System.out.println(file.lastModified());
        Thread.sleep(5);
    }
}
  • 本地Mac

  • Linux

可以看出,Linux上能收到的事件比本地多的多,而且接收事件的时间明显实时多了。

为了更加准确的验证是inotify,用strace抓一下系统调用,由于JVM fork出的子进程较多,所以要加-f命令,输出太多可以存入文件再分析:

strace -f -o s.txt java FileTime

果然是用到了inotify系统调用的,再次验证了我们的猜想。

故障是如何修复的?

再次回到开头的故障,我们是如何修复的呢?由于下发的文件和读取文件的程序都是我们可控的,所以我们绕过了这个BUG,给每个文件写一个version,可以用文件内容md5值作为version,写入一个特殊文件,读取时先读version,当version变化时再重新载入文件。

可能你要问了,为什么不用WatchService呢?

我也问了负责人,据说inotify在docker上运行的不是很好,经常会丢失事件,不是Java的问题,所有语言都存在这个问题,所以一直没有使用。不过这块找不到相关的资料,也无法证明,所以暂时搁置。

总结

有些BUG,不踩过就很难避免,代码只要存在BUG的可能性,就一定会暴露出来,只是时间问题。

我们要在技术上深入探究,小心求证,但产品上不必执着,可另辟蹊径。

另外解决不了的问题时可以找这个领域的资深人士,所以平时没事认识几个大牛很有必要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/65212.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

详解设计模式:访问者模式

访问者模式&#xff08;Visitor Pattern&#xff09;&#xff0c;是在 GoF 23 种设计模式中定义了的行为型模式。据《大话设计模式》中说算是最复杂也是最难以理解的一种模式了。 访问者模式 是一种将数据操作与数据结构分离的设计模式&#xff0c;它可以算是 23 中设计模式中最…

NewStar CTF Week3Misc 4-5Web

目录 <1> Week-3 Misc (1) Whats HTTP (2) qsdzs girlfriend 3 (3) WebShell&#xff01; (4) 混沌的图像 <1> Week-4 Web (1) So Baby RCE(%0A进行rce rev|sort读取flag) (2) UnserializeThree(%0d换行rce) <2> week5-web (1) Give me your photo…

step-by-step 配置 gtest 在 vscode 测试 c/c++(Ubuntu 环境下示范)

1. 去把 gtest 装好 详见&#xff1a;CSND-PangCoder-[Ubuntu]GTest安装和测试-https://blog.csdn.net/qq_36251561/article/details/85319547 2. 在 VS Code 打上这几个插件 印象里打上 C TestMate 下面的就会自动装了…如果没有就手动装一下 3. 编写测试脚本 第一步那…

【Pytorch】第 1 章 :强化学习和 PyTorch 入门

&#x1f50e;大家好&#xff0c;我是Sonhhxg_柒&#xff0c;希望你看完之后&#xff0c;能对你有所帮助&#xff0c;不足请指正&#xff01;共同学习交流&#x1f50e; &#x1f4dd;个人主页&#xff0d;Sonhhxg_柒的博客_CSDN博客 &#x1f4c3; &#x1f381;欢迎各位→点赞…

Java并发常见面试题(三)

并发编程三大特性 原子性 一次操作或者多次操作&#xff0c;要么所有的操作都得到执行并且不受任何因素的干扰而中断&#xff0c;要么都不会执行。 在 Java 中&#xff0c;可以借助synchronized 、各种 Lock 以及各种原子类实现原子性。synchronized 和各种 Lock 可以保证任…

【吴恩达机器学习笔记】十三、异常检测

✍个人博客&#xff1a;https://blog.csdn.net/Newin2020?spm1011.2415.3001.5343 &#x1f4e3;专栏定位&#xff1a;为学习吴恩达机器学习视频的同学提供的随堂笔记。 &#x1f4da;专栏简介&#xff1a;在这个专栏&#xff0c;我将整理吴恩达机器学习视频的所有内容的笔记&…

[附源码]计算机毕业设计人事系统Springboot程序

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

Contest2850 - 【在线编程平台】2022年计算机类数据结构作业12.20221201-1206

问题 A: 二叉排序树 - 文本输出 题目描述 给定一个序列&#xff0c;使用该序列生成二叉排序树&#xff08;也叫二叉搜索树&#xff0c;BST&#xff09;&#xff0c;然后以本题规定方法输出该二叉排序树。 例&#xff1a; 给定一个序列&#xff1a;43 25 29 67 17 88 54 47 35…

用R语言制作交互式图表和地图

可以直接从R / RStudio制作在线交互式图表和地图。 去年&#xff0c;我们为一位客户进行了短暂的咨询工作&#xff0c;他正在构建一个主要基于在线交互式图表的分析应用程序。 配置 启动RStudio&#xff0c;创建一个新的RScript&#xff0c;然后将工作目录设置为下载的数据文…

git merge origin master和git merge master的区别(个人理解)

先说结论 git merge origin master 意思是当前的分支,进行合并,合并二个分支分别是远程分支master在本地的副本和本地分支的master git merge master 当前分支于本地所处的master分支进行合并 还有就是 git merge origin master是把origin merge 到 master 上的说法是错误的…

小侃设计模式(十五)-命令模式

1.概述 命令模式&#xff08;Command Pattern&#xff09;是将一个请求封装为一个对象&#xff0c;从而让你使用不同的请求把客户端参数化&#xff0c;对请求排队或者记录请求日志&#xff0c;可以提供命令的撤销和恢复功能。它是行为型模式的一种&#xff0c;能够有效降低系统…

【华为上机真题 2022】流水线

&#x1f388; 作者&#xff1a;Linux猿 &#x1f388; 简介&#xff1a;CSDN博客专家&#x1f3c6;&#xff0c;华为云享专家&#x1f3c6;&#xff0c;Linux、C/C、云计算、物联网、面试、刷题、算法尽管咨询我&#xff0c;关注我&#xff0c;有问题私聊&#xff01; &…

ES6:ES6 的内置对象扩展

Array 的扩展方法 扩展运算符&#xff08;展开语法&#xff09; 扩展运算符可以将数组或者对象转为用逗号分隔的参数序列。 let ary [1, 2, 3];...ary // 1, 2, 3console.log(...ary); // 1 2 3console.log(1, 2, 3)为什么没有逗号&#xff0c;这个是因为被当做console…

毕业设计-机器视觉的疲劳驾驶检测系统-python-opencv

目录 前言 课题背景和意义 实现技术思路 实现效果图样例 前言 &#x1f4c5;大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科…

买家的诉求决定你的产品卖点

产品卖点的核心是消费者的诉求&#xff0c;也就是消费者为什么对某个产品有需求。 为什么要用广角镜头&#xff1f;可能要拍比较大、比较宏伟的环境。 为什么要用微距&#xff1f;可能要去拍一些细节场景。 …… 很多时候跟客户对不上&#xff0c;是因为不知道客户具体要做…

挨个排列原子!美国科学家打造出全新量子试验台

11月29日&#xff0c;美国科学家建立了一个原子级精度的测试平台&#xff0c;能以全新的方式操纵电子&#xff0c;在量子计算中有着巨大潜力。电子是微观粒子&#xff0c;可以在材料和设备之间携带电量和信息。它们通常可视为离散的小球&#xff0c;在电路中或原子周围移动。虽…

Git下载安装及环境配置,解决安装包下载慢问题(详细版)

Git是我们平时开发都要用到的项目管理工具&#xff0c;虽然有网页版的Git网站&#xff0c;但是在本地安装Git后&#xff0c;可以直接使用命令语句来进行项目的上传与克隆。还是非常方便的。 今天就来介绍下Git的下载。 git下载安装一、下载二、安装git三种操作界面的简介三、设…

不同应用选择荧光染料 -CY7 ALK脂溶性Sulfo-Cyanine7 alkyne 结构式应用

不同应用选择荧光染料-多肽、蛋白、抗体标记、活体成像 荧光标记技术是指运用荧光染料与待研究对象结合&#xff0c;利用它的荧光特性&#xff0c;提供待研究对象相关信息。荧光标记具有操作简便、高稳定性、高灵敏度等优势&#xff0c;使荧光染料在生命科学研究中应用&#xf…

软件测试之对于测试的反思及思考

1.针对一个页面&#xff0c;从页面的完整性(包括字段、输入框、功能点)出发 2.对于分页&#xff0c;考虑未在首页的时候的测试&#xff0c;末页的情况。 3.对条件的查询来说&#xff0c;要针对于单个输入框的测试、交叉输入框的测试 4.对于删除、修改等&#xff0c;要考虑你…

智慧采购管理系统电子招投标优势浅析,助力建筑工程企业高效做好采购管理工作

随着建筑工程行业的蓬勃发展&#xff0c;竞争也日益激烈。在项目执行过程中&#xff0c;从项目前期投标开始&#xff0c;到项目立项、施工过程、竣工结束的整个过程中&#xff0c;采购活动频繁&#xff0c;且采购类型较多&#xff0c;各项采购金额巨大&#xff0c;如何应用电子…