昨天开发的时候遇到一个坑,这个坑几乎浪费了我一整天时间,我甚至现在都不知道其原因。
开发环境
macOS Ventura 13.4
IntelliJ IDEA 2023.1.2
现象
我用java的各种httpclient获取网络上的一个文本文件,获取的文本文件的内容使用System.out.println打印出来仅显示最后一行。
遇到这个现象我原以为我写的代码有问题,我几乎试遍主流的http请求依赖结果几乎相同。
我所试用的依赖如下:
<dependency>
<groupId>cn.hutool</groupId>
<artifactId>hutool-all</artifactId>
<version>5.8.16</version>
</dependency>
<dependency>
<groupId>org.projectlombok</groupId>
<artifactId>lombok</artifactId>
<optional>true</optional>
</dependency>
<dependency>
<groupId>org.jodd</groupId>
<artifactId>jodd-http</artifactId>
<version>6.3.0</version>
</dependency>
<!-- Pull in as a traditional dependency -->
<dependency>
<groupId>com.konghq</groupId>
<artifactId>unirest-java</artifactId>
<version>3.14.1</version>
</dependency>
<!-- https://mvnrepository.com/artifact/com.squareup.okhttp3/okhttp -->
<dependency>
<groupId>com.squareup.okhttp3</groupId>
<artifactId>okhttp</artifactId>
<version>4.12.0</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.14.3</version>
</dependency>
苦思不得其解,为什么本应该有400多行的数据,我取到只剩最后一行,其他数据怎么会“隐藏”。
研究了一天没搞明白,总不能在一颗树上吊死,后来我就放弃,我使用Java调用 命令行工具curl间接的使用了功能。
然后这个事情就放一边不管了,随着项目的不断推进我无意中发现,其实数据一直都在只是有一部分数据没有被System.out.println
打印出来。
复现
于是我简化了一下我的文件。文本内容如下:
然后我使用java代码读取这段文本,并输出结果:
通过调试也可以发现数据是完整的,就是打印出来缺失了。
结论
与是我自己创建一个文件,然后手动把文本复制粘贴过去。发现文件是可能正常打印的。
虽然在IDEA中两个文件打开是一样的,但是我在nvim中打开了两个文件出现不同点。
不能打印的文件:
可以打印的文件
看来可能是windows中的换行符导致的。
基于 DOS/Windows 的文本文件在每一行末尾有一个 CR(回车)和 LF(换行),而 UNIX 文本只有一个换行,即win每行结尾为\r\n,而linux只有一个\n如果win下的文档上传到linux,每行的结尾都会出现一个^M,(^M是ctrl+v,ctrl+m) 如果是单个文档的话,可以用vi打开,执行 :%s/^M//g 来去掉^M,
经测试我把这个^M删除掉,就可以正常打印了。
System.out.println不会打印 \r\r之前的信息
result = "这是我要隐藏的一行文本"+
"\r\r"+
"Hello";
//打印文本数据
System.out.println(result);
这段代码的执行结果
Hello
如果只回车(\r),打印的东西会覆盖同行以前的内容;
然后我搜索了一下果然有这样的特性。只是我一直不知道。
https://www.cnblogs.com/coderxiaobai/p/13658238.html
相关文件下载
基本可以判断是这个文件里可能有什么手脚,我把这个文件和代码跟大家分享一下。
https://download.csdn.net/download/lxyoucan/88587951
总结
我写一些比较小的程序时,喜欢直接System.out.println打印日志来查看变量的值,长达10年之久了。没想到在这里还踩了坑了。
就这么一个小坑,足足浪费我几乎一整天的时间。