推荐使用 pdf2htmlEX(因为确实做的比较全)
pdf2htmlEX
是一个开源工具,可以将PDF文件转换为HTML文件。你需要先安装pdf2htmlEX
工具,并确保它在你的系统路径中可用。(花时间最多就是找包)
-
安装
pdf2htmlEX
可以从 pdf2htmlEX的GitHub页面 下载和安装。(下载特别慢)
-
我自己创建一个库pdf2htmlEX 方便下载;(主要适用于linux环境,需要一点点编译)
-
Java window环境可以参考编译好的包(百度云盘方便大家下载)
链接:https://pan.baidu.com/s/1-w4nnuYu8OyaI61QR7AImg
提取码:ipe4
使用Java调用 pdf2htmlEX
你可以通过Java的 Runtime
或 ProcessBuilder
来调用 pdf2htmlEX
工具。
public static void convertPdfToHtml(String pdfPath, String htmlPath) {
List list = new ArrayList();
list.add("cmd.exe");
list.add("/c");
list.add("C:\\wp\\project\\pdf2htmlEX\\pdf2htmlEX\\pdf2htmlEX.exe");
list.add("\"" + pdfPath + "\"");
list.add("\"" + htmlPath + "\"");
ProcessBuilder processBuilder = new ProcessBuilder(list);
try {
Process process = processBuilder.start();
BufferedReader reader = new BufferedReader(new InputStreamReader(process.getInputStream()));
String line = "";
while ((line = reader.readLine()) != null) {
System.out.println(line);
}
process.waitFor();
System.out.println("PDF conversion completed.");
} catch (IOException | InterruptedException e ) {
System.out.println("应用程序不存在!");
e.printStackTrace();
}
}
public static void main(String[] args) {
String pdfFilePath = "test.pdf";
String xmlFilePath = "wptest.html";
EscapeUtil.convertPdfToHtml(pdfFilePath,xmlFilePath);
}
执行之后的效果 PDF文件
生成html的文件
个人有一些开源项目 北斗位置服务平台(GPS跟踪平台)