本文将会被汇总至 【记录】Python3|2024年 PDF 转 XML 或 HTML 的第三方库的使用方式、测评过程以及对比结果(汇总),更多其他工具请访问该文章查看。
文章目录
- PyMuPDF 使用体验与评估
- 1 安装指南
- 2 测试代码
- 3 测试结果
- 3.1 转 HTML 的结果
- 3.2 转 XML 的结果
- 总体评价:✅⭐
PyMuPDF 使用体验与评估
Github 阅读:https://github.com/shandianchengzi/PDF2HTML_Samples/blob/main/results/PyMuPDF.md
CSDN 阅读:【记录】Python3| 将 PDF 转换成 HTML/XML(✅⭐PyMuPDF+tqdm)
参考:
- 【Python | PDF】如何使用Python将PDF转换为HTML页面?
- Convert PDF to HTML via PyMuPDF - StackOverFLow
1 安装指南
要使用 PyMuPDF,还需要配合 tqdm 使用。
您可以通过 Python 的包管理工具 pip 进行安装。在命令行中执行以下命令:
pip install PyMuPDF
# pip3 install PyMuPDF
pip install tqdm
# pip3 install tqdm
2 测试代码
为了帮助您更好地理解 PyMuPDF 的用法,我提供了一个测试代码示例。您可以在以下 GitHub 仓库中找到相关代码和样本文件:https://github.com/shandianchengzi/PDF2HTML_Samples/tree/main/python_samples/test_PyMuPDF
其目录结构如是:
3 测试结果
3.1 转 HTML 的结果
结果不是很好,该区分的格式倒是区分出来了。
但是挺乱的,只能说凑合能用,给用户用的话就有点过分。
3.2 转 XML 的结果
通过在线 XML 元素查看器查看,如下图所示:
不过多评价,和pdfminer.six转换的差不多,不过比pdfminer.six稍微整齐一丁点:
具体可看:【记录】Python3| 将 PDF 转换成 HTML/XML(✅⭐pdfminer.six)
总体评价:✅⭐
和pdfminer.six转换结果类似,比pdfminer.six能提取出来的样式多了一丁点。
pdfminer.six的测评过程可以看这篇:【记录】Python3| 将 PDF 转换成 HTML/XML(✅⭐pdfminer.six)。
截止目前测到的最好用的是 pdf2htmlEX,推荐阅读:【记录】Python3| 将 PDF 转换成 HTML/XML(✅⭐⭐⭐⭐pdf2htmlEX)
本文将会被汇总至 【记录】Python3|2024年 PDF 转 XML 或 HTML 的第三方库的使用方式、测评过程以及对比结果(汇总),更多其他工具请访问该文章查看。
本账号所有文章均为原创,欢迎转载,请注明文章出处:https://blog.csdn.net/qq_46106285/article/details/138549152。百度和各类采集站皆不可信,搜索请谨慎鉴别。技术类文章一般都有时效性,本人习惯不定期对自己的博文进行修正和更新,因此请访问出处以查看本文的最新版本。