推荐两个在 GitHub 上都斩获 12k+ 星星的 PDF 神器:OCRmyPDF 可让你的 PDF 扫描件变得可搜索;Marker 以高准确性快速将 PDF 文档转换为 Markdown 格式
01
让你的 PDF 扫描件变得可搜索
在数字化时代,我们经常需要处理扫描的PDF文件,但这些文件往往不能被搜索引擎索引,给信息检索带来不便。
OCRmyPDF 这个精心打造的开源项目,已经解决了这一问题。它通过在扫描的 PDF 文件中添加 OCR 文本层,让这些 PDF 扫码件变得可搜索,极大地提升了工作效率!
有啥牛的?
① 跨平台支持:无论是 Windows、macOS 还是 Linux,OCRmyPDF 都能完美运行,满足不同用户的需求。
② 易于使用:用户可以通过命令行界面轻松地将扫描的 PDF 文件转换为包含 OCR 文本层的 PDF。
③ 高度可定制:支持多种语言的 OCR 引擎,用户可以根据自己的需求选择合适的 OCR 引擎。
OCRmyPDF 不仅仅是一个工具,还是提高工作效率的小助手。无论是学术研究、商务文档处理还是个人资料管理,OCRmyPDF 都能助你一臂之力。
开源地址:https://github.com/ocrmypdf/ocrmypdf
快来体验它的强大功能,让你的 PDF 文件活起来!
02
让你的 PDF 一键转换成 Markdown
Marker,由 Vik Paruchuri 精心打造的开源工具,它能以高准确性快速将 PDF 文档转换为 Markdown 格式,为那些需要在 Markdown 和 PDF 之间转换内容的用户提供了一个强大的工具。
Marker 是一个命令行工具,使用 Python 编写,转换成 Markdown 提高了文本的可读性和可编辑性,同时为那些需要在不同平台和格式之间迁移内容的用户提供了极大的便利。
这个开源的命令行工具,可以在多种操作系统上运行,包括 Windows、macOS 和 Linux。已经在 GitHub上获得了13k 的 Star。
开源地址: https://github.com/VikParuchuri
准确率如何?
不管是响应时间还是准确率,Marker 都表现的不错:
看看效果?
找了一个 PDF 文件:
讲上面这个 PDF 转换成 Markdown 效果:
简单部署?
你可以安装如下的方式去安装使用这一款 PDF 转换神器:
# 安装Marker
pip install marker
# 转换PDF到Markdown
marker input.pdf output.md
推荐阅读
1. GitHub 上有什么好玩的项目?
2. 推荐 5 个本周很火的 GitHub 项目
3. 推荐 5 个近期火火火的 GitHub 项目
4. 推荐 5 个令人惊艳的 GitHub 项目