推荐 2 个 牛牛牛 的 PDF 开源神器!

news2024/11/28 6:39:59

2fadacaed698546287afa78a17645e8b.png

推荐两个在 GitHub 上都斩获 12k+ 星星的 PDF 神器:OCRmyPDF 可让你的 PDF 扫描件变得可搜索;Marker 以高准确性快速将 PDF 文档转换为 Markdown 格式


01

让你的 PDF 扫描件变得可搜索

在数字化时代,我们经常需要处理扫描的PDF文件,但这些文件往往不能被搜索引擎索引,给信息检索带来不便。

OCRmyPDF 这个精心打造的开源项目,已经解决了这一问题。它通过在扫描的 PDF 文件中添加 OCR 文本层,让这些 PDF 扫码件变得可搜索,极大地提升了工作效率!

354959b5df94efde1b9a56a3d9e3dcc8.png

有啥牛的?

① 跨平台支持:无论是 Windows、macOS 还是 Linux,OCRmyPDF 都能完美运行,满足不同用户的需求。

② 易于使用:用户可以通过命令行界面轻松地将扫描的 PDF 文件转换为包含 OCR 文本层的 PDF。

③ 高度可定制:支持多种语言的 OCR 引擎,用户可以根据自己的需求选择合适的 OCR 引擎。

3ef162c2de58b6158be4263fe70c0ca8.png

OCRmyPDF 不仅仅是一个工具,还是提高工作效率的小助手。无论是学术研究、商务文档处理还是个人资料管理,OCRmyPDF 都能助你一臂之力。

开源地址:https://github.com/ocrmypdf/ocrmypdf

快来体验它的强大功能,让你的 PDF 文件活起来!

02

让你的 PDF 一键转换成 Markdown

Marker,由 Vik Paruchuri 精心打造的开源工具,它能以高准确性快速将 PDF 文档转换为 Markdown 格式,为那些需要在 Markdown 和 PDF 之间转换内容的用户提供了一个强大的工具。

Marker 是一个命令行工具,使用 Python 编写,转换成 Markdown 提高了文本的可读性和可编辑性,同时为那些需要在不同平台和格式之间迁移内容的用户提供了极大的便利。

这个开源的命令行工具,可以在多种操作系统上运行,包括 Windows、macOS 和 Linux。已经在 GitHub上获得了13k 的 Star。

开源地址: https://github.com/VikParuchuri

准确率如何?

不管是响应时间还是准确率,Marker 都表现的不错:

f56041da4027de7b454aee113cb34685.png

看看效果?

找了一个 PDF 文件:

87348f248facac7db9914bb02ae2a188.png

讲上面这个 PDF 转换成 Markdown 效果:

f072275fd79c5e652effd148f223b5ba.png

简单部署?

你可以安装如下的方式去安装使用这一款 PDF 转换神器:

# 安装Marker
pip install marker

# 转换PDF到Markdown
marker input.pdf output.md

推荐阅读

1. GitHub 上有什么好玩的项目?

2. 推荐 5 个本周很火的 GitHub 项目

3. 推荐 5 个近期火火火的 GitHub 项目

4.  推荐 5 个令人惊艳的 GitHub 项目

01cd0a6cce5c5ec8e2710c253afdec31.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1844916.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

自定义模板DIY专属CSDN个人主页!HTML+CSS个性化全攻略

个人主页:学习前端的小z 个人专栏:HTML5和CSS3悦读 本专栏旨在分享记录每日学习的前端知识和学习笔记的归纳总结,欢迎大家在评论区交流讨论! 文章目录 💯如何通过HTMLCSS自定义模板diy出自己的个性化csdn主页&#x…

Qt扩展-轻量数学公式计算

轻量数学公式计算 一、概述二、代码结构三、简单使用四、解析支持1. 操作数2. 运算符3. 括号 一、概述 这个是我写得简单的一个数学计算公式工具。easy-math-parser 是一个用C编写的简单工具包,支持四个操作字符串的计算工具,灵感来自Muparser。 在这个…

【面试干货】throw 和 throws 的区别

【面试干货】throw 和 throws 的区别 1、throw1.1 示例 2、throws2.1 示例 3、总结 💖The Begin💖点点关注,收藏不迷路💖 在Java中,throw和throws都与异常处理紧密相关,但它们在使用和含义上有明显的区别。…

玄机平台流量特征分析-蚁剑流量分析

前言 蚁剑的流量特征 (1)每个请求体都存在ini_set(“display_errors”, “0”);set_time_limit(0)开头。并且后面存在base64等字符 (2)响应包的结果返回格式为: 随机数 响应内容 随机数 看一下题目要求 步骤1.1 这里要求我们找到木马的连接密码,…

阿里拍卖资产推荐算法 召回进展年中总结

阿里拍卖是阿里巴巴旗下拍卖平台,覆盖房产、机动车、土地、债权等类目。召回策略作为推荐场景的第一环,决定了整个推荐系统的上限,目前包含了包括向量召回、I2I、LBS2I、C2I等多路召回。召回的核心目标是尽可能的返回用户所有可能会感兴趣的商…

信息打点web篇----web后端源码专项收集

前言 欢迎来到我的博客 个人主页:北岭敲键盘的荒漠猫-CSDN博客 专栏描述:因为第一遍过信息收集的时候,没怎么把收集做回事 导致后来在实战中,遭遇资产获取少,可渗透点少的痛苦,如今决定 从头来过,全面全方位…

RK3568平台(音频篇)音频ALSA框架

一.ALSA框架简介 ALSA表示先进linux声音架构(Advanced Linux Sound Archiecture),它由一系列的内核驱动、应用程序编程接口(API)以及支持linux下声音的应用程序组成、 ALSA项目发起的原有是linux下的声卡驱动&#x…

Ubuntu server 24 (Linux) 安装lua + 卸载软件

1 apt 安装 # sudo apt update #查看可安装的lua版本 sudo apt-get install luaversion # sudo apt-get install lua5.3 #查看版本 testiZbp1g7fmjea77vsqc5hmmZ:/data/soft$ lua -v Lua 5.3.6 Copyright (C) 1994-2020 Lua.org, PUC-Rio2 Ubuntu卸载软件 #查找lua已安装…

3D Web轻量化引擎HOOPS Commuicator是如何创建AEC查看器的?

在当今数字化时代,建筑、工程和施工(AEC)行业正经历着一场技术革命。HOOPS Communicator,一款基于HOOPS Web平台的3D Web轻量化引擎,正是这场革命的先锋之一。本文将探讨HOOPS Communicator是如何创建AEC查看器的&…

Harbor 源码编译arm版本镜像

1. 先准备一个国外的arm服务器,(使用国内的也行,只是有时候下载依赖会断,需要科学上网) 2. git clone harbor的源码包,切换到要编译的分支 3. 修改harbor/Makefile Makefile里面的这些字段设置为true&…

腾讯云API安全保障措施?有哪些调用限制?

腾讯云API的调用效率如何优化?怎么使用API接口发信? 腾讯云API作为腾讯云提供的核心服务之一,广泛应用于各行各业。然而,随着API应用的普及,API安全问题也日益突出。AokSend将详细探讨腾讯云API的安全保障措施&#x…

Linux计划任务与日志

计划任务 主要用于完成一些周期性任务及定时任务,Windows中也有该功能: 单次调度执行 yum install -y at安装at工具,systemctl start atd启动服务,使用方法为at 选项 时间 执行内容时间可以自由设置,开启的栏目中输…

CSS+JS:通过修改filter实现图片颜色随时间渐变

原理&#xff1a;修改filter的hue-rotate属性 效果&#xff1a; 代码: <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, initial-scale1.0&q…

AGI的多模态融合

在人工智能的宏伟蓝图中&#xff0c;人工通用智能&#xff08;AGI&#xff09;代表着一个集大成者&#xff0c;一个能够理解、学习、适应并执行任何智能任务的系统。随着我们对AGI的探索愈发深入&#xff0c;尤其是在视觉、语言和其他模态的融合上&#xff0c;关于AGI的讨论愈发…

redis-实战篇(8)达人探店

8、达人探店 8.1、达人探店-发布探店笔记 发布探店笔记 探店笔记类似点评网站的评价&#xff0c;往往是图文结合。对应的表有两个&#xff1a; tb_blog&#xff1a;探店笔记表&#xff0c;包含笔记中的标题、文字、图片等 tb_blog_comments&#xff1a;其他用户对探店笔记的…

初学51单片机之PWM实例呼吸灯以及遇到的问题(已解答)

PWM全名Pulse Width Modulation中文称呼脉冲宽度调制 如图 这是一个周期10ms、频率是100HZ的波形&#xff0c;但是每个周期内&#xff0c;高低电平宽度各不相同&#xff0c;这就是PWM的本质。 占空比是指高电平占整个周期的比列,上图第一个波形的占空比是40%&#xff0c;第二个…

内容安全复习 2 - 网络信息内容的获取与表示

文章目录 信息内容的获取网络信息内容的类型网络媒体信息获取方法 信息内容的表示视觉信息视觉特征表达文本特征表达音频特征表达 信息内容的获取 网络信息内容的类型 网络媒体信息 传统意义上的互联网网站公开发布信息&#xff0c;网络用户通常可以基于网络浏览器获得。网络…

【Python机器学习实战】 | 基于线性回归以及支持向量机对汽车MPG与自重进行回归预测

&#x1f3a9; 欢迎来到技术探索的奇幻世界&#x1f468;‍&#x1f4bb; &#x1f4dc; 个人主页&#xff1a;一伦明悦-CSDN博客 ✍&#x1f3fb; 作者简介&#xff1a; C软件开发、Python机器学习爱好者 &#x1f5e3;️ 互动与支持&#xff1a;&#x1f4ac;评论 &…

excel如何实现按班级统计?

这个表有1-20个班(上表班级排名可以忽略不计)&#xff0c;需要计算每个班级的总分排名的各段人数&#xff0c;分段要求是0-60名&#xff0c;61-200名&#xff0c;201-600名。最后结果如下。 添加图片注释&#xff0c;不超过 140 字&#xff08;可选&#xff09; 如果年级有600…

【React】Axios请求头注入token

业务背景: Token作为用户的数据标识&#xff0c;在接口层面起到了接口权限控制的作用&#xff0c;也就是说后端有很多接口都需要通过查看当前请求头信息中是否含有token数据&#xff0c;来决定是否正常返回数据 // 添加请求拦截器 request.interceptors.request.use(config …