【工具】OCR方法|不用下载额外的软件,提取扫描中英文PDF的目录文本的最优解!(一)

news2024/11/23 18:55:47

需求:
1)从PDF里快速提取目录;
2)不想下载任何软件。

我提取出来的目录文本会用于嵌入到PDF中,向PDF批量添加目录的软件以及软件的使用方法可以看我上一篇文章:PDF批量插入目录。

以下是我自己能想到的方案以及方案的测评结果,满星5星。
评分标准(根据目录提取的需求):
1)安装便捷性;
2)中英文字形识别率;
3)数字识别准确率;
4)保持目录格式,或只需要少量的调整;
5)使用便捷性。

最后得到的方法是QQ+GPT3.5进行目录提取。

之后还有一篇文章,会写到用Python做OCR提取,这样能把提取过程扔到服务器后台,用起来更加方便(不用打开GPT也不用打开QQ了这样就)。

用来测试的目录图片示意:

在这里插入图片描述

文章目录

  • 一、用现有常用软件直接导出目录
    • 1 (推荐指数☆)QQ OCR文字识别
    • 2 (推荐指数0星)GPT4 图像识别
    • 3 (推荐指数0星)GPT4 AI PDF插件
    • 4 (推荐指数☆☆☆☆)QQ+GPT3.5结合
    • 5 (推荐指数☆☆☆☆)QQ+GPT4结合

一、用现有常用软件直接导出目录

这个方案是用常用的软件生成的,不需要下载其他奇怪的软件。

1 (推荐指数☆)QQ OCR文字识别

星星点
1)即开即用
2)中文的字形识别特别准确

扣星星点
1)没办法放后台运行
2)数字识别特别差,
3)格式特别乱,用来做目录提取要调整很久

识别结果:

摘要..
Abstract . . . . .......................................................[II第1章绪论...... . . . .. . .  .        
1.1︰研究背景...................................11.2国内外研究现状...... ... . . .. . . . . . . ............ .. ..... . ........2
1.2.1大整数分解的研究现状.... . . ... . . . .. .... . . . . ... . . . . . . . . .. .. 3
1.2.2一般数域筛法的研究现状..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 31.2.3最新研究进展..
.... . . . .. . ... . .. .. ... . . . . .. .. . . . . . .. ... 4
1.3论文的主要内容...............................................41.4论文的结构安排...... .... .... . . . . . . . .. . . ... . . .. . ..... . ... .....5
i . .  i   . . ... o
第2章相关理论基础........ . .. ............….…..72.1密码学基础.....................… ............72.1.1 密码学原理..... . . ....................。2.1.2公钥密码体制............i......................92.1.3 RSA 公钥密码体制....
2.2整数分解基础..... ......... . .... .. .. . ...... ... ......... ...... .9
2.2.1整数分解难题..... ... . . . . . . . . . . . . . . . . . . . . . . ... . .. ........ 102.2.2 常用的整数分解方法.... . . .... .... .. .. .. . . . ............. . .10
2.2.3 RSA因式分解挑战数....... . . . . . . . . . . . .. . . . . . . . .... . . .....122.2.4素数的判断...... . . . .......................……...........152.3 一般数域筛法简介.... . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . .. . . . ..... 15.............….l7
2.3.1多项式选择..... ...... . . . . . . .. . .. . . .. . . . . . . . .... . . . . . .... 172.3.2筛数对.... . .
. . ... ... . . . . . . . . . . . . . ...... . . . ... . . . . ... . . ..17
2.3.3 线性方程组求解.......... . .. . . . . . . . . . . . . . . . . .. ... . . . . . . . .182.3.4﹑代数数的平方根求解.... . . . . . . . . . . . . . . . . . . . . . . . . . ... . . . . . . 182.4一般数域筛法的典型应用实例........ . . . . . . . . . . . . . . . . . . . . . . . . .192.4.1―分解RSA-768的多项式选择......... .. . . . . . . . . . . . . . . .. .....192.4.2 分解RSA-768的筛选及过滤..... . . .... . . . . . . . . . . . . .... . . . . .202.4.3 分解RSA-768的方程组求解..... . . . . . . . . . . . . . . . . . . . . . . . .... 212.4.4 分解 RSA-768的平方根求解...
1K小P·    . ... . . . . . . . . . . . ...... . . .. 21
2.5本章小结........... ... .. . .. . .. .. . .
第3章对线性多项式选择方法分析与比较....... . . . . . .. . . . . .. .

2 (推荐指数0星)GPT4 图像识别

GPT4我一直用着挺舒服的,直到碰到这个目录识别的需求。
它胡言乱语,恼火!

在这里插入图片描述

3 (推荐指数0星)GPT4 AI PDF插件

原本想着是不是原生的我prompt引导错了,用插件是不是就有救了,但是插件它!
压根不支持扫描PDF的识别,game over!

在这里插入图片描述

4 (推荐指数☆☆☆☆)QQ+GPT3.5结合

上面不是说QQ的文字识别贼精准嘛,但是目录的整理工作量很大。
但是GPT它又恰好是一个聪明的机器人,它平时胡言乱语但是正经工作不含糊。

所以可以这样:先QQ自动识别,然后一键复制给GPT,说:

订正这个目录:
摘要..
Abstract . . . . .......................................................[II第1章绪论...... . . . .. . .  .        
1.1︰研究背景...................................11.2国内外研究现状...... ... . . .. . . . . . . ............ .. ..... . ........2
1.2.1大整数分解的研究现状.... . . ... . . . .. .... . . . . ... . . . . . . . . .. .. 3
1.2.2一般数域筛法的研究现状..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 31.2.3最新研究进展..
.... . . . .. . ... . .. .. ... . . . . .. .. . . . . . .. ... 4
1.3论文的主要内容...............................................41.4论文的结构安排...... .... .... . . . . . . . .. . . ... . . .. . ..... . ... .....5
i . .  i   . . ... o
第2章相关理论基础........ . .. ............….…..72.1密码学基础.....................… ............72.1.1 密码学原理..... . . ....................。2.1.2公钥密码体制............i......................92.1.3 RSA 公钥密码体制....
2.2整数分解基础..... ......... . .... .. .. . ...... ... ......... ...... .9
2.2.1整数分解难题..... ... . . . . . . . . . . . . . . . . . . . . . . ... . .. ........ 102.2.2 常用的整数分解方法.... . . .... .... .. .. .. . . . ............. . .10
2.2.3 RSA因式分解挑战数....... . . . . . . . . . . . .. . . . . . . . .... . . .....122.2.4素数的判断...... . . . .......................……...........152.3 一般数域筛法简介.... . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . .. . . . ..... 15.............….l7
2.3.1多项式选择..... ...... . . . . . . .. . .. . . .. . . . . . . . .... . . . . . .... 172.3.2筛数对.... . .
. . ... ... . . . . . . . . . . . . . ...... . . . ... . . . . ... . . ..17
2.3.3 线性方程组求解.......... . .. . . . . . . . . . . . . . . . . .. ... . . . . . . . .182.3.4﹑代数数的平方根求解.... . . . . . . . . . . . . . . . . . . . . . . . . . ... . . . . . . 182.4一般数域筛法的典型应用实例........ . . . . . . . . . . . . . . . . . . . . . . . . .192.4.1―分解RSA-768的多项式选择......... .. . . . . . . . . . . . . . . .. .....192.4.2 分解RSA-768的筛选及过滤..... . . .... . . . . . . . . . . . . .... . . . . .202.4.3 分解RSA-768的方程组求解..... . . . . . . . . . . . . . . . . . . . . . . . .... 212.4.4 分解 RSA-768的平方根求解...
1K小P·    . ... . . . . . . . . . . . ...... . . .. 21
2.5本章小结........... ... .. . .. . .. .. . .
第3章对线性多项式选择方法分析与比较....... . . . . . .. . . . . .. .

输出的结果GPT3:
在这里插入图片描述

又快又好啊!!!
扣一颗星是因为它没有弥补出部分丢失的页码信息。

5 (推荐指数☆☆☆☆)QQ+GPT4结合

同样,我还测试了GPT4的结果。
GPT4扣一颗星因为它响应比GPT3.5慢。虽然它甚至输出了缩进,但缩进在批量添加目录的软件里本来就可以自动添加,所以不构成优势。

但是优点是它补全了所有丢失的页码信息!太强了。

输出的结果GPT4:

在这里插入图片描述

总之,最好的方式是QQ识别+GPT3.5。

扩展阅读:【工具】FreePic2PDF+PdgCntEditor|PDF批量添加书签(Windows)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1181925.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

竞赛 深度学习驾驶行为状态检测系统(疲劳 抽烟 喝水 玩手机) - opencv python

文章目录 1 前言1 课题背景2 相关技术2.1 Dlib人脸识别库2.2 疲劳检测算法2.3 YOLOV5算法 3 效果展示3.1 眨眼3.2 打哈欠3.3 使用手机检测3.4 抽烟检测3.5 喝水检测 4 最后 1 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 基于深度学习的驾…

【Python深入学习】- 书籍推荐|数据结构和算法介绍|内建集合数据类型

🌈个人主页: Aileen_0v0 🔥系列专栏:PYTHON学习系列专栏 💫"没有罗马,那就自己创造罗马~" 若把编写代码比作行军打仗,那么要想称霸沙场,不能仅靠手中的利刃,还需深谙兵法。Python是一把利刃&…

oracle使用regexp_substr来拆分,CONNECT BY LEVEL查询卡死,速度慢的问题。

一、问题 oracle 使用regexp_substrCONNECT BY LEVEL来,根据特定字符拆分成多行。 (注意这里我的数据是每个值都有“ ; ”,即使后面没有值,后面也会有个“ ; ”, 如果是正常的分隔符,sql 需要改成” LEVEL…

Centos7下安装使用K3S

## K3S简介 K3S官方文档链接 K3s是一个轻量级的、专为容器化应用和Kubernetes集群设计的开源Kubernetes发行版。K3s的目标是提供一个更小、更简单、更易于部署和维护的Kubernetes集群。它是Rancher Labs开发的一个项目,旨在满足边缘计算、IoT设备、开发和测试环境…

QoS(服务质量)学习记录

一、概述 QoS,英文全称quality of service,是网络通信协议的设计提供了理论基础。 QoS的度量指标 带宽 时延 指数据报文从发送端到接收端所需要的延迟时间。时延包括传输延迟、发送端处理延迟和接收端处理延迟。 抖动 描述延迟变化的程度&#xf…

栈(定义,基本操作,顺序存储,链式存储)

目录 1.栈的定义1.重要术语2.特点 2.栈的基本操作3.栈的顺序存储1.顺序栈的定义2.基本操作1.初始化2.进栈3.出栈4.读栈顶 3.共享栈 4.栈的链式存储 1.栈的定义 栈( Stack)是只允许在一端进行插入或删除操作的线性表。 一种受限的线性表,只能在栈顶进行插…

IDEA使用Git进行代码管理教程

系列文章目录 1.Win11Git安装教程 2.git同时配置Gitee和GitHub 文章目录 系列文章目录前言一、Git提交代码二、合并分支三、版本回退 前言 这一篇文章主要用来记录如何使用IDEA中的git进行代码管理,包括日常开发中进行代码提交,以及如何将开发分支的代…

红黑数原理及存在原因

我红黑树那么牛,你们为什么不用?_哔哩哔哩_bilibili 面试时经常会被问到红黑树,它到底有什么优点呢? 对于查找数据,数组二分查询速度最快,时间复杂度为O(logN)。但是如果增加和删除数据,数组就…

TikTok小店运营的三大技巧!跨境电商必看

众所周知,国内的抖音早已风生水起,抖音给了很多普通人一夜暴富的机会。而Tiktok也跟随着抖音开启了商业模式,目前流量与机会都是不可小觑的。在店铺申请通过,成功入驻之后,又该如何运营?这篇文章为大家解答…

每天一点python——day63

#第63天 #字符串的字符串的查询操作字符串的查询操作方法 如图 我们可以把字符串看做是关于字符的列表 所以字符串与列表查的操作是非常相似的 区别在于 当我们获得字符串中指定子串索引的时候除了index()方法,还有如上图所示的rindex&#x…

得帆云iPaaS白皮书|WMS集成,打造高效规范的仓储管理业务生态

仓储管理,在传统企业运作中往往是比较容易被管理者忽视的一个部分,部分管理者认为仓库只是放货的场所,能正常出入库即可。 而随着企业信息化的不断发展,越来越多的企业意识到仓储管理与生产、销售、发货有着密切的联系&#xff0…

使用STM32微控制器进行 Blink LED

在嵌入式系统开发中,点亮一个简单的 LED 是入门级的练习。通过使用STM32微控制器,我们可以通过 GPIO 控制来实现Blink LED的功能。本文将介绍如何在STM32微控制器上利用CubeMX和HAL库来实现Blink LED的功能。 一、 硬件准备 首先,确保你有一…

Java连接数据库并查询表中的全部数据

1、导入相关jar包 这里创建简单的maven项目&#xff0c;我们导入相关的jar包 相关依赖&#xff1a; <dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>5.1.47</version></dependenc…

操作系统实验--进程调度算法的模拟代码

代码如下&#xff0c;运行了没问题&#xff01; #include<stdio.h> #include<stdlib.h> #define getpch(type) (type*)malloc(sizeof(type)) struct pcb {char name[10];char state;int nice;int ntime;int rtime;struct pcb* link; }*readyNULL, *p; typedef str…

怎样选择金鸣识别中的输出选项(网页版)?

本操作适合金鸣表格文字识别程序的网页版&#xff08;新版&#xff09;。 表格识别&#xff1a; excel(xlsx)&#xff1a;将需识别的图片转换成编辑的xlsx格式&#xff0c;此格式仅支持excel2007以上版本或wps打开。 excel(xls)&#xff1a;将需识别的图片转换成编辑的xls格式…

虚幻引擎:如何进行关卡切换?

一丶非无缝切换 在切换的时候会先断开连接,等创建好后才会链接,造成体验差 蓝图中用到的节点是 Execute Console Command 二丶无缝切换 链接的时候不会断开连接,中间不会出现卡顿,携带数据转换地图 1.需要在gamemode里面开启无缝漫游,开启之后使用上面的切换方式就可以做到无缝…

‘vite‘ is not recognized as an internal or external command

标题翻译后就是&#xff1a;‘vite‘ 不是内部或外部命令&#xff0c;也不是可运行的程序 或批处理文 运行一个由 Vite 构建的 Vue3 项目&#xff0c;之前还好好的能正常跑&#xff0c; 但拉取新代码之后再次执行 npm run dev 就提示 ‘vite’ 不是内部或外部命令&#xff0…

C语言--结构体(内容超级详细)

一.前言 通过数据类型来定义一个一个的变量,当需要很多相同类型的变量时有数组。基本数据类型在使用时 很方便,但是利用它们来描述现实世界就显得捉襟见肘。例如需要保存一个班学生的信息”姓名,年龄,分 数”,按照前面的学习需要单独定义三个数组,一个保存姓名,一个保存年龄,一…

台式电脑怎么无损备份迁移系统到新硬盘(使用傲梅,免费的就可以)

文章目录 前言一、想要将源硬盘上的系统原封不动地迁移到新硬盘上二、准备工作2.具体步骤 总结 前言 半路接手公司一台台式电脑&#xff0c;C盘&#xff08;120g&#xff09;爆红&#xff0c;仅剩几个G&#xff0c;优化了几次&#xff0c;无果后。准备换一个大一点的增到500g。…

【ARM Trace32(劳特巴赫) 使用介绍 2 - Veloce 环境中使用trace32 连接 Cortex-M33】

文章目录 T32MARM 介绍Trace32 .t32 和 .cmm 差异veloce 下启动TRACE321.1.3 TAP 状态机操作命令1.1.3.1 IDCODE&#xff08;Identification Code&#xff09;寄存器 介绍 T32MARM 介绍 T32MARM 是 Lauterbach 的 Trace32 软件包的一部分&#xff0c;专门用于 ARM 基础架构的微…