指定PDF或图片多个识别区域,识别区域文字,并导出到Excel文件中

news2024/9/30 14:53:05

常见场景

用户有大量图片/PDF文件,期望能将图片/PDF中的多个区域中的文字批量识别出来,并导入到Excel文件中。期望工具可以批量处理、离线识别(保证数据安全性)。手工操作麻烦。具体场景:用户有工程现场照片,订单,简历等PDF或图片文件,期望按照PDF或图片中关键的文字导出到Excel中,后期对文件进行快速检索 ,不用每个文件打开看。
在这里插入图片描述

相关技术

QT库、离线OCR识别算法、Python的Excel库。
基本处理思路:
1、批量加载PDF或图片文件
2、指定对应的识别范围
3、根据识别范围裁剪对应图片
4、裁剪后的图片批零OCR识别
5、将识别结果导出到Excel文件中

工具处理

第一步:下载软件

PDF或图片基于文字内容批量改名工具
百度网盘:https://pan.baidu.com/s/104inoJ7RsmbF-P07E882cA?pwd=qpch
腾讯微盘:https://share.weiyun.com/pq0GbDGI

第二步:打开软件

下载软件后,解压缩文件夹到本地,双击JDX图片识别.exe,启动主程序。

第三步:选择要改名的PDF或图片文件

选择待改名的图片或者PDF,可以按照文件夹选择,也可以按部分文件选择。
可分别导入图片文件、或者PDF文件(支持按指定范围页导入)。
在这里插入图片描述

第四步:设置要识别区域(可设置多个)

在识别范围窗体里,添加需要识别的范围(按住鼠标拉框绘制识别区域),通过同步范围设置把当前图片的识别区域同步到其他图片上。
在这里插入图片描述

第五步:对自定义范围进行批量识别文字

执行批量识别文字,识别结果淡绿色,右侧识别结果文字,可以校核与编辑。离线识别。
在这里插入图片描述

第六步:导出结果-导出Excel

选择导出的路径以及导出方式,可以导出Excel,也可以导出Word。导出内容包含:图片名称、指定的多个识别区域(名字),识别文字。
在这里插入图片描述

至此,通过以上步骤就能对PDF或图片按照多个识别区域文字,批量导出Excel。
• 本地离线识别、安全稳定(拔掉网线也能识别运行)
• 批量提取图片文字:提取指定区域文字,导出Excel
• 批量提取PDF文字:提取指定区域文字,导出Excel
• PDF文件支持:可复制版的PDF、扫描版的PDF都支持

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2179898.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

xgboost cross validation

在R中使用xgboost 假设X为训练数据,y为label,为0或者1.用xgboost建立分类模型代码如下 调用caret包中的createFolds方法,进行10倍交叉验证 最后画出AUC曲线 library(xgboost) library(caret) library(caTools) library(pROC)set.seed(123) …

【北京迅为】《STM32MP157开发板嵌入式开发指南》- 第十一章 Linux 帮助手册讲解

iTOP-STM32MP157开发板采用ST推出的双核cortex-A7单核cortex-M4异构处理器,既可用Linux、又可以用于STM32单片机开发。开发板采用核心板底板结构,主频650M、1G内存、8G存储,核心板采用工业级板对板连接器,高可靠,牢固耐…

3DGS中Densification梯度累计策略的改进——绝对梯度策略(Gaussian Opacity Fields)

在学习 StreetGS 代码中发现了其中的 Densification 策略与原 3DGS 不太一样,其是使用的 Gaussian Opacity Fields 中的一个的策略 我们先来回忆一下 3DGS 中一个比较重要 contribution:自适应密度控制 1 自适应密度控制 其具体步骤如下: …

概率论——随机分布

离散型——二项分布 X ~ B(n , p) 例题: 例题二: 离散型——泊松分布 例题 注意:记住题二的结论!!! 连续性——均匀分布 例题:求解概率密度(具体方法见随机…

请问PMP英文报名被审查该怎么通过?

审核抽查是随机进行的(一般概率约为30%),并非所有人都会接受资料抽查。如果您报考了机构,他们会协助您解决这个问题。 一、资料审查: 如果被PMI选中进行审查,这是正常情况,不必惊慌。如果你参…

要洞察数字化本质,才能形成破局之道...

在深入探索数字化转型的突破路径之前,首要之务是构筑对数字化及其转型过程的深刻而准确的认知体系。唯有透彻理解数字化的内在本质,精准把握数字化转型的演变规律,方能引领数字化转型的航向,确保数字化工具与策略得以高效、精准地…

(一)万字详解G1垃圾收集器 —G1的设计目标是什么?G1的分区是什么?卡表的作用和工作原理?如何解决漏标问题?

一、G1垃圾收集器简介 G1 GC(Garbage-First Garbage Collector)是一款先进的垃圾收集器,通过 -XX:UseG1GC 参数启用。它首次亮相于JDK 6u14版本,并在JDK 7u4中正式发布。对于熟悉JVM的开发者而言,G1已是一个广为人知的…

测试卡(1)灰卡

#灵感# 灰卡为什么是18%?文章分为三部分,前部分,解释灰卡的定义,后部分是 市场买的18%灰卡的说明书,其中穿插了网络上搜到的灰卡使用案例。 目录 18% 中性灰卡应用说明 1) 曝光水平 例子:用灰…

ppt模板如何制作?建议试试这4招

在追求效率和简洁的现代办公环境中,简约风格的PPT模板因其清晰、直观的特点而备受青睐。制作一个简约的PPT模板不仅能提升演示的专业感,还能帮助观众快速抓住重点。 今天,我来告诉大家:ppt模板简约怎么制作?让你能够利…

Kubernetes 节点何时处于就绪状态?

在 Kubernetes 中,节点(Node)是一个工作负载的基本单元,容器被部署和运行在这些节点上。每个 Kubernetes 节点在加入集群后都需要经过一定的健康检查和状态评估,才能被集群标记为“就绪”状态。这一过程的关键是节点的…

Linux相关概念和重要知识点(9)(父进程、子进程、进程状态)

1.父进程、子进程 (1)父进程 CLI本质上是一款命令行界面的软件,是用户调用接口层面的程序(上层,可以和系统调用接口做沟通),CLI和GUI是同级别的。用户的操作都是建立在CLI和GUI之上的。 但是…

奔三理工男适合转行做AI算法工程师吗?

奔三男生转行可以做什么? 干了几年开发程序员却面临降薪优化? 说实话,如果学历一般技术一般, 无法与时俱进的话,会容易面临尴尬情况…… 就业这件事,选对赛道方向至关重要!! 这…

profinet转ethercat连接伺服在工业现场的配置案例

在工业通信领域,Profinet 转 EtherCAT 网关的应用为实现不同工业网络之间的通信提供了有效的解决方案。以下是一个关于 Profinet 转 EtherCAT 网关链接伺服配置的案例。 首先,我们需要准备好相关的硬件设备,包括 Profinet 转 EtherCAT 网关、…

Docker Desktop 安装Centos 7.9 使用yum install不可用问题

安装centos镜像并run之后,使用yum install 命令安装出现如下错误,可使用此命令替换mirror。 报错信息: Could not retrieve mirrorlist http://mirrorlist.centos.org/?release7&archaarch64&repoos&infracontainer error was…

2024第八届御网杯信息安全网络大赛线上WP详解(misc+cryoto)(详解-思路-脚本)

芜湖~ 首届御网杯线上和ISCC分开进行 但还是用的ISCC的页面差评 嘻嘻 又是玄乎的一天 以下是我自己的一些思路和解析 有什么问题或者建议随时都可以联系我 目录 附件 # Misc ##Notice ##编码转换 Brainfuck编码 jsfuck编码 Ook! 编码 ##bluetooth 导出压缩包 第一…

OpenGL 使用离屏渲染技术进行截图

文章目录 背景第三方库注意参考资料 一、离屏渲染(一)帧缓冲与帧缓冲对象(FBO)(二)附件(Attachment) 二、具体代码(一)主线程创建OpenGL窗口(二&a…

python画图|自制渐变柱状图

在前述学习过程中,我们已经通过官网学习了如何绘制渐变的柱状图及其背景。 掌握一门技能的最佳检验方式就是通过实战,因此,本文尝试做一些渐变设计。 前述学习记录可查看链接: Python画图|渐变背景-CSDN博客 【1】柱状图渐变 …

CORE 中间件、wwwroot

ASP.NET Core中间件组件是被组装到应用程序管道中以处理HTTP请求和响应的软件组件(从技术上来说,组件只是C#类)。 ASP.NET Core应用程序中的每个中间件组件都执行以下任务。 选择是否将 HTTP 请求传递给管道中的下一个组件。这可…

《C++》解密--单链表

目录 一、概念与结构 二、实现单链表 三、链表的分类 四、单链表算法题 一、概念与结构 1、节点 结点的组成主要有:当前结点要保存的数据和保存下一个节点的地址(指针变量) 图中指针变量plist保存的是第一个结点的地址,我们称p…

红日靶机(二)笔记

红日靶机二 环境搭建 只需要把虚拟机的 host-only(仅主机)网卡改为 10.10.10.0 网段,如下配置 把 NAT 网卡,改为 192.168.96.0 网段,如下 首先恢复到 v1.3 快照 让后点击放弃,放弃后再开机,用…