用OpenCV先去除边框线,以提升OCR准确率

news2024/11/24 19:55:48

在OpenCV的魔力下,我们如魔法师般巧妙地抹去表格的边框线,让文字如诗如画地跃然纸上。

e0c56a8fac7db8922a2521759981dde8.jpeg 首先,我们挥动魔杖,将五彩斑斓的图像转化为单一的灰度世界,如同将一幅绚丽的油画化为水墨画,通过`cv2.cvtColor()`函数的施展,我们实现了这一华丽的转变。


接着,我们施展边缘检测的法术,运用Canny边缘检测算法,如同在黑夜中点亮的繁星,清晰地勾勒出表格的边界,让我们一览无余地看到其轮廓。

然后,我们借助`cv2.findContours()`函数,探寻这些边缘背后的神秘轮廓,它们如同地图上的隐秘路线,引导我们深入未知的境地。

在这迷宫般的轮廓中,我们寻觅着真正的主角——表格的边框。这是一场人海中的寻觅,我们凭借面积、宽高比等线索,筛选出心中的目标。

随后,我们在原始图像上细细描绘这些筛选后的轮廓,如同在绘画一幅精美的图案,`cv2.drawContours()`函数如同我们的画笔,轻轻描绘,让轮廓在图像上跃然而出。

接着,我们用纯净的白色填充这些轮廓区域,如同用雪花覆盖大地,将那些烦人的表格线一一抹去,让图像呈现出清新脱俗的美感。

最后,我们将这处理过的图像交给Tesseract这位识画之人,让它为我们解读其中的文字奥秘。如同将一幅被迷雾笼罩的画卷交给识画之人,让真相大白于天下。

以下是这段美妙过程的代码诠释:


```python
import cv2
import numpy as np

# 读取图像,如同打开一幅尘封已久的画卷
image = cv2.imread('table_image.jpg')

# 将图像转化为灰度,如同将油画转化为水墨画
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# 施展边缘检测的法术,寻找图像中的边缘
edges = cv2.Canny(gray, 50, 150, apertureSize=3)

# 寻找边缘背后的轮廓,如同探寻地图上的路线
contours, _ = cv2.findContours(edges, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)

# 在原始图像上描绘筛选后的轮廓,如同在绘画一幅精美的图案
for contour in contours:
x, y, w, h = cv2.boundingRect(contour)
cv2.rectangle(image, (x, y), (x + w, y + h), (255, 255, 255), -1)

# 保存处理后的图像,如同将一幅精美的画作妥善保存
cv2.imwrite('processed_image.jpg', image)

# 在这里,你可以添加Tesseract识别的代码
# 将处理过的图像交给Tesseract解读,如同将画卷交给识画之人
```
如此,我们便在OpenCV的引领下,如同魔法师般成功地抹去了表格中的边框线,让文字如诗如画地呈现在我们的眼前。

最后,用OCR接口,建议用金鸣表格文字识别系统,它是一款基于AI和OCR的表格文字识别软件,既可以将PDF直接转为word/excel,也可以通过OCR方案将PDF中的图片转为word/excel,她主要有以下优势:
一、采用超前AI技术,经深度学习,识别率高。
金鸣识别系统采用超前AI技术,程序经深度学习,识别精准,能有效解决传统文字识别软件对复杂图片的文字识别率低、效果差等弊端。
二、效果好,还原排版,识别后编辑内容少。
金鸣识别除了支持通用的文字识别和表格识别外,还支持高精结构还原、智能分段、保留印章和商标LOGO,同时支持近百种票据和证件结构化识别,功能强大,种类齐全丰富,基本上能满足各种不同需求的人群。
三、多人共用,多端通用,使用方便。
金鸣识别同时具备电脑网页版、客户端和移动端的APP、小程序,一个账户可通用各种不同的设备,既支持直接用扫描仪扫描识别,也支持用手机直接拍照识别,同时支持直接添加已有的图片或PDF进行识别,使用方便快捷。
四、支持大批量合并
支持上百张图片合并转到一个excel表中,或一个word文档里,word文档还支持分页合并和连续合并。这样可大大提高工作效率。
五、支持API接口
对于有编程技术的用户,我们提供了API接口,可以直接返回excel或json,以供您集成到自有的程序中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1634009.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【多级缓存】多级缓存OpenResty,Canal,nginx本地缓存

多级缓存 安装OpenRestyOpenResty入门OpenResty获取请求参数OpenResty向tomcat服务器发送请求 在nginx与tomcat端之间添加redis缓存Redis本地缓存缓存同步缓存同步策略基于Canal的异步通知安装Canal Canal客户端 安装OpenResty OpenResty是一个基于 Nginx的高性能 Web 平台&am…

[iOS]使用CocoaPods发布私有库

1.创建私有 Spec 仓库 首先,需要一个私有的 Git 仓库来存放你的 Podspec 文件,这个仓库用于索引你所有的私有 Pods。 在 GitHub 或其他 Git 服务上创建一个新的私有仓库,例如,名为 PrivatePodSpecs。克隆这个仓库到本地&#xf…

使用STM32CubeMX对STM32F4进行串口配置

目录 1. 配置1.1 Pin脚1.2 RCC开启外部晶振1.3 时钟1.4 串口配置 2. 代码2.1 默认生成代码2.1 开启串口中断函数2.3 接收中断2.4 接收回调函数2.5 增加Printf 的使用 1. 配置 1.1 Pin脚 1.2 RCC开启外部晶振 1.3 时钟 外部使用8MHz晶振 开启内部16MHz晶振 使用锁相环 开启最高…

机器学习:深入解析SVM的核心概念(问题与解答篇)【四、软间隔与正则化】

软间隔与正则化 问题一:优化目标函数是如何得到的?得到的过程是怎样的?问题二:拉格朗日乘子法计算详细过程问题三:KKT条件求解过程问题四:结构风险最小化(SRM)的原理 在前面的讨论中…

针孔相机模型原理坐标系辨析内参标定流程内参变换

针孔相机的内参标定 针孔相机原理真空相机模型图片的伸缩和裁剪变换 内参标定———非线性优化张正定标定详细原理(含公式推导)通过多张棋盘格照片完成相机的内参标定流程(C代码)其他工具箱 相机分为短焦镜头和长焦镜头,短焦镜头看到的视野更广阔,同样距…

全新突破:「Paraverse平行云」实现3D/XR企业级应用全面接入Apple Vision Pro

在前不久举行的GTC开发者大会上,英伟达引领行业风向,宣布其Omniverse平台能够助力企业将3D/XR应用流畅传输至Apple Vision Pro混合现实头显。在英伟达与苹果这两大科技巨头的合作下,此举标志着3D/XR技术迈向新纪元的关键一步。「Paraverse平行云」实时云…

JavaScript中的扩展操作符作用是什么,有什么含义?

在 JavaScript 中,扩展操作符允许一个表达式在某些地方展开成多个元素。这个特性在 ES2015 (也叫做 ES6) 中被引入到 JavaScript 语言中,并广泛用于数组和对象。在您的代码示例中,它被用于对象。 对象中的扩展操作符 在对象字面量中使用扩展…

【知识学习/复习】损失函数篇,包含理解应用与分类:回归、分类、排序、生成等任务

损失函数总结 一、损失函数理解二、不同任务的损失函数的应用1.图像分类2.目标检测3.语义分割4.自然语言处理(NLP)5.图神经网络(GNN)6.生成式网络 三、损失函数1. 回归任务损失函数常见损失函数IoU系列损失函数1. IoU损失函数&…

pyQt5 和 Qt Designer 实现登录注册案例

Qt Designer 设计页面: 通过 PyQt5 手写 1. 先引入用到的库 from PyQt5.QtWidgets import * import sys 2. 创建应用,窗口, 设置窗口 # 创建应用 app QApplication(sys.argv) # 创建窗口 w QWidget()# 设置窗口标题 w.setWindowTitle("注册登录")# 展示 w.sho…

ssm091校园自助洗衣系统的分析与设计+jsp

校园自助洗衣系统的设计与实现 摘 要 互联网发展至今,无论是其理论还是技术都已经成熟,而且它广泛参与在社会中的方方面面。它让信息都可以通过网络传播,搭配信息管理工具可以很好地为人们提供服务。针对校园洗衣信息管理混乱,出…

vue2 实现echarts图表进入可视区域后再加载动画,以及 使用了resize之后,动画失效问题解决

Intersection Observer API 是一个现代的浏览器 API,用于监测一个或多个目标元素与其祖先元素或视窗(viewport)之间的交叉状态(intersection)的变化。它可以有效地监听元素是否进入或离开可视区域,从而实现…

Dokcer容器分布式搭建LNMP+wordpress论坛

目录 引言 一、架构环境 二、搭建容器 (一)自定义网络 (二)搭建nginx容器 1.文件准备 2.查看与编辑文件 3.生成镜像 4.创建容器 (三)搭建MySQL容器 1.文件准备 2.查看与编辑文件 3.生成镜像 …

2013NOIP普及组真题 4. 车站分级

线上OJ: 一本通:http://ybt.ssoier.cn:8088/problem_show.php?pid1964 核心思想: 1、原文中提到 “如果这趟车次停靠了火车站 x,则始发站、终点站之间所有级别大于等于火车站 x 的都必须停靠”,如果设停靠站为A&…

汽车信息安全入门总结(2)

目录 1.引入 2.汽车信息安全技术 3.密码学基础知识 4.小结 1.引入 上篇汽车信息安全入门总结(1)-CSDN博客主要讲述了汽车信息安全应该关注的点,以及相关法规和标准,限于篇幅,继续聊信息安全相关技术以及需要掌握的密码学基础知识。 2.汽…

SpringCloud学习笔记(一)微服务介绍、服务拆分和RestTemplate远程调用、Eureka注册中心

文章目录 1 认识微服务1.1 单体架构1.2 分布式架构1.3 微服务1.4 SpringCloud1.5 总结 2 服务拆分与远程调用2.1 服务拆分原则2.2 服务拆分示例2.2.1 搭建项目2.2.2 创建数据库和表2.2.3 实现远程调用2.2.3.1 需求描述2.2.3.2 注册RestTemplate2.2.3.3 实现远程调用 2.2.4 提供…

Aiseesoft Data Recovery for Mac:专业数据恢复软件

Aiseesoft Data Recovery for Mac是一款高效且专业的数据恢复软件,专为Mac用户量身打造。 Aiseesoft Data Recovery for Mac v1.8.22激活版下载 无论是由于误删、格式化还是系统崩溃等原因导致的数据丢失,Aiseesoft都能帮助您快速找回。 它采用先进的扫描…

【计算机毕业设计】基于SSM++jsp的社区管理与服务系统【源码+lw+部署文档+讲解】

目录 摘 要 Abstract 第一章 绪论 第二章 系统关键技术 第三章 系统分析 3.1.1技术可行性 3.1.2经济可行性 3.1.3运行可行性 3.1.4法律可行性 3.4.1注册流程 3.4.2登录流程 3.4.3活动报名流程 第四章 系统设计 4.3.1登录模块顺序图 4.3.2添加信息模块顺序图 4.4.1 数据库E-…

SpringCloud系列(21)--更换Ribbon的负载均衡模式

前言:在上一篇文章中我们介绍了关于Ribbon的知识点已经如果去应用Ribbon,而本章节内容则是关于如何去切换Ribbon的负载均衡模式。 以下是上篇文章的部分内容,可以再看下熟悉下,方便后续理解 Ribbon工作架构图 Ribbon的负载均衡模式…

C# winform 漂亮的日期时间控件

源代码下载: https://download.csdn.net/download/gaoxiang19820514/89242240 效果图 在 HZH-Controls控件 基础上修改的日期控件 因为HZH_Controls控件 中的日期控件太大了, 我的程序中需要多个日期时间的控件放不下,主题是绿色的&#…

pkpmbs 建设工程质量监督系统 Ajax_operaFile.aspx 文件读取漏洞复现

0x01 产品简介 pkpmbs 建设工程质量监督系统是湖南建研信息技术股份有限公司一个与工程质量检测管理系统相结合的,B/S架构的检测信息监管系统。 0x02 漏洞概述 pkpmbs 建设工程质量监督系统 Ajax_operaFile.aspx接口处存在文件读取漏洞,未经身份认证的攻击者可以利用漏洞读…