深度学习(六):paddleOCR理解及识别手写体,手写公式,表格

news2025/1/18 16:56:17

1.介绍

1.1 什么是OCR?

光学字符识别(Optical Character Recognition, OCR),ORC是指对包含文本资料的图像文件进行分析识别处理,获取文字及版面信息的技术,检测图像中的文本资料,并且识别出文本的内容。

那么有哪些应用场景呢?

其实我们日常生活中处处都有ocr的影子,比如在疫情期间身份证识别录入信息、车辆车牌号识别、自动驾驶等。我们的生活中,机器学习已经越来越多的扮演着重要角色,也不再是神秘的东西。

OCR的技术路线是什么呢?

ocr的运行方式:输入->图像预处理->文字检测->文本识别->输出
在这里插入图片描述

1.2paddleOCR

PaddleOCR是一个基于深度学习的中文OCR(光学字符识别)工具,由清华大学KEG实验室和智谱AI公司开发。它是一个开源的OCR引擎,可以识别中文、英文、数字等多种字体,支持表格、PDF、图片等多种格式。PaddleOCR具有高精度、高召回率、高效率等优点,已经被广泛应用于金融、医疗、电商等多个领域。

以下是PaddleOCR的一些主要功能和特点:

  1. 中文识别:PaddleOCR支持中文识别,可以识别多种字体和格式,如表格、PDF、图片等。
  2. 英文识别:PaddleOCR也支持英文识别,可以识别英文格式。
  3. 数字识别:PaddleOCR可以识别数字格式,包括整数和小数。
  4. 表格识别:PaddleOCR可以识别表格格式,可以提取表格中的数据。
  5. PDF识别:PaddleOCR可以识别PDF格式,可以提取PDF中的文本和图片。
  6. 图片识别:PaddleOCR可以识别图片格式,可以提取图片中的文本和图片。
  7. 高精度:PaddleOCR具有高精度,可以识别高复杂度文本和格式。
  8. 高召回率:PaddleOCR具有高召回率,可以识别漏掉的文本和格式。
  9. 高效率:PaddleOCR具有高效率,可以快速识别文本和格式。

总之,PaddleOCR是一个强大的OCR引擎,可以识别多种格式和字体,具有高精度、高召回率和高效率等特点,已经被广泛应用于多个领域。

1.3使用方法

1. ocr(image, use_angle_cls=False, use_distance_cls=False, rotate_mode=’ clockwise’, language=‘eng’, force_cpu=False, return_
RESULT=False):该方法是 PaddleOCR
的核心方法,用于实现图像文本检测和识别。它接受一张图像作为输入,并返回一个包含文本检测结果和识别的结果的字典。
2. rotate_image(image, angle):该方法用于对图像进行旋转,支持顺时针和逆时针两种旋转方式。
3. rescale_image(image, scale):该方法用于对图像进行缩放,支持按比例和不按比例两种缩放方式。
4. preprocess_image(image):该方法用于对图像进行预处理,包括归一化、去噪、二值化等操作。
5. postprocess_prediction(boxes, probs, class_labels):该方法用于对文本检测结果进行后处理,包括过滤噪声、去除重复框、修正文本框等操作。
6. draw_detections(image, boxes, probs, class_labels, min_conf=0.5):该方法用于在图像上绘制文本检测结果,包括文本框、类别标签和概率等信息。
7. batch_ocr(images, use_angle_cls=False, use_distance_cls=False, rotate_mode=‘clockwise’, language=‘eng’, force_cpu=False,
return_RESULT=False):该方法用于实现批处理文本检测和识别,支持同时处理多张图像。
8. create_predictor(model_path, use_angle_cls=False, use_distance_cls=False, rotate_mode=‘clockwise’,
language=‘eng’):该方法用于创建文本检测和识别的预测器,支持加载预训练模型和自定义模型。
9. save_checkpoint(model_path, epoch, save_optimizer=False):该方法用于保存模型的检查点文件,支持保存当前训练的模型和优化器。
10. draw_text(image, text, position, font, color, thickness):该方法用于在图像上绘制文本,支持设置文本的位置、字体、颜色和粗细等参数。
该方法用于在图像上绘制文本,可以设置文本的位置、字体、颜色和粗细等参数。它是 PaddleOCR
中一个非常实用的方法,可以用于生成文本标签、添加说明等操作。
11. restore_checkpoint(model_path):该方法用于恢复模型的检查点文件,支持加载之前训练的模型。
12. accuracy(predictions, ground_truth):该方法用于计算文本检测和识别的准确率,支持同时计算多个类别的准确率。
13. evaluate(predictions, ground_truth, iou_threshold=0.5):该方法用于评估文本检测和识别的结果,支持同时计算多个类别的召回率、精确率、F1 值等指标。
14. confusion_matrix(predictions, ground_truth):该方法用于生成混淆矩阵,用于分析文本检测和识别的结果。
15. classification_report(predictions, ground_truth):该方法用于生成分类报告,用于分析文本检测和识别的结果。

2.理解

相比于PP-OCR,PP-OCRv2 在骨干网络、数据增广、损失函数这三个方面进行进一步优化,解决端侧预测效
率较差、背景复杂和相似字符误识等问题,同时引入了知识蒸馏训练策略,进一步提升模型精度。具体地:
• 检测模型优化: (1) 采用 CML 协同互学习知识蒸馏策略;(2) CopyPaste 数据增广策略;
• 识别模型优化: (1) PP-LCNet 轻量级骨干网络;(2) U-DML 改进知识蒸馏策略;(3) Enhanced CTC loss 损
失函数改进。
从效果上看,主要有三个方面提升:
• 在模型效果上,相对于 PP-OCR mobile 版本提升超7%;
• 在速度上,相对于 PP-OCR server 版本提升超过220%;
• 在模型大小上,11.6M 的总大小,服务器端和移动端都可以轻松部署。
在这里插入图片描述

3.实现

3.1手写体

安装导入

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple paddlepaddle
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple paddleocr
from paddleocr import PaddleOCR
import re

ocr = PaddleOCR(lang="ch")  # 使用中文识别
result = ocr.ocr("tp.png")

for line in result:
   print(line)  # 输出识别结果 

在这里插入图片描述
在这里插入图片描述

3.2手写公式

ocr = PaddleOCR(lang="ch",
               model_path="path/to/数学符号识别模型")
# 使用数学符号识别模型进行公式识别
result = ocr.ocr("gs.png")
for line in result:
    # 输入文本
    equation_text = line
    print(equation_text)

在这里插入图片描述
在这里插入图片描述

3.3表格识别

import os
import cv2
from paddleocr import PPStructure,draw_structure_result,save_structure_res

table_engine = PPStructure(show_log=True)

save_folder = './output'
img_path = 'BG.png'
img = cv2.imread(img_path)
result = table_engine(img)
save_structure_res(result, save_folder,os.path.basename(img_path).split('.')[0])

for line in result:
    line.pop('img')
    print(line)

from PIL import Image

font_path = 'doc/fonts/simfang.ttf' # PaddleOCR下提供字体包
image = Image.open(img_path).convert('RGB')
im_show = draw_structure_result(image, result,font_path=font_path)
im_show = Image.fromarray(im_show)
im_show.save('result.jpg') 

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1290921.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JVM 执行引擎篇

机器码、指令、汇编语言 机器码 各种用二进制编码方式表示的指令,叫做机器指令码。开始,人们就用它采编写程序,这就是机器语言。机器语言虽然能够被计算机理解和接受,但和人们的语言差别太大,不易被人们理解和记忆&a…

Centos服务器上根据端口号查询jar包,根据jar包查端口号

在开发springboot服务器时,经常会遇到其他人部署的java服务,需要自己维护,留下的信息又非常少。经常面临找不到jar包位置,或者不知道占用端口,不知道启动命令的问题。这里记录一下常用的centos服务器上的命令&#xff…

物联网安全芯片ACL16 采用 32 位内核,片内集成多种安全密码模块 且低成本、低功耗

ACL16 芯片是研制的一款32 位的安全芯片,专门面向低成本、低功耗的应用领域, 特别针对各类 USB KEY 和安全 SE 等市场提供完善而有竞争力的解决方案。芯片采用 32 位内核,片内集成多种安全密码模块,包括SM1、 SM2、SM3、 SM4 算法…

103.进程概述

目录 1.并行和并发 区别: 2.PCB 3.进程状态 4. 进程命令 从严格意义上来讲,程序和进程是两个不同的概念,他们的状态,占用的系统资源都是不同的。 程序:程序是一种静态实体,是存储在计算机存储介质上的…

docker基本管理和相关概念

1、docker是什么? docker是开源的应用容器引擎。基于go语言开发的,运行在Linux系统当中开源轻量级的“虚拟机”。 docker可以在一台主机上轻松的为任何应用创建一个轻量级的,可移植的,自给自足的容器。docker的宿主机是Linux系统…

5 TF-A

一、TF-A的使用 TF-A是什么? TF-A 全称是 Arm Trusted Firmware,TF-A是为了保证安全,arm退出的可信固件,简称TF-A。它的作用就是隔离硬件,为硬件提供一个安全环境并提供安全服务。 1. 系统源码获取 STM32MP1Dev - STM…

【算法】约瑟夫环

约瑟夫问题是个有名的问题:N个人围成一圈,从第一个开始报数,第M个将被杀掉,最后剩下一个,其余人都将被杀掉。例如N6,M5,被杀掉的顺序是:5,4,6,2&a…

软件测试外包干了2个月,技术进步2年。。。

先说一下自己的情况,本科生,18年通过校招进入北京某软件公司,干了接近2年的功能测试,今年国庆,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了2年的功能测试&…

WireShark监控浏览器登录过程网络请求

软件开发中经常前后端扯皮。一种是用Chrome浏览器的开发者工具 来看网络交互,但是前提是 网络端口的确是通的。 WireShark工作在更低层。 这个工具最大的好处,大家别扯皮,看网络底层的log,到底 你的端口开没开, 数据…

Day03 linux高级系统编程--进程

概念 进程与程序的区别 进程:一个正在运行的代码就叫做进程,是动态的,会占用内存 程序:一段封装好的待运行的代码或可执行文件,是静态的,会占用磁盘空间 单道与多道程序 单道:程序一个一个…

Qt Creator :Analyze heob 使用教程

功能:在windows系统上检测和调试软件代码的内存泄漏情况; 使用环境 :需要下载 heob和dwarfstack 把dwarfstack动态库放在heob的执行程序目录下 使用步骤: 第三步:配置启动调试程序 第四步:配置heob的路…

Spring Boot学习随笔-SpringBoot的引言,回顾传统SSM开发

学习视频:【编程不良人】2021年SpringBoot最新最全教程 第一章、传统SSM开发回顾以及问题 Spring SpringMVC Mybatis SSM 实现一个简单功能 员工添加、查询… SSM项目简单实现 项目 需求分析 —>概要设计 —>(库表设计) —> 详细…

三、jvm中的对象及引用

一、对象在jvm的创建过程 检查加载-->分配内存-->内存空间初始化-->设置-->对象初始化 1) 检查加载 首先检查这个指令的参数是否能在常量池中定位到一个类的符号引用,并且检查类是否已经被加载、解析和初始化过。 虚拟机遇到一条 new 指令时&#xf…

rename--统一的PRF

基本概念 将ARF/PRF进行合并,合同之后的不见,称之为统一的PRF(Physical Register File);存储的是speculative的,以及正确的(retire)寄存器值; 使用free list,存储PRF中,哪些寄存器是…

docker部署elasticsearch8.x

docker部署elasticsearch8.x 提示1 注意版本差别1.1 docker修改配置1.1.2 docker使用vim报命令不存在的解决办法1.1.3 docker 容器内报错 E: List directory /var/lib/apt/lists/partial is missing. - Acquire ( : No such file or directory) 或者其他权限 PermissionError: …

案例058:基于微信小程序的智能社区服务系统

文末获取源码 开发语言:Java 框架:SSM JDK版本:JDK1.8 数据库:mysql 5.7 开发软件:eclipse/myeclipse/idea Maven包:Maven3.5.4 小程序框架:uniapp 小程序开发软件:HBuilder X 小程序…

STM32 定时器总结

缩写 ARR: Auto-Reload Register(保存定时器的计数范围) PSC: Prescaler register(预分频器寄存器,根据设置的分频因子N,计数N个定时器时钟脉冲后,产生一个CNT计数,以此实现分频功能&#xff0…

【WebSocket】使用ws搭建一个简单的在线聊天室

前言 什么是WebSockets? WebSockets 是一种先进的技术。它可以在用户的浏览器和服务器之间打开交互式通信会话。使用此 API,你可以向服务器发送消息并接收事件驱动的响应,而无需通过轮询服务器的方式以获得响应。 webscokets 包括webscoket…

【计算机网络笔记】物理层——基带传输基础

系列文章目录 什么是计算机网络? 什么是网络协议? 计算机网络的结构 数据交换之电路交换 数据交换之报文交换和分组交换 分组交换 vs 电路交换 计算机网络性能(1)——速率、带宽、延迟 计算机网络性能(2)…

二叉平衡树

一直想深入的研究一下,并手写平衡二叉树的插入、删除代码。 二叉树是动态查找的典范,但在极限情况下,二叉树的查找效果等同于链表,而平衡二叉树可以完美的达到 log ⁡ 2 n \log_2 n log2​n。 AVL简称平衡二叉树,缩写…