深度学习(9)之 easyOCR使用详解

news2024/11/16 0:23:36

easyOCR使用详解

  • 本文在 OCR-easyocr初识 基础上进行修改
  • EasyOCR 是一个python版的文字识别工具。目前支持80中语言的识别。其对应的 github 地址:EasyOCR
  • 可以在网站版测试 demo 测试效果:https://www.jaided.ai/easyocr/
  • 其在字符识别上的效果如下:
    在这里插入图片描述

一、介绍

批量文字识别(OCR)是Python办公自动化的基本操作,应用在我们工作生活中的方方面面,比如车牌识别、证件识别、银行卡识别、票据识别等等。
Python中OCR第三方库非常多,比如easyocr、PaddleOCR、cnocr等等。
EasyOCR 是一个用 Python 编写的 OCR 库,用于识别图像中的文字并输出为文本,支持 80 多种语言。
检测部分使用CRAFT算法,识别模型为CRNN,由3个组件组成:特征提取Resnet、序列标记LSTM、解码CTC。整个深度学习过程基于pytorch实现。
图片--预处理(去噪、色彩饱和度、尖锐处理等)--文字检测(CRAFT)--中间处理(倾斜处理等)---文字识别---后续处理---输出结果

二、安装

  • Install using pip

For the latest stable release:

pip install easyocr

For the latest development release:

pip install git+https://github.com/JaidedAI/EasyOCR.git
  • 模型储存路径:
windows: C:\Users\username\.EasyOCR\
linux:/root/.EasyOCR/
easyocr 的深度学习算法依赖于另一个著名的第三方模块 pytorch,图形处理部分则会用到 opencv、Pillow 等,所以还需要确保自己电脑上已经安装这些基础模块。
首次使用easyocr识别图片,会自动从网络中下载预训练模型。下载耗时较长,而且大概率遇到URLError错误,
推荐下载模型文件(下载链接:Jaided AI: EasyOCR model hub),不用解压直接复制粘贴于~/.EasyOCR/model/目录下。

在这里插入图片描述

三、API文档

3.1、easyocr.Reader class:

参数:
  • lang_list (list) - 识别的语言代码列表,例如 ['ch_sim','en']
  • gpu (bool, string, default = True) - 启用 GPU
  • model_storage_directory (string, default = None) - 模型数据目录的路径。如果未指定,将从环境变量 EASYOCR_MODULE_PATH(首选)、MODULE_PATH(如果已定义)或 ~/.EasyOCR/ 定义的目录中读取模型。
  • download_enabled (bool, default = True) - 如果 EasyOCR 无法找到模型文件,则启用下载;
  • user_network_directory (bool, default = None) - 用户模型存储的路径。如果未指定,将从 MODULE_PATH + '/user_network' (~/.EasyOCR/user_network) 读取模型;
  • recog_network (string, default = 'standard') - 用户模型、模块和配置文件的名称;
  • detector (bool, default = True) - 将检测模型加载到内存中 
  • recognizer (bool, default = True) - 将识别模型加载到内存中
属性:
  • lang_char - 显示当前模型中的所有可用字符

3.2、reader.readtext(

Reader对象的主要方法。有 4 组参数:General、Contrast、Text Detection 和 Bounding Box Merging。
参数1:General
  • image (string, numpy array, byte) - 输入图像;
  • decoder (string, default = 'greedy')- 选项有 'greedy'、'beamsearch' 和 'wordbeamsearch';
  • beamWidth (int, default = 5) - 当解码器 = 'beamsearch' 或 'wordbeamsearch' 时要保留多少光束;
  • batch_size (int, default = 1) - batch_size>1 将使 EasyOCR 更快但使用更多内存;
  • worker (int, default = 0) - 数据加载器中使用的编号线程;
  • allowlist (string) - 强制 EasyOCR 只识别字符的子集。对特定问题有用(例如车牌等);
  • blocklist (string) - 字符的块子集。如果给定了允许列表,则此参数将被忽略。
  • detail (int, default = 1) - 将此设置为 0 以进行简单输出;
  • paragraph (bool, default = False) - 将结果合并到段落中;
  • min_size (int, default = 10) - 过滤文本框小于最小值(以像素为单位);
  • rotation_info (list, default = None) - 允许 EasyOCR 旋转每个文本框并返回具有最佳置信度分数的文本框。符合条件的值为 90、180 和 270。例如,对所有可能的文本方向尝试 [90, 180 ,270]。
参数2:Contrast 对比度
  • contrast_ths (float, default = 0.1) - 对比度低于此值的文本框将被传入模型 2 次。首先是原始图像,其次是对比度调整为“adjust_contrast”值。结果将返回具有更高置信度的那个;
  • adjust_contrast (float, default = 0.5) - 低对比度文本框的目标对比度级别。
参数3:Text Detection 文本检测(来自CRAFT)
  • text_threshold (float, default = 0.7) - 文本置信度阈值
  • low_text (float, default = 0.4) - 文本下限分数
  • link_threshold (float, default = 0.4) - 链接置信度阈值
  • canvas_size (int, default = 2560) - 最大图像尺寸。大于此值的图像将被缩小。
  • mag_ratio (float, default = 1) - 图像放大率
参数4:Bounding Box Merging 边界框合并
    这组参数控制相邻边界框何时相互合并。除了 'slope_ths' 之外的所有参数都以盒子高度为单位。
  • slope_ths (float, default = 0.1) - 考虑合并的最大斜率 (delta y/delta x)。低值意味着不会合并平铺框。
  • ycenter_ths (float, default = 0.5) - y 方向的最大偏移。不应该合并不同级别的框。
  • height_ths (float, default = 0.5) - 盒子高度的最大差异。不应合并文本大小非常不同的框。
  • width_ths (float, default = 0.5) - 合并框的最大水平距离。
  • add_margin (float, default = 0.1) - 将边界框向所有方向扩展某个值。这对于具有复杂脚本的语言(例如泰语)很重要。
  • x_ths (float, default = 1.0) - 当段落=True 时合并文本框的最大水平距离。
  • y_ths (float, default = 0.5) - 当段落 = True 时合并文本框的最大垂直距离。
返回:结果列表

四、识别模型  

EasyOCR/custom_model.md at master · JaidedAI/EasyOCR · GitHubReady-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chinese, Arabic, Devanagari, Cyrillic and etc. - EasyOCR/custom_model.md at master · JaidedAI/EasyOCRhttps://github.com/JaidedAI/EasyOCR/blob/master/custom_model.md

4.1、训练识别模型

可以使用自己的数据或生成自己的数据集。要生成您自己的数据建议使用 TextRecognitionDataGenerator(GitHub - Belval/TextRecognitionDataGenerator: A synthetic data generator for text recognition)。我们在此处提供了一个数据集示例。拥有数据集后,您可以按照此存储库 deep-text-recognition-benchmark(https://github.com/clovaai/deep-text-recognition-benchmark)训练自己的模型。网络需要完全卷积才能预测灵活的文本长度。我们当前的网络是“None-VGG-BiLSTM-CTC”。一旦你有了训练好的模型(一个.pth文件),你需要两个额外的文件来描述识别网络架构和模型配置。此处custom_example.zip的文件中提供了一个示例。
我们还在此处提供我们的训练脚本版本。它是deep-text-recognition-benchmark的修改版本。

4.2、使用自定义的识别模型

需要三个文件,这三个文件必须共享相同的名称,即yourmodel.pth,  yourmodel.yaml,yourmodel.py,然后您将使用它们在 EasyOCR API 中调用您的模型。
请下载custom_example.zip 作为示例,解压并放置custom_example.py,custom_example.yaml在user_network_directory(默认= ~/.EasyOCR/user_network),放置custom_example.pth在模型目录(默认= ~/.EasyOCR/model。一旦你将所有3个文件放在各自的位置,你可以通过设置recog_network来使用custom_example:reader = easyocr.Reader(['en'], recog_network='custom_example')

五、使用

5.1、基本使用1

$ easyocr -l ch_sim en -f chinese.jpg --detail=1 --gpu=True 

5.2、基本使用2

代码实现如下:

import easyocr
 
reader = easyocr.Reader(
    lang_list=['ch_sim', 'en'], # 需要导入的语言识别模型,可以传入多个语言模型,其中英语模型en可以与其他语言共同使用
    gpu=False, # 默认为True
    download_enabled=True # 默认为True,如果 EasyOCR 无法找到模型文件,则启用下载
)
 
result = reader.readtext('id_card.jpg', detail=1 ) # 图片可以传入图片路径、也可以传入图片链接。但推荐传入图片路径,会提高识别速度。包含中文会出错。设置detail=0可以简化输出结果,默认为1
print(result)
 
readtext 返回的列表中,每个元素都是一个元组,内含三个信息:位置、文字、置信度:
[
    ([[27, 37], [341, 37], [341, 79], [27, 79]], '姓  名  爱新觉罗 。玄烨', 0.6958897643232619),
    ([[29, 99], [157, 99], [157, 135], [29, 135]], '性  别  男', 0.914532774041559),
    ([[180, 95], [284, 95], [284, 131], [180, 131]], '民蔟满', 0.4622474180193509),
    ([[30, 152], [94, 152], [94, 182], [30, 182]], '出  生', 0.6015505790710449),
    ([[110, 152], [344, 152], [344, 184], [110, 184]], '1654 年54日', 0.42167866223467815),
    ([[29, 205], [421, 205], [421, 243], [29, 243]], '住  址   北京市东城区景山前街4号', 0.6362530289101117),
    ([[105, 251], [267, 251], [267, 287], [105, 287]], '紫禁城乾清宫', 0.8425745057905053),
    ([[32, 346], [200, 346], [200, 378], [32, 378]], '公民身份证号码', 0.22538012770296922),
    ([[218, 348], [566, 348], [566, 376], [218, 376]], '000003165405049842', 0.902066405195785)
]
 
detail=0,从而只返回文字内容:
['姓  名  爱新觉罗 。玄烨', '性  别  男', '民蔟满', '出  生', '1654 年54日', '住  址  北京市东城区景山前街4号', '紫禁城 乾清宫', '公民身份证号码', '000003165405049842']

5.3、基本使用3

识别后的结果并不完全准确:

六、参考

Jaided AI: EasyOCR install 官网

Jaided AI: EasyOCR model hub 模型下载

GitHub - JaidedAI/EasyOCR: Ready-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chinese, Arabic, Devanagari, Cyrillic and etc.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/446834.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

学系统集成项目管理工程师(中项)系列07_信息(文档)管理

1. 信息系统相关信息(文档) 1.1. 是指某种数据媒体和其中所记录的数据 1.2. 永久性 1.3. 由人或机器阅读 1.4. 仅用于描述人工可读的东西 2. 分类 2.1. 开发文档 2.1.1. 可行性研究报告和项目任务书 2.1.2. 需求规格说明 2.1.3. 功能规格说明 …

MapReduce高级-读写数据库

MapReduce 读取数据库 为什么要读写数据库 本质上讲数据库是存储数据的介质,MapReduce是处理数据的计算引擎。通常企业会使用关系型数据库(RDBMS)来存储业务的相关数据,随着业务数据的规模越来越大,不可避免的存在性…

C++ -3- 类和对象 (中) | 拷贝构造函数 赋值运算符重载(二)

文章目录 4.拷贝构造函数什么是拷贝构造函数?应用——示例:日期计算器什么情况下需要自己实现拷贝构造函数? 5.赋值运算符重载运算符重载(重要)赋值运算符重载 拷贝构造函数和赋值重载函数 4.拷贝构造函数 什么是拷贝…

【进阶C语言】静态版通讯录的实现(详细讲解+全部源码)

前言 📕作者简介:热爱跑步的恒川,正在学习C/C、Java、Python等。 📗本文收录于C语言进阶系列,本专栏主要内容为数据的存储、指针的进阶、字符串和内存函数的介绍、自定义类型结构、动态内存管理、文件操作等&#xff0…

Javaee Spring JdbcTemplate基本使用查询数据库表的内容 基于xml配置方式

目录 哈哈哈哈,说好是要写一篇关于jdbcTemplate的基本使用,貌似说跑题了,但是主体还是用jdbctemplate实现的,有耐心看完的话相信能有点点收获的哦! 项目结构: 用到的数据库: 小结: 遇到了个小…

【Python_Opencv图像处理框架】图像基本操作

写在前面 很幸运能选择Python语言进行学习,这是有关Opencv的图像处理的第一篇文章,讲解了有关图像处理的一些基础操作,作为初学者,我尽己所能,但仍会存在疏漏的地方,希望各位看官不吝指正❤️ 写在中间 1…

Docker容器---介绍、安装

Docker基本管理 一、Docker概述1、IT架构2、什么是docker3、Docker特点4、Docker与KVM区别 二、Docker核心概念1、镜像 容器 仓库2、虚拟架构有哪些 三、Docker使用场景1、Docker在内核中支持的2种重要技术2、应用场景 四、Docker安装1、YUM安装docker2、设置阿里云镜像源3、查…

Java多线程初阶(一)(图片+源码+超详细)

线程的概念参照以往的这篇文章🐻 目录 1.创建线程 1.1 继承Thread类 1.2 实现Runnable接口 eg:常用的简写方式 2.Thread类中的常用API 3. start方法和run方法 4. 继承Thread类启动新线程的逻辑 5. 实现Runnable接口启动新线程的逻辑 6. 线程相关…

Linux基础—日志分析

Linux基础—日志分析 一、日志的功能1.日志消息的级别2.设备字段说明 二、日志文件的分类1.内核及系统日志2.用户日志3.程序日志 三、日志文件1.日志文件查看2.主要日志文件介绍3.日志管理策略 一、日志的功能 用于记录系统、程序运行中发生的各种事件 通过阅读日志&#xff0c…

图像描述算法排位赛:SceneXplain与MiniGPT-4谁将夺得桂冠?

如果你对 AI 前沿感兴趣,本场「图像描述算法排位赛」绝对是你不能错过的!在这场较量中,SceneXplain 和 MiniGPT-4 将会比试,谁将摘得这场比赛的桂冠? 📎 直接上手体验:scenex.jina.ai 背景介绍 …

手机存储数据恢复软件哪个好用?试了10款,我只认准这一款!

案例:手机存储数据恢复软件哪个好用? 【有没有好介绍的苹果数据恢复软件?可以恢复好几年数据的那种软件?求推荐!】 手机中的数据是用户平时使用手机时不可避免的内容,这些数据包括照片、视频、音乐、文件等…

Baumer工业相机堡盟工业相机如何通过BGAPISDK的软触发实现两相机同步采集(C++)

Baumer工业相机堡盟工业相机如何通过BGAPISDK的软触发实现两相机的同步采集(C) Baumer工业相机Baumer工业相机的高速同步采集的技术背景Baumer工业相机通过BGAPI SDK在回调函数里同步保存图像工业相机在回调函数BufferEvent保存工业相机使用软触发进行同…

【观察】华为:新一代楼宇网络,使能绿建智慧化

“碳达峰”、“碳中和”目标是我国生态文明建设和高质量可持续发展的重要战略安排,将推动全社会加速向绿色低碳转型。作为全球既有建筑和每年新建建筑量最大的国家,大力发展绿色建筑对中国全方位迈向低碳社会、实现高质量发展具有重要意义。 《“十四五”…

使用FirmAE 对zyxel路由器固件仿真实践 | 信息安全

一、FirmAE简介 FirmAE 是一个执行仿真和漏洞分析的全自动框架。FirmAE 使用五种仲裁技术显著提高仿真成功率(从Firmadyne的 16.28% 提高到 79.36%)。 FirmAE的整体架构为如上图所示。与Firmadyne类似,FirmAE在预先构建的自定义Linux内核和库…

Codeforces Round 816 (Div. 2)(C. Monoblock)

传送门 题意: 定义一个数组,定义它 相等连续段的个数 如1,2,2,1,相等连续段有[1],[2,2],[1],共3个 如2,2,2,1,相等连续段有[2,2,2],[1],共2个 给定一个数组a,定义g(l,r)为,子数组中…

fisco bcos 2.0+ 版本浏览器搭建

Fisco Bcos当前已经发布了3版本,在3版本中,Fisco摒弃了原有的区块链浏览器,而是提供了具有更为丰富功能的图形化区块链管理工具WeBase,后续也会提供对于WeBase的搭建部署教程。 文章目录 一、准备条件二、下载浏览器安装脚本1. 下…

ChatGPT4 的体验 一站式 AI工具箱 -—Poe(使用教程)

最近由于人工智能聊天机器人的爆火(ChatGPT),因此各种各样的AI助手流行与网络,各种各样的都有,不论是什么样的其实都是为了我们更方便的解决问题,今天介绍一款AI工具箱——Poe将多种AI集成与一个界面,大家可以一次感受…

Mac系统brew报错“The GitHub credentials in the macOS keychain may be invalid”解决

报错信息如下: $ brew search nginx Warning: Error searching on GitHub: GitHub API Error: Requires authentication The GitHub credentials in the macOS keychain may be invalid. Clear them with: printf "protocolhttps\nhostgithub.com\n" | …

Python双向链表的操作

目录 一、双向链表 双向链表示例图 二、双向链表的操作 1、判断链表是否为空 2,链表长度 3,遍历整个链表 4,在链表头部添加元素 5、链表尾部添加元素 6,在指定位置插入元素 7,修改指定位置的元素 8&#xff0…

百度ai智能写作工具-百度ai自动写文章

百度AI智能写作工具:让创作更快捷、高效! 在当今竞争激烈的文化创意市场中,创作一篇高质量的文章需要投入大量时间和精力。然而,有了百度AI智能写作工具,创作变得更快捷、高效了。 百度AI智能写作工具采用最先进的人…