使用python进行图片的文字识别

news2024/12/24 3:11:17

使用python进行图片的文字识别

文章目录

  • 使用python进行图片的文字识别
    • 安装 Tesseract OCR
      • 安装过程
      • 配置系统的环境变量
    • 安装python的第三方库
      • Pytesseract库
      • Pillow库
    • 运行个demo

安装 Tesseract OCR

  • Tesseract OCR 是一款由 Google 团队开发的开源 OCR(Optical Character Recognition,光学字符识别)引擎,用于将图片、PDF 等格式中的文本转换为可编辑的文本格式。自 1985 年首次发布以来,它已经经历了多个版本和改进,并成为目前最受欢迎的 OCR 引擎之一。

    Tesseract OCR 支持多种语言,包括英语、中文、日语、俄语等等,而且具有较高的准确率和稳定性,尤其在处理大量文字的场景下表现突出。同时,该引擎还支持多线程处理,可以有效地提高识别速度。

  • 下载地址:Home · UB-Mannheim/tesseract Wiki (github.com)

  • Windows安装包: https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-5.3.1.20230401.exe

  • 请添加图片描述

注意:这个不是官方编译的安装包, 是UB-Mannheim机构进行编译的Windows安装包.
在HP实验室已经停止支持和更新Tesseract之后,它被移交给了University of Nevada in Las Vegas (UNLV)的计算机科学研究所进行开发和改进。之后,Tesseract被移交给了知名OCR研究机构德国University of Applied Sciences Mannheim(UB-Mannheim)的自然语言处理小组,许多重要的改进和发展都来源于UB-Mannheim的贡献。
tesseract源码的GitHub地址:tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository) (github.com),有能力的可以自行编译源代码

安装过程

  • 双击tesseract-ocr-w64-setup-5.3.1.20230401.exe安装包进行安装

    请添加图片描述

    首先是选择语言界面,默认是英文, 没有中文,有其他国家的语言可以选。

  • Next

    请添加图片描述

  • I Agree

    请添加图片描述

  • 默认为这台电脑进行安装

    请添加图片描述

  • 因为需要在 Tesseract OCR 中识别中文简体等非英语文本,所有需要安装相应的语言数据。

请添加图片描述

可以只安装特定语言, 比如中文简体

请添加图片描述

  • 选择安装路径, 比如我选的是D:\Tesseract-OCR,待会配系统环境变量可能会用到这个安装路径。

    请添加图片描述

  • 创建快捷图标

    请添加图片描述

  • 安装中

    请添加图片描述

  • Next

    请添加图片描述

  • Finish

    请添加图片描述

  • 可以在开始菜单栏中看到Console

    请添加图片描述

  • 点进去就能直接进入控制台了

    请添加图片描述

  • 输入:tesseract --help试试

    请添加图片描述

    因为我们不是直接使用命令去操作这个tesseract, 而是使用python去操作它, 因此这个命令行就不用管他, 可以关掉。接下来为了让python能直接使用它, 需要检查tesseract这个软件的环境变量有没有设置好。

  • 重新开个命令窗口

    请添加图片描述

    输入tesseract -v查看版本号,你可能会出现上面的情况, 就是没有配置好系统的环境变量,那就需要配置环境变量

    配置系统的环境变量

  • 以windows10的电脑为例, 打开电脑设置

    请添加图片描述

  • 点击系统, 找到关于,侧边有个高级系统设置, 点击去

    请添加图片描述

  • 可以看到环境变量, 点进去

    请添加图片描述

  • 找到系统变量中的Path选中, 再点击编辑

    请添加图片描述

  • 进入后点击新建

    请添加图片描述

  • 将安装路径复制进去,比如我安装的路径为D:\Tesseract-OCR

    请添加图片描述

  • 复制进去后点击确认

    请添加图片描述

  • 重新进入到命令行中

    输入tesseract -v, 若出现版本号则设置成功

    请添加图片描述

OK, tesseract算是安装完成了, 接下来使用python去操作它了!

安装python的第三方库

Pytesseract库

  • Pytesseract 是一个 Python 的 OCR(Optical Character Recognition,光学字符识别)库,可以用来将图片、PDF 等文件中的文本转换为可编辑的文本格式。它基于 Google 的 Tesseract OCR 引擎,支持多种语言,并且具有较高的准确率和稳定性。

  • 安装 Pytesseract 库可以使用 pip 工具快速完成。按照以下步骤进行操作:

    1. 打开命令行工具(Windows: cmd,Linux/macOS: Terminal)。

    2. 输入以下命令来安装 Pytesseract:

      pip install pytesseract
      
    3. 等待安装完成即可。

      请添加图片描述

    有一点需要注意的是,Pytesseract 库依赖于 Tesseract OCR 引擎,因此在安装 Pytesseract 之前请确保已安装 Tesseract OCR。如果还没有安装 Tesseract OCR,请先下载和安装它,然后再安装 Pytesseract。

  • 可以使用pip list 命令列出你已经安装的python库

    请添加图片描述

请添加图片描述

Pillow库

  • Pillow 是一个功能强大的图像处理库,可以处理多种格式的图像文件,支持图像处理、图像增强、图像转换等多种操作。
  • 因为识别图片需要用到PIL(Python Imaging Library)库中的 Image 模块

使用 pip 工具来安装 Pillow 库。以下是安装 Pillow 库的命令:

pip install pillow

安装完成后,就可以在 Python 中使用 from PIL import Image 来进行图像处理和操作了。

运行个demo

比如识别这张图

请添加图片描述

import pytesseract
from PIL import Image

# 加载图片
img = Image.open('images/demo.png')

# 转换为灰度图像
img = img.convert('L')

# 识别文本, 使用pytesseract库进行OCR识别
text = pytesseract.image_to_string(img)

# 输出识别结果
print(text)

注意: 默认识别英文和数字

识别效果:

请添加图片描述

因为都是中文, 识别不出来

  • 若要识别中文, 得进行配置 (前提是安装tesseract时要选择下载好中文简体数据包才能进行使用)
import pytesseract
from PIL import Image

# 加载图片
img = Image.open('images/demo.png')

# 转换为灰度图像
img = img.convert('L')

# 识别文本, 使用pytesseract库进行OCR识别, 将语言设置成中文
text = pytesseract.image_to_string(img, lang='chi_sim')
# 输出识别结果
print(text)

请添加图片描述

这个识别的正确率还可以, 这取决于图片的质量和文字的清晰规整程度

OK, 上述只是简单的小例子,更多用法可以自行探索, 还可以设置其他参数来提高文字的识别正确率!

  • 使用说明文档https://github.com/madmaze/pytesseract/blob/master/README.rst

比如下面是官方的说明例子:

from PIL import Image

import pytesseract

# 如果您的PATH中没有tesseract可执行文件,请包括以下内容:
pytesseract.pytesseract.tesseract_cmd = r'<full_path_to_your_tesseract_executable>'
# 示例 tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract'

# 简单的图像转字符串
print(pytesseract.image_to_string(Image.open('test.png')))

# 为了绕过pytesseract的图像转换,只需使用相对或绝对图像路径
# 注意:在这种情况下,您应该提供tesseract支持的图像,否则tesseract将返回错误
print(pytesseract.image_to_string('test.png'))

# 可用语言列表
print(pytesseract.get_languages(config=''))

# 将法语文本图像转换为字符串
print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra'))

# 使用包含多个图像文件路径列表的单个文件进行批处理
print(pytesseract.image_to_string('images.txt'))

# 在一段时间后超时/终止tesseract作业
try:
    print(pytesseract.image_to_string('test.jpg', timeout=2)) # 在2秒后超时
    print(pytesseract.image_to_string('test.jpg', timeout=0.5)) # 半秒后超时
except RuntimeError as timeout_error:
    # tesseract处理已终止
    pass

# 获取边界框估计
print(pytesseract.image_to_boxes(Image.open('test.png')))

# 获取详细数据,包括框、置信度、行和页码
print(pytesseract.image_to_data(Image.open('test.png')))

# 获取有关方向和脚本检测的信息
print(pytesseract.image_to_osd(Image.open('test.png')))

# 获取可搜索的PDF
pdf = pytesseract.image_to_pdf_or_hocr('test.png', extension='pdf')
with open('test.pdf', 'w+b') as f:
    f.write(pdf) # pdf类型默认为bytes

# 获取HOCR输出
hocr = pytesseract.image_to_pdf_or_hocr('test.png', extension='hocr')

# 获取ALTO XML输出
xml = pytesseract.image_to_alto_xml('test.png')


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/531465.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

港联证券|新能源大金融双主线发力 沪指探低回升收复3300点

周一&#xff0c;A股三大指数呈现宽幅震荡走势。沉寂许久的新能源板块早盘复苏&#xff0c;保险、券商与部分“中字头”股票午后发力&#xff0c;多主线并进带动市场普涨。截至收盘&#xff0c;上证综指报3310.74点&#xff0c;涨1.17%&#xff1b;深证成指报11178.62点&#x…

【网络】数据通信的桥梁

最近很长一段时间没有更新博客了&#xff0c;不是因为说要放弃了&#xff0c;中间断断续续的在写&#xff0c;但是都是草稿&#xff0c;没发出来&#xff0c;感觉写的不太好&#xff0c;对这些内容也没什么热情&#xff0c;今天重拾键盘&#xff0c;写一篇基础的文章&#xff0…

英雄马系列赛|众翼电气·2023铜鼓半马圆满落幕,每一步都是风景

长寿铜鼓 康养胜地&#xff01;5月14日&#xff0c;众翼电气2023铜鼓半程马拉松暨英雄马系列赛&#xff08;铜鼓站&#xff09;在山清水秀的宜春铜鼓鸣枪起跑&#xff0c;2500多名参赛跑友奔跑在绿意盎然的人间桃花源&#xff0c;感受了长寿铜鼓的卓越风姿。本赛事由中共铜鼓县…

小程序点击导航栏返回顶部小例子

<view class"headerTop" id"headerTop" click"onNavigationBarTap">顶部导航栏 </view> //样式 width: 100%; position: fixed; background: white; left: 0; z-index: 999;//jslastTapTime: null,//用于记录上一次点击的时间戳scr…

swing_树_JTree概述

JTree、TreeModel实现树 树也是图形用户界面中使用非常广泛的GUI组件&#xff0c;在Windows资源管理器中&#xff0c;将我们所看到的目录称为树&#xff1a; 计算机世界里的树是由一系列具有严格父子关系的结点组成的&#xff0c;每个结点既可以是上一级结点的子结点&#xff…

【HMS Core】Health Kit如何获取跑步锻炼记录的轨迹记录?

【问题描述】 使用接口&#xff0c;"/healthkit/v1/activityRecords"&#xff0c;可以正常获取跑步记录&#xff0c;但是里面没有附带轨迹数据&#xff0c;应该怎么获取每条记录的轨迹记录数据呢&#xff1f; 【解决方案】 1、获取锻炼记录的轨迹记录需要关联GPS详…

创业像是驾驶轮船,我们唯一可以做的就是掌好舵

一直拥有领先的认知是很难的&#xff0c;我们唯一可以做的是保持开放的心态&#xff0c;并主动获取新信息&#xff0c;从而不断地促进认知升级。 三年前&#xff0c;神策数据公众号曾发文《桑文锋&#xff1a;创业这五年》&#xff0c;传递了创始人 & CEO 桑文锋对创业的观…

【FMC136】AD9467之4通道 250MSPS 采样率16位AD 采集子卡模块得设计原理图中文资料

板卡概述 FMC136 是一款4 通道250MHz 采样率16 位AD 采集FMC子卡&#xff0c;符合VITA57 规范&#xff0c;可以作为一个理想的IO 模块耦合至FPGA前端&#xff0c;4 通道AD 通过高带宽的FMC 连接器&#xff08;HPC&#xff09;连接至FPGA 从 而大大降低了系统信号延迟。该板卡支…

Golang中函数的使用

目录 函数 函数特点 函数的使用 函数定义 函数的参数 函数的返回值 函数的变量作用域 函数的递归调用 函数的可变参数 函数的闭包 函数的 defer 语句 注意 函数 函数调用&#xff1a;函数调用时需要传递函数定义中要求的参数&#xff0c;并根据需要接收返回值。 …

专享策略05 | MACD波段套利交易策略

量化策略开发&#xff0c;高质量社群&#xff0c;交易思路分享等相关内容 大家好&#xff0c;2023俱乐部有4个专享&#xff0c;6个通用。其中专享是2个套利&#xff0c;1个盘口&#xff0c;1个CTA。本期是专享05策略&#xff0c;本年度第二个套利策略。 01、策略介绍 策略以MA…

CH32V3xx RT-Thread Nano调试记录

目录 1、工程创建2、代码修改与调试2.1 RT-Thread 配置2.2 打印串口修改2.3 测试验证1、工程创建 使用MounRiver集成开发环境可以直接创建带有RT-Thread Nano的工程,步骤如下: 打开MounRiver,点击新建MounRiver工程; 在模板类型处选择RT-Thread,然后选择使用的芯片型号,…

UNeXt:基于MLP的快速医学图像分割网络

文章目录 UNeXt: MLP-Based Rapid Medical Image Segmentation Network摘要本文方法Shifted MLPTokenized MLP Stage 实验结果 UNeXt: MLP-Based Rapid Medical Image Segmentation Network 摘要 UNeXt&#xff1a;一种基于卷积多层感知器&#xff08;MLP&#xff09;的图像分…

【 WebSocket 框架 】

文章目录 一、背景介绍二、原理解析三、代码示例四、效果验证 一、背景介绍 WebSocket 是从 HTML5 开始支持的一种网页端和服务端保持长连接的 消息推送机制 理解消息推送: 传统的 web 程序, 都是属于 “一问一答” 的形式. 客户端给服务器发送了一个 HTTP 请求, 服务器给客户…

数据类型、python数字、数据类型转换、字符串

1、python的数据类型 可以使用type&#xff08;&#xff09;函数获取任何对象的数据类型 x 10 print(type(x)) # 打印<class int> 2、python 数字 Int 或整数是完整的数字&#xff0c;正数或负数&#xff0c;没有小数&#xff0c;长度不限。 浮动或“浮点数”是…

JavaScript全解析——express

express 的基本使用 ●express 是什么? ○是一个 node 的第三方开发框架 ■把启动服务器包括操作的一系列内容进行的完整的封装 ■在使用之前, 需要下载第三方 ■指令: npm install express 1.基本搭建 // 0. 下载: npm install express// 0. 导入 const express express()…

DNF命令介绍

DNF命令介绍 DNF是新一代的rpm软件包管理器。他首先出现在 Fedora 18 这个发行版中。而最近&#xff0c;它取代了yum&#xff0c;正式成为 Fedora 22 的包管理器。 1. 安装DNF包管理器 yum -y install dnf2. 命令介绍

MQTT 5协议中的基础更改(二)

上期文章中给大家介绍了MQTT规范版本5中基础更改的信息和CONNACK返回码&#xff0c;本篇文章我们继续介绍MQTT5协议中的基础更改中其他新功能的细节描述。 01 干净启动 MQTT 3.1.1的其中一个主流功能是MQTT客户端使用清除会话&#xff08;cleanSession&#xff09;&#xff0…

promise缓存与缓存思想的总结

promise缓存与缓存思想的总结 JS单例模式关于promise缓存 JS单例模式 单例模式&#xff0c;保证一个类有且仅有一个实例&#xff0c;并提供一个访问它的全局访问点 我们举个简单的例子 class SingletonFLX {constructor(name, age) {this.name name;this.age age;}//静态方法…

港联证券投资前瞻:碳酸锂价格持续反弹 银行板块步入可积极配置阶段

昨日&#xff0c;两市股指全线反弹走高&#xff0c;沪指涨超1%收复3300点&#xff1b;创业板指午后涨超2%&#xff1b;截至收盘&#xff0c;沪指涨1.17%报3310.74点&#xff0c;深成指涨1.57%报11178.62点&#xff0c;创业板指涨2.11%报2299.93点&#xff0c;上证50指数涨1.75%…

【案例教程】Biome-BGC生态系统模型与Python融合技术应用

Biome-BGC是利用站点描述数据、气象数据和植被生理生态参数&#xff0c;模拟日尺度碳、水和氮通量的有效模型&#xff0c;其研究的空间尺度可以从点尺度扩展到陆地生态系统。 在Biome-BGC模型中&#xff0c;对于碳的生物量积累&#xff0c;采用光合酶促反应机理模型计算出每天…