Python图像文字识别详解,实战代码

news2025/1/17 1:17:13

更多资料获取

📚 个人网站:ipengtao.com


在现代计算机视觉和图像处理应用中,文字识别是一个重要的任务。本篇博客将详细介绍如何使用Python中的文字识别库,以及一些优秀的开源工具,来实现对图片中文字的准确识别。通过丰富的示例代码和详尽的解释,读者将能够全面了解文字识别的原理、工作流程,并在实际项目中应用这些知识。

安装必要的库

首先,需要安装一些必要的Python库,包括pytesseractPillowtesseract-ocr

以下是安装的命令:

pip install pytesseract Pillow

另外,需要安装tesseract-ocr并将其路径配置到系统环境变量中,以便Python能够调用它。

使用pytesseract进行基本文字识别

from PIL import Image
import pytesseract

# 打开图片
img = Image.open("example.png")

# 进行文字识别
text = pytesseract.image_to_string(img)

# 打印识别结果
print("识别结果:", text)

这个简单的例子演示了如何使用pytesseract库对图片进行基本的文字识别。

处理不同语言的文字

# 指定语言为中文
text_chinese = pytesseract.image_to_string(img, lang='chi_sim')

# 打印中文识别结果
print("中文识别结果:", text_chinese)

通过指定lang参数,可以实现对不同语言的文字进行识别。这对于多语言环境下的应用非常重要。

图片预处理

from PIL import ImageEnhance

# 增强图片对比度
enhancer = ImageEnhance.Contrast(img)
img_contrast = enhancer.enhance(2.0)

# 进行文字识别
text_contrast = pytesseract.image_to_string(img_contrast)

# 打印识别结果
print("增强对比度后的识别结果:", text_contrast)

在文字识别前,可以进行一些图片预处理操作,如增强对比度、调整亮度等,以提高识别的准确性。

处理多列文字

# 指定配置,开启多列文字处理
custom_config = r'--oem 3 --psm 6'
text_multi_column = pytesseract.image_to_string(img, config=custom_config)

# 打印多列文字识别结果
print("多列文字识别结果:", text_multi_column)

对于包含多列文字的图片,可以通过配置tesseract的参数来提高识别的效果。

使用其他OCR库

除了pytesseract,还有其他强大的OCR库可以使用,如easyocrpyocr等。

以下是使用easyocr的示例:

import easyocr

# 创建OCR对象
reader = easyocr.Reader(['ch_sim', 'en'])

# 进行文字识别
result = reader.readtext('example.png')

# 打印识别结果
for detection in result:
    print("识别结果:", detection[1])

与机器学习结合

在处理一些特定场景的文字识别时,可以使用机器学习模型来提高准确性。以下是使用tesserocr库与scikit-learn的结合:

import tesserocr
from sklearn.externals import joblib

# 载入机器学习模型
model = joblib.load('text_recognition_model.joblib')

# 进行文字识别
text_ml = tesserocr.image_to_text(img, model=model)

# 打印机器学习文字识别结果
print("机器学习文字识别结果:", text_ml)

性能优化与异常处理

在文字识别过程中,需要考虑性能优化和异常处理。以下是一个简单的性能优化示例,通过调整tesseract的配置参数:

custom_config_optimized = r'--oem 3 --psm 6 -c tessedit_char_whitelist=abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789'

# 进行优化后的文字识别
text_optimized = pytesseract.image_to_string(img, config=custom_config_optimized)
print("优化后的识别结果:", text_optimized)

同时,需要实施异常处理,以应对在文字识别中可能出现的各种问题。

将识别结果保存到文件

# 将识别结果保存到文本文件
with open('text_output.txt', 'w', encoding='utf-8') as file:
    file.write(text)

将文字识别的结果保存到文件中,方便后续处理和分析。

处理特殊场景:表格、手写体等

在实际应用中,有时候需要处理一些特殊场景,如表格中的文字识别或者手写体的文字识别。以下是一个处理表格场景的示例:

# 指定配置,开启表格文字处理
custom_config_table = r'--oem 3 --psm 6 -c preserve_interword_spaces=1'
text_table = pytesseract.image_to_string(img_table, config=custom_config_table)

# 打印表格文字识别结果
print("表格文字识别结果:", text_table)

对于手写体文字识别,可以使用一些专门的手写体文字识别库,如handwriting-recognition。以下是一个示例:

from handwriting_recognition import HandwritingRecognition

# 创建手写体文字识别对象
handwriting_recognizer = HandwritingRecognition()

# 进行手写体文字识别
text_handwriting = handwriting_recognizer.recognize(img_handwriting)

# 打印手写体文字识别结果
print("手写体文字识别结果:", text_handwriting)

结合深度学习模型

在处理一些复杂的场景或需要更高准确性时,可以考虑结合深度学习模型。使用现有的预训练模型或者自行训练模型,可以实现更精准的文字识别。

from tensorflow import keras
from keras_ocr.detection import Detector
from keras_ocr.recognition import Recognizer
import cv2

# 载入预训练模型
detector = Detector()
recognizer = Recognizer()

# 进行文字检测
boxes = detector.detect(images=[cv2.imread('example.png')])

# 进行文字识别
prediction = recognizer.recognize(images=[cv2.imread('example.png')], detection_boxes=boxes)

# 打印深度学习模型文字识别结果
print("深度学习模型文字识别结果:", prediction[0][0]['text'])

部署为服务

为了更好地应对大规模和实时的文字识别需求,可以考虑将文字识别模型部署为服务。使用框架如Flask或FastAPI,可以方便地搭建一个RESTful API服务。

from flask import Flask, request, jsonify
import pytesseract
from PIL import Image

app = Flask(__name__)

@app.route('/recognize', methods=['POST'])
def recognize_text():
    # 接收上传的图片
    file = request.files['image']
    
    # 保存图片
    file.save('uploaded_image.png')
    
    # 进行文字识别
    img = Image.open('uploaded_image.png')
    text = pytesseract.image_to_string(img)

    return jsonify({'text': text})

if __name__ == '__main__':
    app.run(debug=True)

通过这样的服务,可以实现对图片中文字的实时识别。

总结

在本篇文章中,深入研究了使用Python进行图片文字识别的全过程,从基础的库安装、简单文字识别,到更高级的处理多语言、优化性能、特殊场景(如表格和手写体)的应对,再到结合深度学习模型和服务化部署。通过详细的示例代码和解释,能够获得全面的知识体系,更好地理解和应用文字识别技术。
强调了使用不同库和工具的灵活性,如pytesseracteasyocr、深度学习框架keras_ocr等,能够选择适用于项目需求的最佳解决方案。在处理特殊场景时,展示了如何优雅地应对表格和手写体文字,以及使用深度学习模型进行更精准的识别。部署为服务的一节介绍了如何将文字识别模型构建成RESTful API,为实时且大规模的应用场景提供了解决方案。最后,提到了不断优化与改进的必要性,以适应不断变化的需求。

通过学习本文,将具备丰富的文字识别技能,并能够在实际项目中灵活应用这些知识。文字识别作为计算机视觉领域的关键技术,为各种应用场景提供了强大的工具。希望本文的深入解析和实用示例对大家的学习和实践有所启发,使得文字识别在各领域更加高效、准确。


Python学习路线

在这里插入图片描述

更多资料获取

📚 个人网站:ipengtao.com

如果还想要领取更多更丰富的资料,可以点击文章下方名片,回复【优质资料】,即可获取 全方位学习资料包。

在这里插入图片描述
点击文章下方链接卡片,回复【优质资料】,可直接领取资料大礼包。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1324271.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从学到考,一图带你读懂开发者技能成长秘籍

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术,观点,和项目,并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏…

【Spring学习笔记】Spring 注解开发

Spring学习——注解开发 注解开发注解开发定义bean纯注解开发 Bean管理bean作用范围bean生命周期 依赖注入自动装配 第三方bean管理注解开发总结XML配置与注解配置比较 注解开发 注解开发定义bean 使用Component定义开发 Component("bookDao") public class BookD…

【Python可视化系列】一文教会你绘制美观的直方图(理论+源码)

一、引言 前面我详细介绍了如何绘制漂亮的折线图和柱状图: 【Python可视化系列】一文彻底教会你绘制美观的折线图(理论源码) 【Python可视化系列】一文教会你绘制美观的柱状图(理论源码) 对于一个连续性的变量&#xf…

spring三级缓存之相互依赖

spring三级缓存之相互依赖 什么是sping的互相依赖sping的三级缓存三级缓存存储了什么内容?三级缓存的存在是为了解决什么问题?三级缓存的怎样解决互相依赖的问题?缓存解决A和B相互依赖的过程三级缓存解决AOP并且A和B互相依赖的过程 三级缓存所…

Python 操作mysql实现事务处理

一、应用场景 Python项目对MySQL数据库进行增、删、改操作时,有时会出现执行sql异常的情况。在批量提交数据的时候,如果其中一个事务提交错误,往往导致预期的整个数据链不完整。 例如银行转账数据,用户A向用户B转账: …

blast安装及简单使用

一、安装blast 1.Ubuntu环境 # 下载blast wget https://ftp.ncbi.nlm.nih.gov/blast/executables/blast/2.9.0/ncbi-blast-2.9.0-x64-linux.tar.gz # 解压blast压缩包 tar -xzvf ncbi-blast-2.9.0-x64-linux.tar.gz # 测试 ./bin/blastp -h 这里就代表安装成功了,…

Mac电脑上设置一位数密码

1. 打开“终端”应用程序,你可以在 “ 应用程序 ” 文件夹中找到它。 2. 在终端窗口中,输入以下命令并按下回车键 pwpolicy -clearaccountpolicies 这个命令的目的是清除全局账户策略,允许设置较低位数的密码。 3. 输入你的开机密码并按下…

springCould-从小白开始【1】

目录 1.说明 2.父工程 3.服务端 4.消费者 5.公共模块 6.RestTemplate 1.说明❤️❤️❤️ 创建三个模块,服务者,消费者,公共api 注:spring boot和spring cloud有版本约束 2.父工程 ❤️❤️❤️ 约定版本号配置 注意&…

GSCoolink GSV1201E Type C/DP1.2转HDM1.4

DisplayPort 1.2 to HDMI 1.4 Converter with Embedded MCU 功能特征 1、GSV1201E是一款高性能、低功耗、USB Type-C Alternate Mode DisplayPort 1.2 to HDMI 1.4转换器。 2、显示接口接收器支持21.6Gbps(HBR2,4-lane)。 3、HDMI发射器支持9Gbps(TMDS3G3Lane)。…

OpenHarmony南向之TP触摸屏

概述 Touchscreen驱动用于驱动触摸屏使其正常工作,该驱动主要完成如下工作:对触摸屏驱动IC进行上电、配置硬件管脚并初始化其状态、注册中断、配置通信接口(I2C或SPI)、设定Input相关配置、下载及更新固件等操作。 Touchscreen驱…

mysql:查看线程缓存中的线程数量

使用命令show global status like Threads_cached;可以查看线程缓存中的线程数量。 例如,查询线程缓存中的线程数量如下: 然后启动应用程序,使用连接,查询如下: 由查询结果可以看到,线程缓存中的线程数量…

人工智能时代,看好硅光子!

硅光子学是一种用于制备光子集成电路(PIC)的技术,通常用于产生、检测、传输和处理光。这种方法使用半导体绝缘体上硅(SOI)晶片作为衬底材料,并采用标准的互补金属氧化物半导体(CMOS)…

弧形导轨的类型及应用

弧形导轨又叫圆弧形导轨,滚轮弧形导轨,是通过V型滚轮在圆弧形V型导轨面上的滚动,实现圆周运动;在工业自动化中,有些应用需要弧线运动,或者两个相交或平行的直线运动,这些情况需要通过弧线运动连…

netsdk1004 找不到资产文件“d:\vs-code\consoleapp1\consoleapp1\obj\project.assets.json”

今天学C#遇到一个问题记录下 创建如上所示的项目后运行出错: netsdk1004 找不到资产文件“d:\vs-code\consoleapp1\consoleapp1\obj\project.assets.json”。运行 nuget 包还原以生成此文件。 consoleapp1 c:\program files\dotnet\sdk\8.0.100\sdks\microsoft.net…

pyCharm 创建一个FastApi web项目,实现接口调用

FastApi和Django区别 我这边演示项目使用的fastApi作为web框架,当然主流一般都是使用Django做web框架,但是Django是一个重量级web框架他有很多组件,如授权,分流等全套web功能。我这边呢只需要有个接口可以被别人调用,…

脉冲水表和光电直读水表有什么区别?

脉冲水表和光电直读水表是两种常见的水表类型,它们在原理和功能上有着一些明显的区别。在本文中,我们将探讨脉冲水表和光电直读水表的区别,并讨论它们各自的优势和适用场景。 首先,我们来看看脉冲水表。脉冲水表是一种机械式水表&…

Python列表操作详解,多种方式删除首元素

更多资料获取 📚 个人网站:ipengtao.com 在Python中,处理列表的操作是日常开发中不可避免的任务之一。其中,删除列表中的元素是一个常见的需求,而删除第一个元素更是一个特殊的场景。本篇博客将详细介绍Python中多种方…

C++ Qt开发:TabWidget实现多窗体功能

Qt 是一个跨平台C图形界面开发库,利用Qt可以快速开发跨平台窗体应用程序,在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置,实现图形化开发极大的方便了开发效率,本章将重点介绍TabWidget标签组件的常用方法及灵活运用。 Q…

3D可视化大屏:赋能行业数据可视化应用,让数据更鲜活

互联网时代,各种数据信息充斥在我们的生活中,对于大量的数据,我们也需要大量的时间才能去分析理解,因此3D可视化大屏的展示无疑是令人兴奋的进步。3D数据大屏能够将数据以更加直观、更加生动的方式呈现出来,结合VR全景…

vue 如何实现拖动:vue-draggable

vue-draggable 官方文档:传送门 特点: 支持触摸设备(如vue项目的移动端开发Quasar)支持拖拽和选择文本支持不同列表之间的拖拽视图模型的同步刷新与vue2的过渡动画(transition-group)兼容有很多监听函数…