tesseract 图片识别引擎

news2026/2/15 13:47:51

什么是tesseract

Tesseract是一款开源的光学字符识别（OCR）引擎，用于从图像中提取文本。它由Ray Smith在惠普实验室于1985年至1995年开发，并在2005年由惠普将其作为开源软件发布。之后，Tesseract的开发由Google主导，并继续进行改进和维护。

应用场景

验证码识别
从图像中提取信息，例如：提取价格
处理截图内容

下载地址

windows下载地址：https://github.com/UB-Mannheim/tesseract/wiki

linux下载地址：https://github.com/tesseract-ocr/tesseract

windows安装完成后把安装路径配在Path环境变量中

使用 tesseract --version 验证是否成功

Python库安装

# PIL用于打开图片文件
pip install pillow

# pytesseract模块，用于从图片中解析数据
pip install pytesseract

使用tesseract

from PIL import Image
import pytesseract

# 没有把安装路径配置在系统Path变量中，就需要加这句代码，指定安装路径
# pytesseract.pytesseract.tesseract_cmd = r'D:\Install\Tesseract-OCR\tesseract.exe'

img = Image.open('test.jpg')

result = pytesseract.image_to_string(img)

print(result)

识别率不高，推荐使用第三方收费的打码平台，云打码、网易、有道等

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1963573.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！