什么是tesseract
Tesseract是一款开源的光学字符识别(OCR)引擎,用于从图像中提取文本。它由Ray Smith在惠普实验室于1985年至1995年开发,并在2005年由惠普将其作为开源软件发布。之后,Tesseract的开发由Google主导,并继续进行改进和维护。
应用场景
- 验证码识别
- 从图像中提取信息,例如:提取价格
- 处理截图内容
下载地址
windows下载地址:https://github.com/UB-Mannheim/tesseract/wiki
linux下载地址:https://github.com/tesseract-ocr/tesseract
windows安装完成后把安装路径配在Path环境变量中
使用 tesseract --version 验证是否成功
Python库安装
# PIL用于打开图片文件
pip install pillow
# pytesseract模块,用于从图片中解析数据
pip install pytesseract
使用tesseract
from PIL import Image
import pytesseract
# 没有把安装路径配置在系统Path变量中,就需要加这句代码,指定安装路径
# pytesseract.pytesseract.tesseract_cmd = r'D:\Install\Tesseract-OCR\tesseract.exe'
img = Image.open('test.jpg')
result = pytesseract.image_to_string(img)
print(result)
识别率不高,推荐使用第三方收费的打码平台,云打码、网易、有道等