Anacoda3中成功配置Tesseract-OCR
- Tesseract-OCR简介
- 安装及配置环境步骤
- 1、在Anaconda虚拟环境中安装pytesseract第三方库
- 2、下载tesseract-ocr安装包并安装
- 3、环境配置
- 检验是否安装成功
- 修改pytesseract.py文件(很重要!)
Tesseract-OCR简介
Tesseract-OCR 最初是由惠普(HP) 实验室于 1985 年开始研发的一款 OCR 引擎, 到1995 年成为最准确的 3 款 OCR 识别引擎之一,但不久后,惠普放弃了 Tesseract 的研发与维护,将其贡献给开源软件业。在 2005 年,由美国内华达州信息技术研究所获得并与 Google(谷歌)合作对 Tesseract 进行改进和优化,直至目前, Tesseract-OCR 仍是识别精度较高的识别引擎之一。源生的 Tesseract-OCR 是采用 C 语言编写的, Pytesseract 库是 Tesseract-OCR 的 PythonAPI 封装。通过下载安装 Pytesseract 库并调用相关函数,可以实现在 Python 环境中使用
Tesseract-OCR 进行 OCR 文字识别。
以下是关于Tesseract的常用网址
下载地址:https://digi.bib.uni-mannheim.de/tesseract/
官方网站:https://github.com/tesseract-ocr/tesseract
官方文档:https://github.com/tesseract-ocr/tessdoc
语言包地址:https://github.com/tesseract-ocr/tessdata
注意事项:
1.尽量不要下载dev(开发中的版本),alpha(内部测试版,一般不向外部发布,会有很多Bug),beta(公测版本,即针对所有用户公开的测试版本)等版本。
2.建议下载最新稳定版本(目前最新版本tesseract-ocr-w64-setup-5.3.1.20230401.exe,经过测试如果安装的是旧版本,安装时若勾选了Additional Language中的Chinese可能会报错)
安装及配置环境步骤
1、在Anaconda虚拟环境中安装pytesseract第三方库
Pytesseract 库的安装与 OpenCV 库的安装基本一致,可
直接在 Anaconda Prompt 中输入“pip install pytesseract”命令进行安装。
pip install pytesseract
安装好后,如果直接运行程序会提示错误
接下来我们要配置环境
2、下载tesseract-ocr安装包并安装
(1) Tesseract-OCR 的安装包可在官网或其他开源项目中获取,选择与自己电脑位数相同的版本进行下载。
(2) 将下载好的 Tesseract-OCR 安装包双击打开,进入到安装界面,单击“Next”按钮进行下一步操作。
最新版多了一个语言选择界面。
(3) 在“License Agreement”许可协议窗口中,单击“I Agree”按钮同意安装协议进行下一步操作。
(4) 选择安装类型单击“Next”按钮进行下一步操作。
(5) 在 Tesseract-OCR 中默认的识别语言是英文,如果需要识别中文或其他文字,可在“Choose Components”选择组件窗口中,找到“Additional language data(download)”附加语言数据下载,在下面的选项中找到“Chinese(Simplified)”简体中文和“Chinese(Simplified Vertical)”竖排简体中文进行勾选,单击“Next”进行下一步操作。
(6) Tesseract-OCR 的安装位置可选择保持默认,也可单击“Browse”自定义安装位置,在后续的环境配置操作中会需要用到该路径,需记住 Tesseract-OCR 的安装位置,单击“Next”按钮进行下一步操作。
( 7) 在“Choose Start Menu Folder”选择开始菜单文件夹的窗口中,选择保持默认,单击“Install”进行安装。
( 8) 等待 Tesseract-OCR 安装完成后单击“Next”按钮进行下一步,最后单击“Finish”按钮结束安装。
3、环境配置
打开计算机的高级系统设置。
点击环境变量,找到系统变量中的Path,将Tesseract-OCR的安装路径添加进去。
然后新建一个系统变量TESSDATA_PREFIX,变量值为tessdata路径:
C:\Program Files\Tesseract-OCR\tessdata
检验是否安装成功
打开Anaconda Prompt,激活使用的虚拟环境(输入activate 环境名),默认是在base环境下。
切换到Tesseract-OCR安装路径下
cd C:\Program Files\Tesseract-OCR
不然会提示“不是内部或外部命令”
输入tesseract --version
输入tesseract --list-langs
修改pytesseract.py文件(很重要!)
在Anaconda对应虚拟环境下的pytesseract库下的pytesseract.py文件中找到tesseract_cmd = ‘tesseract’,修改成
tesseract_cmd =r’C:\Program Files\Tesseract-OCR\tesseract.exe’
(将加粗部分替换成自己的安装路径)
最后运行程序,成功!!!