[保姆级啰嗦教程] Tesseract OCR 5在Windows 10下编译安装及测试 (亲测成功)

news2025/1/1 14:51:09

在这里插入图片描述

作为一个优秀的文字识别(OCR)库,Tesseract最早并非开源软件,它是HP实验室在1985-1994年开发的专属软件,直到2005年,HP及内华达大学拉斯维加斯分校以开源的形式发布,然后由Google从2006年开始赞助Tesseract的开发作业。 Tesseract第4版增加了以LTSM为基础的OCR引擎及许多模型,使其支持达116种语言、37种文字(Script)。历经2年多的开发测试后,Tesseract第5版于2021年发布。

Tesseract分为两种发行,一种是已经编译好之后发行的程序,可以通过Tesseract installer for Windows直接下载安装, 下载地址:
https://github.com/UB-Mannheim/tesseract/wiki
另一个分支是为开发者准备的开源库,通过它可以将Tesseract嵌入到自己的程序中去,本文讲的主要是后者。

安装过程主要分为4个步骤:

  1. 安装MSYS2
  2. 安装mingw-64工具链以及各种依赖
  3. 用cmake编译安装Tesseract
  4. 编译测试程序以验证安装

一、安装MSYS2

下载地址:
https://www.msys2.org/
(下载完毕后无脑下一步即可,注意在安装到50%的时候会卡顿很成一段时间,耐心等待不要中断它)
安装完毕后,默认在 c:\msys64 里,打开这个目录,会发现很多启动文件,我们选:mingw64.exe 进入环境。
进入MSYS2之后第一件事情就是更新它的 pacman 包管理器,输入:
$ pacman -Syu
(期间可能会要求重启Shell,被中断之后别忘了进来还得输入一次 pacman -Syu )


二、完善工具链

更新完毕后,开始安装编译环境(主要是Mingw C++工具链):
$ pacman -S base-devel msys2-devel mingw-w64-x86_64-toolchain git
然后开始安装各种 Tesseract 所需要的依赖:
$ pacman -S mingw-w64-x86_64-asciidoc mingw-w64-x86_64-cairo mingw-w64-x86_64-curl mingw-w64-x86_64-icu mingw-w64-x86_64-leptonica mingw-w64-x86_64-libarchive mingw-w64-x86_64-pango mingw-w64-x86_64-zlib mingw-w64-x86_64-autotools mingw-w64-x86_64-cmake


三、编译安装Tesseract

$ cd ~ (回到家目录)
$ git clone https://github.com/tesseract-ocr/tesseract tesseract
(将源代码从github下克隆到本地)
$ cd tesseract
$ mkdir build && cd build
$ cmake .. -G"MinGW Makefiles" -DSW_BUILD=0 -DCMAKE_INSTALL_PREFIX=/usr/local
(-DSW_BUILD=0 表示不用sw构建程序,Sw即Software Network也是一个开源安装器,我试了在国内不好使, -DCMAKE_INSTALL_PREFIX=/usr/local 表示将程序安装到/usr/local)

因为提前安装了所需的所有依赖,因此整个编译过程非常平和,不会跳出Error甚至也没有Warning,如果你卡在这一步,请仔细检查上面的依赖安装项是否安装成功?

编译完成后,用以下命令进行安装:
$ cmake --build . --config Release --target install
安装好之后,文件保存在:
头文件:
/usr/local/include/tesseract
[物理路径:C:\msys64\usr\local\include\tesseract]
库文件:
/usr/local/lib
[物理路径:C:\msys64\usr\local\lib]
另外,Tesseract还用到了另一个开源库叫做Leptonica,这个库是我们之前用 pacman 安装的,默认保存在:
头:C:\msys64\mingw64\include\leptonica
库:C:\msys64\mingw64\lib\libleptonica.a
(因为其他的非C++语言引用 Tesseract 的时候有可能会需要这两个路径,因此我一并告知。)

最后,我们还需要为 Tesseract 准备训练数据,“eng(英文)” 的下载地址是:

https://github.com/tesseract-ocr/tessdata/blob/main/eng.traineddata

文件有22MB大,下载后拷贝到 /usr/local/share/tessdata
(即 C:\msys64\usr\local\share\tessdata )

完成之后,设置训练数据路径环境变量:

$ export TESSDATA_PREFIX=/usr/local/share/tessdata

(注意这个环境变量重启后会失效,可以把它放进 .bashrc 里以永久生效)
这些工作都做完了之后,就可以进入下一步“测试”阶段了。


四、测试

$ cd ~ (回到家目录)
$ mkdir test && cd test
$ nano test.cpp (创建测试程序,内容如下)

#include <tesseract/baseapi.h>
#include <leptonica/allheaders.h>

int main()
{
    char *outText;

    tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI();
    // Initialize tesseract-ocr with English, without specifying tessdata path
    if (api->Init(NULL, "eng")) {
        fprintf(stderr, "Could not initialize tesseract.\n");
        exit(1);
    }

    // Open input image with leptonica library
    Pix *image = pixRead("test.tif");
    api->SetImage(image);
    // Get OCR result
    outText = api->GetUTF8Text();
    printf("OCR output:\n%s", outText);

    // Destroy used object and release memory
    api->End();
    delete api;
    delete [] outText;
    pixDestroy(&image);

    return 0;
}

这是 Tesseract 官方文档的标准测试程序,在编译之前,我们还得准备一张图,
打开画板,选择文字工具,随便输入点文字(注意得是英文),比如:Hello World! 存盘,注意要保存为 .tif 格式。把这个文件( 以 test.tif 为例 )拷贝到家目录的/test子目录下。

用下面这个命令进行编译:

g++ test.cpp `pkg-config --libs lept tesseract` -o test

(这一步最容易显示一堆 undefined reference to XXX,仔细检查前述所有过程,如果严格按照教程一步一步走的话是不应该出现这个提示的)
如果一切正常,输入:
$ test.exe
程序显示:

OCR output:
Hello World!

恭喜成功!


五、后记

Tesseract项目地址:
https://github.com/tesseract-ocr/tesseract

参考资料:
https://tesseract-ocr.github.io/tessdoc/Compiling.html#windows
https://tesseract-ocr.github.io/tessdoc/Examples_C++.html
https://medium.com/building-a-simple-text-correction-tool/basic-ocr-with-tesseract-and-opencv-34fae6ab3400
https://packages.msys2.org

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/672794.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[SpringBoot 分布式调度elasticjob 整合 ]

目录 &#x1f96b;前言: &#x1f96b;配置作业 &#x1f96b;实现任务处理类 &#x1f96b;启动SpringBoot应用程序 &#x1f96c;下面是代码是我另一个文章看见 记录的笔记, 我前面也使用了elastic-job做重试机制,有兴趣可以看一下 &#x1f96c;依赖: &#x1f96c;…

基于MATLAB的CFAR检测仿真程序分享

基于MATLAB的CFAR检测仿真&#xff0c;得到平均CFAR检测。 完整程序&#xff1a; clc; clear; close all; warning off; addpath(genpath(pwd)); cfar phased.CFARDetector(NumTrainingCells,200,NumGuardCells,50,Method,CA); % Expected probability of False Alarm (no u…

【瑞萨RA_FSP】CTSU——电容按键检测

文章目录 一、1. 电容按键介绍二、电容按键原理三、瑞萨QE在电容按键上面的运用四、电容按键实验1. 硬件设计2. FSP配置3.复制文件4.主函数 一、1. 电容按键介绍 电容式感应触摸按键可以穿透绝缘材料外壳 8mm &#xff08;玻璃、塑料等等&#xff09;以上&#xff0c;准确无误…

OpenStack(2)--项目(租户)、用户、角色

一、项目&#xff08;租户&#xff09;、用户、角色的关系 重点理解项目&#xff08;project/租户&#xff09;、用户&#xff08;user&#xff09;、角色&#xff08;role&#xff09;三者之间的关系&#xff0c;首先这三者都可以单独新建&#xff0c;但是绑定关系是通过open…

10 分钟玩转Elastcisearch——数据可视化分析

在当今这个快速发展的科技时代&#xff0c;Elasticsearch 已经成为企业和开发者的重要技术工具。随着数据的爆发式增长&#xff0c;Elasticsearch 可以帮助个人和企业更好的理解数据、发现数据中的规律趋势和模式、并从海量数据中洞察业务价值。 为了帮助开发者能够快速上手&am…

基于SpringBoot的电子文档管理系统(源码、文档、数据库)

网上文件管理系统所用的资料库是由 SpringBoot架构所建立的 Mysql资料库。在进行设计的时候&#xff0c;要充分地保证了系统代码拥有良好的可读性、实用性、易扩展性、通用性、便于后期维护、操作容易、页面简洁等优势。 一、开发工具及技术介绍 &#xff08;1&#xff09;.J…

JavaScript Day03 对象详解

文章目录 1. 什么是对象?2.对象的创建2.1 字面量模式2.2 构造函数模式 3 对象的访问4.新增删除对象中的属性5.Object显示类型转换(强制类型转换)5.1-ECMAScript中可用的3种强制类型转换如下&#xff1a;-Boolean(value)-String(value)-Number(value) 5.2-Object类型到Boolean类…

chatgpt赋能python:Python中的模块查找位置详解

Python中的模块查找位置详解 作为一门广受欢迎的高级编程语言&#xff0c;Python 拥有丰富的库和模块&#xff0c;这些工具让开发者能够更加高效地编写代码。但是&#xff0c;有时候当你在使用 Python 模块时&#xff0c;你可能会遇到找不到模块或者无法导入模块的错误。这时候…

【从零开始学习JAVA | 第四篇】标准的JavaBean类的构建

目录 前言&#xff1a; 构造方法&#xff1a; 构造标准JavaBean类&#xff1a; 对象内存图&#xff1a; 前言&#xff1a; 本片会详细的介绍JAVA中JavaBean类的手动构建&#xff0c;IDEA为我们提供的快捷键生成JAVA bean的方式&#xff0c;以及介绍一个可以快速生成…

OTT 的快速频道切换(FCC)

FCC&#xff08;Fast Channel Change&#xff09;快速频道切换是一种由FCC服务器下发特制的以I帧为起始的单播节目流来提升频道切换时间的方法, 通过在网络中部署FCC服务&#xff0c;可以回避等待I帧时间与IGMP交互时间&#xff0c;提升I帧传输时间&#xff0c;从而提高频道切换…

chatgpt赋能python:Python构造和析构:介绍和实例

Python 构造和析构&#xff1a;介绍和实例 当你编写 Python 程序时&#xff0c;你可能会注意到一个名为构造函数和析构函数的概念。这些函数可以在创建和删除一个对象时自动执行一些操作。本文将深入介绍 Python 中的构造和析构概念。 构造函数 Python 使用一种名为 __init_…

pkg打包nestjs项目问题点整理

打包运行过程中的警告 Warning Cannot include directory %1 into executable. The directory must be distributed with executable as %2. %1: node_modules\puppeteer.local-chromium %2: path-to-executable/puppeteer 解决方法&#xff1a; 警告大义为在路径如%1的某个目…

chatgpt赋能python:用Python进行nan值的查询

用 Python 进行 nan 值的查询 在数据分析和机器学习的过程中&#xff0c;我们经常会遇到 NaN 值&#xff0c;NaN 是代表不是数字的特殊值&#xff0c;通常意味着在数据中有缺失或者不可识别的数据。由于机器学习等技术需要处理的数据来源繁杂&#xff0c;有时候我们在数据处理…

第八章 总结【编译原理】

第八章 总结【编译原理】 前言推荐第八章 总结8.1 符号表的组织与作用8.1.1符号表的作用8.1.2符号表的组织方式 8.2 整理与查找8.2.1线性表8.2.2 对折查找与二叉树8.2.3杂凑技术 8.3 名字的作用范围8.3.1FORIRAN的符号表组织8.3.2Pascal的符号表组织 8.4 符号表的内容 最后 前言…

python基础学习4【Matplotlib、散点图、折线图绘制、读取存储不同数据源的数据(csv、txt、excel)、编码】

Matplotlib数据可视化基础&#xff08;绘图基础语法和常用参数&#xff09; 创建画布与子图 plt.figure()、plt.title()、plt.savefig()保存绘制的图、plt.show() 展示&#xff1a; plt.legend():创建图例 figure.add_subplot()&#xff1a;向figure添加一个Axes作为一subp…

极致呈现系列之:Echarts仪表盘的光影奇迹

目录 仪表盘介绍仪表盘的基本结构Echarts仪表盘的常用数据配置项Echarts仪表盘的常用样式配置项创建基本的仪表盘自定义仪表盘样式应用场景 仪表盘介绍 仪表盘通常模拟了传统汽车仪表盘的样式&#xff0c;包括刻度、指针、表盘等元素&#xff0c;用于显示单一指标或数据。它能…

【JavaWeb】前端之HTML基础认知

目录 1、第一个HTML程序 1.1、创建第一个HTML文件 1.2、HTML文件的基本结构 2、HTML常见标签 2.1、注释标签 2.2、标题标签&#xff1a;h1-h6 2.3、段落标签&#xff1a;p 2.4、换行标签&#xff1a;br 2.5、格式化标签 2.6、图片标签&#xff1a;img 2.7、超链接标签&…

vue源码理解之模板编译和组件化

一&#xff1a;模板编译 1、模板编译的主要目标是将模板(template)转换为渲染函数(render) template > render() 2、模板编译必要性 Vue 2.0需要用到VNode描述视图以及各种交互&#xff0c;手写显然不切实际&#xff0c;因此用户只需编写类似HTML代码的Vue模板&#xff0c;…

扩展卡尔曼滤波在目标跟踪中的应用(2)

上一节的内容中&#xff0c;我们对于扩展卡尔曼EKF算法进行了讲解&#xff0c;今天我们对上一节的内容进行仿真。 话不多说&#xff0c;开整&#xff01;&#xff01;&#xff01; 仿真背景 我们以一个目标的位置信息为例&#xff0c;其状态方程如下所示&#xff1a; X k 0…

黑马程序员前端 Vue3 小兔鲜电商项目——(二)初始化项目

文章目录 了解 Vue3初始化项目创建项目启动项目添加目录Git 管理项目jsconfig.json 配置别名路径 ElementPlus 引入安装配置按需导入测试组件 定制 elementPlus 主题安装sass准备定制化的样式文件自动导入配置 Axios 安装并简单封装安装 Axios基础配置封装请求函数并测试 路由整…