在Windows上用Visual Studio编译Tesseract

news2025/1/10 20:41:56

Tesseract是著名的OCR(文字识别)开源项目。我想自己编译它的源代码。然而总体而言,大型开源项目在Windows上编译多少都会有些磕磕绊绊,如果有幸最后成功了,都值得写一篇文章来纪念一下。这便是本文的由来。

编译环境:Windows 10(版本1809),Visual Studio 2019(版本16.11.34), CMake 3.30.2

Tesseract依赖于其他开源项目,比如leptonica——这个项目提供图像文件读写、多格式支持、图像处理等功能。在编译Tesseract之前须先编译leptonica。因为我们已经有了OpenCV来做图像处理,我会把leptonica的编译过程尽量简化(即不编译它的依赖项来支持tiff、png、jpeg等图像格式)。以下是详细步骤,分四步。

Step 1:下载CMake工具

从官网下载最新的zip包,本地解压即可使用。我选的是cmake-3.30.2-windows-x86_64.zip。CMake在开源项目中广为使用,可以将它的路径配置到系统环境变量的Path中,方便调用。

Step 2:编译leptonica

首先从GitHub获取源代码:

$ git clone https://github.com/DanBloomberg/leptonica.git

代码下载完成后,在项目目录下创建一个build文件夹。然后,运行CMake带UI的版本,即cmake-gui.exe,完成“Where is the source code”和“Where to build the binaries”两项配置,就继续点“Configure”按钮,在弹出的对话框里选择“Visual Studio 16 2019”(其他都保持默认设置即可),继续…… 会弹出一个出错提示框,关掉后继续修改配置选项:

  1. 去掉这些勾选:ENABLE_GIF、ENABLE_JPEG、ENABLE_OPENJPEG、ENABLE_PNG、ENABLE_TIFF、ENABLE_WEBP、ENABLE_ZLIB,因为我们不需要leptonica支持这些图像格式,使用leptonica原生支持的BMP格式足矣。
  2. 去掉SW_BUILD的勾选。SW是一个强大的包管理器,它会自动下载依赖项,但我们这里不需要它。

然后再次点击“Configure”按钮,不出意外的话就不会有错误弹窗了。截屏留念:

继续点“Generate”按钮生成Visual Studio的编译工程,然后点“Open Project”启动Visual Studio,然后就可以编译啦!遗憾的是,出了一大堆编译错误:

2>C:\Program Files (x86)\Windows Kits\10\Include\10.0.17763.0\um\oaidl.h(487,17): error C2059: 语法错误:“/” (编译源文件 ..\leptonica\src\leptwin.c)

这个问题折腾了比较久…… 解决方法倒也简单,在leptonica项目属性页中,将 “常规” | “C语言标准”改成“默认(旧MSVC)”即可:

编译通过后,在leptonica\build\src目录下会生成两个库文件:leptonica-1.84.1.lib(Release版)和leptonica-1.84.1d.lib(Debug版)。

Step 3:编译Tesseract

先从GitHub获取源代码吧:

$ git clone https://github.com/tesseract-ocr/tesseract.git

使用CMake的配置过程与leptonica项目有点相似,只是要多点几次“Configure”……

  1. 下载SW工具。从software-network.org下载 sw-master-windows_x86_64-client.zip,本地解压,并把它的路径加到系统环境变量的Path中。虽然我们实际上不用SW,但这一步配置也是需要的L
  2. 首次点击“Configure”按钮后,需要去掉SW_BUILD、BUILD_TRAINING_TOOLS的勾选,并勾上DISABLE_TIFF,再次点击“Configure”
  3. 此时有新的错误提示,需要为Leptonica_DIR指定一个路径。我本机leptonica项目的编译路径是D:\Dev\GitHub\leptonica\build,配置完后再次点击“Configure”

此时,不出意外的话就不会有错误弹窗了,然后“Generate”、“Open Project”一路点下去……截屏留念:

在Visual Studio中开始编译之前,需要修改一下libtesseract的项目配置,因为它对leptonica的包含路径默认是C:\Program Files (x86)\leptonica\include 和 C:\Program Files (x86)\leptonica\include\leptonica,这与实际情况不符,需要在项目属性页的 “C/C++” | “常规” | “附加包含目录” 改为我们在Step 2的真实路径,即:

D:\Dev\GitHub\leptonica\src

D:\Dev\GitHub\leptonica\build\src

我们需要的是Tesseract库(以做二次开发),所以只需要单独编译libtesseract。编译通过后,在tesseract\build目录下会生成两个库文件:tesseract54.lib(Release版)和tesseract54d.lib(Debug版)。

Step 4: 验证Tesseract库

Tesseract和leptonica两个库都编译好了,可喜可贺!严谨起见,我们还需要写一个测试程序来验证一下。用Visual Studio创建一个控制台程序。然后进行如下的项目配置:

属性页 | C/C++ | 常规 | 附加包含目录,添加以下四个目录:

..\leptonica\src; ..\leptonica\build\src; ..\tesseract\include\tesseract; ..\tesseract\build\include

属性页 | 链接器 | 常规 | 附加库目录,添加以下两个目录:

..\leptonica\build\src\$(Configuration)\; ..\tesseract\build\$(Configuration)\

注:我的测试项目tesseract_testapp与tesseract、leptonica两个项目是并级的,所以使用了上述相对路径。你需要根据你本机的实际情况做必要的调整。

属性页 | 链接器 | 输入 | 附加依赖项,添加以下两个.lib文件:

Debug版:leptonica-1.84.1d.lib; tesseract54d.lib

Release版:leptonica-1.84.1.lib; tesseract54.lib;

测试代码如下:

#include "baseapi.h" 
#include "allheaders.h"
#include <iostream>

int main()
{
    tesseract::TessBaseAPI* api = new tesseract::TessBaseAPI();
    // 初始化,加载语言包
    if (api->Init("tessdata", "eng")) {
        std::cout << "Could not initialize tesseract" << std::endl;
        return -1;
    }

    // 因为我们编译的leptonica库支持的格式有限,此处用原生支持的BMP来测试
    Pix* image = pixRead("numbers.bmp");
    if (image) {
        api->SetImage(image);
        char* outText = api->GetUTF8Text();
        std::cout << "OCR result: " << outText << std::endl;
        delete[] outText;
        pixDestroy(&image);
    }
    
    api->End();
    delete api;
    return 0;
}

注:完整的代码工程可从https://github.com/luqiming666/tesseract_testapp 下载。

在编译运行之前,还需创建一个tessdata文件夹,并在其中放入一份英文版的训练数据。若需要支持更多语言,到https://github.com/tesseract-ocr/tessdata下载后缀名为.traineddata的语言包放到tessdata文件夹内即可。

P.S. 万一你折腾半天,还是没法把Tesseract库成功编译出来,抑或你只是想要一个现成的工具来看看文字识别效果,也可以到https://github.com/UB-Mannheim/tesseract/wiki 下载人家制作好的安装包。拿来即用。安装完成后,运行命令行:tesseract {图片文件路径} {输出结果文件名},给它一个图片文件,它就能把识别结果写入一个文本文件,在自己的项目里凑合着也能用哦——也算是一个万不得已的兜底方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2078174.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CRMEB 多店版供应商入驻及管理

一、功能介绍 供应商于移动端提出入驻申请&#xff0c;平台可于入驻申请中审核&#xff0c;审核通过后&#xff0c;该供应商可于平台上架商品。 二、供应商申请 供应商入驻申请 一、功能介绍 平台可以设置商品的供应商&#xff0c;用户下单后由供应商直接发货&#xff0c;自…

FT8493PA-RT隔离型SOP8快充充电器电源IC

FT8493XX&#xff0c;FT8493PA-RT是应用于隔离反激电压变换器的- -款高性能PWM控制器.芯片工作在CCM模式,工作频率随着负载降低而减小.拥有更高的效率,更快的瞬态响应以及更低的待机功耗.同时使用内部抖频技术可以更好的处理ENI. FT8493XX内部集成高压启动可以更快的起机以及更…

智能化Web3:如何利用人工智能优化区块链技术

随着数字技术的飞速发展&#xff0c;Web3和人工智能&#xff08;AI&#xff09;逐渐成为技术创新的两个重要领域。Web3代表了去中心化互联网的未来&#xff0c;而AI则是驱动智能化应用的核心技术。当AI与Web3相结合时&#xff0c;将会对区块链技术的优化产生深远的影响。本文将…

Elastic Stack--介绍及架构部署:ElasticSearch、Kibana、Filebeat的RPM包部署安装及基础使用

前言&#xff1a;本博客仅作记录学习使用&#xff0c;部分图片出自网络&#xff0c;如有侵犯您的权益&#xff0c;请联系删除 学习B站博主教程笔记&#xff1a; 最新版适合自学的ElasticStack全套视频&#xff08;Elk零基础入门到精通教程&#xff09;Linux运维必备—Elastic…

HTML学习笔记——用HTML记录学习过程5-全局属性

全局属性可以用来配置元素的共有行为 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>5-全局属性</title> </head> <body><div>id属性用于指定html元素的唯一id</div>…

Linux常用应急排查命令(持续更新)20240827更

1、history &#xff08;1&#xff09;使用history查看历史命令&#xff0c;分析攻击者使用过何命令 history&#xff08;2&#xff09;但攻击者也能回使用history -c 清除掉历史命令 history -c&#xff08;3&#xff09;使用cat查看cat /root/.bash_history 文件也可以查看…

设计模式-结构型模式-适配器模式

1.适配器模式定义 将类的接口转化为客户期望的另一个接口&#xff0c;适配器可以让不兼容的两个类一起协同工作&#xff1b; 1.1 适配器模式的优缺点 优点 将目标类和适配者类解耦&#xff0c;通过引入一个适配器类来重用现有的适配者类&#xff0c;无需修改原有结构&#x…

有效提高媒体曝光率,智能推荐为什么是“最大的计算系统之一”?

导语&#xff1a;我认为很少有人意识到&#xff0c;推荐系统是世界上构想过的最大的计算系统之一。——Jensen Huang &#xfeff; 在信息过载的时代背景下&#xff0c;智能推荐系统已广泛应用于电子商务、社交媒体、新闻资讯、视频音乐、旅游出行等领域&#xff0c;为用户提…

央行沟通与市场影响以日本央行与黄金市场为例

日本央行加息与市场反应 在近期&#xff0c;日本央行采取了出人意料的行动&#xff0c;将短期利率从0-0.1%上调至0.25%&#xff0c;这是自3月结束长达8年负利率政策以来的第二次加息。这一举动迅速引发了全球市场的关注&#xff0c;尤其是那些依赖低利率环境进行套利交易的市场…

每天学习一个基础算法之选择排序

目录 前言&#xff1a; 一、选择排序的基本思路和实现方法 1、基本思路 2、实现方法 二、选择排序的执行过程示意图 三、选择排序的实现代码 选择排序代码主体&#xff08;以接口函数的形式&#xff09; 测试部分&#xff08;主函数调用&#xff09; 四、对选择排序复杂度的分析…

系统架构师软考重难点划分及学习要点

目录 引言 综合知识 案例分析 案例分析题型及选择策略 历年案例分析题型及分值分布 学习与应试策略 论文 考试规则 写作要求与技巧 忌讳与注意事项 常见题目与考查方向 引言 系统架构师软考是许多IT从业人员进阶的必经之路。面对这门考试&#xff0c;如何有效划分重难…

社区维修平台

TOC springboot0751社区维修平台 第一章 绪 论 1.1背景及意义 系统管理也都将通过计算机进行整体智能化操作&#xff0c;对于社区维修平台所牵扯的管理及数据保存都是非常多的&#xff0c;例如住户管理、社区公告管理、维修工管理、维修订单管理、接单信息管理、订单信息管…

Windows系统安装MySQL

下载MySQL 打开网址MySQL :: Download MySQL Community Server点击图下所示位置Download 进入图下所示界面&#xff0c;点击图下所示位置不登录下载 已下载完成 安装MySQL 将下载好的压缩包解压到一个专门的位置&#xff0c;该软件为绿色版软件&#xff0c;解压即可使用 配置…

SSM课程资源库APP—计算机毕业设计源码23834

目 录 摘要 1 绪论 1.1开发的意义 1.2研究现状 1.3ssm框架介绍 1.3论文结构与章节安排 2 课程资源库APP系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1 数据流程 3.3.2 业务流程 2.3 系统功能分析 2.3.1 功能性分析 2.3.2 非功能性分析 2.4 系统用例分析 2.5…

如何把多行SQL或多行内容转为一行内容

安装notepad 链接&#xff1a;https://pan.quark.cn/s/b01284447533 提取码&#xff1a;5BEc 行合并 1.选中内容 2. 编辑 --- 行操作 --- 合并行 3.效果

dbeaver数据库工具配置连接openGauss5.X

目录 欢迎阅读dbeaver数据库工具配置连接openGauss5.X教程一、准备工作1、下载openGauss JDBC驱动&#xff1a;2、确保openGauss数据库已运行&#xff1a; 二、在DBeaver中配置驱动1、打开DBeaver&#xff1a;2、进入驱动管理器&#xff1a;3新建驱动&#xff1a;4、添加JDBC驱…

周报(8.12-8.18)

周报(8.12-8.18) 本周工作 DD-Net学习与代码复现 DD-Net网络结构如上图所示。DD-Net也有一个为处理OpenFWI数据的版本&#xff1a;DD-Net70&#xff1a; 与传统DL-FWI不同的是&#xff0c;DD-Net同时拥有两个解码器&#xff0c;第一个解码器的目标是传统的速度模型&#xff0…

科普|企业防泄密措施有哪些?(8种方法详细说明)

企业在日常运营中面临着各种信息泄露的风险&#xff0c;这些风险可能来自内部员工的不当操作或外部黑客的恶意攻击。为了保护企业的核心竞争力和商业机密&#xff0c;采取有效的防泄密措施至关重要。以下是八种常见的企业防泄密措施及其详细说明&#xff1a; 1. 数据分类与加密…

React多功能管理平台项目开发全教程

​🌈个人主页:前端青山 🔥系列专栏:React篇 🔖人终将被年少不可得之物困其一生 依旧青山,本期给大家带来React篇专栏内容:React-综合应用开发教程:构建多功能管理平台 目录 1.创建项目 2.改造目录结构 3.安装一些必须的模块 3.1 配置预处理器 3.1.1 配置别名@ 3…

第八节:Nodify 编辑器属性

引言 经过前几章的学习&#xff0c;你已经对Nodify框架有了初步的编程思路。当然只局限于这些还完全不够&#xff0c;本章节将阐述各个结构组件的一些常用属性&#xff0c;以便在日后的开发过程中更得心应手。 1、编辑器 平移 简介属性默认值平移功能 控制DisablePanningfals…