tesseract-ocr一站式安装与使用

news2024/12/24 13:14:42

目录

前言

安装tesseract-ocr

添加环境变量

1、在path中添加

2、在系統變量中添加

3、验证是否添加成功

添加语言包

更多语言包下载

示例程序


前言

如果你遇到了:make sure the TESSDATA_PREFIX Failed loading language \‘chi_sim

那么就是语言包缺少这个!chi_sim!!!请看下面内容

首先,你得找一篇文章了解tesseract-ocr

Tesseract-OCR 是一个开源的光学字符识别引擎,可以用于从图像中提取文本信息。它最初由惠普实验室开发,后来被谷歌收购并开源。Tesseract 可以识别多种语言,并且在处理复杂的文档布局时表现良好。

Tesseract 使用的是深度学习和模式识别算法来识别图像中的字符,并将其转换成计算机可处理的文本数据。它支持多种操作系统,包括 Windows、Linux 和 macOS,并提供了多种编程语言的接口,比如 Python、Java 和 C++,使得开发者可以方便地集成到各种应用程序中进行文字识别。

Tesseract-OCR 被广泛应用于文档处理、图像识别、自动化办公、数字化档案等领域,为用户提供了快速、准确地从图像中提取文本的能力。

今天给同学跑项目,他的项目用到了tesseract-ocr

结果搞半天,百度出来的CSDN链接,下载那些包,还全部要钱,大无语...

总结:

1、直接开着梯子去GitHub下载最新版的【tesseract-ocr】
2、然后直接选择需要识别的语言类型(一般我们需要识别中文的,就选择一下中文就行了)


安装包+中文识别语言包,我都放在蓝奏云了,可以直接安装,然后跑demo

跟着下面教程内容走就行了

最后就可以直接跑demo了!

安装tesseract-ocr

Releases · UB-Mannheim/tesseract (github.com) 直接进去下载最新版即可

安装包——蓝奏云备份:

tesseract-ocr-w64-setup-5.3.3.20231005.zip - 蓝奏云文件大小:47.8 M|icon-default.png?t=N7T8https://wwm.lanzout.com/i8bPj1tzz21e

接下来一路ok就行了——就只有在语言下载那里,需要开梯子

需要开梯子

需要开梯子

需要开梯子

不然会下载语言包失败!!!

不然会下载语言包失败!!!

不然会下载语言包失败!!!

注意这里!!!

注意这里!!!

注意这里!!!

自己记着安装路径——以后要加环境变量

自己记着安装路径——以后要加环境变量

自己记着安装路径——以后要加环境变量

添加环境变量

1、在path中添加

 tesseract-ocr ——【找到自己的安装路径】

我的:D:\Tesseract-OCR

2、在系統變量中添加

变量名:TESSDATA_PREFIX

变量值:D:\Tesseract-OCR\tessdata

3、验证是否添加成功

打开cmd ->输入命令

tesseract -v

添加语言包

语言包下载

如果你没有梯子,在这里下载失败了,就可以单独下载语言包

如果你没有梯子,在这里下载失败了,就可以单独下载语言包

如果你没有梯子,在这里下载失败了,就可以单独下载语言包

蓝奏云备份(这里是中文语言包):

tessdata语言包-中文+英文.zip - 蓝奏云文件大小:7.4 M|icon-default.png?t=N7T8https://wwm.lanzout.com/iT9K41u00y2d把语言包——放在这里面就行了!!!

把语言包——放在这里面就行了!!!

把语言包——放在这里面就行了!!!

更多语言包下载

GitCode - 开发者的代码家园icon-default.png?t=N7T8https://gitcode.com/tesseract-ocr/tessdata/tree/main

示例程序

pip install Pillow pytesseract
from PIL import Image
import pytesseract

# 使用 pytesseract 进行文字识别,lang 参数指定识别语言为简体中文
text = pytesseract.image_to_string(Image.open(r'D:\333.png'),lang='chi_sim')
print(text)

其他

from PIL import Image
import pytesseract

# 设置 Tesseract 路径(根据你的安装路径修改)
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files (x86)\Tesseract-OCR\tesseract.exe"

# 打开图像文件
image_path = r'D:\333.png'
image = Image.open(image_path)

# 使用 pytesseract 进行文字识别,lang 参数指定识别语言为简体中文
text = pytesseract.image_to_string(image, lang='chi_sim')

# 打印识别结果
print(text)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1571225.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

地质地貌卫星影像集锦(三 矿产资源篇)

1. 元古代沉积岩的抬升 这个地区位于Leigh Creek中部,距离澳大利亚南部的阿德莱德约500km,弗林德斯山脉的北面是Gawler克拉通。弗林德斯山脉是由元古代沉积岩抬升后形成的块体,在其之下的是寒武纪的岩石,它座落在距阿德莱德北…

正则表达式浅析

正则表达式,又称正规表示法、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很…

内表GROUP BY

内表GROUP BY REPORT z_test_table_lhy. DATA: price TYPE sflight-price. SELECT MIN( price ) AS m,carridINTO DATA(t_temp)FROM sflightGROUP BY carridHAVING MAX( price ) > 10. "Having从句中比较统计结果时,需要将统计函数重写一遍,而不…

python爬虫获取豆瓣前top250的标题(简单)

今天是简略的一篇,简单小实验 import requests from bs4 import BeautifulSoup# 模拟浏览器的构成(请求头) headers {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Ch…

6、【单例模式】确保了一个类在程序运行期间只有一个实例

你好,我是程序员雪球 在软件设计中,单例模式是一种常见的设计模式。它确保了一个类在程序运行期间只有一个实例,并提供了全局访问该实例的方式。单例模式在许多场景中都有广泛的应用,例如共享资源管理、数据库连接、日志记录器等…

面试题:MySQL 高可用

💖 主从同步 原理 核心:二进制日志 binlog 是 MySQL 的日志,redolog 和 undolog 是 innodo 引擎的日志。 💖 分库分表 分类 问题和技术 数据一致性问题 使用分布式事务管理组件,如ShardingSphere的分布式事务功能&…

蓝桥杯第十四届C++A组(未完)

【规律题】平方差 题目描述 给定 L, R,问 L ≤ x ≤ R 中有多少个数 x 满足存在整数 y,z 使得 。 输入格式 输入一行包含两个整数 L, R,用一个空格分隔。 输出格式 输出一行包含一个整数满足题目给定条件的 x 的数量。 样例输入 1 5 样例输出 …

Vue3学习笔记+报错记录

文章目录 1.创建Vue3.0工程1.1使用vue-cli创建1.2 使用vite创建工程1.3.分析Vue3工程结构 2.常用Composition2.1 拉开序幕的setup2.2 ref函数_处理基本类型2.3 ref函数_处理对象类型2.4 ref函数使用总结 1.创建Vue3.0工程 1.1使用vue-cli创建 查看vue/cli版本,确保…

51之定时器与中断系统

目录 1.定时器与中断系统简介 1.1中断系统 1.2定时器 1.2.1定时器简介 1.2.2定时器大致原理及其配置 1.2.3定时器所需的所有配置总介 2.定时器0实现LED闪烁 3.使用软件生成定时器初始化程序 1.定时器与中断系统简介 1.1中断系统 首先,我们需要来了解一下什么…

选择企业邮箱,扬帆迈向商务新纪元!

企业邮箱和个人邮箱不同,它的邮箱后缀是企业自己的域名。企业邮箱供应商一般都提供手机app、桌面端、web浏览器访问等邮箱使用途径。那么什么是企业邮箱?如何选择合适的企业邮箱?好用的企业邮箱应具备无缝迁移、协作、多邮箱管理等功能。 企…

(一)小案例银行家应用程序-介绍

案例示例如下所示: 登录之后就会出现下面所示: 项目案例流程图如下 ● 首先我们建立四个账号对象,用于登录 const account1 {owner: ItShare,movements: [200, 450, -400, 3000, -650, -130, 70, 1300],interestRate: 1.2, // %pin: 11…

算法学习系列(四十七):IDA*

目录 引言一、概念二、例题1.排书2.回转游戏 引言 之前觉得这个IDA*算法、迭代加深算法很神秘,感觉很难,其实自己学下来感觉其实不难,相反思路非常的简单,清晰明了,我觉得难是因为我之前从来都不写暴力,就…

发布自己的github项目

git下载 git关网:https://git-scm.com/ 下载后是exe文件 git安装 除了选安装地址,其他都是下一步下一步傻瓜式安装 安装好之后随便一个地方右键多了两个东西 git gui here 和git bash here git测试配置及创建github项目 右键git bash here 测试…

C语言之指针的指向地址和指针的内容总结(八十九)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒…

全国加油站分布数据/停车场分布/公园分布/景区分布/保护区分布/poi感兴趣点

加油站是指为汽车和其它机动车辆服务的、零售汽油和机油的补充站,一般为添加燃料油、润滑油等。由于加油站所销售的石油商品具有易燃爆、易挥发、易渗漏、易集聚静电荷的特性,故加油站以“安全”为第一准则。在加油站内严禁烟火,严禁从事可能…

SpringMVC --- 老杜

1、什么是SpringMVC? SpringMVC是一个基于Java实现了MVC设计模式的请求驱动类型的轻量级Web框架,通过把Model,View,Controller分离,将web层进行职责解耦,把复杂的web应用分成逻辑清晰的及部分,…

java中大型医院HIS系统源码 Angular+Nginx+SpringBoot云HIS运维平台源码

java中大型医院HIS系统源码 AngularNginxSpringBoot云HIS运维平台源码 云HIS系统是一款满足基层医院各类业务需要的健康云产品。该产品能帮助基层医院完成日常各类业务,提供病患预约挂号支持、病患问诊、电子病历、开药发药、会员管理、统计查询、医生工作站和护士工…

Gson的用法

1. 导入依赖 <dependency><groupId>com.google.code.gson</groupId><artifactId>gson</artifactId><version>2.8.6</version> </dependency> 2. 使用Gson进行解析 2.1 Gson解析普通对象 package com.jiang.partnetbackend.…

Studio One 6注册机下载安装激活教程

一、Studio One 6安装 StudioOne6 下载&#xff1a;https://souurl.cn/Y6ZWCY StudioOne6 Win/Mac版注册机下载&#xff1a; rack百度网盘&#xff1a;https://pan.baidu.com/s/1zX3DqXt-wsy510L1lDI7Xg 提取码&#xff1a;3phh 1.双击Studio One6安装包&#xff0c;如下图&…

Qt中的事件学习笔记

视频链接 https://www.bilibili.com/video/BV18B4y1K7Cs/?spm_id_from333.999.0.0&vd_sourcefa4ef8f26ae084f9b5f70a5f87e9e41b事件 Qt主要用来开发带窗口的应用程序&#xff0c;我们使用的窗口的应用程序都是基于时间&#xff08;比如安卓中的点击事件&#xff09;&…