Python OCR 使用easyocr库将图片中的文章提取出来

news2024/9/22 23:28:39

Python OCR 使用easyocr库将图片中的文章提取出来

  • 环境
    • 内容
      • 步骤一:安装easyocr库
      • 步骤二:导入必要的库
      • 步骤三:创建OCR阅读器对象
      • 步骤四:指定要识别的图片路径
      • 步骤五:执行OCR识别并提取文章内容
      • 步骤六:遍历识别结果并打印文章内容
    • 完整代码
    • 运行结果

EasyOCR是一个开源的Python库,专注于提供易用而准确的文字识别功能。它基于深度学习技术,使用了一种端到端的方法,能够在多种语言和字体下进行稳定的识别。

希望能写一些简单的教程和案例分享给需要的人

环境

Python 3.10.12
系统: ubuntu 22.04

内容

接下来我分享如何使用Python的easyocr库,将图片中的文字提取出来。

步骤一:安装easyocr库

首先,确保您已经安装了Python。接下来,我们需要安装easyocr库,可以通过以下命令在命令行中进行安装:

pip install easyocr

步骤二:导入必要的库

在您的Python脚本中,导入所需的库,其中包括我们即将使用的easyocr库:

import easyocr

步骤三:创建OCR阅读器对象

创建一个OCR阅读器对象,您可以选择要识别的语言。以下示例选择了中文和英文语言:

reader = easyocr.Reader(['ch_sim', 'en'])

步骤四:指定要识别的图片路径

将要进行OCR识别的图片放置在您选择的路径下,并将该路径赋值给变量image_path

image_path = 'test.png'

确保将test.png替换为您实际的图片路径。

步骤五:执行OCR识别并提取文章内容

使用OCR阅读器对象的readtext方法读取图片中的文本,将识别结果存储在变量results中:

results = reader.readtext(image_path)

步骤六:遍历识别结果并打印文章内容

使用循环遍历results中的每个识别结果,然后打印出每个结果的文本内容:

for (bbox, text, prob) in results:
    print(text)

完整代码

# 导入所需库
import easyocr

# 创建一个OCR阅读器对象,选择中文和英文语言
reader = easyocr.Reader(['ch_sim', 'en'])

# 指定要进行OCR识别的图片路径
image_path = 'aaa.png'

# 使用OCR阅读器对象读取图片中的文本
results = reader.readtext(image_path)

# 遍历识别结果并打印文本内容
for (bbox, text, prob) in results:
    print(text)

运行结果

在这里插入图片描述

python3 a.py

在这里插入图片描述
识别出来是这样:识别率还行,不过有些确实不是很正确。

盗理者
玛龄7年
企业员工
355
4954
1458
103万+
原创
屑#名
总排名
访问
1万+
1770
788
241
1071
讧论

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/908862.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vscode如何关闭受限模式

受限模式旨在实现安全地浏览代码 第一步: 第二步:输入trust,找到Security.workspace.trust,取消勾选 第三步: 重启vscode.

企业都在用的热门客服系统

客户服务是现如今企业抢占市场的重要因素。客户越来越重视企业服务,而优质的客户服务也会为企业带来正向且长期的收益。而市场上这么多客户服务系统哪个好用? 企业选购好用的客户服务系统的时候要注意以下几点: 一、选购注意事项&#xff1…

TheGem主题 - 创意多用途和高性能WooCommerce WordPress主题/网站

TheGem主题概述 – 适合所有人的TheGem 作为设计元素、样式和功能的终极 Web 构建工具箱而设计和开发,TheGem主题将帮助您在几分钟内构建一个令人印象深刻的高性能网站,而无需触及一行代码。不要在编码上浪费时间,探索你的创造力&#xff01…

Python“牵手”1688商品详情数据采集方法,1688API申请步骤说明

1688平台API接口是为开发电商类应用程序而设计的一套完整的、跨浏览器、跨平台的接口规范。 1688API接口是指通过编程的方式,让开发者能够通过HTTP协议直接访问1688平台的数据,包括商品信息、店铺信息、物流信息,评论数据,店铺订…

rtmp直播

技术要求:nginxnginx-rtmpffmpegVLC 跟着大佬走的: 传送门 准备工作: 首先需要一台公网ip的服务器 这是使用天翼云的弹性云主机:免费试用1个月 天翼云官网 点击关机,更多里面选择重置密码, 默认用户名为…

EMQ 成功通过 SOC 2 Type I 认证,为全球客户的数据安全保驾护航

近日,EMQ 正式地通过了国际权威鉴证标准 SOC 2 审计,并荣获国际四大会计师事务所之一颁发的 SOC 2 Type I 鉴证报告,这使其成为全球物联网 MQTT 消息服务的安全践行者。此次认证进一步证实,EMQ 为其旗下的全托管 MQTT 消息云服务 EMQX Cloud 以及企业级 MQTT 物联网接入平台 EM…

老师如何制作电子成绩单?

随着科技的不断进步,电子成绩单已经成为现代教育管理的一项重要工具。相较于传统的纸质成绩单,易查分电子成绩单具有方便快捷等各种优势,为学生、家长和学校带来了诸多便利。这篇文章就给大家介绍易查分电子成绩单的制作与操作步骤。 一、电子…

分类预测 | MATLAB实现BWO-TCN-Attention数据分类预测

分类预测 | MATLAB实现BWO-TCN-Attention数据分类预测 目录 分类预测 | MATLAB实现BWO-TCN-Attention数据分类预测分类效果基本描述程序设计参考资料 分类效果 基本描述 1.BWO-TCN-Attention数据分类预测程序; 2.无Attention适用于MATLAB 2022b版及以上版本&#xf…

基于微信小程序的图书管理系统ljr9i

对图书管理的流程进行科学整理、归纳和功能的精简,通过软件工程的研究方法,结合当下流行的互联网技术,最终设计并实现了一个简单、易操作的图书管理小程序。内容包括系统的设计思路、系统模块和实现方法。系统使用过程主要涉及到管理员和用户…

供应链 | 大数据报童模型:基于机器学习的实践见解

论文解读:李欣 马玺渊 作者:Gah-Yi Ban, Cynthia Rudin 引用:Ban, Gah-Yi and Cynthia Rudin. The big data newsvendor: Practical insights from machine learning. Operations Research 67.1 (2019): 90-108. 文章链接:https…

零阶矩、一阶矩、二阶矩、…

数学中矩的概念来自物理学。在物理学中,矩是表示距离和物理量乘积的物理量,表征物体的空间分布。矩在统计学和图像中都有很重要作用,我们常用的Adam优化器其全称为自适应矩估计优化器。本文将介绍各阶矩的理解和不同场景的应用。 Key Words&a…

【初体验】使用微信开发工具

1.设置合法域名 2.微信登录用户信息获取 如果要求登录后&#xff0c;无法显示用户信息 则应该修改一下【调试基础库】 3.获取用户登录的openid index/index.wxml <view><button type"warn" bindtap"wxLogin">微信登录</button>授权码&…

记录一个用C#实现的windows计时执行任务的服务

记录一个用C#实现的windows计时执行任务的服务 这个服务实现的功能是每天下午六点统计一次指定路径的文件夹大小 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Diagnostics; using System.IO; using Syst…

日撸代码300行:第66-68天(主动学习之 ALEC)

代码来自闵老师”日撸 Java 三百行&#xff08;61-70天&#xff09; 日撸 Java 三百行&#xff08;61-70天&#xff0c;决策树与集成学习&#xff09;_闵帆的博客-CSDN博客 本次代码的实现是基于高斯密度&#xff0c;ALEC算法原文是基于密度峰值&#xff0c;同样是基于密度聚类…

HTTPS 握手过程

HTTPS 握手过程 HTTP 通信的缺点 通信使用明文&#xff0c;内容可能被窃听(重要密码泄露)不验证通信方身份&#xff0c;有可能遭遇伪装(跨站点请求伪造)无法证明报文的完整性&#xff0c;有可能已遭篡改(运营商劫持) HTTPS 握手过程 客户端发起 HTTPS 请求 用户在浏览器里…

Spring之ioc容器

目录 1.简介 2.为什么学习Spring 3.Spring的核心特性 4.Spring ioc 容器的特点 5.Spring的注入方式 6.web整合容器 1.简介&#xff1a; Spring简介 Spring是一个开源框架&#xff0c;它由Rod Johnson创建。它是为了解决企业应用开发的复杂性而创建的。 Spring使用基本的J…

听GPT 讲Alertmanager源代码--notify

api/&#xff1a;这个目录包含了Alertmanager的API实现&#xff0c;包括v1和v2版本的API。 assets/&#xff1a;这个目录包含了静态资源文件&#xff0c;如HTML、JavaScript和CSS文件&#xff0c;它们用于构建Alertmanager的Web UI。 cmd/&#xff1a;这个目录包含了Alertmanag…

企业网三层架构实验

一、实验拓扑 二、实验要求 1、内网IP地址172.16.0.0/16合理分配&#xff1b; 2、SW1/2之间互为备份&#xff1b; 3、VRRP/STP/VLAN/TRUNK均使用&#xff1b; 4、所有PC通过DHCP获取IP地址&#xff1b; 三、实验思路 1、配置ISP的IP地址&#xff1b; 2、配置R1的IP地址&…

800V高压电驱动系统架构分析

需要电驱竞品样件请联&#xff1a;shbinzer &#xff08;拆车邦&#xff09; 过去一年是新能源汽车市场爆发的一年&#xff0c;据中汽协数据&#xff0c;2021年新能源汽车销售352万辆&#xff0c;同比大幅增长157.5%。新能源汽车技术发展迅速&#xff0c;畅销车辆在动力性能…

张驰课堂:揭秘学习6sigma黑带培训重要价值

随着全球经济一体化的加速推进&#xff0c;企业间的竞争日趋激烈&#xff0c;越来越多的企业意识到质量是企业的生命线&#xff0c;而提高质量的关键在于持续改进。在这个过程中&#xff0c;6sigma黑带作为具有专业技能和领导能力的人才&#xff0c;成为企业实现突破性改进、降…