textract OCR的安装使用

news2024/11/24 12:37:17

安装

pip install textract

使用

在 Python 中,textract 是一个用于提取文本和信息的库。它提供了一个函数 textract.process(),用于处理不同类型的文档并提取文本内容。下面是 textract.process() 函数的各个参数的介绍:

  1. filename(必需参数):要处理的文件的路径或文件对象。可以是本地文件的路径或文件对象,也可以是远程文件的URL。
  2. encoding(可选参数):指定文本编码格式。默认为 None,表示自动检测文本的编码。你可以指定其他编码格式,如 'utf-8''latin-1' 等。
  3. method(可选参数):指定文本提取的方法。默认为 None,表示使用自动检测的方法。可用的方法包括 'tesseract''pdfminer''docx''pptx''xlrd' 等。你也可以传递一个方法列表,textract 将按顺序尝试这些方法,直到成功提取文本。
  4. language(可选参数):指定要用于文本提取的语言。默认为 None,表示自动检测语言。你可以指定语言代码,如 'en' 表示英文,'de' 表示德文等。
  5. processing_flags(可选参数):指定额外的处理标志。这是一个位掩码,用于控制处理过程中的不同选项。常用的标志包括 textract.processing_flags.PDF_STEMMING(对 PDF 进行词干提取)、textract.processing_flags.PDF_PRESERVE_LAYOUT(保留 PDF 文档的布局)等。
  6. engine_args(可选参数):指定提取引擎的附加参数。这是一个字典,用于传递特定提取引擎的参数。根据不同的提取方法,可用的参数也不同。
  7. extension(可选参数):指定文件的扩展名。默认为 None,表示根据文件名自动检测扩展名。如果文件名没有扩展名,或者需要强制使用特定的提取方法,可以通过指定扩展名来选择提取方法。
"""
textract的使用
"""
import textract


def file2text(file_path, encodings="utf-8", lang="chi_sim"):
    """
    :function: 识别各个文件,如img、pdf、doc等转换文本内容
    :param file_path:指定文件的路径
    :param encodings: 转换出的编码格式
    :param lang: 识别的语言集
    :return: 返回转换出的文本内容
    """
    # 使用textract提取文本
    text = textract.process(file_path, encoding=encodings, language=lang)

    # 返回提取到的文本
    return text.decode('utf-8')

图片OCR

Windows下安装tesseract

  1. 在官网Index of /tesseract (uni-mannheim.de)下载tesseract,下载时在选择更多语言包时记得勾选中文包
  2. 配置tesseract程序的环境变量
  3. 命令行输入tesseract,出现下图即安装成功

PDF OCR

  1. 首先安装poppler包

poppler包是pdftotext的依赖包,在conda环境下运行下列命令即可:

conda install -c conda-forge poppler
  1. 使用pip命令安装pdfminer.six包,该包在多种环境下均可一键pip安装
pip install pdfminer.six

DOCX OCR

DOCX OCR在安装textract时,已经安装了相关的ocr包

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/667339.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

spring boot框架步骤

目录 1. 创建一个新的Spring Boot项目2. 添加所需的依赖3. 编写应用程序代码4. 配置应用程序5. 运行应用程序6. 编写和运行测试7. 部署应用程序 总结 当使用Spring Boot框架开发应用程序时,以下是一些详细的步骤: 1. 创建一个新的Spring Boot项目 使用…

ChatGPT在物流与运输行业的智能场景:智能调度和自动驾驶的前瞻应用

第一章:引言 随着人工智能技术的飞速发展,物流与运输行业正迎来一场革命。传统的调度和运输模式已经无法满足快速增长的物流需求和客户期望。在这一领域,ChatGPT作为一种先进的自然语言处理模型,具有巨大的潜力。本文将探讨ChatG…

【经验贴】多项目并行,如何解决资源管理这个难点?

随着公司业务的逐步增加,我手上管理的项目也多了起来,开始接触了一些中大型项目。但还没来得及算能拿到多少项目奖金,我就被接踵而至的管理难题压得喘不过气来,第一次感受到多项目并行带来的手忙脚乱的感觉。 我首先遇到了各种资…

分享 7 个不常用但有用的 CSS 小技巧

在这篇文章中,我想向您展示一些简单的CSS技巧,您可以在下一个项目中使用它们。让我们开始吧! 1、-webkit-text-stroke 通过使用这个简单易用的属性,可以创建出酷炫的文字效果。它可以给文字添加描边。-webkit-text-stroke是-webki…

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(6月19日论文合集)

文章目录 一、检测相关(7篇)1.1 Vehicle Occurrence-based Parking Space Detection1.2 Squeezing nnU-Nets with Knowledge Distillation for On-Board Cloud Detection1.3 MixedTeacher : Knowledge Distillation for fast inference textural anomaly detection1.4 Efficien…

金测评 听歌更自如的骨传导耳机,音质更出色,南卡Runner Pro 4S体验

我一直对骨传导耳机很感兴趣,因为这种耳机可以让我在户外运动的时候,既能享受音乐,又能保持对周围环境的敏感。为了获得更好的听歌体验,我的骨传导耳机换代频率很高,目前我用的是一款南卡Runner Pro 4S的骨传导耳机&am…

windows环境cmake引用boost库

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、下载源代码二、编译前准备1.操作系统2.gcc环境3.建立安装目录 三、开始编译1.解压源代码2.开始编译 四、开始使用1.Clion创建项目2.Boost版本差异3.Boost版…

数据结构Pta训练题函数题详解

​ pta网站:PTA | 程序设计类实验辅助教学平台 (pintia.cn) 文章内容较长,建议搭配目录使用 点击直达快乐 6-1 线性表元素的区间删除解析: 6-2 有序表的插入解析: 6-3 合并两个有序数组解析 6-4 顺序表操作集解析 6-5 递增的整数…

Linux磁盘空间占满,但搜不到大文件

使用 df -h 查看磁盘空间 使用 du -sh * 查看每个目录的大小 经过查看没有发现任何大的文件夹。 继续下面的步骤 如果您的Linux磁盘已满,但是通过 du -sh 找不到大文件,可能是因为有一些进程正在写入磁盘,但是这些文件已经被删除&#…

与用户同行!2023卡萨帝开启高端生活方式新时代

6月20日,2023思享荟暨卡萨帝品牌升级发布会在重庆国际博览中心举行。在经历了高端产品引领、高端品牌引领、高端场景引领后,卡萨帝启动全新品牌升级,持续与用户同行,开启高端生活方式引领的新时代。 现场,海尔智家副总…

千万不能小瞧的PCB半孔板

PCB半孔是沿着PCB边界钻出的成排的孔,当孔被镀铜时,边缘被修剪掉,使沿边界的孔减半,让PCB的边缘看起来像电镀表面孔内有铜。 模块类PCB基本上都设计有半孔,主要是方便焊接,因为模块面积小,功能…

一键打车/代驾小程序源码app+司机入住uniapp+thinkphp

一键打车/代驾小程序源码app司机入住uniappthinkphp 系统技术架构 开发环境:PHP7.2 mysql5.7 后端:thinkphp 前端:uniapp 后台管理:PC端 司机端:安卓端 苹果端 乘客端:安卓端 苹果端 小程序端 功…

ai聊天推荐这些工具,告诉你ai聊天网站有哪些

“ai聊天网站有哪些”是一个常见的问题,当今互联网时代,人工智能技术正在不断发展,ai聊天网站和软件成为了人们交流和获取信息的重要工具。本文将为您介绍一些知名的ai聊天网站和软件,让您快速了解“ai聊天网站有哪些”这个问题。…

按钮权限布局(设置 element中 tree 树的排列)

页面中使用 <el-buttontype"text"click"edit(slotProps.date)"v-btn-key"[client:clue:update]">编辑</el-button><el-buttontype"text"click"del(slotProps.date)"v-btn-key"[client:clue:delete]&quo…

想读2023级中外合作办学硕士,人大女王金融硕士国际班或许是你最后的机会了

已经进入6月下旬&#xff0c;大部分院校中外合作办学在职研究生的招生已经截止&#xff0c;部分同学还在犹豫纠结中&#xff0c;各大高校的名额就已经都满了。想要读2023级还有可能吗&#xff1f;中国人民大学与加拿大女王大学金融硕士国际班还能给你一次机会。 虽然我们无法确…

【2023 阿里云云计算工程师 ACP 认证练习题库】03、ECS 知识点题库(下)

目录 单选题 1 2 3 答案与解析 4 ​5 6 ​答案与解析 7 8 答案与解析 9 ​答案与解析 10 ​答案与解析 11 12 13 14 15 16 答案与解析 17 18 19 20 21 22 23 24 25 ​答案与解析 26 27 28 29 ​答案与解析 …

校园外卖平台怎么做

校园外卖小程序是一款基于智能手机的移动应用&#xff0c;提供订餐、支付、配送等服务。它能为顾客提供丰富的美食选择&#xff0c;为商家提供进一步发展业务的机会&#xff0c;同时骑手也有机会赚取额外的收入。 一、 用户端功能介绍 1. 地图定位&#xff1a;用户可以利用小…

渐进式学习:如何用R和GO富集可视化捕捉生命的关键信号?

一、引言 生命科学中的数据分析和可视化是一个具有挑战性的领域。随着技术和理论的不断发展&#xff0c;研究人员需要处理越来越复杂和庞大的数据集&#xff0c;以研究生物体在不同尺度上的结构和功能&#xff0c;探索不同生物过程和疾病的机制。在这个领域&#xff0c;GO&…

【MySQL】一文带你了解数据过滤

&#x1f3ac; 博客主页&#xff1a;博主链接 &#x1f3a5; 本文由 M malloc 原创&#xff0c;首发于 CSDN&#x1f649; &#x1f384; 学习专栏推荐&#xff1a;LeetCode刷题集&#xff01; &#x1f3c5; 欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; 如有错误敬请指…

华为云“企业快成长大数据与微服务技术创新论坛”成功举办

6月16日&#xff0c;由华为云、msup、厦门火炬大学堂、厦门市行业软件协会联合主办的“企业快成长大数据与微服务技术创新论坛”在厦门成功举办。本次活动汇聚了华为云、珍爱网等知名企业的CTO和技术专家&#xff0c;通过技术案例解析了大数据平台构建、微服务演进等内容&#…