【数据提取】 Python 提取PDF中的文字和图片

news2024/11/15 0:06:36

从PDF中提取内容能帮助我们获取文件中的信息,以便进行进一步的分析和处理。此外,在遇到类似项目时,提取出来的文本或图片也能再次利用。要使用Python从PDF文件中提取文本和图片,可以借助 Spire.PDF for Python 这个第三方库。具体操作方法查阅下文。

目录

安装 Spire.PDF for Python

使用 Python 提取PDF文本

使用 Python 提取PDF页面中指定矩形区域的文本

使用 Python 提取PDF图片


安装 Spire.PDF for Python

本文中用到的Python PDF库支持在各种 Python 程序中创建、读取、编辑、转换和保存 PDF 文档。要安装此产品,使用以下 pip 命令。

pip install Spire.PDF

详细安装教程点击: 如何在 VS Code 中安装 Spire.PDF for Python

使用 Python 提取PDF文本

Spire.PDF for Python 提供的 PdfPageBase.ExtractText() 方法能提取一个 PDF 页面中文本。根据你的具体需求,你可以选择仅提取某页中的文本,或者遍历所有页面以提取整个PDF文件中的文本。完整Python代码如下:

from spire.pdf import *
from spire.pdf.common import *

# 创建PdfDocument类的实例
pdf = PdfDocument()

# 加载PDF文档
pdf.LoadFromFile("大数据.pdf")

# 创建一个TXT文件来保存提取的文本
extractedText = open("Output/提取文本.txt", "w", encoding="utf-8")

# 遍历文档的每一页
for i in range(pdf.Pages.Count):
    # 获取页面
    page = pdf.Pages.get_Item(i)
    # 从页面提取文本
    text = page.ExtractText()
    # 将文本写入TXT文件
    extractedText.write(text + "\n")

extractedText.close()
pdf.Close()

提取结果:

使用 Python 提取PDF页面中指定矩形区域的文本

如果你只需要提取某个PDF页面中指定区域的文本,你可以指定一个矩形范围然后使用 PdfPageBase.ExtractText(RectangleF rectangleF) 方法提取其中的文本内容。完整Python代码如下:

from spire.pdf import *
from spire.pdf.common import *

# 创建PdfDocument类的对象
pdf = PdfDocument()

# 加载PDF文档
pdf.LoadFromFile("大数据.pdf")

# 获取第一页
page = pdf.Pages.get_Item(0)

# 从页面的指定矩形区域提取文本
text = page.ExtractText(RectangleF(0.0, 400.0, 770.0, 180.0))

# 将提取的文本保存到TXT文件中
extractedText = open("Output/PDF文本.txt", "w", encoding="utf-8")
extractedText.write(text)
extractedText.close()
pdf.Close()

提取结果:

使用 Python 提取PDF图片

除了提取文本外,Spire.PDF for Python 还提供了 PdfPageBase.ExtractImages() 方法来提取PDF文件中的图片。要提取一个PDF文件中的所有图片并保存到指定路径,参考以下Python代码。

from spire.pdf import *
from spire.pdf.common import *

# 创建PdfDocument类的实例
pdf = PdfDocument()

# 加载PDF文档
pdf.LoadFromFile("大数据.pdf")

# 创建一个列表来存储图篇
images = []

# 遍历文档的每一页
for i in range(pdf.Pages.Count):
    # 获取页面
    page = pdf.Pages.get_Item(i)
    # 从页面提取图片并存储在创建的列表中
    for img in page.ExtractImages():
        images.append(img)

# 保存图像
i = 0
for image in images:
    i += 1
    image.Save("Output/图片/图片-{0:d}.png".format(i), ImageFormat.get_Png())

pdf.Close()

提取结果:

通过Spire.PDF for Python库提供的以上示例,就能轻松实现PDF文件内容的提取。如果对该Python库感兴趣,可点击了解更多功能:Spire.PDF for Python 中文教程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1114155.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Allegro两种自动对齐方法

本法基于cadence的allegro可以在PCB设计运用,使用方法如下: 方式一:allegro软件的自动对齐——使用过程繁琐一点 1.在“setup”下拉选项中选择“application mode”,在副选项中选择“placement edit”; 2.在“Find”…

vue3+element-plus 高度封装搜索组件,支持多种类型

目录 一、应用场景 二、开发流程 三、详细开发流程 1.新建文件 2.开始步骤 3.详细代码 (1).index.vue (2).搜索组件 (3).单个搜索组件 总结 一、应用场景 一般很多网站,有很多数据列表,基本都要做搜索的功能,如果涉及很多页面&…

【笔记】centos7 python2.7.5安装paramiko

更直接的方式,参考: 离线安装_离线安装paramiko 这个更简单。 准备 资源链接: https://download.csdn.net/download/qq_26834611/88445708https://download.csdn.net/download/qq_26834611/88445708 或者选择自己下载 1. 下载python-devel 在一台能联网的cent…

静电放电保护和片式压敏电阻器

1 引言 随着电子设备功能的增加,输入∕输出连接器也随之增多,这为静电放电(ESD)提供了进入电路的路径,静电放电保护问题变得不容忽视。因此,有必要采用静电放电保护元件,在静电放电进入电路板之…

Doris删库元数据删除怎么办?紧急恢复单副本情况

简介 正常情况下,如果是多副本的数据存储很容易修复,删除一个两个be也能根据doris自身的恢复机制恢复起来,但是,有时候可能有些表没有弄多个副本,那么就有点搞头了。 案例说明:fe的master节点的数据误删除…

笔记本电脑Windows10安装

0 前提 安装windows10的电脑为老版联想笔记本电脑,内部没有硬盘,临时加装了1T的硬盘。 1u盘准备 准备u盘,大小大于16G。u盘作为系统盘时,需要将内部的其他文件备份,然后格式化。u盘格式化后,插入一款可以…

eNSP-OSPF协议其他区域不与骨干区域相连解决方法2

隧道技术 AR1 [ar1]int g0/0/0 [ar1-GigabitEthernet0/0/0]ip add 192.168.1.1 24 [ar1-GigabitEthernet0/0/0]quit [ar1]ospf [ar1-ospf-1]area 0 [ar1-ospf-1-area-0.0.0.0]net 192.168.1.0 0.0.0.255 [ar1-ospf-1-area-0.0.0.0]quit AR2 [ar2]int g0/0/0 [ar2-GigabitEthe…

父组件与子组件的属性透传

透传是vue中一种特性,官方的解释是:“透传 attribute”指的是传递给一个组件,却没有被该组件声明为 props 或 emits 的 attribute 或者 v-on 事件监听器。最常见的例子就是 class、style 和 id。这句话解释过来就是一些不被prop定义的属性直接…

信钰证券:这些板块,逆市走强!

A股商场今天上午出现调整,上证指数跌破3000点,不过跌幅不大。 新动力赛道股打开反弹,其间,锂矿概念股成为上午商场最大亮点,吉翔股份2连板,龙头股赣锋锂业暴升7.74%。风电股也震荡走强,威力传动…

Hadoop学习总结(搭建Hadoop集群(完全分布式模式))

学习搭建Hadoop集群(完全分布式模式) 链接:https://pan.baidu.com/s/1wwTKk-XxHbccHjE-Xk2PTA 提取码:q7j7 在SecurityCRT 或者在 Xshell 进行虚拟机链接 (这里使用Xshell ) 在hadoop001里配置 如果没…

【c#】Quartz开源任务调度框架学习及练习Demo

Quartz开源任务调度框架学习及练习Demo 1、定义、作用 2、原理 3、使用步骤 4、使用场景 5、Demo代码参考示例 6、注意事项 7、一些Trigger属性说明 1、定义、作用 Quartz是一个开源的任务调度框架,作用是支持开发人员可以定时处理业务,比如定时…

【C语言入门】C语言的历史 与 编程环境的安装选择与搭建

C语言入门 前言C语言的概念与历史一、什么是C语言?二、 C语言的历史与辉煌环境的选择三、编译器的选择 VS2022(一)编译和链接(二)编译器的对比(三)VS2022 的优缺点(四)VS…

解决 阿里云oss 对象存储 bucket 中的文件不能在线预览 只能下载

我的域名是在腾讯云的,所以点开腾讯云的域名解析后台。 点击添加记录; 记录类型选 CNAME;主机记录 随便写;解析线路 默认; 记录值 填你的bucketname 就是你存储文件的bucket的名字 然后 . 域名所在区域 北京就是oss-c…

SqueezeNet 一维,二维网络复现 pytorch 小白易懂版

SqueezeNet 时隔一年我又开始复现神经网络的经典模型,这次主要复的是轻量级网络全家桶,轻量级神经网络旨在使用更小的参数量,无限的接近大模型的准确率,降低处理时间和运算量,这次要复现的是轻量级网络的非常经典的一…

WebSocket 入门案例

目录 WebSocket入门案例WebSocket-server新增项目:添加依赖:yml:启动类: frontend-server前端项目:添加依赖:添加yml:启动类:前端引入JS:前端页面:后端代码:测试: WebSocket 入门案…

众和策略:地产板块发力走高,荣盛发展涨停,碧桂园等大幅拉升

地产板块20日盘中发力走高,到发稿,金科股份、荣盛展开涨停,中南建造、富丽家族涨超7%,华夏夸姣涨逾6%。 港服方面,内资地产股亦走强,到发稿,珠光控股涨超20%,碧桂园涨近10%&#xf…

PBA.常用人工智能预测分析算法

相同的数据型态,利用不同的方法分析,就可以解决不同的课题。例如目前已相当纯熟的人脸识别技术,在国防应用可以进行安保工作;企业可做员工门禁系统;可结合性别、年龄辨识让卖场进行市调分析,或结合追踪技术…

聚焦于先进电池技术等领域的前沿研究和应用,龙讯旷腾出席中国化学会第二届能源化学青年论坛

成都站电催化培训 2023年龙讯团队线下培训已走过北京、西安等城市,前几期均以定向邀请非公开的形式培训,应大家的积极号召,本期电催化成都站的培训我们将以公开招募的形式举办,并且保留前几期的优惠(前30位免费&#…

html网页代码块高亮加行号

程序示例精选 html网页代码块高亮加行号 如需安装运行环境或远程调试,见文章底部个人QQ名片,由专业技术人员远程协助! 前言 这篇博客针对《html网页代码块高亮加行号》编写代码,代码整洁,规则,易读。 学习…

shopee平台现在好做吗

Shopee 是一家知名的电子商务平台,特别在东南亚地区非常流行。是否在 Shopee 平台做生意是否好做取决于多种因素,包括你的产品、市场竞争、营销策略和运营能力等。 以下是一些考虑因素: 1、产品选择:选择畅销的产品或具有市场需求…