Python知识点:使用Python进行PDF文档处理

news2024/9/17 3:58:47

使用 Python 进行 PDF 文档处理可以通过多种库来实现,包括 PyPDF2pdfplumberreportlabpdfminer 等。这些库可以处理不同的 PDF 任务,例如 提取文本拆分合并 PDF修改 PDF生成 PDF 等。以下是几种常见操作及对应的库和代码示例。

1. 安装常用库

首先,安装常用的 PDF 处理库:

pip install PyPDF2 pdfplumber reportlab

2. 提取 PDF 文本

PyPDF2pdfplumber 都可以用于提取 PDF 文本。PyPDF2 更轻量,但有时处理复杂的 PDF 格式效果较差,而 pdfplumber 更加适合处理表格等复杂结构的 PDF。

使用 PyPDF2 提取文本
import PyPDF2

# 打开 PDF 文件
with open('sample.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    
    # 提取每一页的文本
    for page_num in range(len(reader.pages)):
        page = reader.pages[page_num]
        text = page.extract_text()
        print(f"第 {page_num + 1} 页的文本:\n{text}")
使用 pdfplumber 提取文本

pdfplumber 更适合处理结构化数据,尤其是表格。

import pdfplumber

# 打开 PDF 文件
with pdfplumber.open('sample.pdf') as pdf:
    for page_num in range(len(pdf.pages)):
        page = pdf.pages[page_num]
        text = page.extract_text()
        print(f"第 {page_num + 1} 页的文本:\n{text}")

3. 合并与拆分 PDF 文件

使用 PyPDF2 合并 PDF 文件

可以将多个 PDF 文件合并为一个文件。

import PyPDF2

pdf_files = ['file1.pdf', 'file2.pdf', 'file3.pdf']
merger = PyPDF2.PdfMerger()

for pdf in pdf_files:
    merger.append(pdf)

# 保存合并后的 PDF 文件
with open('merged_output.pdf', 'wb') as output_file:
    merger.write(output_file)
使用 PyPDF2 拆分 PDF 文件

将 PDF 文件拆分为单独的页面。

import PyPDF2

# 打开 PDF 文件
with open('sample.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    
    # 按页拆分并保存
    for page_num in range(len(reader.pages)):
        writer = PyPDF2.PdfWriter()
        writer.add_page(reader.pages[page_num])
        
        with open(f'split_page_{page_num + 1}.pdf', 'wb') as output_file:
            writer.write(output_file)

4. 创建和修改 PDF

使用 ReportLab 创建 PDF 文件

reportlab 是一个功能强大的库,可以用来生成新的 PDF 文件,支持插入文本、图片、图形等。

from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas

# 创建 PDF 文件
c = canvas.Canvas("output.pdf", pagesize=letter)
c.drawString(100, 750, "Hello, this is a PDF created with ReportLab!")

# 创建矩形
c.rect(100, 700, 400, 100)

# 保存 PDF
c.showPage()
c.save()
使用 ReportLab 插入图片

你可以使用 reportlab 插入图片到 PDF 中。

from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas

c = canvas.Canvas("output_with_image.pdf", pagesize=letter)
c.drawString(100, 750, "This is a PDF with an image:")

# 插入图片
c.drawImage("image.png", 100, 600, width=200, height=150)

c.showPage()
c.save()

5. 提取 PDF 表格

pdfplumber 提供了提取 PDF 中表格的功能,非常适合处理含有表格的文档。

import pdfplumber

# 打开 PDF 文件
with pdfplumber.open('table_sample.pdf') as pdf:
    first_page = pdf.pages[0]
    
    # 提取表格数据
    tables = first_page.extract_table()
    
    # 打印提取到的表格数据
    for row in tables:
        print(row)

6. PDF 文档加密与解密

使用 PyPDF2 加密 PDF 文件

你可以加密 PDF 文件,防止未经授权的访问。

import PyPDF2

# 打开 PDF 文件
with open('sample.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    writer = PyPDF2.PdfWriter()

    for page_num in range(len(reader.pages)):
        writer.add_page(reader.pages[page_num])

    # 设置密码
    writer.encrypt(user_password='user123', owner_password='owner123')

    with open('encrypted_output.pdf', 'wb') as output_file:
        writer.write(output_file)
使用 PyPDF2 解密 PDF 文件

如果 PDF 文件已加密,解密并提取文本的方法如下:

import PyPDF2

# 打开加密的 PDF 文件
with open('encrypted_output.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    
    # 提供密码
    reader.decrypt('user123')
    
    # 提取文本
    for page_num in range(len(reader.pages)):
        page = reader.pages[page_num]
        print(page.extract_text())

7. PDF 页面旋转

你可以旋转 PDF 的某些页面,以下是旋转页面的示例:

import PyPDF2

# 打开 PDF 文件
with open('sample.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    writer = PyPDF2.PdfWriter()
    
    # 旋转每页 90 度
    for page in reader.pages:
        page.rotate_clockwise(90)
        writer.add_page(page)
    
    # 保存旋转后的 PDF 文件
    with open('rotated_output.pdf', 'wb') as output_file:
        writer.write(output_file)

总结

Python 提供了多个强大的库来处理 PDF 文档。根据具体需求,选择适合的库来完成任务:

  • PyPDF2:适合基本的 PDF 操作,如合并、拆分、加密、旋转等。
  • pdfplumber:适合复杂的文本和表格提取。
  • reportlab:用于生成和修改 PDF 文件,支持文本、图像和图形的绘制。

通过这些工具,你可以轻松地处理 PDF 文档的各种操作,从文本提取到生成和修改文档。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2114889.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ICM20948 DMP代码详解(7)

接前一篇文章:ICM20948 DMP代码详解(6) 上一回讲解了EMP-App中的入口函数main()中重点关注的第2段代码的前一个函数inv_icm20948_reset_states,本回讲解后一个函数inv_icm20948_register_aux_compass。 为了便于理解和回顾&#…

mipi协议:多通道分配和合并

Multi-Lane Distribution and Merging: CSI-2 是一个通道可扩展的规范。对于需要比单个数据通道提供更多带宽的应用,或者那些希望避免高时钟频率的应用,可以通过增加数据通道的数量来扩展数据路径,从而近似线性地提高总线的峰值带宽。为了确保…

CocosCreator中使用protobuf

(前提) 工欲善其事,必先利其器. 要想在CocosCreator中使用protobuf,我们首先要安装NodeJs.安装教程可参考Node.js安装及环境配置详细教程_nodejs安装及环境配置-CSDN博客,已经很详细了.NodeJs自带npm, 我们要用npm下载protobufjs.可能你会问npm是什么? npm是NodeJs自带的包管理…

spring中添加@Test注解测试

1、添加maven依赖 <!-- 添加test方便测试--><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.13.2</version><scope>test</scope></dependency><dependency><grou…

如何将卷积神经网络(CNN)应用于医学图像分析:从分类到分割和检测的实用指南

引言 在现代医疗领域,医学图像已经成为疾病诊断和治疗规划的重要工具。医学图像的类型繁多,包括但不限于X射线、CT(计算机断层扫描)、MRI(磁共振成像)和超声图像。这些图像提供了对身体内部结构的详细视图,有助于医生在进行准确诊断和制定个性化治疗方案时获取关键的信…

如何利用评论进行有效的 ASO

如何利用评论进行有效的ASO的问题的答案通常以“正面评论”一词开始。确实&#xff0c;这句话首先浮现在脑海中。但这个问题的答案包括负面评论、用户体验、提高知名度、评分、根据评论优化应用程序以及许多其他有趣的点。这里几乎没有无聊的统计数据&#xff0c;这些数字也不会…

Qt-常用控件(3)-多元素控件、容器类控件和布局管理器

1. 多元素控件 Qt 中提供的多元素控件有: QListWidgetQListViewQTableWidgetQTableViewQTreeWidgetQTreeView xxWidget 和 xxView 之间的区别&#xff0c;以 QTableWidget 和 QTableView 为例. QTableView 是基于 MVC 设计的控件.QTableView 自身不持有数据,使用 QTableView 的…

lamp的脚本部署

l是linux,a是apache,m是mysql&#xff0c;p是php。最基本的动态网页搭建。语法后面再补几篇&#xff0c;现在先写吧。 一、环境准备 1.1、rocklinux换源&#xff0c;关掉防火墙&#xff0c;selinux&#xff0c;时间同步 #cp rocky* /a # 阿里 sed -e s|^#mirrorlist|mirro…

windows10 卸载网络驱动以及重新安装

右键桌面此电脑的图标&#xff0c;点击管理&#xff0c;设备管理器—网络适配器&#xff0c;找到下图中的驱动&#xff08;不同的系统或者显卡会导致网卡驱动名称与下图不一样&#xff0c;多为Realtek开头&#xff09;&#xff0c;右键选择卸载设备&#xff0c;然后重启电脑&am…

LabVIEW软件,如何检测连接到的设备?

在LabVIEW软件中&#xff0c;检测连接到的设备通常是通过NI提供的硬件驱动和相关工具来完成的。以下是几种常见的检测设备的方法&#xff1a; 1. 使用NI MAX&#xff08;Measurement & Automation Explorer&#xff09; 打开NI MAX&#xff1a;LabVIEW设备管理通常通过NI …

【软件文档】软件系统需求管理规程(项目管理word原件)

软件资料清单列表部分文档清单&#xff1a;工作安排任务书&#xff0c;可行性分析报告&#xff0c;立项申请审批表&#xff0c;产品需求规格说明书&#xff0c;需求调研计划&#xff0c;用户需求调查单&#xff0c;用户需求说明书&#xff0c;概要设计说明书&#xff0c;技术解…

网络学习-eNSP配置路由器

#PC1网关&#xff1a;192.168.1.254 #PC3网关&#xff1a;192.168.3.254 #PC4网关&#xff1a;192.168.4.254# 注&#xff1a;路由器接口必须配置不同网段IP地址 <Huawei>system-view Enter system view, return user view with CtrlZ. #给路由器两个接口配置IP地址 [Hua…

【Kubernetes】K8s 的安全框架和用户认证

K8s 的安全框架和用户认证 1.Kubernetes 的安全框架1.1 认证&#xff1a;Authentication1.2 鉴权&#xff1a;Authorization1.3 准入控制&#xff1a;Admission Control 2.Kubernetes 的用户认证2.1 Kubernetes 的用户认证方式2.2 配置 Kubernetes 集群使用密码认证 Kubernetes…

基于springboot+vue+uniapp的“共享书角”图书借还管理系统小程序

开发语言&#xff1a;Java框架&#xff1a;springbootuniappJDK版本&#xff1a;JDK1.8服务器&#xff1a;tomcat7数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;eclipse/myeclipse/ideaMaven包&#…

天翼云存储资源盘活系统 HBlock:企业级轻量存储的革新与实战

目录 前言关于HBlock系统HBlock的核心优势番外篇&#xff1a;HBlock应用场景结束语参考文献 前言 在数字化转型的浪潮中&#xff0c;数据存储作为支撑企业业务连续性和数据安全的基石&#xff0c;企业对于存储资源的需求日益增长&#xff0c;同时也面临着成本控制和资源优化的…

常见监督学习算法学习总结。

目录 一、K临近算法 二、决策树 三、多层感知器 四、伯努利贝叶斯算法 五、高斯贝叶斯 一、K临近算法 K 临近算法&#xff08;K-Nearest Neighbors&#xff0c;简称 KNN&#xff09;是一种监督学习算法&#xff0c;用于分类和回归任务。 它通过计算样本之间的距离来进行…

前端开发中遇到的小问题以及解决方案记录2

1、H5中适配屏幕的工具-postcss-px-to-viewport postcss-px-to-viewport。因为设计稿一般给的都是375px宽度的&#xff0c;所以假如一个字体是16px&#xff0c;那么在开发中不能直接写死为16px&#xff0c;因为各个厂商的手机屏幕大小是不同的&#xff0c;所以要根据屏幕大小去…

一款支持同一个屏幕界面同时播放多个视频的视频播放软件

GridPlayer 是一款基于 VLC 的免费开源跨平台多视频同步播放工具&#xff0c;支持在一块屏幕上同时播放多个视频。其主要功能包括&#xff1a; 多视频播放&#xff1a;用户可以在一个窗口中同时播放任意数量的视频&#xff0c;数量仅受硬件性能限制。支持多种格式和流媒体&…

半年高达552亿元,锁定云第一,中国电信天翼云紧追不舍

【科技明说 &#xff5c; 科技热点关注】 刚才我注意到中国电信公布2024年中期业绩&#xff0c;报告期内&#xff0c;中国电信实现营业收入为人民币2660亿元&#xff0c;同比增长2.8%&#xff0c;其中服务收入为人民币2462亿元&#xff0c;同比增长4.3%&#xff1b;净利润为人民…

python内置模块datetime.datetime类详细介绍

Python的datetime模块是一个强大的日期和时间处理库&#xff0c;它提供了多个类来处理日期和时间。主要包括几个功能类datetime.date、datetime.time、datetime.datetime、datetime.timedelta,datetime.timezone等。 总结&#xff1a; datetime类的功能函数众多&#xff0c;大…