Python办公神器:教你如何快速分拆、删页、合并PDF文件

news2025/1/4 17:42:29

哈喽大家好,我是了不起,今天教你如何用Python快速分拆、删页、合并PDF文件

介绍

有时我们可能需要对PDF文件进行一些处理,例如分拆、删页、合并等。这些操作在一些专业的PDF软件中可能比较容易实现,但是如果我们想要用Python来自动化或批量处理这些操作呢?有没有什么简单而强大的Python库可以帮助我们呢?

答案是肯定的。在Python中,有一个叫做PyPDF2的库,它可以让我们用简单的代码来处理PDF文件。

在这篇教程中,我们将学习如何使用PyPDF2库来快速分拆、删页、合并PDF文件。我们将通过一些实际的例子来演示这些操作,并介绍一些常用的API和参数。在开始之前,我们需要先安装PyPDF2库。

安装

要安装PyPDF2库,我们可以使用pip命令:

pip install PyPDF2   

安装完成后,我们就可以在Python中导入PyPDF2库了:

import PyPDF2   

分拆

分拆(Split)是指将一个PDF文件分成多个小的PDF文件,每个小文件只包含原文件中的一部分页面。这样做的目的可能是为了方便管理或传输这些文件,或者只需要其中的某些页面。

要实现分拆操作,我们需要使用PyPDF2.PdfReader类来读取原始的PDF文件,并使用PyPDF2.PdfWriter类来创建新的PDF文件,并将需要的页面写入其中。下面是一个简单的例子:

# 读取原始的PDF文件
pdf_reader = PyPDF2.PdfReader("original.pdf")

# 获取原始文件中的总页数
total_pages = len(pdf_reader.pages)

# 创建一个空列表,用于存放新创建的PDF文件名
new_files = []

# 循环遍历每一页
for i in range(total_pages):
    # 创建一个新的PdfFileWriter对象
    pdf_writer = PyPDF2.PdfWriter()
    # 获取当前页对象
    page = pdf_reader.pages[i]
    # 将当前页对象添加到PdfFileWriter对象中
    pdf_writer.add_page(page)
    # 创建一个新的PDF文件名,格式为"original_页码.pdf"
    new_file = f"original_{i+1}.pdf"
    # 将新的PDF文件名添加到列表中
    new_files.append(new_file)
    # 打开一个新的PDF文件,以二进制写入模式
    with open(new_file, "wb") as f:
        # 将PdfFileWriter对象中的内容写入到新的PDF文件中
        pdf_writer.write(f)

# 打印出新创建的PDF文件名
print(new_files)

运行上面的代码,我们可以得到如下的输出:

['original_1.pdf', 'original_2.pdf', 'original_3.pdf', 'original_4.pdf', 'original_5.pdf']

这说明我们已经成功地将原始的PDF文件分拆成了5个小的PDF文件,每个文件只包含原始文件中的一 页。我们可以打开这些文件,查看它们的内容是否正确。

删页

删页(Delete)是指将一个PDF文件中的某些页面删除,只保留需要的页面。这样做的目的可能是为了减少文件的大小或去除不相关的内容。

要实现删页操作,我们也需要使用PyPDF2.PdfReader类来读取原始的PDF文件,并使用PyPDF2.PdfWriter类来创建新的PDF文件,并将需要保留的页面写入其中。不同的是,我们需要指定要删除的页面的索引或范围,并在循环遍历每一页时跳过这些页面。下面是一个简单的例子:

# 读取原始的PDF文件
pdf_reader = PyPDF2.PdfReader("original.pdf")

# 获取原始文件中的总页数
total_pages = len(pdf_reader.pages)

# 指定要删除的页面索引或范围,从0开始计数
delete_pages = [0, 2, 4]

# 创建一个新的PdfFileWriter对象
pdf_writer = PyPDF2.PdfWriter()

# 循环遍历每一页
for i in range(total_pages):
    # 如果当前页索引不在要删除的页面列表中,则保留该页
    if i not in delete_pages:
        # 获取当前页对象
        page = pdf_reader.pages[i]
        # 将当前页对象添加到PdfFileWriter对象中
        pdf_writer.add_page(page)

# 创建一个新的PDF文件名,格式为"original_deleted.pdf"
new_file = "original_deleted.pdf"

# 打开一个新的PDF文件,以二进制写入模式
with open(new_file, "wb") as f:
    # 将PdfFileWriter对象中的内容写入到新的PDF文件中
    pdf_writer.write(f)

# 打印出新创建的PDF文件名
print(new_file)

运行上面的代码,我们可以得到如下的输出:

original_deleted.pdf   

这说明我们已经成功地将原始的PDF文件中的第1、3、5页删除,只保留了第2、4页。我们可以打开新创建的PDF文件,查看它们的内容是否正确。

合并

合并(Merge)是指将多个PDF文件合并成一个大的PDF文件,包含所有原始文件中的所有页面。这样做的目的可能是为了整合或汇总相关的文档,或者方便查阅或打印。

要实现合并操作,我们需要使用PyPDF2.PdfMerger类来创建一个合并器对象,并使用它来添加和合并多个PDF文件。下面是一个简单的例子:

# 创建一个PdfMerger对象
pdf_merger = PyPDF2.PdfMerger()

# 创建一个空列表,用于存放要合并的PDF文件名
files_to_merge = []

# 循环遍历要合并的5个小文件
for i in range(5):
    # 获取当前小文件名,格式为"original_页码.pdf"
    file = f"original_{i+1}.pdf"
    # 将当前小文件名添加到列表中
    files_to_merge.append(file)
    # 用PdfFileReader对象打开当前小文件
    pdf_reader = PyPDF2.PdfReader(file)
    # 用PdfFileMerger对象添加当前小文件,append方法可以将所有页面添加到合并器中
    pdf_merger.append(pdf_reader)

# 创建一个新的PDF文件名,格式为"original_merged.pdf"
new_file = "original_merged.pdf"

# 打开一个新的PDF文件,以二进制写入模式
with open(new_file, "wb") as f:
    # 将PdfFileMerger对象中的内容写入到新的PDF文件中
    pdf_merger.write(f)

# 打印出新创建的PDF文件名
print(new_file)

运行上面的代码,我们可以得到如下的输出:

original_merged.pdf   

这说明我们已经成功地将5个小的PDF文件合并成了一个大的PDF文件,包含了原始文件中的所有页面。我们可以打开新创建的PDF文件,查看它们的内容是否正确。

总结

在这篇教程中,我们学习了如何使用PyPDF2库来快速分拆、删页、合并PDF文件。我们通过一些实际的例子来演示了这些操作,并介绍了一些常用的API和参数。PyPDF2库还有很多其他的功能和特性,例如旋转、裁剪、加密、解密、提取文本等,感兴趣的读者可以自行探索和尝试。希望这篇教程对你有所帮助,让你成为Python自动化办公高手!

关于Python学习指南

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

包括:Python激活码+安装包、Python web开发,Python爬虫,Python数据分析,人工智能、自动化办公等学习教程。带你从零基础系统性的学好Python!

👉Python所有方向的学习路线👈

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。(全套教程文末领取)

在这里插入图片描述

👉Python学习视频600合集👈

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

温馨提示:篇幅有限,已打包文件夹,获取方式在:文末

👉Python70个实战练手案例&源码👈

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉Python大厂面试资料👈

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

在这里插入图片描述

在这里插入图片描述

👉Python副业兼职路线&方法👈

学好 Python 不论是就业还是做副业赚钱都不错,但要学会兼职接单还是要有一个学习规划。

在这里插入图片描述

👉 这份完整版的Python全套学习资料已经上传,朋友们如果需要可以扫描下方CSDN官方认证二维码或者点击链接免费领取保证100%免费

点击免费领取《CSDN大礼包》:Python入门到进阶资料 & 实战源码 & 兼职接单方法 安全链接免费领取

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1258603.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++STL——string类详解及其模拟实现

CSTL——string类 1. STL简介 STL全称standard template libaray,译为标准模板库 需要注意,STL不是C的标准库,而是C标准库的重要组成部分STL是一个包含众多数据结构和算法的软件框架 下面展示STL的六大组件: 本章,我…

强化学习中的深度Q网络

深度 Q 网络(Deep Q-Network,DQN)是一种结合了深度学习和强化学习的方法,用于解决离散状态和离散动作空间的强化学习问题。DQN 的核心思想是使用深度神经网络来近似 Q 函数,从而学习复杂环境中的最优策略。 以下是 DQN…

二叉树进阶OJ题

目录 一、前序遍历非递归 二、中序遍历非递归 三、后序遍历非递归 四、二叉树转链表 五、二叉树的最近公共祖先 六、二叉树的层序遍历1 七、二叉树的层序遍历2 一、前序遍历非递归 题目描述:写出二叉树前序遍历的非递归形式。 链接:前序遍历 思…

css之svg 制作圆及旋转

1.代码 <template><div class"loading-box"><div class"circle-container"><svg width"75" height"75" class"move-left-to-right"><circle cx"37.5" cy"37.5" r"26&…

leetcode42接雨水问题

接雨水 题目描述 题目分析 核心思想&#xff1a; 代码 java版本&#xff1a; package com.pxx.leetcode.trapRainWaterDoublePoniter;public class Solution1 {public int trap(int[] height) {if (height.length 0) {return 0;}int n height.length;int left 0;int righ…

Linux之高级IO

目录 IO基本概念五种IO模型钓鱼人例子五种IO模型高级IO重要概念同步通信 VS 异步通信阻塞 VS 非阻塞其他高级IO阻塞IO非阻塞IO IO基本概念 I/O&#xff08;input/output&#xff09;也就是输入和输出&#xff0c;在著名的冯诺依曼体系结构当中&#xff0c;将数据从输入设备拷贝…

2023亚马逊云科技re:Invent,与全球合作伙伴探索更多发展可能

一年一度的全球云计算、科技圈的狂欢“Party”又双叒叕要来了&#xff01;2023年11月27日&#xff0c;2023亚马逊云科技re:Invent正式向全球云计算从业者、合作伙伴发出邀请&#xff0c;相聚拉斯维加斯&#xff0c;共同开启一场创新探索之旅&#xff01; 全球合作伙伴相约拉斯维…

ffmpeg开发 环境配置

ffmpeg开发简图 1 下载ffmpeg开发包 https://ffmpeg.org/download.html 包含三个版本&#xff1a;Static、Shared以及Dev Static --- 包含3个应用程序&#xff1a;ffmpeg.exe , ffplay.exe , ffprobe.exe&#xff0c;体积都很大&#xff0c;相关的DLL已经被编译到exe里面去…

【Java】ThreadPoolExecutor类参数简述

ThreadPoolExecutor类继承自AbstractExecutorService类&#xff0c;而AbstractExecutorService实现了ExecutorService接口 ThreadPoolExecutor类是Executor类中重要的实现类 1、ThreadPoolExecutor构造方法参数 在手册中&#xff0c; 一共有四种参数列表不同的构造方法。我们…

【文末送书】程序员如何化解35岁危机?

欢迎关注博主 Mindtechnist 或加入【智能科技社区】一起学习和分享Linux、C、C、Python、Matlab&#xff0c;机器人运动控制、多机器人协作&#xff0c;智能优化算法&#xff0c;滤波估计、多传感器信息融合&#xff0c;机器学习&#xff0c;人工智能等相关领域的知识和技术。关…

网易云音频数据如何爬取?

在当今数字化时代&#xff0c;音频数据的获取和处理变得越来越重要。本文将详细介绍如何使用Objective-C语言构建音频爬虫程序&#xff0c;以爬取网易云音乐为案例。我们将从Objective-C的基础知识开始&#xff0c;逐步深入到爬取思路分析、构建爬虫框架、完整爬取代码等方面&a…

android trace文件的抓取与查看方法

本地手机抓取trace 解压android trace文件的抓取与查看方法 找到config.pbtx文件&#xff0c;连接手机push进去 # push config.pbtx &#xff0c;/data/local/tmp/为自定义push到的目录 adb push config.pbtx /data/local/tmp/ adb shell # 抓取trace&#xff0c; /data/loc…

Redis原理之五种数据类型笔记

目录 String List Set ZSet ​ Hash String List Set ZSet Hash

CTF图片隐写

1.题目给出的zip文件给出提示如下。 2.用 ARCHPR爆破出密码。 3.解压后发现1.png&#xff0c;为图片隐写。 4.使用010editor打开图片&#xff0c;发现缺少png文件头。 010editor官方下载链接&#xff1a;sweetscape.com/download/010editor/ 5.添加文件头保存。 6.使用图片隐写…

vue3+highlight.js代码高亮插件使用

先安装 npm install highlight.jsmain.js中引入&#xff0c;并注册自定义指令 ..... import hljs from highlight.js window.hljs hljs import highlight.js/styles/atom-one-light.css import highlight.js/lib/common import mitt from mitt .....app.directive(highlight…

HTML5+CSS3+JS小实例:九宫格图片鼠标移入移出方向感知特效

实例:九宫格图片鼠标移入移出方向感知特效 技术栈:HTML+CSS+JS 效果: 源码: 【HTML】 <!DOCTYPE html> <html><head><meta http-equiv="content-type" content="text/html; charset=utf-8"><meta name="viewport&…

鲲鹏测评:电视盒子什么品牌好?双十二口碑电视盒子品牌排行榜

最近我们收到很多网友的私信不知道电视盒子怎么选&#xff0c;想要我们推荐双十二值得入手的电视盒子&#xff0c;本年度我们已经共计测评过18款电视盒子&#xff0c;通过对比测评结果&#xff0c;我们整理了电视盒子品牌排行榜&#xff0c;双十二想买电视盒子的朋友们可不要错…

充电桩绝缘检测原理与示例

1、背景 充电桩绝缘检测是保证电动车充电安全的重要环节&#xff0c;通过对充电桩绝缘检测单租的测量和评估&#xff0c;来判断充电桩是否存在漏电等安全隐患&#xff0c;从而保证用户及周围环境的电器安全。 绝缘电阻&#xff1a;是指在特定的条件下&#xff0c;电气设备与接…

【Python数据结构与算法】--- 递归算法的应用 ---[乌龟走迷宫] |人工智能|探索扫地机器人工作原理

&#x1f308;个人主页: Aileen_0v0 &#x1f525;系列专栏:PYTHON数据结构与算法学习系列专栏&#x1f4ab;"没有罗马,那就自己创造罗马~" 目录 导言 解决过程 1.建立数据结构 2.探索迷宫: 算法思路 递归调用的“基本结束条件” 3.乌龟走迷宫的实现代码: …

【兔子王赠书第9期】ChatGPT进阶:提示工程入门

文章目录 写在前面ChatGPT推荐图书关键点编辑推荐内容简介推荐理由 粉丝福利写在后面 写在前面 人类一直在寻找、制造并使用工具&#xff0c;以扩展我们的能力&#xff0c;适应我们的环境&#xff0c;甚至超越我们的生物限制。现在&#xff0c;我们正站在一个历史性的分水岭之…