使用Python提取PDF文件中指定页面的内容

news2025/1/24 11:24:37

在日常工作和学习中,我们经常需要从PDF文件中提取特定页面的内容。在本篇文章中,我们将介绍如何使用Python编程语言和两个强大的库——pymupdfwxPython,来实现这个任务。

1. 准备工作

首先,确保你已经安装了以下两个Python库:

  • pymupdf:用于处理PDF文件的库,提供了读取、提取和创建PDF文件的功能。
  • wxPython:一个基于wxWidgets的Python包,用于创建跨平台的图形用户界面(GUI)应用程序。

你可以使用以下命令通过pip安装这两个库:

pip install pymupdf wxPython

2. 创建GUI应用程序

首先,我们将创建一个简单的GUI应用程序,它将允许用户选择要打开的PDF文件,并输入开始页码和结束页码。然后,点击"Extract"按钮将提取指定范围内的页面并将其保存为新的PDF文件。
D:\spiderdocs\splitPDFfromx2y.py

import fitz
import wx

class PDFExtractor(wx.Frame):
    def __init__(self, parent, title):
        super(PDFExtractor, self).__init__(parent, title=title, size=(400, 200))
        
        self.panel = wx.Panel(self)
        self.file_picker = wx.FilePickerCtrl(self.panel, style=wx.FLP_DEFAULT_STYLE | wx.FLP_USE_TEXTCTRL)
        self.start_page_input = wx.TextCtrl(self.panel)
        self.end_page_input = wx.TextCtrl(self.panel)
        self.extract_button = wx.Button(self.panel, label="Extract", size=(100, 30))
        
        self.extract_button.Bind(wx.EVT_BUTTON, self.extract_pages)
        
        self.sizer = wx.BoxSizer(wx.VERTICAL)
        self.sizer.Add(self.file_picker, 0, wx.EXPAND|wx.ALL, 10)
        self.sizer.Add(wx.StaticText(self.panel, label="Start Page:"), 0, wx.LEFT|wx.TOP, 10)
        self.sizer.Add(self.start_page_input, 0, wx.EXPAND|wx.ALL, 10)
        self.sizer.Add(wx.StaticText(self.panel, label="End Page:"), 0, wx.LEFT|wx.TOP, 10)
        self.sizer.Add(self.end_page_input, 0, wx.EXPAND|wx.ALL, 10)
        self.sizer.Add(self.extract_button, 0, wx.ALIGN_CENTER|wx.ALL, 10)
        
        self.panel.SetSizerAndFit(self.sizer)
        self.Show()
    
    def extract_pages(self, event):
        file_path = self.file_picker.GetPath()
        start_page = int(self.start_page_input.GetValue())
        end_page = int(self.end_page_input.GetValue())
        
        doc = fitz.open(file_path)
        output_doc = fitz.open()
        
        for page_num in range(start_page-1, end_page):
            output_doc.insert_pdf(doc, from_page=page_num, to_page=page_num)
        
        output_path = file_path.replace(".pdf", "_extracted.pdf")
        output_doc.save(output_path)
        output_doc.close()
        doc.close()
        
        wx.MessageBox("Extraction complete!", "Success", wx.OK | wx.ICON_INFORMATION)
        

app = wx.App()
PDFExtractor(None, title="PDF Extractor")
app.MainLoop()

3. 运行程序

将以上代码保存为一个Python脚本文件(例如pdf_extractor.py),然后运行脚本。你将看到一个简单的窗口,其中包含一个文件选择器、开始页码和结束页码的输入框,还有一个"Extract"按钮。

  • 点击文件选择器,选择要打开的PDF文件。
  • 在开始页码输入框
  • 在这里插入图片描述

4. 总结

在本篇文章中,我们学习了如何使用Python编程语言和pymupdfwxPython库来提取PDF文件中指定范围的页面内容。我们创建了一个简单的GUI应用程序,让用户能够选择要打开的PDF文件,并输入开始页码和结束页码。点击"Extract"按钮后,程序将提取指定范围内的页面,并将其保存为新的PDF文件。

这个示例展示了Python在处理PDF文件和创建GUI应用程序方面的强大能力。你可以根据需要对代码进行扩展和定制,以满足更具体的要求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1301616.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

软件无线电SDR-频谱采集python实现

sdr做的频谱采集,保存的500张频谱图,能看出来是什么东西吗?

SQL错题集2

1.插入记录 用户1001在2021年9月1日晚上10点11分12秒开始作答试卷9001,并在50分钟后提交,得了90分; 用户1002在2021年9月4日上午7点1分2秒开始作答试卷9002,并在10分钟后退出了平台。 2.请把exam_record表中2021年9月1日之前开始作…

2023 CCF中国软件大会(CCF ChinaSoft) “区块链可靠性分析”论坛成功召开

2023年12月1日上午,2023年度CCF中国软件大会区块链可靠性分析论坛成功召开。 本次论坛由中山大学郑子彬、澳门科技大学张涛、中科院软件所蔡彦和中山大学陈嘉弛四位老师联合组织举办。本论坛重点关注区块链可靠性,邀请了近年来在区块链可靠性研究方面有先…

JavaEE 08 线程池简介

前言 前面我们谈完了定时器,单例模式,阻塞队列等的操作并且做了模拟实现,今天我们再来说一说线程池的操作以及一些锁策略. 注:本章几乎均为理论篇,实践较少. 下面就让我们开始吧. 线程池 我们知道因为进程的频繁创建和销毁,带来的开销过大,我们无法接受,所以我们引入了更轻量级…

【rabbitMQ】springboot整合rabbitMQ模拟简单收发消息

目录 1.创建项目和模块 2.添加rabbitMQ依赖 3.启动rabbitMQ服务 4.引入rabbitMQ服务端信息 5.通过单元测试模拟业务发送消息 6. 接收消息 1.创建项目和模块 2.添加rabbitMQ依赖 <!-- rabbitmq依赖--> <dependency> <groupId>org.sp…

泊车功能专题介绍 ———— AVP系统技术要求之运动控制SOTIF

文章目录 运动控制要求车辆子系统控制系统配置要求车辆运动控制系统要求驱动系统制动系统驻车系统转向系统换档系统自动启停系统车联网系统车辆运行数据采集系统灯光系统门锁车窗系统续航里程车内HMI系统胎压监测系统无钥匙进入及启动系统雨刮系统空调系统安全系统电动后视镜系…

谈谈多模态大模型

引言 长期以来&#xff0c;每个机器学习模型都以一种数据模式运行——文本&#xff08;翻译、语言建模&#xff09;、图像&#xff08;对象检测、图像分类&#xff09;或音频&#xff08;语音识别&#xff09;。 然而&#xff0c;自然智能并不仅限于单一模态。人类可以阅读和…

计网Lesson8 - NAT技术与链路层概述

文章目录 NAT 技术1. 因特网的接入方式2. 公网和私网3. NAT 技术 链路层1. 数据链路层概述2. 数据链路层的三个问题2.1 封装成帧2.2 透明传输2.3 差错检测 NAT 技术 1. 因特网的接入方式 光猫将电信号转换为数字信号发送给路由器 光纤入户 光纤传递的就是数字信号&#xff0c…

AI智能雷达名片平台版小程序源码系统 附带完整的搭建教程

随着人工智能技术的快速发展&#xff0c;名片交往在商务社交中变得越来越重要。然而&#xff0c;传统的名片管理系统存在许多问题&#xff0c;如信息不准确、更新不及时、无法快速筛选等。为了解决这些问题&#xff0c;我们开发了AI智能雷达名片平台版小程序源码系统。该系统基…

UPCX:一个日本背景的区块链支付创新项目,面向全球的支付和金融服务市场

日本是区块链技术的发源地之一&#xff0c;也是全球区块链技术的领先国家之一。日本政府对区块链技术持积极支持的态度&#xff0c;制定了一系列的法律法规和政策措施&#xff0c;为区块链技术的发展提供了良好的环境和基础。日本国内各大金融机构和互联网公司等也在积极介入区…

基于SSM+MySQL学生宿舍管理系统的设计与实现(源码+数据库+文档)

摘 要 近年来&#xff0c;随着计算机技术的不断发展和运用&#xff0c;许多实际问题都得到了较好地解决。随着现代社会对企业经营的需求日益增长&#xff0c;企业的无纸办公也逐渐得到了推广。本学生宿舍管理系统的设计开发&#xff0c;目标就是解决宿舍管理复杂的人为管理&a…

【EI会议征稿】第三届光学与机器视觉国际学术会议(ICOMV 2024)

第三届光学与机器视觉国际学术会议(ICOMV 2024) 2024 3rd International Conference on Optics and Machine Vision 第三届光学与机器视觉国际学术会议(ICOMV 2024)将于2024年1月19-21日在中国南昌举行。本次会议将围绕“光学”与"机器视觉”等研究领域展开讨论&#xf…

系统架构设计师教程(三)信息系统基础知识

信息系统基础知识 3.1 信息系统概述3.1.1 信息系统的定义3.1.2 信息系统的发展3.1.3 信息系统的分类3.1.4 信息系统的生命周期3.1.5 信息系统建设原则3.1.6 信息系统开发方法 3.2 业务处理系统 (TPS)3.2.1 业务处理系统的概念3.2.2 业务处理系统的功能3.2.3 业务处理系统的特点…

springboot+ssm+java植物养护花卉花圃管理系统

花圃管理系统&#xff0c;主要的模块包括查看个人中心、游客管理、员工管理、植物种类管理、植物信息管理、植物绿化管理、花圃园区管理、商品服务管理、系统管理等功能。系统中管理员主要是为了安全有效地存储和管理各类信息&#xff0c;还可以对系统进行管理与更新维护等操作…

java--LocalDate、LocalTime、LocalDateTime、ZoneId、Instant

1.为什么要学习JDK8新增的时间 LocalDate&#xff1a;代表本地日期(年、月、日、星期) LocalTime&#xff1a;代表本地时间(时、分、秒、纳秒) LocalDateTime&#xff1a;代表本地日期、时间(年、月、日、星期、时、分、秒、纳秒) 它们获取对象的方案 2.LocalDate的常用API(…

Linux上的MAC地址欺骗

Linux上的MAC地址欺骗 1、查看mac地址法1&#xff1a;ifconfig法2&#xff1a;ip link show 2、临时性改变 MAC 地址法1&#xff1a;使用iproute2工具包法2&#xff1a;使用macchanger工具 3、永久性改变 MAC 地址3.1 在 Fedora、RHEL下实践3.2 在 Debian、Ubuntu、Linux Mint下…

ABAP ALV报表多个屏幕不共用一个布局的处理方法 (独立布局)<转载>

原文链接&#xff1a;https://zhuanlan.zhihu.com/p/592842221 问题描述&#xff1a; 自开发的ALV报表有多个屏幕&#xff0c;如果调整其中一个屏幕的默认布局&#xff0c;则会影响其他ALV界面的布局。 解决方法&#xff1a; 定义内表ls_variant DATA: ls_variant TYPE d…

EDA 数字时钟

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、数字时钟是什么&#xff1f;二、EDA里面数码管的显示1.元件模型2.参考程序3. 实验仿真波形4.实验现象5. 仿真问题 三、显示时钟1. 时钟电路模块2.参考程序3…

一些AG10K FPGA 调试的建议-Douglas

PLL AGM FPGA 在配置成功时&#xff0c;PLL 已经完成锁定&#xff0c;lock 信号已经变高&#xff1b;如果原设计中用 lock 信号输出实现系统 reset 的复位功能&#xff0c;就不能正确完成上电复位&#xff1b;同时&#xff0c;为了保证 PLL 相移的稳定&#xff0c;我们需要在 P…

Linux Component概述和高通component的使用

1 Linux为什么要引入Component框架&#xff1f; 为了让subsystem按照一定顺序初始化设备才提出来的。 subsystem中由很多设备模块&#xff0c;内核加载这些模块的时间不确定。子系统内有些模块是需要依赖其它模块先初始化才能进行自己初始化工作(例如v4l2 subdev和v4l2 video …