使用PyMuPDF库的PDF合并和分拆程序

news2024/11/13 14:40:17

PDF工具应用程序是一个使用wxPython和PyMuPDF库编写的简单工具,用于合并和分拆PDF文件。它提供了一个用户友好的图形界面,允许用户选择源文件夹和目标文件夹,并对PDF文件进行操作。
C:\pythoncode\blog\pdfmergandsplit.py
在这里插入图片描述

功能特点

  • 选择文件夹:用户可以通过应用程序界面轻松选择源文件夹和目标文件夹。
  • 合并PDF文件:应用程序允许用户选择要合并的PDF文件,并将它们合并成一个单独的PDF文件。
  • 分拆PDF文件:用户可以选择一个PDF文件,将其分拆成多个单独的PDF文件,每个文件包含一个页面。

程序实现

该应用程序使用了以下库和模块:

  • wxPython:用于创建应用程序的图形用户界面。
  • PyMuPDF:用于处理PDF文件的库。

应用程序的主要部分是一个继承自wxPython的wx.Frame类的主窗口。窗口包含以下组件:

  • 选择源文件夹和目标文件夹的按钮。
  • PDF文件列表框,显示源文件夹中的PDF文件。
  • 合并和分拆按钮,用于执行相应的操作。

当用户点击选择源文件夹按钮时,应用程序显示一个文件夹选择对话框,用户可以选择源文件夹。选择后,应用程序获取文件夹路径,并列出文件夹中的PDF文件。然后,合并和分拆按钮变为可用状态,用户可以执行相应的操作。

合并按钮的点击事件会弹出一个文本输入对话框,要求用户输入合并后的文件名。用户输入后,应用程序调用PyMuPDF库合并选定的PDF文件,并将合并后的PDF文件保存到目标文件夹中。

分拆按钮的点击事件会遍历选定的PDF文件,并使用PyMuPDF库将每个页面保存为单独的PDF文件。

代码示例

以下是应用程序的代码示例:

import os
import wx
import fitz

class PDFToolApp(wx.Frame):
    def __init__(self, parent, title):
        super(PDFToolApp, self).__init__(parent, title=title, size=(400, 400))

        self.panel = wx.Panel(self)
        self.source_folder_btn = wx.Button(self.panel, -1, "选择源文件夹")
        self.target_folder_btn = wx.Button(self.panel, -1, "选择目标文件夹")
        self.pdf_list = wx.CheckListBox(self.panel, -1, choices=[], style=wx.LB_MULTIPLE)
        self.merge_btn = wx.Button(self.panel, -1, "合并")
        self.split_btn = wx.Button(self.panel, -1, "分拆")
        self.merge_btn.Disable()
        self.split_btn.Disable()

        self.source_folder_btn.Bind(wx.EVT_BUTTON, self.on_select_source_folder)
        self.target_folder_btn.Bind(wx.EVT_BUTTON, self.on_select_target_folder)
        self.merge_btn.Bind(wx.EVT_BUTTON, self.on_merge)
        self.split_btn.Bind(wx.EVT_BUTTON, self.on_split)

        sizer = wx.BoxSizer(wx.VERTICAL)
        sizer.Add(self.source_folder_btn, 0, wx.ALIGN_CENTER | wx.ALL, 10)
        sizer.Add(self.target_folder_btn, 0, wx.ALIGN_CENTER | wx.ALL, 10)
        sizer.Add(self.pdf_list, 1, wx.EXPAND | wx.ALL, 10)
        sizer.Add(self.merge_btn, 0, wx.ALIGN_CENTER | wx.ALL, 10)
        sizer.Add(self.split_btn, 0, wx.ALIGN_CENTER | wx.ALL, 10)
        self.panel.SetSizer(sizer)

        self.Show()

    def on_select_source_folder(self, event):
        dlg = wx.DirDialog(self, "选择源文件夹", style=wx.DD_DEFAULT_STYLE)
        if dlg.ShowModal() == wx.ID_OK:
            source_folder_path = dlg.GetPath()
            self.pdf_list.Set(self.get_pdf_files(source_folder_path))
            self.merge_btn.Enable()
            self.split_btn.Enable()
        dlg.Destroy()

    def on_select_target_folder(self, event):
        dlg = wx.DirDialog(self, "选择目标文件夹", style=wx.DD_DEFAULT_STYLE)
        if dlg.ShowModal() == wx.ID_OK:
            self.target_folder_path = dlg.GetPath()
        dlg.Destroy()

    def on_merge(self, event):
        selected_items = self.pdf_list.GetCheckedItems()
        if len(selected_items) > 0:
            dlg = wx.TextEntryDialog(self, "请输入合并后的文件名(不带扩展名):", "合并文件")
            if dlg.ShowModal() == wx.ID_OK:
                output_filename = dlg.GetValue()
                output_filepath = os.path.join(self.target_folder_path, output_filename + ".pdf")
                self.merge_pdfs(selected_items, output_filepath)
                wx.MessageBox("PDF文件合并完成!", "完成", wx.OK | wx.ICON_INFORMATION)
            dlg.Destroy()

    def on_split(self, event):
        selected_items = self.pdf_list.GetCheckedItems()
        if len(selected_items) > 0:
            for index in selected_items:
                pdf_filename = self.pdf_list.GetString(index)
                pdf_filepath = os.path.join(self.target_folder_path, pdf_filename)
                self.split_pdf(pdf_filename, pdf_filepath)
            wx.MessageBox("PDF文件分拆完成!", "完成", wx.OK | wx.ICON_INFORMATION)

    def merge_pdfs(self, selected_items, output_filepath):
        pdf_merger = fitz.open()

        for index in selected_items:
            pdf_filename = self.pdf_list.GetString(index)
            pdf_filepath = os.path.join(self.target_folder_path, pdf_filename)
            pdf = fitz.open(pdf_filepath)
            pdf_merger.insert_pdf(pdf)

        pdf_merger.save(output_filepath)
        pdf_merger.close()

    def split_pdf(self, pdf_filename, pdf_filepath):
        pdf = fitz.open(pdf_filepath)
        num_pages = pdf.page_count

        for i in range(num_pages):
            output_filename = f"{pdf_filename[:-4]}_{i+1}.pdf"
            output_filepath = os.path.join(self.target_folder_path, os.path.basename(output_filename) )
            print("output_filename:"+output_filename)
            page = pdf[i]
            new_pdf = fitz.open()
            new_pdf.insert_pdf(pdf, from_page=i, to_page=i)
            new_pdf.save(output_filepath)
            print("self.target_folder_path:"+self.target_folder_path)
            print("output_filepath:"+output_filepath)
            new_pdf.close()

        pdf.close()

    def get_pdf_files(self, folder_path):
        pdf_files = []
        for filename in os.listdir(folder_path):
            if filename.endswith(".pdf"):
                pdf_files.append(folder_path+'/'+filename)
        return pdf_files

if __name__ == "__main__":
    app = wx.App()
    PDFToolApp(None, "PDF工具")
    app.MainLoop()

总结

PDF工具应用程序是一个使用wxPython和PyMuPDF库编写的简单实用工具,可用于合并和分拆PDF文件。它提供了一个直观的图形界面,使用户能够轻松选择文件夹和执行操作。无论是处理大量PDF文件还是简单的分拆操作,该应用程序都能满足用户的需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/888332.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

高速数据采集卡---AD采集FMC子卡模块产品资料下载

FMC152是一款基于VITA57.1标准的,实现2路14-bit、2GSPS/2.6GSPS/3GSPS AD采集FMC子卡模块。该模块可直接与FPGA载卡配合使用,板卡ADC器件采用ADI公司的AD9208芯片,与ADI公司的AD9689可以实现PIN脚兼容。该模块全功率模拟输入带宽(…

【FAQ】安防监控视频云存储平台EasyNVR频繁离线的原因排查与解决

有用户反馈,在使用EasyNVR时会出现通道频繁离线的情况。针对该反馈我们立即进行了排查。 安防视频监控汇聚EasyNVR视频集中存储平台,是基于RTSP/Onvif协议的安防视频平台,可支持将接入的视频流进行全平台、全终端分发,分发的视频流…

(二)结构型模式:6、外观模式(Facade Pattern)(C++实例)

目录 1、外观模式(Facade Pattern)含义 2、外观模式的UML图学习 3、外观模式的应用场景 4、外观模式的优缺点 5、C实现外观模式的简单实例 1、外观模式(Facade Pattern)含义 外观模式(Facade Pattern)…

气象监测设备——分类与应用

气象监测设备多种多样,不同的应用场景选择适合的气象监测设备才能事半功倍。 在植保站中,可以 选择农林植保小气候气象站,它可以帮助植保站的工作人员完成气象监测工作,对天气环境进行预报预测,为植物的健康生长提供保…

Windows系统如何查看端口被占用程序和停止占用端口程序

windows系统如何查看端口被占用程序和停止占用端口程序,以及windows常用的网络命令详解 打开命令窗口 电脑右下方,搜索框,输入“cmd”,回车打开dos命令窗口 查看系统所有被占用的端口命令 netstat -ano 查看指定端口是否被占用命令 netst…

CS144 计算机网络 Lab1:Stream Reassembler

前言 上一篇博客中我们完成了 Lab0,使用双端队列实现了一个字节流类 ByteStream,可以向字节流中写入数据并按写入顺序读出数据。由于网络环境的变化,发送端滑动窗口内的数据包到达接收端时可能失序,所以接收端收到数据之后不能直…

Windows Server --- RDP远程桌面服务器激活和RD授权

RDP远程桌面服务器激活和RD授权 一、激活服务器二、设置RD授权 系统:Window server 2008 R2 服务:远程桌面服务 注:该方法适合该远程桌面服务器没网络状态下(离线),激活服务器。 一、激活服务器 1.打开远…

Spring学习笔记之Bean的循环依赖问题

文章目录 什么是Bean的循环依赖singleton下的set注入产生的循环依赖prototype下的set注入产生的循环依赖singleton下的构造注入产生的循环依赖Spring解决循环循环的机理(面试题) 什么是Bean的循环依赖 A对象中有B属性。B对象中有A属性。这就是循环依赖。…

leetcode 1614.括号的最大嵌套深度

⭐️ 题目描述 🌟leetcode链接:括号的最大嵌套深度 ps: 使用数据结构栈来存储 ( 在使用 maxDepth 变量记录栈顶 top 的最大值,当遇到 ) 时删除栈顶元素。举个例子 (1)((2))(((3))),当遇到第一个 ( 时 top 1&#xff…

对dubbo的DubboReference.check的参数进行剖析

背景 在使用dubbo的时候,发现当消费者启动的时候,如果提供者没有启动,即使提供者后来启动了,消费者也调不通提供者提供的接口了。 注册中心使用都是nacos dubbo版本是3.0.4 例子 接口 public interface DemoService {String…

中期国际:外汇交易的利器:善用挂单技巧优化交易策略

在外汇交易中,挂单技巧是提高交易效率和灵活性的重要利器之一。善用限价单和止损单可以帮助交易者有效规避风险、控制入场点和出场点,从而提高交易效果。本文将介绍一些MT4挂单技巧,以帮助交易者优化交易策略,提高交易效率。 1. 了…

猿辅导设立“青少年科学探索基金”,鼓励天才少年投入科学研究

“少年智则国智,少年富则国富,少年强则国强。”国家发展离不开人才的培养。伴随我国进入高质量发展轨道,科学、人才、教育三位一体融合发展已经刻不容缓。我国基础学科人才紧缺成了不争的事实。目前,中国的GDP目前已是世界第二位&…

nginx创建和监听套接字分析

https://cloud.tencent.com/developer/article/1859856 简介 nginx作为一个web服务器,肯定是有listen套接字对外提供服务的,listen套接字是用于接收HTTP请求。 nginx监听套接字的创建是根据配置文件的内容来创建的,在nginx.conf文件中有…

视频音乐如何转换成mp3?教你超简单的转换方法

MP3文件通常比视频文件更小。因此,通过将音乐从视频中提取并转换为MP3格式,您可以更轻松地存储和传输它们。如果计划在手机或其他设备上存储音乐,转换为MP3格式可以帮助我们节省存储空间。而且,如果需要将音乐发送给朋友或上传到互…

基于JAVA高校校园点餐系统-lw+ppt

文章目录 前言一、主要技术javaMysql数据库JSP技术 二、系统设计1. 系统结构图 三、功能截图总结 前言 21世纪的今天,随着社会的发展与进步,人们对信息科学的认识已从低层次提升到高层次,从感性认识逐渐转变为理性认识。管理工作的重要性也逐…

新生录取查询系统怎么制作?

在制作新生录取查询系统前,先跟老师们介绍一下招生录取的详细流程,以便老师们更好的完成录取工作的筹备,顺利过渡招生季! 1. 招生宣传和报名:学校通过各种途径进行招生宣传,向学生和家长介绍学校的特色、教…

图数据库_Neo4j学习cypher语言_常用函数_关系函数_字符串函数_聚合函数_数据库备份_数据库恢复---Neo4j图数据库工作笔记0008

然后再来看一些常用函数,和字符串函数,这里举个例子,然后其他的 类似 可以看到substring字符串截取函数 可以看到截取成功 聚合函数 这里用了一个count(n) 统计函数,可以看到效果 关系函数,我们用过就是id(r) 可以取出对应的r的id来这样..

北京影视展BIRTV 2023亮点提前盘点

2023年8月23-26日,“融合创新 面向未来”——由国家广播电视总局和中央广播电视总台共同指导,中国广播电视国际经济技术合作总公司主办的第三十届北京国际广播电影电视展览会(BIRTV2023)将在北京中国国际展览中心(朝阳…

大股东被纪检监察调查,会否成为大牧人上市之路的又一拦路虎?

据悉,深圳证券交易所上市审核委员会已经定于2023年8月17日召开2023年第63次上市审核委员会审议会议,审核青岛大牧人机械股份有限公司(即“大牧人”)首发上市。这已经是大牧人因股东股权纷争(见相关媒体报道&#xff09…

项目经理掌控项目进度的重要手段——甘特图

项目经理最担心的是无法了解团队成员每天的工作内容以及项目的进展情况。因此,每天的会议和项目周报是项目经理掌控项目进度的重要手段,能够帮助项目经理及时了解和跟踪项目的进展。 进度控制是指监督项目状态、更新项目进展、管理进度基准变更&#x…