Python批量实现Word、EXCLE、PPT转PDF文件

news2024/9/24 21:21:00

 一、绪论背景

        在日常办公和文档处理中,有时我们需要将多个Word文档、Excel表格或PPT演示文稿转换为PDF文件。将文档转换为PDF格式的好处是它可以保留文档的布局和格式,并且可以在不同平台上进行方便的查看和共享。

        本篇博文将介绍如何使用Python编程语言批量实现将多个Word、Excel和PPT文件转换为PDF文件。我们将通过使用Python第三方库来读取、编辑和保存这些文档,并使用合适的转换工具将它们转换为PDF格式。

        具体实现方面,我们将首先安装所需的Python库和相关软件,主要使用三个库函数:os, win32com.client, gc。

  1)osos 是Python内置的一个与操作系统交互的库。它提供了许多用于处理文件和目录的函数,例如创建、删除、重命名文件或目录,获取文件属性,遍历目录等。通过使用 os 库,我们可以在Python程序中执行各种与操作系统相关的任务。

  2)win32com.clientwin32com.client 是一个用于与Windows平台上的COM组件进行交互的Python库。COM(Component Object Model)是一种面向对象的组件技术,允许不同的应用程序之间进行通信和交互。win32com.client 库提供了一种方便的方式来调用和操作COM组件,如Microsoft Office应用程序(Word、Excel、PowerPoint等)。通过这个库,我们可以自动化执行一些Office任务,如读写文档、操作Excel表格、创建PPT演示文稿等。

  3)gcgc 是Python内置的垃圾回收模块。垃圾回收是指在程序执行过程中,自动检测和回收不再使用的内存空间,以提高内存利用率和程序性能。gc 模块为我们提供了一些功能,如手动触发垃圾回收、获取和设置垃圾回收的阈值等。尽管Python有自动的垃圾回收机制,但在某些情况下,我们可能需要手动控制垃圾回收的行为。

        然后,我们将编写Python代码来遍历指定文件夹中的所有文档,并对每个文档进行逐个转换。

        最后,我们将保存转换后的PDF文件到指定的目录中。

        通过阅读本篇博文,你将学习到如何使用Python编程语言批量实现将多个Word、Excel和PPT文件转换为PDF文件的方法。这将为你提供一种自动化的方式来处理文档转换任务,节省时间和精力,并提高工作效率。

        无论你是一位办公人员、学生还是有大量文档需要处理的个人用户,本篇教程都将帮助你掌握如何使用Python批量实现Word、Excel和PPT转换为PDF文件。让我们一起开始这个方便实用的文档处理之旅吧!

二、代码实践

   大家运行本代码,只需要更改为自己的路径即可。如代码中我的地址:D:\Pycharmproject2023\code_test_project\shan_test\data,改为你本地地址即可。

import os, win32com.client, gc

# Word
def word2Pdf(filePath, words):
    # 如果没有文件则提示后直接退出
    if (len(words) < 1):
        print("\n【无 Word 文件】\n")
        return
    # 开始转换
    print("\n【开始 Word -> PDF 转换】")
    try:
        print("打开 Word 进程...")
        word = win32com.client.Dispatch("Word.Application")
        word.Visible = 0
        word.DisplayAlerts = False
        doc = None
        for i in range(len(words)):
            print(i)
            fileName = words[i]  # 文件名称
            fromFile = os.path.join(filePath, fileName)  # 文件地址
            toFileName = changeSufix2Pdf(fileName)  # 生成的文件名称
            toFile = toFileJoin(filePath, toFileName)  # 生成的文件地址

            print("转换:" + fileName + "文件中...")
            # 某文件出错不影响其他文件打印
            try:
                doc = word.Documents.Open(fromFile)
                doc.SaveAs(toFile, 17)  # 生成的所有 PDF 都会在 PDF 文件夹中
                print("转换到:" + toFileName + "完成")
            except Exception as e:
                print(e)
            # 关闭 Word 进程
        print("所有 Word 文件已打印完毕")
        print("结束 Word 进程...\n")
        doc.Close()
        doc = None
        word.Quit()
        word = None
    except Exception as e:
        print(e)
    finally:
        gc.collect()


# Excel
def excel2Pdf(filePath, excels):
    # 如果没有文件则提示后直接退出
    if (len(excels) < 1):
        print("\n【无 Excel 文件】\n")
        return
    # 开始转换
    print("\n【开始 Excel -> PDF 转换】")
    try:
        print("打开 Excel 进程中...")
        excel = win32com.client.Dispatch("Excel.Application")
        excel.Visible = 0
        excel.DisplayAlerts = False
        wb = None
        ws = None
        for i in range(len(excels)):
            print(i)
            fileName = excels[i]  # 文件名称
            fromFile = os.path.join(filePath, fileName)  # 文件地址

            print("转换:" + fileName + "文件中...")
            # 某文件出错不影响其他文件打印
            try:
                wb = excel.Workbooks.Open(fromFile)
                for j in range(wb.Worksheets.Count):  # 工作表数量,一个工作簿可能有多张工作表
                    toFileName = addWorksheetsOrder(fileName, j + 1)  # 生成的文件名称
                    toFile = toFileJoin(filePath, toFileName)  # 生成的文件地址

                    ws = wb.Worksheets(j + 1)  # 若为[0]则打包后会提示越界
                    ws.ExportAsFixedFormat(0, toFile)  # 每一张都需要打印
                    print("转换至:" + toFileName + "文件完成")
            except Exception as e:
                print(e)
        # 关闭 Excel 进程
        print("所有 Excel 文件已打印完毕")
        print("结束 Excel 进程中...\n")
        ws = None
        wb.Close()
        wb = None
        excel.Quit()
        excel = None
    except Exception as e:
        print(e)
    finally:
        gc.collect()


# PPT
def ppt2Pdf(filePath, ppts):
    # 如果没有文件则提示后直接退出
    if (len(ppts) < 1):
        print("\n【无 PPT 文件】\n")
        return
    # 开始转换
    print("\n【开始 PPT -> PDF 转换】")
    try:
        print("打开 PowerPoint 进程中...")
        powerpoint = win32com.client.Dispatch("PowerPoint.Application")
        ppt = None
        # 某文件出错不影响其他文件打印

        for i in range(len(ppts)):
            print(i)
            fileName = ppts[i]  # 文件名称
            fromFile = os.path.join(filePath, fileName)  # 文件地址
            toFileName = changeSufix2Pdf(fileName)  # 生成的文件名称
            toFile = toFileJoin(filePath, toFileName)  # 生成的文件地址

            print("转换:" + fileName + "文件中...")
            try:
                ppt = powerpoint.Presentations.Open(fromFile, WithWindow=False)
                if ppt.Slides.Count > 0:
                    ppt.SaveAs(toFile, 32)  # 如果为空则会跳出提示框(暂时没有找到消除办法)
                    print("转换至:" + toFileName + "文件完成")
                else:
                    print("(错误,发生意外:此文件为空,跳过此文件)")
            except Exception as e:
                print(e)
        # 关闭 PPT 进程
        print("所有 PPT 文件已打印完毕")
        print("结束 PowerPoint 进程中...\n")
        ppt.Close()
        ppt = None
        powerpoint.Quit()
        powerpoint = None
    except Exception as e:
        print(e)
    finally:
        gc.collect()


# 修改后缀名
def changeSufix2Pdf(file):
    return file[:file.rfind('.')] + ".pdf"


# 添加工作簿序号
def addWorksheetsOrder(file, i):
    return file[:file.rfind('.')] + "_工作表" + str(i) + ".pdf"


# 转换地址
def toFileJoin(filePath, file):
    return os.path.join(filePath, 'pdf', file[:file.rfind('.')] + ".pdf")


# 开始程序
print("====================程序开始====================")
print(
    "【程序功能】将目标路径下内所有的 ppt、excel、word 均生成一份对应的 PDF 文件,存在新生成的 pdf 文件夹中(需已经安装office,不包括子文件夹)")
print(
    "注意:若某 PPT 和 Excel 文件为空,则会出错跳过此文件。若转换 PPT 时间过长,请查看是否有报错窗口等待确认,暂时无法彻底解决 PPT 的窗口问题(为空错误已解决)。在关闭进程过程中,时间可能会较长,十秒左右,请耐心等待。")


# 需要转换的文件路径
# filePath = input("输入目标路径:(若为当前路径:" + os.getcwd() + ",请直接回车)\n")
filePath = "D:\Pycharmproject2023\code_test_project\shan_test\data"
# 目标路径,若没有输入路径则为当前路径
if (filePath == ""):
    filePath = os.getcwd()

# 将目标文件夹所有文件归类,转换时只打开一个进程
words = []
ppts = []
excels = []

for fn in os.listdir(filePath):
    if fn.endswith(('.doc', 'docx')):
        words.append(fn)
    if fn.endswith(('.ppt', 'pptx')):
        ppts.append(fn)
    if fn.endswith(('.xls', 'xlsx')):
        excels.append(fn)

# 调用方法
print("====================开始转换====================")

# 保存路径:新建 pdf 文件夹,所有生成的 PDF 文件都放在里面
folder = filePath + '\\pdf\\'
if not os.path.exists(folder):
    os.makedirs(folder)

word2Pdf(filePath, words)
excel2Pdf(filePath, excels)
ppt2Pdf(filePath, ppts)
print("====================转换结束====================")
print("\n====================程序结束====================")
# os.system("pause")

三、实践效果

 大家可以自己在本地新建几个文件,试试效果,体验一下把!

参考链接:http://blog.csdn.net/qq_57187936/article/details/125606165

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/758212.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

0714两小时配置完服务器环境

之前那个222的服务器&#xff0c;不知道下载的什么东西&#xff0c;包含了一个挖矿程序&#xff0c;然后就停掉了它。 重新配置一个环境在220服务器上。 1、配置anaconda :(直接下载的这个博客的那个版本&#xff09; https://blog.csdn.net/m0_46926492/article/details/1293…

【分布式】ceph存储

目录 一、存储基础单机存储设备单机存储的问题商业存储解决方案 二、 分布式存储 &#xff08;软件定义的存储 SDS&#xff09;分布式存储的类型Ceph 优势Ceph 架构Ceph 核心组件Pool中数据保存方式支持两种类型&#xff1a;Pool、PG 和 OSD 的关系OSD 存储后端BlueStore 的主要…

本地生活直播,和电商直播有什么不一样?

直播正在成为零售业的标配&#xff0c;当下最新的一条赛道是“本地生活直播”。 &#xff08;商家开始在美团等平台进行本地生活直播。摄影&#xff1a;李崧稷&#xff09; 今年618&#xff0c;在老牌电商平台拉着无数网店&#xff0c;拼尽全力想要堆高销量的时候&#xff0c;一…

k8s之Pod详解

目录 一、Pod基础概念1.1 在Kubrenetes集群中Pod有如下两种使用方式1.2 kubernetes中的pause容器主要为每个容器提供以下功能1.3 Kubernetes设计这样的Pod概念和特殊组成结构有什么用意&#xff1f; 二、Pod分类三、容器的分类3.1 pause基础容器&#xff08;infrastructure con…

[SCTF2019]creakme

前言 主要是SEH解密然后AES加密 分析 SEH main函数中获取到程序句柄也就是首地址&#xff0c;然后进入图中函数找到.SCTF段地址后产生异常&#xff0c;在异常中进行代码自解密 装载的SEH异常处理函数 因为在异常中有调试判断&#xff0c;所以处于调试状态中将异常抛给调试者…

玩转内存修改函数——【C语言】

在上篇博客中&#xff0c;我们学习了字符串函数&#xff0c;针对一些字符串我们可以做出一系列操作。接下来我们将学习一些内存修改函数&#xff08;#inlcude<string.h>&#xff09;&#xff0c;让我们一起走进mempy、memmove、memcmp函数中。 目录 mempcy函数​编辑 m…

leetcode刷题(轮转数组、买股票的最佳时机、买卖股票的最佳时机2、跳跃游戏、跳跃游戏2、最大子序列交替和、交替数字和、下降路径最小和)

目录 1、轮转数组 2、买卖股票的最佳时机 3、买卖股票的最佳时机② 4、跳跃游戏 5、跳跃游戏2 6、最大子序列交替和 7、交替数字和 8、下降路径最小和 1、轮转数组 class Solution():def rotate(self, nums, k):def reverse(i, j): #逆置数组while i < j:nums[i]…

Oracle Apex制作一个简单的交互式报表页面&页设计

目录 创建好一个菜单表 简单查询一下&#xff1a; 创建交互式报表 工作报表展示​编辑 菜单报表展示​编辑 页设计器 改变布局样式 修改标签内容 添加验证&#xff06;更改必填项 注意&#xff01; 在主页进行跳转 页跳转按钮 主页可以跳转到指定报表 面包屑 报表也可…

Clickhouse数据一致性和物化视图

Clickhouse 一、数据一致性的保证1.通过Group by对数据去重2.通过 FINAL 查询 二、物化视图1.物化视图与普通视图的区别2.优缺点3.基本语法 三、MaterializeMySQL引擎1.特点2.使用细则 四、常见问题排除分布式 DDL某数据节点的副本不执行数据副本表和数据不一致副本节点全量恢复…

【uniapp开发小程序】设置全屏的开屏广告、长按识别图片、点击跳转通话 拨打电话

设置全屏的开屏广告需求实现 效果图&#xff1a; 点击跳转其他小程序&#xff1a; uni.navigateToMiniProgram() 官方文档&#xff1a;uni.navigateToMiniProgram(OBJECT) | uni-app官网 // 示例代码 uni.navigateToMiniProgram({appId: ,path: pages/index/index?id123,ext…

Cilium核心技术-eBPF XDPTC介绍

eBPF 是一项革命性技术&#xff0c;它能在内核中运行沙箱程序&#xff08;sandbox programs&#xff09;&#xff0c; 而无需修改内核源码或者加载内核模块。 eBPF的一个重要特性是能够使用高级语言(如C)来实现程序。LLVM有一个eBPF后端&#xff0c;用于编辑包含eBPF指令的ELF文…

WEB:Web_php_unserialize

背景知识 反序列化函数及绕过 正则表达式及绕过 题目 源码解析&#xff08;参考链接在最后&#xff09; <?php class Demo { //定义一个类private $file index.php; //变量属性public function __construct($file) { //类方法$this->file $file; …

分布式锁与同步锁

什么是分布式锁 分布式锁是一种在分布式系统中用于协调多个节点访问共享资源的机制。在分布式系统中&#xff0c;由于存在多个节点并行执行任务&#xff0c;可能会出现竞争条件和数据不一致的问题。分布式锁通过约束同一时刻只有一个节点能够获得锁的方式&#xff0c;确保了对…

【计算机视觉】DINOv2(Facebook自监督视觉学习)的环境部署和使用代码示范(含源代码)

文章目录 一、导读二、环境部署三、使用示例 我的代码示范已经上传了Kaggle平台&#xff0c;具体的笔记地址为&#xff1a; https://www.kaggle.com/code/holmes0610/dinov2一、导读 DINOv2&#xff1a;在没有监督的情况下学习鲁棒的视觉特征 这是第一种训练计算机视觉模型的…

2023爱分析·AIGC厂商全景报告|爱分析报告

关键发现 通用大模型市场当前虽入局者众多&#xff0c;但终局将高度集中&#xff0c;未来将由5-6家厂商主导&#xff1b;应用层厂商及甲方企业应着眼终局&#xff0c;从大算力、巨量数据集、端到端AI工程化能力以及应用生态伙伴等维度综合考虑&#xff0c;慎重选择合作伙伴。 …

【LeetCode每日一题合集】2023.7.10-2023.7.16

文章目录 16. 最接近的三数之和排序 双指针 1911. 最大子序列交替和解法——动态规划 2544. 交替数字和&#xff08;简单模拟&#xff09;931. 下降路径最小和&#xff08;线性DP&#xff09;979. 在二叉树中分配硬币⭐⭐⭐⭐⭐&#xff08;dfs&#xff09;18. 四数之和&#…

[JAVA]程序逻辑控制,输入输出

&#x1f349;内容专栏&#xff1a;【JAVA】 &#x1f349;本文脉络&#xff1a;程序逻辑控制&#xff0c;if语句&#xff0c;switch循环&#xff0c;while循环&#xff0c;for循环&#xff0c;do while循环输入输出&#xff0c;例子 &#x1f349;本文作者&#xff1a;Melon_西…

Python:基于matplotlib与mayavi的3D可视化

文章目录 &#xff08;1&#xff09;基于matplotlib的3D可视化&#xff08;2&#xff09;基于mayavi的3D可视化&#xff08;2.1&#xff09;立方体&#xff08;2.2&#xff09;体素体 3D可视化是一种用于呈现三维数据的方法&#xff0c;它可以帮助我们更好地理解和分析复杂的空…

搭建 Java 部署环境,部署 Web 项目到 Linux

为了进行部署&#xff0c;把写好的 java web 程序放到 Linux 上&#xff0c;需要先把对应的依赖的软件 (环境) 搭建好&#xff0c;安装一些必要的软件程序 JDKTomcatMySqL jdk 直接使用包管理器进行安装(基于yum安装) 一、yum 1、认识 yum yum (Yellow dog Updater, Modified…

随机产生50个55以内的不重复的整数,要求查找出一个缺失的整数。

一、设计思路 为随机产生50个55以内的整数且不能重复&#xff0c;应先将已经产生的随机数保存下来&#xff0c;然后在获取到新的随机数时&#xff0c;与之前保存下来的值进行对比&#xff0c;如果已经出现过则抛弃&#xff0c;并再次获取&#xff0c;直到获取到不同的随机值为止…