Python 如何批量压缩PDF文件或减小PDF文件大小

news2024/10/6 7:04:59

目录

安装Python PDF库

Python通过压缩图片来减小PDF文件大小

Python通过压缩字体或取消嵌入字体来减小PDF文件大小

Python通过删除不必要的内容如附件、注释或表单来减小PDF文件大小

总结


PDF文件凭借其平台无关性和便携性,已经成为日常办公和信息共享的首选格式。然而,很多PDF文件通常都体积较大,给存储和传输带来不少麻烦。尤其当需要频繁发送、共享或备份大型PDF时,文件体积问题就会凸显出来,不仅传输速度慢,还耗费大量存储空间。压缩PDF文档可以有效减小PDF文件的大小,加快文件的传输和共享。在这篇博客中,我们将探讨使用Python压缩PDF文件的几种方式:

  • Python通过压缩图片来减小PDF文件大小
  • Python通过压缩字体或取消嵌入字体来减小PDF文件大小
  • Python通过删除不必要的内容如附件、注释或表单来减小PDF文件大小

安装Python PDF库

要在Python中压缩PDF文件,可以使用Spire.PDF for Python库。它支持在Python应用程序中创建、读取、操作和转换PDF文档。

你可以通过在终端运行以下命令来从PyPI安装Spire.PDF for Python:

pip install Spire.PDF

Python通过压缩图片来减小PDF文件大小

很多大型PDF文件中通常包含大量的高分辨率的图片,这些图片是造成文件较大的主要原因。通过调整图片的分辨率和质量可以达到减小PDF文件大小的目的。

压缩PDF文件中的图片的主要步骤如下:

  • 创建PdfCompressor实例,用于压缩指定的PDF文件。
  • 设置压缩选项,如设置图片质量、启用图片大小调整和压缩。
  • 使用PdfCompressor.CompressToFile()方法压缩PDF文档并将结果保存为一个新的PDF。

下面是批量压缩一个文件夹下的所有PDF文件中的图片的实现代码:

import os
from spire.pdf import *
from spire.pdf.common import *

# 设置输入和输出文件夹
input_folder = "输入PDF/"
output_folder = "输出PDF/"

# 创建输出文件夹(如果不存在)
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# 遍历输入文件夹下的所有 PDF 文件
for filename in os.listdir(input_folder):
    if filename.endswith(".pdf"):
        input_pdf = os.path.join(input_folder, filename)
        output_pdf = os.path.join(output_folder, filename)

        # 创建 PdfCompressor 对象,并设置压缩选项(设置图片质量、启用图片大小调整和压缩)
        compressor = PdfCompressor(input_pdf)
        compression_options = compressor.OptimizationOptions
        compression_options.SetImageQuality(ImageQuality.Medium)
        compression_options.SetResizeImages(True)
        compression_options.SetIsCompressImage(True)

        # 压缩 PDF 文件并保存到输出文件夹
        compressor.CompressToFile(output_pdf)

Python通过压缩字体或取消嵌入字体来减小PDF文件大小

PDF 中嵌入的字体也会导致文件大小增大。通过压缩或取消嵌入这些字体有助于减小文件大小。

压缩PDF文件中的字体或取消嵌入字体的主要步骤如下:

  • 创建PdfCompressor实例,用于压缩指定的PDF文件。
  • 设置压缩选项,如启用字体压缩或取消嵌入字体。
  • 使用PdfCompressor.CompressToFile()方法压缩PDF文档并将结果保存为一个新的PDF。

下面是批量压缩一个文件夹下的所有PDF文件中的字体或者取消这些PDF文件中的字体嵌入的实现代码:

from spire.pdf import *
from spire.pdf.common import *
import os

# 设置输入和输出文件夹
input_folder = "输入PDF/"
output_folder = "输出PDF/"

# 创建输出文件夹(如果不存在)
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# 遍历输入文件夹下的所有 PDF 文件
for filename in os.listdir(input_folder):
    if filename.endswith(".pdf"):
        input_pdf = os.path.join(input_folder, filename)
        output_pdf = os.path.join(output_folder, filename)

        # 创建 PdfCompressor 对象并设置压缩选项
        compressor = PdfCompressor(input_pdf)
        compression_options = compressor.OptimizationOptions
        # 启用字体压缩
        compression_options.SetIsCompressFonts(True)
        # 或取消嵌入字体
        # compression_options.SetIsUnembedFonts(True)

        # 压缩 PDF 文件并保存到输出文件夹
        compressor.CompressToFile(output_pdf)

Python通过删除不必要的内容如附件、注释或表单来减小PDF文件大小

优化图片或字体是压缩PDF文档的两种主要方式。但有时候,PDF文件可能包含各种附件、注释、或表单数据等附加信息,这些信息也会增加文件的大小。删除掉文件中不需要的内容,也能减小文件的大小。

下面是从一个PDF文件中删除附件的主要步骤:

  • 创建 PdfDocument 实例并传入要压缩的 PDF 文件路径。
  • PdfDocument.FileInfo.IncrementalUpdate属性设置为False来禁用增量更新。
  • 使用PdfDocument.Attachments.Clear()方法删除文件中所有的附件。
  • 使用PdfDocument.SaveToFile()方法将结果保存为一个新的PDF。

实现代码:

from spire.pdf import *
from spire.pdf.common import *

# 创建PdfDocument 对象并传入要压缩的 PDF 文件路径
input_pdf = "测试.pdf"
pdf = PdfDocument(input_pdf)
# 禁用增量更新
pdf.FileInfo.IncrementalUpdate = False

# 从 PDF 文件中删除所有附件
pdf.Attachments.Clear()

# 将结果保存到一个新文件
output_pdf = "删除附件.pdf"
pdf.SaveToFile(output_pdf)
pdf.Close()

下面是从一个PDF文件中删除注释的主要步骤:

  • 创建一个 PdfDocument 实例并传入要压缩的 PDF 文件路径。
  • PdfDocument.FileInfo.IncrementalUpdate属性设置为False来禁用增量更新。
  • 遍历PDF文件中的页面。
  • 使用PdfPageBase.Annotations.Clear()方法删除页面上的所有注释。
  • 使用PdfDocument.SaveToFile()方法将结果保存为一个新的PDF。

实现代码:

from spire.pdf import *
from spire.pdf.common import *

# 创建 PdfDocument 对象并指定要压缩的 PDF 文件路径
input_pdf = "测试.pdf"
pdf = PdfDocument(input_pdf)
# 禁用增量更新
pdf.FileInfo.IncrementalUpdate = False

# 遍历 PDF 文件的每一页并从中删除注释
for i in range(pdf.Pages.Count):
    page = pdf.Pages[i]
    page.Annotations.Clear()
    
# 将结果保存到一个新文件
output_pdf = "删除注释.pdf"
pdf.SaveToFile(output_pdf)
pdf.Close()

下面是扁平化或删除一个PDF文件中的所有表单的主要步骤:

  • 创建PdfDocument 实例并传入要压缩的 PDF 文件路径。
  • PdfDocument.FileInfo.IncrementalUpdate属性设置为False来禁用增量更新。
  • 使用PdfDocument.Form属性获取文件中的表单。
  • 使用PdfForm.IsFlatten属性扁平化所有表单。或使用PdfFormWidget.FieldsWidget.Clear()方法删除所有表单。
  • 使用PdfDocument.SaveToFile()方法将结果保存为一个新的PDF。

实现代码:

from spire.pdf import *
from spire.pdf.common import *

# 创建一个 PdfDocument 对象并指定要处理的 PDF 文件路径
input_pdf = "测试.pdf"
pdf = PdfDocument(input_pdf)
# 禁用增量更新
pdf.FileInfo.IncrementalUpdate = False

# 获取 PDF 文件中的表单
form = pdf.Form
# 扁平化表单
# form.IsFlatten = True

# 从 PDF 文件中删除所有表单
formWidget = PdfFormWidget(form)
formWidget.FieldsWidget.Clear()
    
# 将结果保存到一个新文件
output_pdf = "扁平化或删除表单.pdf"
pdf.SaveToFile(output_pdf)
pdf.Close()

总结

这篇博客介绍了使用Python压缩PDF文档的几种不同的方式。你可以根据自己的文档结构,使用其中最适合的一种或者结合多种方式来实现最优压缩效果。

感谢阅读!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1905129.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Gitlab Fork Workflow(协作工作流)

Gitlab Fork WorkFlow(协作工作流) Fork WorkFlow用于团队间的协作开发。在开发过程中,我们都需要将最新修改的代码合并到代码库上,在代码合并之前,为了保证代码符合上传要求(符合需求、代码规范等&#xf…

PageHelper分页查询遇到的小问题

如果我们是这样子直接查询 pagehelper会拼接导我们的sql语句之后 这样子我们搜索出来的list&#xff0c;就是里面参杂了PageHelper的东西 所以我们可以直接转成我们的Page类型 但是如果我们搜索出来的是List<Blog>&#xff0c;我有些信息不想返回给前端&#xff0c;所以…

运维系列.Nginx中使用HTTP压缩功能

运维专题 Nginx中使用HTTP压缩功能 - 文章信息 - Author: 李俊才 (jcLee95) Visit me at CSDN: https://jclee95.blog.csdn.netMy WebSite&#xff1a;http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAddress of this article:https://blog.csdn.net/qq_28550…

系统级别的原生弹窗窗口

<!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>原生的弹出窗口dialog</title><style>…

【密码学】信息安全五大属性

信息安全的五大属性&#xff0c;通常被称为CIA三元组加上两个额外的属性&#xff0c;他们是确保信息在存储、处理和传输过程中保持安全、完整和可用的关键要素。这些属性共同构成了信息安全的基础框架。 一、信息安全五大属性 我先给出一个直观的列表&#xff0c;方面大家后续…

C++面向对象的常见面试题目(一)

1. 面向对象的三大特征 &#xff08;1&#xff09;封装&#xff1a;隐藏对象的内部状态&#xff0c;只暴露必要的接口。 #include <iostream> #include <string>// 定义一个简单的类 Person class Person { private: // 私有成员&#xff0c;外部不可直接访问std…

【LeetCode】十三、分治法:多数元素 + 最大子序列和

文章目录 1、分治法2、leetcode169&#xff1a;多数元素3、leetcode53&#xff1a;最大子序和 1、分治法 分治一般都搭配递归使用&#xff1a; 用分治法的一个应用——归并排序&#xff1a;将一组数不停的一分为二&#xff0c;直到分到每组只有一个数的时候 分到每组只有一个数…

【qt】TCP 服务端怎么收到信息?

上一节,我已经讲了,TCP的监听,是基于上一节的,不知道的可以看看. 当我们的TCP 服务器 有 客户端请求连接的时候,会发出一个信号newConnection(). 在TCP服务端与客户端的通信中,我们需要使用到套接字 QTcpSocket类. 套接字相当于是网络通信的接口,服务段和客户端都要通过它进行通…

【网络安全】实验一(网络拓扑环境的搭建)

一、本次实验的实验目的 学习利用 VMware 创建虚拟环境 学习利用 VMware 搭建各自网络拓扑环境 二、创建虚拟机 三、克隆虚拟机 选择克隆的系统必须处于关机状态。 方法一&#xff1a; 方法二&#xff1a; 需要修改克隆计算机的名字&#xff0c;避免产生冲突。 四、按照要求完…

JavaWeb—js(1)

概述 javascript简称js 1.js的特点&#xff0c;基本语法&#xff0c;对象等 2.js的功能&#xff0c;用来操作页面元素&#xff0c;用户交互&#xff0c;浏览器交互&#xff0c;网络数据的请求 后期使用的更多的是js的框架 jquery.js vue.js react.js JS相关概念 javascrip…

python使用pywebview集成vue3和element-plus开发桌面系统框架

随着web技术越来越成熟&#xff0c;就连QQ的windows客户端都用web技术来开发&#xff0c;所以在未来&#xff0c;web技术来开发windows桌面软件也会越来越多&#xff0c;所以在此发展驱动之下&#xff0c;将最近流程的python与web技术相结合&#xff0c;使用vue3和element-plus…

蚁剑编码器编写——中篇

看第二个示例 hex编码 木马 <?php foreach($_POST as $k > $v){$_POST[$k]pack("H*", $v);} eval($_POST[ant]); ?>pack(“H*”, $v)是将 $v 转换为为二进制&#xff0c;也就是ASCII解码 编码器 module.exports (pwd, data) > {let ret {};for (…

C/C++ 代码注释规范及 doxygen 工具

参考 谷歌项目风格指南——注释 C doxygen 风格注释示例 ubuntu20 中 doxygen 文档生成 doxygen 官方文档 在 /Doxygen/Special Command/ 章节介绍 doxygen 的关键字 注释说明 注释的目的是提高代码的可读性与可维护性。 C 风格注释 // 单行注释/* 多行注释 */ C 风格注…

ESP32 步进电机精准控制:打造高精度 DIY 写字机器人,实现流畅书写体验

摘要: 想让你的 ESP32 不再仅仅是控制灯光的工具吗&#xff1f; 本文将带你使用 ESP32 开发板、步进电机和简单的机械结构打造一个能够自动写字的机器人。我们将深入浅出地讲解硬件连接、软件代码以及控制逻辑&#xff0c;并提供完整的项目代码和电路图&#xff0c;即使是 Ardu…

AI与编程:一个学生的心路历程与思考

前言 大家好&#xff0c;本人是在一个在校的大学生&#xff0c;方向是前端语言。爱好是码代码和看一点小新闻&#xff0c;游戏也是喜爱的。其实本篇文章的想法是源于网上一些人对AI以及对前端的看法&#xff0c;看完网上的评论后我也是有感而发。本篇文章的讨论中心也是围绕着A…

我国网络安全领域有哪些法律法规?主要内容是什么?

1. 背景介绍 网络信息安全方面的法规在全球范围内都有相应的立法&#xff0c;我们主要的立法有《网络安全法》、《密码法》、《数据安全法》以及《个人信息保护法》。当前也有一些相关的条例和管理办法&#xff0c;接下来就为大家一一介绍。 2. 法规介绍 在中国&#xff0c;…

昇思25天学习打卡营第14天|基于MindNLP的文本解码原理

基于MindNLP的文本解码原理 文本解码 文本解码是自然语言处理中的一个关键步骤,特别是在任务如机器翻译、文本摘要、自动回复生成等领域。解码过程涉及将编码器(如语言模型、翻译模型等)的输出转换为可读的文本序列。以下是一些常见的文本解码方法和原理: 1. 自回归解码:…

2.3.2 主程序和外部IO交互 (文件映射方式)----C#调用范例

2.3.2 主程序和外部IO交互 &#xff08;文件映射方式&#xff09;----C#调用范例 效果显示 1 说明 1 .1 Test_IOServer是64bit 程序&#xff0c; BD_SharedIOServerd.dll 在 /Debug文件夹中 1 .2 Test_IOServer是32bit 程序&#xff0c; BD_SharedIOClientd.dll (32bit&#…

安卓的组件

人不走空 &#x1f308;个人主页&#xff1a;人不走空 &#x1f496;系列专栏&#xff1a;算法专题 ⏰诗词歌赋&#xff1a;斯是陋室&#xff0c;惟吾德馨 目录 &#x1f308;个人主页&#xff1a;人不走空 &#x1f496;系列专栏&#xff1a;算法专题 ⏰诗词歌…

六、数据可视化—flask框架入门(爬虫及数据可视化)

六、数据可视化—flask框架入门&#xff08;爬虫及数据可视化&#xff09; 1&#xff0c;数据可视化简介2&#xff0c;flask&#xff08;1&#xff09;创建flask项目&#xff08;2&#xff09;开启debug模式&#xff08;3&#xff09;通过访问路径传递参数&#xff08;4&#x…