Python中PDF文件的编辑与创建

news2026/2/14 14:45:25

安装必要的库

编辑现有PDF文件

合并PDF文件

拆分PDF文件

添加水印

注意

创建新的PDF文件

使用reportlab创建PDF

使用Spire.PDF for Python创建PDF

结论

在数字化办公和学习环境中，PDF（Portable Document Format）文件因其跨平台、不可编辑（除非使用特定工具）及格式一致性等特性，被广泛应用于文档分享、报告撰写和资料保存等领域。Python作为一种强大的编程语言，通过其丰富的库和模块，提供了灵活的方式来处理PDF文件，包括编辑现有PDF文件以及从头开始创建新的PDF文档。本文将详细介绍在Python中编辑和创建PDF文件的方法，结合具体案例和代码，为新手朋友提供全面的指导。

安装必要的库

在Python中处理PDF文件，首先需要安装一些必要的库。最常用的库包括PyPDF2、reportlab和Spire.PDF for Python。这些库提供了创建、读取、编辑、合并、拆分和保存PDF文件的功能。

PyPDF2：用于处理PDF文件的基本操作，如合并、拆分、旋转和提取文本等。
reportlab：用于创建复杂的PDF文档，支持添加文本、图片、表格等多种元素。
Spire.PDF for Python：一个功能全面的第三方库，支持在Python中创建、读取、编辑、转换和保存PDF文档。

安装这些库可以使用pip命令：

pip install PyPDF2  
pip install reportlab  
pip install Spire.PDF

编辑现有PDF文件

合并PDF文件

合并PDF文件是常见的需求之一，使用PyPDF2可以轻松地完成这一任务。下面是一个合并多个PDF文件的示例代码：

from PyPDF2 import PdfFileMerger  
  
def merge_pdfs(paths, output):  
    """  
    合并多个PDF文件。  
  
    参数:  
    paths (list): 要合并的PDF文件路径列表。  
    output (str): 合并后PDF文件的输出路径。  
    """  
    pdf_merger = PdfFileMerger()  
    for pdf in paths:  
        pdf_merger.append(pdf)  
    pdf_merger.write(output)  
    pdf_merger.close()  
  
# 示例用法  
paths = ['file1.pdf', 'file2.pdf', 'file3.pdf']  
output = 'merged_output.pdf'  
merge_pdfs(paths, output)

拆分PDF文件

拆分PDF文件同样简单，只需要读取原始PDF文件的每一页，然后分别保存到新的PDF文件中即可。以下是一个拆分PDF文件的示例代码：

from PyPDF2 import PdfFileReader, PdfFileWriter  
  
def split_pdf(input_pdf, output_prefix):  
    """  
    拆分PDF文件。  
  
    参数:  
    input_pdf (str): 要拆分的PDF文件路径。  
    output_prefix (str): 拆分后PDF文件的输出前缀。  
    """  
    pdf_reader = PdfFileReader(input_pdf)  
    for page_num in range(pdf_reader.getNumPages()):  
        pdf_writer = PdfFileWriter()  
        pdf_writer.addPage(pdf_reader.getPage(page_num))  
        with open(f"{output_prefix}_{page_num + 1}.pdf", "wb") as out:  
            pdf_writer.write(out)  
  
# 示例用法  
input_pdf = 'example.pdf'  
output_prefix = 'page_'  
split_pdf(input_pdf, output_prefix)

添加水印

给PDF文件添加水印是保护文档版权或进行标识的常见做法。使用PyPDF2和copy模块可以完成这一任务，但需要注意的是，由于PyPDF2直接操作PDF页面内容较为复杂，可能需要将水印作为另一PDF文件处理。以下是一个示例：

from PyPDF2 import PdfFileReader, PdfFileWriter  
  
def add_watermark(input_pdf, watermark_pdf, output):  
    """  
    给PDF文件添加水印。  
  
    参数:  
    input_pdf (str): 要添加水印的PDF文件路径。  
    watermark_pdf (str): 水印PDF文件路径（通常只有一页）。  
    output (str): 输出PDF文件路径。  
    """  
    pdf_reader = PdfFileReader(input_pdf)  
    watermark_reader = PdfFileReader(watermark_pdf)  
    watermark_page = watermark_reader.getPage(0)  
    pdf_writer = PdfFileWriter()  
  
    for page_num in range(pdf_reader.getNumPages()):  
        page = pdf_reader.getPage(page_num)  
        page.mergePage(watermark_page)  
        pdf_writer.addPage(page)  
  
    with open(output, "wb") as out:


pdf_writer.write(out)

示例用法
input_pdf = 'original_document.pdf'
watermark_pdf = 'watermark.pdf' # 假设这个PDF只有一页，作为水印
output = 'watermarked_document.pdf'
add_watermark(input_pdf, watermark_pdf, output)

注意

上述添加水印的代码示例是基于PyPDF2库的简化表示，实际上PyPDF2并不直接支持在页面上合并内容（如文本或图像作为水印）。这里假设watermark.pdf是一个已经包含所需水印的PDF文件，并且简单地通过mergePage方法尝试合并页面，但这通常不会按预期工作，因为mergePage主要用于合并两个完全独立的PDF页面内容，而不是作为覆盖层。

对于复杂的文本或图像水印，推荐使用reportlab或Spire.PDF for Python等库，它们提供了更丰富的绘图和文本处理能力。

创建新的PDF文件

使用reportlab创建PDF

reportlab库非常适合创建包含复杂布局的PDF文档，如包含文本、图片、表格等的报告。

from reportlab.pdfgen import canvas  
  
def create_pdf_with_reportlab(output_pdf):  
    c = canvas.Canvas(output_pdf)  
    c.drawString(100, 750, "Hello, World!")  
    c.save()  
  
# 示例用法  
output_pdf = 'hello_world.pdf'  
create_pdf_with_reportlab(output_pdf)  
  
# 添加图片  
def add_image_to_pdf(output_pdf, image_path):  
    c = canvas.Canvas(output_pdf)  
    c.drawImage(image_path, 100, 650, width=200, height=150, mask='auto')  
    c.drawString(100, 500, "This is an image example.")  
    c.save()  
  
# 示例用法  
image_pdf = 'image_example.pdf'  
image_path = 'example.jpg'  
add_image_to_pdf(image_pdf, image_path)