python -从文件夹批量提取pdf文章的第n页,并存储起来
废话不多说,看下面代码
讲解一下下面代码
reader = PyPDF2.PdfReader (file)
将文件转化为PdfReader 对象,方便使用内置方法。
first_page = reader.pages[0]
提取第一页
writer = PyPDF2.PdfWriter ()
writer.add_page (first_page)
writer.write(output_file)
将代码写入对应位置
def process_folder(folder_path):
# 遍历文件夹中的所有文件
for filename in os.listdir(folder_path):
if filename.endswith('.pdf'):
pdf_path = os.path.join(folder_path, filename)
print(pdf_path)
output_path = os.path.join('D:\data\pdf_output', filename[0:-4]+'(首页)'+'.pdf')
# 提取第一页并保存为同名文件
extract_first_page(pdf_path, output_path)
print(f"Processed {filename}")
读取某个文件夹下的所有pdf文件,并调用函数取出第一页,并写下来。
import os
import PyPDF2
def extract_first_page(pdf_path, output_path):
# 打开PDF文件
with open(pdf_path, 'rb') as file:
reader = PyPDF2.PdfReader (file)
# 获取第一页
first_page = reader.pages[0]
# 写入新PDF文件
with open(output_path, 'wb') as output_file:
writer = PyPDF2.PdfWriter ()
writer.add_page (first_page)
writer.write(output_file)
def process_folder(folder_path):
# 遍历文件夹中的所有文件
for filename in os.listdir(folder_path):
if filename.endswith('.pdf'):
pdf_path = os.path.join(folder_path, filename)
print(pdf_path)
output_path = os.path.join('D:\data\pdf_output', filename[0:-4]+'(首页)'+'.pdf')
# 提取第一页并保存为同名文件
extract_first_page(pdf_path, output_path)
print(f"Processed {filename}")
# 指定你的文件夹路径
folder_path = 'D:\data\pdf'
process_folder(folder_path)