利用Python去除PDF水印

news2024/11/17 17:37:08

摘要

本文介绍了如何使用 Python 中的 PyMuPDF 和 OpenCV 库来从 PDF 文件中移除水印,并将每个页面保存为图像文件的方法。我们将深入探讨代码背后的工作原理,并提供一个简单的使用示例。

导言

  • 简介:水印在许多 PDF 文件中都很常见,但有时它们可能会干扰文档的可读性或美观性。本文将介绍一种利用 Python 编程语言移除 PDF 水印的方法。
  • 目标:本文将介绍一个使用 PyMuPDF 和 OpenCV 库的 Python 脚本,该脚本可以自动化地将 PDF 文件中(原文件)水印移除,并将每个页面保存为单独的图像文件,然后合成为新的PDF。

背景知识

  • PyMuPDF:PyMuPDF 是一个 Python 绑定库,用于与 MuPDF(一款用于解析和渲染 PDF 文件的开源软件)进行交互。
  • OpenCV:OpenCV 是一个开源计算机视觉库,提供了许多用于图像处理和计算机视觉任务的功能。

技术细节

  1. remove_watermark 函数

    • 将图像转换为 OpenCV 格式。
    • 使用颜色阈值技术寻找特定颜色范围内的水印区域。
    • 进行膨胀和侵蚀操作以改善水印去除效果。
    • 将图像转换回 PIL 格式并返回处理后的图像。
  2. remove_pdf 函数

    • 打开 PDF 文件并设置缩放因子。
    • 遍历每一页的内容,将其转换为图像格式。
    • 对每个图像应用 remove_watermark 函数,移除水印。
    • 将处理后的图像保存到指定文件夹中。

代码示例

from itertools import product
import fitz  # PyMuPDF
from PIL import Image
import numpy as np
import cv2
import os


def remove_watermark(image, lower_bound, upper_bound):
    # 转换为OpenCV格式
    open_cv_image = np.array(image)
    open_cv_image = cv2.cvtColor(open_cv_image, cv2.COLOR_RGB2BGR)

    # 寻找特定颜色范围内的区域
    mask = cv2.inRange(open_cv_image, lower_bound, upper_bound)

    # 膨胀和侵蚀操作,用于改善水印去除效果
    kernel = np.ones((3, 3), np.uint8)
    mask = cv2.dilate(mask, kernel, iterations=1)
    mask = cv2.erode(mask, kernel, iterations=1)

    open_cv_image[mask != 0] = [255, 255, 255]

    # 转换回PIL格式
    return Image.fromarray(cv2.cvtColor(open_cv_image, cv2.COLOR_BGR2RGB))


def remove_pdf(pdf_file, output_folder, dpi=1800):
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    zoom = dpi / 72  # 计算缩放因子
    mat = fitz.Matrix(zoom, zoom)  # 创建缩放矩阵

    pdf = fitz.open(pdf_file)

    for page_num, page in enumerate(pdf):
        pixmap = page.get_pixmap(matrix=mat)  # 使用缩放矩阵提高DPI

        img = Image.frombytes("RGB", [pixmap.width, pixmap.height], pixmap.samples)
        # 定义水印颜色的上下界(需要根据实际情况调整)
        lower_bound = np.array([168, 168, 168])
        upper_bound = np.array([172, 172, 172])

        # 去除水印
        img = remove_watermark(img, lower_bound, upper_bound)

        img_path = os.path.join(output_folder, f"{page_num}.png")
        img.save(img_path, format="PNG")

        print(f"第{page_num}页水印去除完成")

    pdf.close()


# 使用示例

pdf_path = input("请输入 PDF 地址:")
output_path = input("请输入保存处理后的图片的文件夹地址:")
remove_pdf(pdf_path, output_path)

使用示例

  • 输入要处理的 PDF 文件路径和输出文件夹路径。
  • 脚本将自动将水印从 PDF 中移除,并将处理后的图像保存到指定文件夹中。

 对比前后

去除前

去除后

结论

  • 本文介绍了一种使用 Python 编程语言移除 PDF 文件中水印的方法,通过结合 PyMuPDF 和 OpenCV 库,我们可以轻松地实现这一目标。
  • 通过调整代码中的参数,可以适应不同类型和样式的水印,从而提高水印移除的准确性和效率。

展望

  • 未来可以进一步优化代码,提高水印移除的速度和稳定性。
  • 进一步研究和探索 PDF 处理技术,拓展其在文档处理领域的应用。

参考资料

  • PyMuPDF 官方文档:链接
  • OpenCV 官方文档:链接
  • Python 官方文档:链接

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1687926.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

用 vue3 + phaser 实现经典小游戏:飞机大战

本文字数:7539字 预计阅读时间:30分钟 01 前言 说起小游戏,最经典的莫过于飞机大战了,相信很多同学都玩过。今天我们也来试试开发个有趣的小游戏吧!我们将从零开始,看看怎样一步步实现一个H5版的飞机大战&a…

MyBatis从入门到“入土“

💕喜欢的朋友可以关注一下,下次更新不迷路!💕(●◡●) 目录 一、Mybatis为何物?👌 二、快速入门🤣 1、新建项目😊 2、数据库建表😊 3、导入依赖的jar包😊…

【高级数据结构】B树

B树 一、概念性问题1、前置知识:常见搜索结构2、常规使用数据结构缺陷问题3、B树概念4、存放数量分析 二、代码实现逻辑1、结点定义和基本框架2、Find查找函数(1)思想(2)代码实现 3、InsertKey插入关键字函数--InsertK…

采用伪代码及C代码演示如何解决脱机最小值问题

采用伪代码及C代码演示如何解决脱机最小值问题 问题背景算法设计伪代码实现C代码实现证明数组正确性使用不相交集合数据结构最坏情况运行时间的紧确界 问题背景 脱机最小值问题涉及到一个动态集合 ( T ) (T) (T&…

国内大模型价格战全面爆发:新旧势力逐鹿江湖【附主流模型价格对比】

近年来,随着人工智能技术的不断发展,大模型逐渐成为行业的焦点。然而,伴随而来的却是一场价格战。DeepSeek率先推出超低价服务,随后字节跳动、阿里巴巴、百度、科大讯飞、腾讯等巨头纷纷跟进,使得这一领域的竞争愈演愈…

echarts-树图、关系图、桑基图、日历图

树图 树图主要用来表达关系结构。 树图的端点也收symbol的调节 树图的特有属性: 树图的方向: layout、orient子节点收起展开:initialTreeDepth、expandAndCollapse叶子节点设置: leaves操作设置:roam线条&#xff1a…

Mysql触发器优化大数据表

背景 数据库的订单数量过多,需要分出热表用于快速查询,热表仅保存10天的订单数据。 解决思路 每次数据库订单表触发增删改时,同步操作到trigger_order_mul_info表,然后trigger_order_mul_info会定期删除超过10天的数据。 增删…

【编译原理复习笔记】正则表达式与自动机

正则表达式 正则表达式是一种用来描述正则语言的更紧凑的表达方法 e.g. r a ( a ∣ b ) ∗ ( ϵ ∣ ( . ∣ ) ( a ∣ b ) ) ra(a|b)^*(\epsilon|(.|\\_ )(a|b)) ra(a∣b)∗(ϵ∣(.∣)​(a∣b)) 正则表达式可以由较小的正则表达式按照特定的规则递归地构建。每个正则表达式定义…

【笔记】软件架构师要点记录(1)

【笔记】软件架构师要点记录 20240517 20240517 连续性:恢复能力;可用性:保持稳定态的时长 增量开发模式:在增量开发中,每个增量都有明确的范围和功能,并按照特定的功能顺序完成。增量之间的范围划分在开发…

防火墙技术基础篇:基于IP地址的转发策略

防火墙技术基础篇:基于IP地址的转发策略的应用场景及实现 什么是基于IP地址的转发策略? 基于IP地址的转发策略是一种网络管理方法,它允许根据目标IP地址来选择数据包的转发路径。这种策略比传统的基于目的地地址的路由更灵活,因…

图片转excel技术在医疗领域的应用探讨

在医疗行业中,图片转Excel技术的应用已经逐渐普及,为医护人员提供了极大的便利。这种技术利用OCR(光学字符识别)和机器学习的先进算法,将图片中的信息自动转化为Excel表格,大大提高了数据处理和分析的效率。…

智能锁千千万,谁是你的NO.1,亲身实测凯迪仕传奇大师K70旗舰新品

智能锁千千万,谁是你的NO.1。欢迎来到智哪儿评测室,这次我们为大家带来了凯迪仕传奇大师K70系列的一款重磅新品。 在科技的浪潮中,家居安全领域正经历着前所未有的变革。智能锁越来越成为家的安全守护神,以及智能生活的得力助手。…

Monodle centerNet3D 瑞芯微RKNN、地平线Horizon芯片部署、TensorRT部署

一直想做一点3D目标检测,先来一篇单目3D目标检测Monodle(基于centernet的),训练代码参考官方【代码】,这里只讲讲如何部署。 模型和完整仿真测试代码,放在github上参考链接【模型和完整代码】。 1 模型训练…

Creating Server TCP listening socket *:6379: listen: Unknown error

错误: 解决方法: 在redis安装路径中打开cmd命令行窗口,输入 E:\Redis-x64-3.2.100>redis-server ./redis.windows.conf结果:

智慧校园学工管理系统的部署

学工体系思政服务该怎么规划建造?思政作为高校育人的中心使命,在做到让学生健康高兴生长的一起,也应满意学生生长成才的各类需求。使用技术为学生供给优质的信息化服务,是其间的有效途径。大数据让个性化教育成为可能,…

Python函数、类和方法

大家好,当涉及到编写可维护、可扩展且易于测试的代码时,Python提供了一些强大的工具和概念,其中包括函数、类和方法。这些是Python编程中的核心要素,可以帮助我们构建高效的测试框架和可靠的测试用例。 本文将探讨Python中的函数、…

Swin Transformer 笔记与理解

目录 解决什么问题基本结构理解 解决什么问题 传统的transformer处理于长序列需要非常大的计算量,而且很慢。且传统的transformer虽然的全局信息的获取上有着很好的效果,但是在局部信息的获取上就没有那么强了。Swim transformer的主要的贡献就是使用分…

LLM 大模型学习必知必会系列(十):基于AgentFabric实现交互式智能体应用,Agent实战

LLM 大模型学习必知必会系列(十):基于AgentFabric实现交互式智能体应用,Agent实战 0.前言 **Modelscope **是一个交互式智能体应用基于ModelScope-Agent,用于方便地创建针对各种现实应用量身定制智能体,目前已经在生产级别落地。AgentFabri…

Java输入与输出详解

Java输入和输出 前言一、Java打印Hello World二、输出到控制台基本语法代码示例格式化字符串 三、从键盘输入读入一个字符正确写法 使用 Scanner 读取字符串/整数/浮点数使用 Scanner 循环读取 N 个数字 前言 推荐一个网站给想要了解或者学习人工智能知识的读者,这…

嵌入式智能硬件茶杯垫的设计与实现方案

iCupBox简介 这是一款智能杯垫产品,基于GTD时间管理理念设计,目的是提醒人们专心工作和及时喝水休息,提高工作效率。 https://gitee.com/jiangtao008/iCupBox 开原许可协议:MIT 项目分为客户端APP和杯垫固件系统: 客户端APP,使用QML开发,集成GTD时间管理方法,与杯垫固…