【Python实战】如何优雅地实现 PDF 去水印？

【Python实战】如何优雅地实现 PDF 去水印？

news2025/10/26 18:00:12

话接上篇，自动化处理 PDF 文档，完美实现 WPS 会员功能

小伙伴们更关心的是如何去除 PDF 中的水印~

今天，就来分享一个超简单的 PDF 去水印方法~

1. 原理介绍

在上一篇中，我们介绍了如何将 PDF 文档转换成图片，图片就是 RGB 三通道像素点的集合。

我们发现：水印的像素点和正常文字的像素点是有显著区别的。

如何查看水印的像素是多少呢？

最简单的方式是打开一个截图工具，聚焦到水印位置即可看到：

所以，水印的像素值有如下特点：

像素分布在 180 - 250 （注：必要时，阈值需适当调整）；
RGB三通道的像素值基本相同。

基于上述两个特点，我们就可以找到水印像素点的位置。

2. 代码实操

为了完美实现上述的两个判断，当然你可以写两层 for 循环遍历像素值进行判断，不过一旦图像尺寸太大，处理速度就令人抓狂了。

最简单的方式就是采用 numpy 数组进行操作：

import numpy as np
def judege_wm(img, low=180, high=250):
    # 通过像素判断
    low_bound = np.array([low, low, low])
    high_bound = np.array([high, high, high])
    mask = (img > low_bound) & (img < high_bound) & (np.abs(img-img.mean(-1, keepdims=True)).sum(-1, keepdims=True) < 10) # 要求rgb值相差不能太大
    img[mask] = 255
    return img

最后，我们来看下处理后的效果：

3. 整体流程

上述步骤，我们介绍了如何去除图片中的水印。

说好的 PDF 去水印呢？

来，参照下述流程走一遍：

关于如何实现：PDF转换成图片 以及 图片转换成PDF，上篇已经给出了详细教程：自动化处理 PDF 文档，完美实现 WPS 会员功能

写在最后

本文给大家带来了一种最简单的图片 & PDF 去水印方法，可以满足绝大部分白底黑字的文档场景。

如果背景图像纷繁复杂，本方法还无法完美解决。

欢迎有其他解决方案的小伙伴，评论区交流下啊~

如果本文对你有帮助，欢迎点赞收藏备用。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1970260.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

前端必知必会-html中input的type设置

前端必知必会-html中input的type设置

文章目录 HTML type的设置输入类型文本输入类型密码输入类型提交输入类型重置输入类型单选按钮输入类型复选框输入类型按钮输入类型颜色输入类型日期输入类型 Datetime-local输入类型电子邮件输入类型图像输入类型文件输入类型隐藏输入类型月份输入类型数字输入类型范围输入…

阅读更多...

更换收银系统时如何迁移会员数据

系统介绍专门为零售行业的连锁店量身打造的收银系统，适用于常规超市、生鲜超市、水果店、便利店、零食专卖店、服装店、母婴用品、农贸市场等类型的门店使用。同时线上线下数据打通，线下收银的数据与小程序私域商城中的数据完全同步，如商品…

阅读更多...

js 实现数组转树形数据（2024-08-01）

js 实现数组转树形数据（2024-08-01）

要将数组转换为树形结构，通常需要一个数组，其中每个元素都包含一个父节点的引用。以下是一个使用JavaScript实现的函数，假设每个元素都有一个唯一的【id 】和一个指向其父元素的【pId】 /*** 数组转树形结构* param {array} list 被转换的数…

阅读更多...

【编程刷级之路】大学新生的最佳入门攻略

【编程刷级之路】大学新生的最佳入门攻略

💓 博客主页：倔强的石头的CSDN主页 📝Gitee主页：倔强的石头的gitee主页 ⏩ 文章专栏：《热点时事》期待您的关注目录引言方向一：编程语言选择方向二：学习资源推荐方向三：学…

阅读更多...

django体育器材后台管理系统-毕业设计源码45411

django体育器材后台管理系统-毕业设计源码45411

django体育器材后台管理系统摘要 21世纪的今天，随着社会的不断发展与进步，人们对于信息科学化的认识，已由低层次向高层次发展，由原来的感性认识向理性认识提高，管理工作的重要性已逐渐被人们所认识，科学…

阅读更多...

对抗搜索Adversary Search与Minmax算法(含python代码)

对抗搜索Adversary Search与Minmax算法(含python代码)

Adversary Search，也称为对抗搜索，是人工智能中的一种算法策略，主要用于解决那些需要两个或多个对手在完全或部分信息的环境下对抗的问题。这种类型的搜索算法广泛应用于各种策略游戏，如国际象棋、围棋、和井字游戏，其…

阅读更多...

张宇1000题/660/880/武忠祥严选题，哪本优先级高？最接近真题？

张宇1000题/660/880/武忠祥严选题，哪本优先级高？最接近真题？

使用资料： 武老师强化班视频高数辅导讲义严选题具体操作： 预习讲义10页听课做严选题情况一：基础阶段跟着武老师并且完成660的同学。这些同学在强化阶段可以在使用上述资料的基础上，再加一本李林老师的880题。可能有同学不…

阅读更多...

论文解读(14)-GeoCLIP

论文解读(14)-GeoCLIP

加油，加油！ 原文： GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization （2309.16020 (arxiv.org)） 这一篇的重点在于范围放宽到全球了摘要首先指出了目前…

阅读更多...

opencascade AIS_Triangulation源码学习每个三角形顶点关联颜色

opencascade AIS_Triangulation源码学习每个三角形顶点关联颜色

opencascade AIS_Triangulation 每个三角形顶点关联颜色前言交互对象，从 Poly_Triangulation 绘制数据，可选择性地带有与每个三角形顶点关联的颜色。为了最大效率，颜色以32位整数表示，而不是传统的 Quantity_Color 值。目前尚…

阅读更多...

Swift中@escaping的理解与使用

Swift中@escaping的理解与使用

当我们在一个方法中将一个闭包当做参数的时候，那么就有很大概率用到这个escaping关键字了，试想一般什么时候会将闭包当做参数传进来呢？很多时候比如方法里面有异步操作，需要方法先return，最后再调用闭包返回结果&#…

阅读更多...

论数据驱动的优雅：构建轻量高效的数据中台-亿发

论数据驱动的优雅：构建轻量高效的数据中台-亿发

随着数据处理需求的不断增长，各类企业都在探索如何更高效地管理和利用数据。特别是在大规模数据应用的背景下，数据中台成为了众多企业优化数据管理的关键解决方案。从数据中台的建设需求到其实际应用，本文将详细解析数据中台的发展历程、建设…

阅读更多...

.NET 一款反序列化打入冰蝎内存马的工具

.NET 一款反序列化打入冰蝎内存马的工具

01阅读须知此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失&#xf…

阅读更多...

用Python编写你的网络监控系统详解

用Python编写你的网络监控系统详解

概要在现代网络管理中，实时监控网络流量和状态是保证网络正常运行的关键。使用Python编写网络监控工具可以帮助管理员及时发现和解决网络问题。本文将详细介绍如何使用Python编写网络监控工具，包括基本概念、常用库及其应用场景，并提供相应的示例代码。网络监控的基本概念…

阅读更多...

nginx反向代理严重错误[crit] (13: Permission denied) while reading upstream问题

nginx反向代理严重错误[crit] (13: Permission denied) while reading upstream问题

nginx作为使用最广泛的一款反向代理软件，其性能也是非常优秀的，一般情况下，直接配置就可以使用，而且也都是稳定高效的，但是在实际应用中，对于不同的应用场景，总是会出现各种各样的问题&#xff…

阅读更多...

nanopc-t4线刷Android10编译源码

nanopc-t4线刷Android10编译源码

文章目录 windows线刷Linux编译一撸到底核心编译命令最终Image目录源码和刷机工具放一个目录下线刷走一波，不能有任何报错windows线刷 https://www.myteamcloud.top/?p=266 Linux编译一撸到底 https://blog.csdn.net/wb4916/article/details/134911430 核心编译命令 ./b…

阅读更多...

全网首创！基于GaitSet的一种多人步态识别方法公示

全网首创！基于GaitSet的一种多人步态识别方法公示

有源代码V细聊，可商用/私用/毕设等：NzqDssm16 🍉1 绪论经过相关研究确认，步态识别是足以达到应用级别的生物识别技术，在现代社会中自始至终都存在着广泛的应用前景。之所以迟迟没有普及，主要是实…

阅读更多...

docker配置阿里镜像加速器

docker配置阿里镜像加速器

‌阿里云镜像加速的核心功能是通过提供官方的镜像站点，加速官方镜像的下载。使用容器时，由于网络原因，下载‌Docker官方镜像可能会需要很长时间，甚至下载失败。阿里云容器镜像服务‌ACR（阿里云容器仓库）为此…

阅读更多...

智慧大楼信息化一体化管理整体建设设计方案（可编辑80页PPT）

智慧大楼信息化一体化管理整体建设设计方案（可编辑80页PPT）

随着信息技术的飞速发展，智慧大楼已成为现代城市建设的重要趋势。本项目旨在通过信息化一体化管理整体建设设计方案，将大楼内的各个系统进行有机整合，实现智能化、高效化的管理与服务。通过该方案，我们期望提升大楼的运营效率、安…

阅读更多...

【网络基础】初识网络 {计算机网络背景；网络协议初识；网络传输基本流程；网络中的地址管理；网络设备简单介绍}

【网络基础】初识网络 {计算机网络背景；网络协议初识；网络传输基本流程；网络中的地址管理；网络设备简单介绍}

一、计算机网络背景 1.1 网络发展计算机网络的发展可以追溯到20世纪60年代，那时候最初的计算机网络只是为了让科学家们能够共享计算机资源和数据。但是在20世纪80年代，互联网的出现彻底改变了计算机网络的面貌，使得人们可以随时随地通过互…

阅读更多...

昇思25天学习打卡营第XX天|Vision Transformer图像分类

昇思25天学习打卡营第XX天|Vision Transformer图像分类

好了👌到我最熟悉的模型了，苦苦缠斗几个月呜呜呜 CLIP预训练数据集薄纱了，这个对齐的思路很好，但是对文本图像长度限制更高，作者很可惜

阅读更多...

推荐文章

最新文章