论文阅读 | 基于流模型和可逆噪声层的鲁棒水印框架(AAAI 2023)

news2024/9/20 7:38:26
  • Flow-based Robust Watermarking with Invertible Noise Layer for Black-box Distortions
  • AAAI, 2023,新加坡国立大学&中国科学技术大学
  • 本论文提出一种基于流的鲁棒数字水印框架,该框架采用了可逆噪声层来抵御黑盒失真。


 一、问题

基于深度神经网络的水印算法已被广泛研究,大多数的算法都使用了一种“编码器-噪声层-解码器”(Encoder-NoiseLayer-Decoder)的框架,但这样的框架可能会产生一个潜在的问题,就是编码器和解码器耦合不够好的问题。而这一问题可能会使编码器嵌入解码无关的信号,从而限制算法在不可见性与鲁棒性上的整体性能

二、所提的方法

1、概述

a.提出了一种基于可逆流模型的鲁棒水印框架

为更好地实现编码器与解码器的耦合,论文提出了一种基于可逆流模型的鲁棒水印框架,有效使用了相同的网络参数同时执行嵌入过程和提取过程。该框架的核心是一系列可逆网络单元,能有效实现输入信号和输出信号的无损转换。这样,网络的前向传输过程就能有效作为编码器实现消息的嵌入过程,而反向传输过程就能作为解码器实现消息的提取过程。从而保证了编码器和解码器的高度耦合。 

b.提出了一个可逆噪声层的结构来应对黑盒失真

可逆噪声层的主体是一个可逆流网络,其目的是使用前向传输过程模拟黑盒失真。模拟完成的可逆噪声层的前向过程能有效的作为黑盒失真层加入到整个框架中进行训练。同时由于可逆性的存在,可逆噪声层的反向过程也能有效的当作一种提取前的去噪过程,有效去除部分噪声的影响并提升了鲁棒性。

图1. 水印训练和测试的框架图。算法的主要架构是基于流的编码器和解码器,由多个可逆神经块组成,可用于前向编码过程和反向解码过程。在编码器和解码器之间,执行包含白盒和黑盒扭曲的噪声层,以将水印图像扭曲为解码器训练的扭曲版本。

2、如何理解“可逆”?

在这篇论文中,可逆性主要体现在所提出的流式编码器/解码器(Flow-based Encoder/Decoder,简称 FED)架构上。FED利用了可逆神经网络(Invertible Neural Networks,简称 INN)的特性来实现编码和解码过程的可逆性。具体来说,可逆性体现在以下几个方面:

a.共享参数的编码器和解码器

  • 在传统的“编码器-噪声层-解码器”(END)架构中,编码器和解码器是分开训练的,可能导致它们之间耦合不紧密。

  • 流式架构通过使用可逆的神经网络块,使得编码器和解码器共享相同的网络参数和结构,这意味着它们在前向编码和反向解码过程中共享相同的网络权重。从而在前向编码和反向解码过程中实现紧密耦合:

b.可逆的神经块

FED由多个可逆的“上-下采样”神经块组成。这些神经块在前向传播时用于嵌入水印信息,在反向传播时用于提取水印信息。每个神经块都设计为可逆的,即它们能够通过相同的网络结构和参数实现前向和反向操作。

c.前向编码和反向解码

在前向编码过程中,可逆神经块接收水印信息和宿主图像作为输入,并输出带水印的图像和冗余信息。在反向解码过程中,使用相同的神经块结构,但信息流的方向相反,从而从失真图像中恢复出水印信息。

(1)在前向编码过程中,我们有图像信息 x_{i}和水印信息 m_{i}作为输入。我们的目标是将水印信息嵌入到图像中,生成新的图像信息x_{i+1}和更新后的水印信息m_{i+1}​。

  1. 上采样操作 U_i:将水印信息m_i上采样到与图像信息x_{i}相同的尺寸。
  2. 下采样操作 D_{i}^{1}D_{i}^{2}:这两个操作将上采样后的图像信息 x_{i+1}进行下采样,得到两个不同的表示,用于更新水印信息。
  3. 前向编码公式如下:

这里,⊗表示点积操作,exp 表示指数函数。 

在正向编码过程中使用的加号(+)表示的是将两个信号或特征图进行逐元素相加的操作。这种操作在神经网络中非常常见,尤其是在处理图像数据时。公式中,加号用于将上采样后的水印信息与原始图像信息相结合。原因和作用:

1. 合并信息

加法操作用于合并两个不同的信息源。在正向编码的情况下,这包括:

  • 原始图像信息x_{i}:这是未经修改的输入图像。
  • 上采样的水印信息U_i{(m_i)}:这是将水印信息上采样到与图像相同的尺寸后的结果。

通过将这两个信息源相加,我们可以将水印信息直接嵌入到图像中,而不显著改变图像的视觉特性。

2. 保持图像质量

加法是一种简单且有效的信息融合方法,因为它不会引入额外的复杂性或计算负担在图像处理中,保持原始图像的视觉质量是非常重要的,尤其是在水印或隐写术应用中。加法操作因其简单性,通常不会对图像质量产生负面影响。

3. 可逆性

在可逆神经网络中,加法操作是可逆的,这意味着可以通过反向操作(减法)来恢复原始的图像信息。这种可逆性对于后续的解码过程至关重要,因为它允许从带水印的图像中准确地提取出水印信息。

(2)在反向解码过程中,我们希望从带水印的图像中提取出水印信息。我们使用与前向编码相同的网络块,但是以相反的顺序应用它们。

  1. 反向操作:首先对冗余信息r_{i+1}进行操作,以生成r_{i}
  2. 下采样的逆操作:使用U_i的逆操作从r_{i}中恢复图像信息x_{i}
  3. 反向解码公式如下:

这里,x_{i+1}'是失真图像,r_{i+1}是从x_{i+1}'中提取的冗余信息 

在反向解码过程中使用的负号(-)和指数函数(exp⁡)是可逆神经网络中常见的操作,它们用于确保网络的可逆性和信息的准确恢复。这些操作的具体作用如下:

  1. 负号(-):在反向操作中,负号用于逆转前向过程中某些操作的效果。在许多可逆网络设计中,正向操作和反向操作是对称的,负号确保了这种对称性,使得网络可以准确地反向追踪其操作。例如,如果在前向传播中进行了加法操作x=y+z,那么在反向传播中,我们可能需要执行减法操作z=x-y来恢复 z的值。

  2. 指数函数(exp⁡)指数函数在可逆网络中用于处理乘法或除法操作这是因为乘法和除法操作在数学上不是可逆的,因为它们不保持信息的一一对应关系。通过使用指数和对数函数,我们可以将乘法转换为加法,或将除法转换为减法,从而使得操作可逆例如,如果前向操作是乘法x=yz,那么反向操作可以是z = \exp(\ln(x) - \ln(y))

  • 负号 − 用于逆转D_{i}^{1}操作的效果。
  • 指数函数 exp⁡用于逆转D_{i}^{1}操作的效果,并且通过这种方式,可以将乘法操作转换为加法操作,使得网络可逆。

d.可逆的噪声层

噪声层在训练阶段被引入,用于模拟和扭曲水印图像,使解码器能够从扭曲的图像中提取出水印信息。这种机制通过联合训练编码器、噪声层和解码器来确保水印系统的鲁棒性。

(1)噪声层的类型
  • 白盒噪声层(White-box Noise Layer):直接使用现有的可微噪声层(如JPEGSS用于JPEG压缩)。这些噪声层通过已知的可微操作模拟已知的图像处理过程。
  • 黑盒噪声层(Black-box Noise Layer,即INL):针对未知机制的黑盒失真(如社交媒体中的风格转换),采用可逆神经网络(Invertible Neural Network, INN)来模拟这些失真。INL的前向过程作为训练时的噪声层,后向过程作为提取前的去噪操作,以提升系统对黑盒失真的鲁棒性。
(2)黑盒噪声层(INL)的设计
  • 训练数据:通过将原始图像 I_+经过黑盒失真过程((如风格转换API)),得到失真图像I_-,形成训练数据对 {I_+,I_-}
  • 网络架构:INL由多个可逆噪声块组成,每个噪声块包含三个模块:ϕ、ρ、ω,这些模块是任意的可学习函数。通过前向过程将原始图像扭曲成扭曲图像,后向过程则将扭曲图像恢复到接近原始图像的状态。
  • 训练目标:使得通过INL正向过程 N_{\theta_d}(I_{+}) 处理后的失真图像 I_{+}^{de}尽可能接近于真实失真图像I_-,同时在反向过程N_{\theta_d}^{-1}(I_{-})中,处理后的图像 I_{-}^{de}应尽可能接近原始图像I_+

\mathcal{L}_{\text{dis}}\left(\theta_d\right) = \text{MSE}\left(I_{+}^d, I_{-}\right) + \text{MSE}\left(I_{-}^{de}, I_{+}\right)

  • INL的输入和输出y_{i}^hy_{i}^l分别代表高频和低频组件。y_{i+1}^hy_{i+1}^l是经过处理后的高频和低频组件。

  • 正向过程:公式描述了如何通过正向过程将输入转换为输出,具体公式为如下。其中\phi,\rho, 和\omega是任意函数,通常选择具有良好表示能力的密集块(Dense Block)。 

  • y_{i+1}^{l} = y_{i}^{l} + \varphi_{i}\left(y_{i}^{h}\right):这一步表示低频组件的更新。函数 ϕ 作用于高频组件y_{i}^h,并将结果加到低频组件y_{i}^l上,生成更新后的低频组件y_{i+1}^l

  • y_{i+1}^{h} = y_{i}^{h} \otimes \exp\left(\rho_{i}\left(y_{i+1}^{l}\right)\right) + \omega_{i}\left(y_{i+1}^{l}\right):这一步表示高频组件的更新。ρ函数作用于更新后的低频组件y_{i+1}^l,然后取指数得到一个值,与原始高频组件y_{i}^h逐元素相乘(表示为 \otimes,Hadamard乘积。在矩阵或多维数组的上下文中,逐元素相乘是指两个矩阵或数组相同位置的元素之间的乘法操作。)。ω函数同样作用于y_{i+1}^l,其结果与上述乘积相加,得到最终的高频组件y_{i+1}^h

a. 离散小波变换(Discrete Wavelet Transform,DWT)

离散小波变换是一种用于信号分解的技术,它可以将信号分解成不同尺度(频率)上的组成部分。DWT 利用小波函数来捕捉信号的局部特征,这些小波函数具有不同的尺度和位移版本。

  • 功能DWT 能够将信号分解为低频部分(近似部分)和高频部分(细节部分)。低频部分包含了信号的概貌信息,而高频部分包含了信号的细节信息。
  • 应用:在图像处理中,DWT 常用于图像压缩和降噪,因为它能有效分离图像中的不同特征;在音频处理中,用于分析音频信号中的不同频率成分。
b. 逆离散小波变换(Inverse Discrete Wavelet Transform)

逆离散小波变换是 DWT 的逆过程,它用于从小波系数中重建原始信号。通过 IDWT,可以将 DWT 分解得到的近似系数和细节系数重新合成为原始的信号或图像。

  • 功能IDWT 通过结合低频和高频成分来重建信号。它确保了原始信号可以从其小波系数中准确地恢复。
  • 应用:在图像和信号的重建过程中,IDWT 是必不可少的步骤,特别是在压缩和降噪处理之后,需要恢复原始图像或信号时。

e.冗余信息的生成和利用

在前向编码过程中生成的冗余信息 Rf 在反向解码过程中并不需要,这表明解码过程是“盲”的,即解码器不需要任何额外信息即可从失真图像中提取出水印信息。

 3、损失函数

a.图像损失

图像损失的目的是确保嵌入的水印对原始图像的影响尽可能小,以实现良好的不可见性。这是通过最小化水印图像I_{\text{em}}和原始宿主图像 I_o之间的均方误差(MSE)来实现的。

\mathcal{L}_{\text{image}}(\theta) = \text{MSE}\left(I_o, I_{\text{em}}\right)

其中,I_{\text{em}}相当于f_{\theta}\left(I_o, M\right),这里f_\theta表示前向编码过程,\theta表示模型参数。 

b.消息损失

消息损失的目的是确保即使在图像受到失真后,也能准确地从失真图像I_d中提取出水印信息。这通过最小化提取出的水印M_{ex}和原始水印 M之间的均方误差来实现。

\mathcal{L}_{\text{message}}(\theta) = \text{MSE}\left(M, M_{\text{ex}}\right)

其中,M_{ex}相当于f_{\theta}^{-1}\left(I_d, R^b\right),这里表示反向解码过程,R^b是一个全零矩阵,大小与M 相同。 

c.总损失

\mathcal{L}_{\text{total}} = \lambda_1 \mathcal{L}_{\text{image}} + \lambda_2 \mathcal{L}_{\text{message}}

这里,λ1和 λ2是权重参数,用于调整两个损失部分的相对重要性。 


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2145419.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

spring boot admin集成,springboot2.x集成监控

服务端&#xff1a; 1. 新建monitor服务 pom依赖 <!-- 注意这些只是pom的核心东西&#xff0c;不是完整的pom.xml内容&#xff0c;不能直接使用&#xff0c;仅供参考使用 --><packaging>jar</packaging><dependencies><dependency><groupId&g…

STM32 芯片启动过程

目录 一、前言二、STM32 的启动模式三、STM32 启动文件分析1、栈 Stack2、堆 Heap3、中断向量表 Vectors3.1 中断响应流程 4、复位程序 Reset_Handler5、中断服务函数6、用户堆栈初始化 四、STM32 启动流程分析1、初始化 SP、PC 及中断向量表2、设置系统时钟3、初始化堆栈并进入…

【Linux】POSIX信号量与、基于环形队列实现的生产者消费者模型

目录 一、POSIX信号量概述 信号量的基本概念 信号量在临界区的作用 与互斥锁的比较 信号量的原理 信号量的优势 二、信号量的操作 1、初始化信号量&#xff1a;sem_init 2、信号量申请&#xff08;P操作&#xff09;&#xff1a;sem_wait 3、信号量的释放&#xff08…

树——数据结构

这次我来给大家讲解一下数据结构中的树 1. 树的概念 树是一种非线性的数据结构&#xff0c;它是由n(n>0&#xff09;个有限结点组成一个具有层次关系的集合。 叫做树的原因&#xff1a;看起来像一棵倒挂的树&#xff0c;根朝上&#xff0c;叶朝下。 特殊结点&#xff1a…

Vim编辑器常用命令

目录 一、命令模式快捷键 二、编辑/输入模式快捷键 三、编辑模式切换到命令模式 四、搜索命令 一、命令模式快捷键 二、编辑/输入模式快捷键 三、编辑模式切换到命令模式 四、搜索命令

深圳铨顺宏科技展邀您体验前沿人工智能技术

我们诚挚地邀请您参加即将举行的展会&#xff0c;探索RFID技术在资产与人员管理中的广泛应用。这些展会将为您提供一个深入了解前沿技术和创新解决方案的机会。 东莞台湾名品博览会&#xff08;东莞台博会&#xff09;展会时间&#xff1a;9月5日至8日。此次展会展示了来自台湾…

路由器全局配置DHCP实验简述

一、路由器配置 reset saved-configuration Warning: The action will delete the saved configuration in the device. The configuration will be erased to reconfigure. Continue? [Y/N]:y Warning: Now clearing the configuration in the device. Info: Succeeded in c…

如何配置 Apache 反向代理服务器 ?

将 Apache 配置为反向代理意味着将 Apache 设置为侦听和引导 web 流量到后端服务器或服务。这有助于管理和平衡服务器上的负载&#xff0c;提高安全性&#xff0c;并使您的 web 服务更高效。您还可以将其设置为监听标准 HTTP 和 HTTPS 端口上的请求&#xff0c;并将其重定向到运…

基于Leaflet和天地图的直箭头标绘实战-源码分析

目录 前言 一、Leaflet的特种标绘库 1、特种标绘对象的定义 2、Plot基类定义 3、直线箭头的设计与实现 二、在天地图中进行对象绘制 1、引入天地图资源 2、标绘对象的调用时序 3、实际调用过程 三、总结 前言 在博客中介绍过geoman标绘的具体实现&#xff0c;使用Leaf…

Linux驱动开发 ——架构体系

只读存储器&#xff08;ROM&#xff09; 1.作用 这是一种非易失性存储器&#xff0c;用于永久存储数据和程序。与随机存取存储器&#xff08;RAM&#xff09;不同&#xff0c;ROM中的数据在断电后不会丢失&#xff0c;通常用于存储固件和系统启动程序。它的内容在制造时或通过…

教师薪酬管理系统的设计与实现

摘 要 传统信息的管理大部分依赖于管理人员的手工登记与管理&#xff0c;然而&#xff0c;随着近些年信息技术的迅猛发展&#xff0c;让许多比较老套的信息管理模式进行了更新迭代&#xff0c;老师信息因为其管理内容繁杂&#xff0c;管理数量繁多导致手工进行处理不能满足广…

【专题】2024中国生物医药出海现状与趋势蓝皮书报告合集PDF分享(附原数据表)

原文链接&#xff1a;https://tecdat.cn/?p37719 出海已成为中国医药产业实现提速扩容的重要途径。目前&#xff0c;中国医药产业发展态势良好&#xff0c;创新能力不断增强&#xff0c;然而也面临着医保政策改革和带量集采带来的压力。政府积极出台多项政策支持医药企业出海…

人工智能 | 基于ChatGPT开发人工智能服务平台

简介 ChatGPT 在刚问世的时候&#xff0c;其产品形态就是一个问答机器人。而基于ChatGPT的能力还可以对其做一些二次开发和拓展。比如模拟面试功能、或者智能机器人功能。 模拟面试功能包括个性化问题生成、实时反馈、多轮面试模拟、面试报告。 智能机器人功能提供24/7客服支…

字节跳动冯佳时:大语言模型在计算机视觉领域的应用、问题和我们的解法

演讲嘉宾&#xff5c;冯佳时 编辑 &#xff5c;蔡芳芳 近年来&#xff0c;大语言模型 (LLMs) 在文本理解与生成领域取得了显著进展。然而&#xff0c;LLMs 在理解和生成自然信号&#xff08;例如图像&#xff0c;视频&#xff09;等&#xff0c;还处在比较早期的探索阶段。为…

muduo - 概要简述

作者&#xff1a;陈硕 编程语言&#xff1a;C 架构模式&#xff1a;Reactor 代码链接&#xff1a;GitHub - chenshuo/muduo: Event-driven network library for multi-threaded Linux server in C11 设计自述&#xff1a;https://www.cnblogs.com/Solstice/archive/2010/08…

MybatisPlus:多条件 or()的使用

default List<ErpProductDO> selectByOE(String oe1, String oe2){return selectList(new LambdaUpdateWrapper<ErpProductDO>().eq(ErpProductDO::getOe,oe1).or().eq(ErpProductDO::getOe,oe2)); } 对应SQL为&#xff1a;

《探索云原生与相关技术》

在当今的科技领域中&#xff0c;云原生&#xff08;Cloud Native&#xff09;已经成为了一个热门的话题。它代表着一种构建和运行应用程序的全新方式。 云原生的概念 云原生是一套技术体系和方法论&#xff0c;旨在充分利用云计算的优势来构建更具弹性、可扩展性和高效性的应…

LeetCode 2332.坐上公交的最晚时间 (双指针 + 贪心)

给你一个下标从 0 开始长度为 n 的整数数组 buses &#xff0c;其中 buses[i] 表示第 i 辆公交车的出发时间。同时给你一个下标从 0 开始长度为 m 的整数数组 passengers &#xff0c;其中 passengers[j] 表示第 j 位乘客的到达时间。所有公交车出发的时间互不相同&#xff0c;…

python 识别省市、区县并组建三级信息数据库

一、网址&#xff1a; 全国行政区划信息查询平台 二、分析并搭建框架 检查网页源码&#xff1a; 检查网页源码可以发现&#xff1a; 所有省级信息全部在javaScript下的json中&#xff0c;会在页面加载时加载json数据&#xff0c;填充到页面的option中。 1、第一步&#xff1a…

1、2、3、4四个数字能组成多少个互不相同且无重复数字的三位数

要求 请编写函数fun&#xff0c;其功能是:找出用1、2、3、4四个数字&#xff0c;能组成多少个互不相同且无重复数字的三位数&#xff0c;然后把这些三位数按从小到大的顺序依次存入相应的数组xxx中&#xff0c;符合条件的个数由函数值返回 解题思路 本题要求求出一个三位数&…