论文阅读 | 基于流模型和可逆噪声层的鲁棒水印框架（AAAI 2023）

Flow-based Robust Watermarking with Invertible Noise Layer for Black-box Distortions
AAAI, 2023，新加坡国立大学&中国科学技术大学
本论文提出一种基于流的鲁棒数字水印框架，该框架采用了可逆噪声层来抵御黑盒失真。

一、问题

基于深度神经网络的水印算法已被广泛研究，大多数的算法都使用了一种“编码器-噪声层-解码器”（Encoder-NoiseLayer-Decoder）的框架，但这样的框架可能会产生一个潜在的问题，就是编码器和解码器耦合不够好的问题。而这一问题可能会使编码器嵌入解码无关的信号，从而限制算法在不可见性与鲁棒性上的整体性能。

二、所提的方法

1、概述

a.提出了一种基于可逆流模型的鲁棒水印框架

为更好地实现编码器与解码器的耦合，论文提出了一种基于可逆流模型的鲁棒水印框架，有效使用了相同的网络参数同时执行嵌入过程和提取过程。该框架的核心是一系列可逆网络单元，能有效实现输入信号和输出信号的无损转换。这样，网络的前向传输过程就能有效作为编码器实现消息的嵌入过程，而反向传输过程就能作为解码器实现消息的提取过程。从而保证了编码器和解码器的高度耦合。

b.提出了一个可逆噪声层的结构来应对黑盒失真

可逆噪声层的主体是一个可逆流网络，其目的是使用前向传输过程模拟黑盒失真。模拟完成的可逆噪声层的前向过程能有效的作为黑盒失真层加入到整个框架中进行训练。同时由于可逆性的存在，可逆噪声层的反向过程也能有效的当作一种提取前的去噪过程，有效去除部分噪声的影响并提升了鲁棒性。

图1. 水印训练和测试的框架图。算法的主要架构是基于流的编码器和解码器，由多个可逆神经块组成，可用于前向编码过程和反向解码过程。在编码器和解码器之间，执行包含白盒和黑盒扭曲的噪声层，以将水印图像扭曲为解码器训练的扭曲版本。

2、如何理解“可逆”？

在这篇论文中，可逆性主要体现在所提出的流式编码器/解码器（Flow-based Encoder/Decoder，简称 FED）架构上。FED利用了可逆神经网络（Invertible Neural Networks，简称 INN）的特性来实现编码和解码过程的可逆性。具体来说，可逆性体现在以下几个方面：

a.共享参数的编码器和解码器

在传统的“编码器-噪声层-解码器”（END）架构中，编码器和解码器是分开训练的，可能导致它们之间耦合不紧密。

流式架构通过使用可逆的神经网络块，使得编码器和解码器共享相同的网络参数和结构，这意味着它们在前向编码和反向解码过程中共享相同的网络权重。从而在前向编码和反向解码过程中实现紧密耦合：

b.可逆的神经块

FED由多个可逆的“上-下采样”神经块组成。这些神经块在前向传播时用于嵌入水印信息，在反向传播时用于提取水印信息。每个神经块都设计为可逆的，即它们能够通过相同的网络结构和参数实现前向和反向操作。

c.前向编码和反向解码

在前向编码过程中，可逆神经块接收水印信息和宿主图像作为输入，并输出带水印的图像和冗余信息。在反向解码过程中，使用相同的神经块结构，但信息流的方向相反，从而从失真图像中恢复出水印信息。

（1）在前向编码过程中，我们有图像信息 $x_{i}$ 和水印信息 $m_{i}$ 作为输入。我们的目标是将水印信息嵌入到图像中，生成新的图像信息 $x_{i+1}$ 和更新后的水印信息 $m_{i+1}$ 。

上采样操作 $U_i$ ：将水印信息 $m_i$ 上采样到与图像信息 $x_{i}$ 相同的尺寸。
下采样操作 $D_{i}^{1}$ 和 $D_{i}^{2}$ ：这两个操作将上采样后的图像信息 $x_{i+1}$ 进行下采样，得到两个不同的表示，用于更新水印信息。
前向编码公式如下：

这里，⊗表示点积操作，exp 表示指数函数。

在正向编码过程中使用的加号（+）表示的是将两个信号或特征图进行逐元素相加的操作。这种操作在神经网络中非常常见，尤其是在处理图像数据时。公式中，加号用于将上采样后的水印信息与原始图像信息相结合。原因和作用：

1. 合并信息

加法操作用于合并两个不同的信息源。在正向编码的情况下，这包括：

原始图像信息 $x_{i}$ ：这是未经修改的输入图像。
上采样的水印信息 $U_i{(m_i)}$ ：这是将水印信息上采样到与图像相同的尺寸后的结果。

通过将这两个信息源相加，我们可以将水印信息直接嵌入到图像中，而不显著改变图像的视觉特性。

2. 保持图像质量

加法是一种简单且有效的信息融合方法，因为它不会引入额外的复杂性或计算负担。在图像处理中，保持原始图像的视觉质量是非常重要的，尤其是在水印或隐写术应用中。加法操作因其简单性，通常不会对图像质量产生负面影响。

3. 可逆性

在可逆神经网络中，加法操作是可逆的，这意味着可以通过反向操作（减法）来恢复原始的图像信息。这种可逆性对于后续的解码过程至关重要，因为它允许从带水印的图像中准确地提取出水印信息。

（2）在反向解码过程中，我们希望从带水印的图像中提取出水印信息。我们使用与前向编码相同的网络块，但是以相反的顺序应用它们。

反向操作：首先对冗余信息 $r_{i+1}$ 进行操作，以生成 $r_{i}$ 。
下采样的逆操作：使用 $U_i$ 的逆操作从 $r_{i}$ 中恢复图像信息 $x_{i}$ 。
反向解码公式如下：

这里， $x_{i+1}'$ 是失真图像， $r_{i+1}$ 是从 $x_{i+1}'$ 中提取的冗余信息

在反向解码过程中使用的负号（-）和指数函数（exp⁡）是可逆神经网络中常见的操作，它们用于确保网络的可逆性和信息的准确恢复。这些操作的具体作用如下：

负号（-）：在反向操作中，负号用于逆转前向过程中某些操作的效果。在许多可逆网络设计中，正向操作和反向操作是对称的，负号确保了这种对称性，使得网络可以准确地反向追踪其操作。例如，如果在前向传播中进行了加法操作 $x=y+z$ ，那么在反向传播中，我们可能需要执行减法操作 $z=x-y$ 来恢复 z的值。

指数函数（exp⁡）：指数函数在可逆网络中用于处理乘法或除法操作。这是因为乘法和除法操作在数学上不是可逆的，因为它们不保持信息的一一对应关系。通过使用指数和对数函数，我们可以将乘法转换为加法，或将除法转换为减法，从而使得操作可逆。例如，如果前向操作是乘法 $x=yz$ ，那么反向操作可以是 $z = \exp(\ln(x) - \ln(y))$

负号 − 用于逆转 $D_{i}^{1}$ 操作的效果。
指数函数 exp⁡用于逆转 $D_{i}^{1}$ 操作的效果，并且通过这种方式，可以将乘法操作转换为加法操作，使得网络可逆。

d.可逆的噪声层

噪声层在训练阶段被引入，用于模拟和扭曲水印图像，使解码器能够从扭曲的图像中提取出水印信息。这种机制通过联合训练编码器、噪声层和解码器来确保水印系统的鲁棒性。

（1）噪声层的类型

白盒噪声层（White-box Noise Layer）：直接使用现有的可微噪声层（如JPEGSS用于JPEG压缩）。这些噪声层通过已知的可微操作模拟已知的图像处理过程。
黑盒噪声层（Black-box Noise Layer，即INL）：针对未知机制的黑盒失真（如社交媒体中的风格转换），采用可逆神经网络（Invertible Neural Network, INN）来模拟这些失真。INL的前向过程作为训练时的噪声层，后向过程作为提取前的去噪操作，以提升系统对黑盒失真的鲁棒性。

（2）黑盒噪声层（INL）的设计

训练数据：通过将原始图像 $I_+$ 经过黑盒失真过程（（如风格转换API）），得到失真图像 $I_-$ ，形成训练数据对 { $I_+$ , $I_-$ }。
网络架构：INL由多个可逆噪声块组成，每个噪声块包含三个模块：ϕ、ρ、ω，这些模块是任意的可学习函数。通过前向过程将原始图像扭曲成扭曲图像，后向过程则将扭曲图像恢复到接近原始图像的状态。
训练目标：使得通过INL正向过程 $N_{\theta_d}(I_{+})$ 处理后的失真图像 $I_{+}^{de}$ 尽可能接近于真实失真图像 $I_-$ ，同时在反向过程 $N_{\theta_d}^{-1}(I_{-})$ 中，处理后的图像 $I_{-}^{de}$ 应尽可能接近原始图像 $I_+$ 。

$\mathcal{L}_{\text{dis}}\left(\theta_d\right) = \text{MSE}\left(I_{+}^d, I_{-}\right) + \text{MSE}\left(I_{-}^{de}, I_{+}\right)$

INL的输入和输出： $y_{i}^h$ 和 $y_{i}^l$ 分别代表高频和低频组件。 $y_{i+1}^h$ 和 $y_{i+1}^l$ 是经过处理后的高频和低频组件。

正向过程：公式描述了如何通过正向过程将输入转换为输出，具体公式为如下。其中 $\phi$ , $\rho$ , 和 $\omega$ 是任意函数，通常选择具有良好表示能力的密集块（Dense Block）。

$y_{i+1}^{l} = y_{i}^{l} + \varphi_{i}\left(y_{i}^{h}\right)$ ：这一步表示低频组件的更新。函数 ϕ 作用于高频组件 $y_{i}^h$ ，并将结果加到低频组件 $y_{i}^l$ 上，生成更新后的低频组件 $y_{i+1}^l$ 。

$y_{i+1}^{h} = y_{i}^{h} \otimes \exp\left(\rho_{i}\left(y_{i+1}^{l}\right)\right) + \omega_{i}\left(y_{i+1}^{l}\right)$ ：这一步表示高频组件的更新。ρ函数作用于更新后的低频组件 $y_{i+1}^l$ ，然后取指数得到一个值，与原始高频组件 $y_{i}^h$ 逐元素相乘（表示为 $\otimes$ ，Hadamard乘积。在矩阵或多维数组的上下文中，逐元素相乘是指两个矩阵或数组相同位置的元素之间的乘法操作。）。ω函数同样作用于 $y_{i+1}^l$ ，其结果与上述乘积相加，得到最终的高频组件 $y_{i+1}^h$ 。

a. 离散小波变换（Discrete Wavelet Transform，DWT）

离散小波变换是一种用于信号分解的技术，它可以将信号分解成不同尺度（频率）上的组成部分。DWT 利用小波函数来捕捉信号的局部特征，这些小波函数具有不同的尺度和位移版本。

功能：DWT 能够将信号分解为低频部分（近似部分）和高频部分（细节部分）。低频部分包含了信号的概貌信息，而高频部分包含了信号的细节信息。
应用：在图像处理中，DWT 常用于图像压缩和降噪，因为它能有效分离图像中的不同特征；在音频处理中，用于分析音频信号中的不同频率成分。

b. 逆离散小波变换（Inverse Discrete Wavelet Transform）

逆离散小波变换是 DWT 的逆过程，它用于从小波系数中重建原始信号。通过 IDWT，可以将 DWT 分解得到的近似系数和细节系数重新合成为原始的信号或图像。

功能：IDWT 通过结合低频和高频成分来重建信号。它确保了原始信号可以从其小波系数中准确地恢复。
应用：在图像和信号的重建过程中，IDWT 是必不可少的步骤，特别是在压缩和降噪处理之后，需要恢复原始图像或信号时。