Deep Image Prior

1. 方法原理

1.1 研究动机

动机

深度神经网络在图像复原和生成领域有非常好的表现一般归功于神经网络学习到了图像的先验信息
网络结构本身是否具有先验信息呢？

挑战

如何验证网络结构本身是否具有先验信息？
无训练集，无未退化的原图作为标签，使用单张退化的图像进行恢复
唯一的先验信息来自于网络结构本身

贡献

发现了神经网络结构对自然信号的低阻抗性和对噪声信号具有高阻抗的隐式先验信息
在去噪、超分辨率、图像修复等任务上利用这种隐式先验信息实现了非常好的效果
网络仅仅使用退化的单个图像进行训练，所以没有大量数据集带来的图像先验信息，而是网络结构自身所具有的结构先验信息

1.2 方法

使用一个随机向量 $\in R^{c' \times H' \times W'}$ ,和一个神经网络( $f_{\theta}(.)$ )输出一个我们想要的图像 $\in R^{3 \times H\times W}$
$f_{\theta}(z)$

然后，针对一个具体的去噪、超分辨率或图像修复的问题，这就变为了一个最小化能量的问题（最大似然）
$x^* = \underset{x}{min}E(x;x_0) + R(x)$

其中 $\underset{x}{min}E(x;x_0)$ 是和任务相关的数据匹配项，而 $R (x)$ 是一个正则项。正则项目可以是简单的TV正则化，在本文中想要证明的就是网络结构本身就具有类似于TV正则化的效果，也就是：

$x^* = \underset{x}{min}E(f_{\theta}(z);x_0)$

为了最小化能量，我们可以从观测数据 $z$ 出发，或者从网络本身出发。DIP考虑的是只从网络结构本身探讨这个问题。

用一个最简单的重构损失来验证：我们使用一个网络参数化图像，然后最小化重构图像和真实图像的损失：
$E(x;x_0) = ||x - x_0||^2$

$\underset{\theta}{min}||f_{\theta}(z) - x_0||$

使用不同的 $x_0$ 进行验证：

真实图片作为 $x_0$
真实图片+噪声作为 $x_0$
真实图片像素点随机打乱作为 $x_0$
噪声作为 $x_0$

从上面这幅图中可以发现，相同的神经网络对不同的数据进行恢复，如果是真实自然图片网络可以非常快地进行恢复，而对于噪声网络的恢复在迭代很多次之后才能恢复。这展现出一种网络结构的特性：对信号具有低阻抗，而对随机噪声具有高阻抗。因此我们可以在训练过程中使用 early stopping方法，在迭代一定次数后得到的图片的信号信息。