2024 ECCV | DualDn: 通过可微ISP进行双域去噪

文章标题：《DualDn: Dual-domain Denoising via Differentiable ISP》

论文链接： DualDn

代码链接： https://openimaginglab.github.io/DualDn/

本文收录于2024ECCV，是上海AI Lab、浙江大学、香港中文大学（薛天帆等人）联合发布的图像降噪方面的研究【薛老师2024年贡献了两篇和ISP挂钩的论文，均是跟上海AI Lab合作的，另一篇详见: AdaptiveISP】

【1】论文的主要motivation是解决当前RAW-denoise模型不能泛化不同ISP以及当前RGB-denoise不能泛化不同噪声的问题。

Abstract

图像去噪是相机ISP (Image Signal Processing)管道中的重要组成部分。向ISP管道中注入去噪器有两个经典的方式：把去噪器直接用于捕捉的raw帧图（raw域）或者把去噪器用于ISP输出的RGB图像（sRGB域）。然而，两类方法都有局限。

raw域去噪后的残留噪声会被ISP管道随后的处理模块放大；
在sRGB域很难处理随空间位置变换的噪声，因为在该域中只能看到被ISP扭曲过的噪声（噪声变得复合了）。

因此，大多数raw/sRGB域去噪的工作仅适用于特定的噪声分布和ISP配置。

为了解决这个问题，本文提出了DualDN，一个新颖的基于学习的双域去噪器。与之前单域去噪工作不同，DualDn包含两个去噪网络，一个处理raw域噪声，一个处理sRGB域噪声。raw域去噪适配于传感器噪声和随空间位置变换的噪声，sRGB域去噪适配于ISP导致的噪声并且可以去除经过ISP放大的残余噪声。两个去噪网络都和一个可微ISP相连，该ISP通过端到端训练并且会在推理阶段被丢弃。基于这个设计，DualDn达到了可观的泛化性，优于其他大多数的基于学习的去噪方法，因为DualDn可以适配不同的不可见噪声、ISP参数、甚至是新颖的ISP管道。实验结果显示，DualDn达到了SOTA性能，并且可以适配不同的去噪架构。除此以外，DualDn可以在不用重复训练的前提下，被用作真实相机的即插即用去噪模块，效果甚至优于商业相机的在线去噪算法。

在这里插入图片描述

图1. 和商业相机的去噪算法比较

Introduction

引言中有一些很有意思的总结和实验现象，整合表述如下：

近年来的去噪方法发展得很好，但是泛化性能都不令人满意，遇到不同的相机模型/噪声分布往往就无法解决了。有些训练模式被提出以解决泛化性，但是要么处理得很慢，要么效果不如经典的去噪网络；
基于RAW域的去噪模型可以很好的泛化不同noise分布，因为学术界有一些噪声模型可以用来估计噪声分布（sRGB域的噪声被isp扭曲了，无法用这些模型估计）。但是，RAW域去噪留下的残余噪声/伪像在经过isp后往往会导致次优的RGB图像。例如，去马赛克操作经常在图像边缘产生高频伪像，色调映射会放大暗区的残余噪声。除此以外，由于isp行为对RAW域去噪算法是未知的，因此更换isp管道将导致算法性能骤降。
基于RGB域的去噪模型可以很好的泛化不同ISP。因为该类模型只学习去噪前的RGB图像和去噪后的RGB图像的对应关系，不关心isp管道。但是，大部分的基于RGB域的去噪网络都是用一个单一的噪声分布训练的，并且真实sRGB的噪声分布是复杂的（因为可用噪声模型进行准确估计的RAW域噪声在经过isp之后就被扭曲了，变得不可预测）。因此，在强噪下或低光下或有空间变换噪声时，基于RGB域的去噪模型的性能表现不佳。

总结：基于RAW域的去噪模型可以很好的泛化不同的噪声分布，但不能泛化不同的isp管道；基于sRGB域的去噪模型可以很好的泛化不同的ISP，但不能适应分布不同的噪声，尤其是强噪声条件。

Methods

数据集处理

准备好干净RAWpatch
根据EXIF元数据生成对应的clean的RGB数据作为GT
根据噪声模型生成对应的噪声（为了保证泛化性，噪声是多种多样的）以"污染"RAWpatch

图2. DualDn的整体框架

图像泛化——如何处理数据集能让模型更有泛化性？

加噪声：使用一个噪声模型和不同的噪声参数（为了保证模型可以处理不同噪声）合成加噪RAW图。为了增强模型泛化性，本文主要考虑了shot noise和read noise。实验结果显示，使用这种人工设计噪声训练出来的模型可以很好的泛化到未知相机和未知噪声。
裁剪raw图以扩充数据集，但是裁剪的时候也保证了裁剪的图像块都是RGGB排列的模式。

噪声数学推导：shot noise服从泊松分布，read noise服从高斯分布。因此加噪RAW图为： $R\sim K\cdot \mathcal{P}(\frac{R^*}{K})+\mathcal{N}(0,\sigma^2_r)，$ 其中， $R^*$ 是干净RAW图， $K$ 是Gain值， $\sigma_r^2$ 是高斯噪声方差。 $\mathcal{P}$ 和 $\mathcal{N}$ 分别代表泊松和高斯分布。

为了模拟不同的噪声水平，本文建模了噪声参数 $(K,\sigma_r^2)$ 的联合分布，并且从如下分布中采样： $log(K)\sim \mathcal{U}(log(K_{min}), log(K_{max}))，$ $log(\sigma_r^2)|log(K) \sim \mathcal{N}(\alpha \cdot log(K) + \beta, \sigma^2)，$ $\mathcal{U}$ 表示均匀分布， $K_{min}$ 和 $K_{max}$ 代表噪声水平的最小/最大值。

从图3(a)左图可以看出， $log(\sigma_r^2)$ 和 $l o g (K)$ 与 $\sigma^2$ 线性相关【本博主没看出来】， $\alpha$ 和 $\beta$ 分别代表斜率和截距【这几句到底啥意思啊？难道是说 $log(\sigma^2_r) = \alpha log(K) + \beta + \sigma^2$ ？但是图里又不是这么写的啊~】。好，但无论如何可以从图例中得到一个结论，K越大，noise的方差越大，会导致更多样的加噪RAW图。

本文中 $\alpha = 2.540, \beta = 1.218, \sigma = 0.268$ .

在这里插入图片描述

图3

可微ISP管道——为了保证梯度传导以及模型可以泛化不同ISP我们做了哪些努力？

开源的ISP不可微（导致梯度流在中间会断掉，这个对DL范式是致命的问题）或不可变（参数上？结构上？），如果采用的话，会限制本模型的泛化能力。

如图2右侧，我们基于特定的次序实现了ISP的基本模块。由于色调映射可能会放大噪声并且不同的ISP-tuning方式会导致不同的色调映射风格，所以我们随机选择色调映射曲线，而不是固定某一条，以此来充分模拟真实场景。

双域去噪——模型框架主要内容及Loss设计

噪声图

由于噪声水平和传感器Gain值高度相关（场景越暗，给相机的增益应该越强，Gain值越大，但是这样就会放大一些场景中的噪声），所以噪声图最开始是为了RAW-denoise设计的。根据相关研究， $\mathcal{P}(\frac{R^*}{k})$ 可以被视为高斯分布 $\mathcal{N}(\frac{R^*}{K},\frac{R^*}{K})$ 的特例，因此上面的公式可以被改进为： $\mathcal{R}\sim \mathcal{N}(R^*,KR^* + \sigma_r^2).$ 本文使用干净raw图的标准差， $\sqrt{KR^*+\sigma_r^2}$ 生成噪声图。注意实际场景中 $R^*$ 是获取不到的，所以我们用R来估计。我们引入了噪声融合模块(NFB)，融合输入图像和噪声图。

在这里插入图片描述

图4. 噪声模式消融

之前的工作没有在框架中融合RGB噪声模式，因为预测RGB噪声模式很困难（在ISP的非线性放大操作后预测噪声水平是困难的）。但RGB噪声模式很重要，因为raw-denoise会损害细节并导致伪像，因此，随后的RGB去噪应该在给定噪声图（用于预测损害强度）的前提下还原丢失的信息。本文的做法也很直接，即把raw域的噪声图通过可微ISP，即得到了RGB域的噪声图。（直接的做法也有困难之处，这个做法要求RAW域的噪声图预测的很精准，要不然一毁俱毁了）。