Efficient Burst Raw Denoising：稳定噪声方差和分频率降噪

Efficient Burst Raw Denoising with Stabilization and Multi-Frequency Denoising Network

Burst Raw Denoising必要性
Burst Raw Image Denoising流程
Main Contributions
具体方法介绍
- 集成noise prior
- - CMOS sensor 噪声建模
  - 噪声变换（Variance stabilization）
  - - 消除ISO对噪声方差的影响
    - 消除真实信号值 $x^*$ 对噪声方差的影响
    - 逆变换
- Multi-frame alignment
- Multi-frame denoising
- - 整体架构
  - - 选定参考帧进行单帧降噪
    - sequential多帧降噪
    - Multi-frequency降噪网络
    - - 分频率降噪
      - 频率聚合模块
- 实验细节
- - Loss Function
  - 数据集
  - 降噪结果
  - 消融实验

Burst Raw Denoising必要性

移动设备的普及促使移动摄像的需求剧增；
由于成本和空间限制，移动设备的sensor孔径和靶面小，导致成像噪声大，特别是在暗光场景；
由于噪声的随机性，单帧降噪效果容易丢失图像信号，burst raw denoising可利用时间维度缓解信息丢失的问题；

Burst Raw Image Denoising流程

噪声先验处理（noise prior）
camera拍摄参数（shutter，analog gain，digital gain等）根据环境光线变化，导致噪声水平不一致，导致难以处理。一般会基于一些先验知识对输入做变换，使其具备相同noise level。
帧对齐（frame alignment）

主要消除运动、抖动引起的前后帧像素位置错位，有助于更好地整合时序信息，提升降噪效果；
多帧降噪（multi-frame denoising）
主流方式有两种：
a) 多帧同时输入：运动估计和降噪效果更好，处理速度较快，但算力要求大；
b) 序列处理：按顺序逐帧处理，当前帧denoising的时候以上一帧的信息作为参考，算力消耗比较小；

Main Contributions

这篇论文的工作在noise prior、frame alignment、multi-frame denoising三个层面进行了创新（主要是noise prior和multi-frame denoising，frame alignment是用的某种coarse-to-fine的传统算法）：

noise prior
建模CMOS传感器的噪声，并提出一种方差稳定算法，使网络输入噪声图像的方差保持不变，降低denoising难度，可以在一定程度上降低网络大小和训练难度。
multi-frame denoising
提出了一个多帧denoising框架，按照frame顺序融合多帧的时间信息，并设计了一个多频去噪网络来有效地处理不同频率的噪声。

具体方法介绍

集成noise prior

深度网络难以同时处理具有多种方差水平的噪声，除非网络设计的很大，但这难以在移动设备上部署。针对这个问题主要有两种解决方法：

显式地把噪声水平的先验信息集成到网络输入中；
对不同噪声水平的输入进行变换使其具备一样的方差，让网络对输入的噪声水平无感。

本篇论文选择了后者。

CMOS sensor 噪声建模

CMOS sensor的噪声来源主要有两种：

shot noise
shot noise产生于光子-电子阶段，由于光电效应，sensor收集的光子数呈现随机性，这种随机性服从泊松分布，均值为真实信号值。shot noise与信号值本身相关，属于乘性噪声。
read noise
read noise产生于电子-电压阶段，是电路的物理误差决定的，可建模为高斯分布，均值为0。与信号值无关，属于加性噪声。

所以，CMOS sensor的噪声可建模为：
$x$ ~ $\sigma_s*P(\frac{x^*}{\sigma_s})+N(0, \sigma_r^2)$

$x$ 是观测值， $x^*$ 是没有被噪声污染的真实信号值， $\sigma_s$ 和 $\sigma_r$ 是噪声参数，和sensor gain(ISO)相关。

所以噪声的方差为：
$Var(x)=\sigma_s*x^*+\sigma_r^2$

推导依据：泊松分布的方差等于期望。

因为 $\sigma_s$ 和 $\sigma_r$ 只和sensor gain(ISO)相关。所以，当sensor型号固定时，噪声的方差只和ISO与真实信号值 $x^*$ 有关。噪声方差会随着ISO增加或亮度增加而增大。

噪声变换（Variance stabilization）

通过上面对CMOS sensor的噪声建模，我们知道噪声的方差是由ISO和真实信号值 $x^*$ 引起的。这一步的目的是对输入的带噪图像进行pixel-wise的处理，变换到一个新的空间，使其始终具备一样的方差，不受ISO和真实信号值 $x^*$ 影响。

消除ISO对噪声方差的影响

首先消除ISO变化引起的方差变化。令 $\grave{x} = \frac{x}{\sigma_s}$ , $\grave{x^*} = \frac{x^*}{\sigma_s}$ , $\grave{\sigma^2} = \frac{\sigma_r^2}{\sigma_s^2}$ 推导出：

$\grave{x}$ ~ $P(\grave{x^*})+N(0, \grave{\sigma^2})$

那么， $Var(\grave{x})$ = $\grave{x^*}+\grave{\sigma^2}$

消除真实信号值 $x^*$ 对噪声方差的影响

接下来要消除真实信号值 $x^*$ 引起的方差变化。
这里应用了Freeman-Tukey变换：

$y=\sqrt{\grave{x}+\grave{\sigma^2}}+\sqrt{\grave{x}+1+\grave{\sigma^2}}$

经过Freeman-Tukey变换，把原先的Possion-Gaussian分布变换成了高斯分布，且方差为1。

逆变换

噪声输入到denoising网络前经过 $\grave{x} = \frac{x}{\sigma_s}$ 和 $y=\sqrt{\grave{x}+\grave{\sigma^2}}+\sqrt{\grave{x}+1+\grave{\sigma^2}}$ 两步变换，变成和信号值 $x^*$ 无关且只有高斯噪声的信号，消除了ISO和 $x^*$ 引起的方差变化。denoising网络输出后需要进行逆变换，得到最终的denoise结果。

结合前面的变化公式，可推导出逆变换为：

$Inv(y)=(\frac{y^{4}-2y^{2} +1}{4y^{2}})*\sigma_s$

Multi-frame alignment

这部分不是重点，就简要介绍下。
考虑到计算性能因素，作者没有选择基于深度学习的多帧对齐方法，而是使用了传统的对齐方法：block matched和homography flow。
整体采用金字塔的形式，前两层使用block match进行全局的对齐，后两层使用homography flow进行局部的精细对齐。

Multi-frame denoising

整体架构

多帧去噪阶段需要从burst中聚合时间信息以产生一个帧干净的图像。然而，因为多帧之间的关系可能对建模具有挑战性，同时处理多帧不得不采用大网络。为了避免使用大网络，作者通过一系列高效的子网络按照顺序处理逐帧处理。所有子网络的结构相同，但参数不同的，整体架构如图所示。
在这里插入图片描述
整个降噪过程分为两阶段：