论文阅读：GS-Blur: A 3D Scene-Based Dataset for Realistic Image Deblurring

今天介绍一篇 2024 NeurIPS 的文章，是关于真实世界去模糊任务的数据集构建的工作，论文作者来自韩国首尔大学

Abstract

要训练去模糊网络，拥有一个包含成对模糊图像和清晰图像的合适数据集至关重要。现有的数据集收集模糊图像的方式主要有两种：一种是通过合成的方式，将连续的清晰帧进行聚合；另一种是使用复杂的相机系统来捕捉真实的模糊图像。然而，这些方法要么在模糊类型（模糊轨迹）方面提供的多样性有限，要么需要大量的人力来重建大规模数据集，无法充分反映现实世界中的模糊场景。
为解决这一问题，我们提出了 GS - Blur 数据集，这是一个采用新方法合成的逼真模糊图像数据集。为此，我们首先利用三维高斯散点法（3DGS）从多视图图像中重建三维场景，然后沿着随机生成的运动轨迹移动相机视角来渲染模糊图像。通过在重建 GS - Blur 数据集时采用多种相机轨迹，我们的数据集包含了逼真且多样的模糊类型，提供了一个能很好地适用于现实世界模糊情况的大规模数据集。
将 GS - Blur 数据集与各种去模糊方法结合使用，我们证明了与之前的合成或真实模糊数据集相比，它具有更强的泛化能力，在去模糊性能上有显著提升。

Introduction

单张图像去模糊是图像恢复领域中的一项关键挑战，其重点在于消除由相机与物体之间的相对运动所导致的模糊。为了解决这一问题，一些开创性的方法提出了配对数据集，该数据集由模糊图像及其对应的清晰图像组成，旨在用于训练深度神经网络。具体而言，他们在创建去模糊数据集方面的工作主要依赖两种方法：合成数据生成方法和真实数据生成方法。然而，这两种方法都严重依赖于人为的启发式采集技术，这往往会导致一些局限性，例如无法全面覆盖大规模数据集，以及对各种不同类型的模糊（即模糊长度和方向）的代表性不足。

由于使用单个传感器同时捕捉模糊图像和清晰图像具有挑战性，早期的方法采取了从连续的清晰帧中合成生成模糊图像的方式。他们通过使用高速相机捕捉连续的清晰帧，然后将这些相邻的帧进行聚合来创建合成的模糊图像，以此实现这一目的。尽管这种方法能够轻松生成模糊图像，但所得到的模糊效果源于高度离散的帧，这就导致了与现实世界中的模糊情况存在差异，并且无法很好地推广应用到真实世界的模糊图像上。

后来的方法引入了配备分光镜的专用相机系统。这些系统将进入相机镜头的光线分成两路，分别投射到两个具有不同曝光时间的图像传感器上，由曝光时间较短的传感器生成清晰图像，而曝光时间较长的传感器则生成模糊图像。虽然这种方法能够生成更接近现实的模糊效果，使其更适合实际应用场景，但它也带来了一些挑战。首先，这种方法需要精确设计相机系统，这使得使用不同的相机型号变得复杂。实际上，[47] 和 [30] 的数据集分别来自单一的相机型号，即索尼 A7R3 和机器视觉相机。其次，尽管两个传感器采用了不同的曝光时间，一个用于捕捉模糊图像，另一个用于捕捉清晰图像，但图像信号处理（ISP）过程中仍可能出现差异，这就需要进行额外的图像处理，如白平衡和颜色映射。此外，这些数据集在很大程度上依赖人工采集，这不仅限制了数据集的规模，而且在模糊长度和方向方面也导致了模糊轨迹的局限性。

在本文中，我们探索了合成逼真模糊图像的方法，以普遍提高针对真实世界模糊图像的去模糊质量。为此，我们提出了一个全新的数据集，即 GS-Blur，它利用三维高斯溅射（3D Gaussian Splatting，3DGS）技术来合成模糊图像。具体而言，我们使用现有的大规模多视角数据集 MVImgNet [43]，在清晰的多视角图像上训练 3DGS 模型，从而实现三维场景的重建。然后，从这些重建的场景中，我们使用两个相机视角来渲染图像：一个视角来自固定位置，另一个视角来自沿着随机生成的运动轨迹移动的位置，这两个视角分别对应着清晰图像和模糊图像。

具体来说，我们遵循 [23, 22, 46] 中的方法，通过聚合沿轨迹的多个相机拍摄的图像来创建模糊图像，但与 [23, 22, 46] 中使用高度离散的帧不同，我们通过在轨迹上布置多个相机来采用更密集的帧，从而产生更逼真的模糊效果。此外，通过利用模糊轨迹的不同程度，我们的 GS-Blur 数据集在模糊长度和方向方面包含了各种不同的模糊轨迹。

通过使用 MVImgNet（它由来自不同相机型号的大规模多视角图像组成），我们的 GS-Blur 数据集提供了多样化的去模糊图像对，具有显著的优势，展现出了良好的通用性，具体内容见实验部分 4.3。此外，在 4.4 节中，我们进行了全面的消融实验，以验证我们的 GS-Blur 数据集重建的合理性。GS-Blur 数据集的样本如图 1 所示。

在这里插入图片描述

GS-Blur dataset

Preliminary: 3D Gaussian Splatting

三维高斯溅射（3D Gaussian Splatting，3DGS）利用高斯基元 $\{\mu_k, \Sigma_k, \sigma_k, S_k\}_{k\in K}$ 从多视角图像中对三维场景进行建模，其中每个参数分别代表稀疏三维点 $\in K$ 的位置 $\mu_k$ 、协方差 $\Sigma_k$ 、不透明度 $\sigma_k$ 以及球谐系数 $S_k$ ，这些参数从结构从运动（Structure from Motion，SfM）[32] 算法初始化得到。在渲染图像时，高斯基元会被投影到相机的图像平面上，每个像素 $p$ 的颜色会使用基于点的 $\alpha$ 混合（ $\alpha$ -blending）方法 [48] 按如下方式计算。

$\hat{C}(\boldsymbol{p}) = \sum_{k \in \mathcal{K}} \alpha_k \mathbf{c}(\mathbf{v}_k; \boldsymbol{S}_k) \prod_{j = 1}^{k - 1} (1 - \alpha_j) \tag{1}$

$\alpha_k = \sigma_k e^{-\frac{1}{2} (\boldsymbol{p} - \boldsymbol{\mu}^{\downarrow }_k)^\top \boldsymbol{\Sigma}_k^{\downarrow -1} (\boldsymbol{p} - \boldsymbol{\mu}^{\downarrow }_k)} \tag{2}$

第 $k$ 个高斯的颜色是使用针对相机观察方向 $\mathbf{v}_k$ 的球谐函数 $\mathbf{c}(\mathbf{v}_k; \boldsymbol{S}_k)$ 来计算的，而密度 $\alpha_k$ 则根据 [48] 中介绍的二维投影高斯权重 $\boldsymbol{\mu}_k^\downarrow$ 和 $\boldsymbol{\Sigma}_k^{\downarrow - 1}$ 来确定。公式（1）中基于点的 $\alpha$ 混合本质上遵循与神经辐射场（NeRF）[20] 相同的成像模型。然而，与 NeRF 相比，高斯基元的显式表示能够实现显著更快的渲染速度。具体来说，经济高效的高斯光栅化取代了 NeRF 中使用的计算量很大的多层感知和射线 - 点采样方法。因此，3DGS 能够实现高质量的实时视图合成，并将训练时间缩短至几十分钟。在这项工作中，我们利用 3DGS 快速的训练和渲染速度，通过沿着移动相机轨迹密集采样视图来生成逼真的模糊图像。

Preliminary: MVImgNet dataset

MVImgNet [43] 是一个大规模的多视角图像数据集，它包含来自 219,199 个视频的 650 万帧图像，涵盖了 238 个类别的物体。这些视频是使用各种常见相机（如智能手机）拍摄的，反映了现实世界中多样的图像分布情况。在此基础上，我们利用这个数据集来重建我们的 GS-Blur 数据集。具体而言，我们手动挑选了 26 个适合构建去模糊数据集的类别。

Pipeline for blur synthesis of GS-Blur

在这里插入图片描述

图 3 我们的 GS-Blur 数据集中生成模糊图像与清晰图像对的整体流程如下。为此，我们首先训练一个三维高斯溅射模型，以便从多视角图像中重建三维场景。然后，基于这些重建的三维场景以及随机生成的运动轨迹 \mathbf{T}，我们从固定的相机视角渲染出清晰图像 $\mathcal{I}(\mathbf{P}_{0.5(\tau_o + \tau_c)})$ ，并从移动的相机视角渲染出模糊图像 $\mathcal{B}(\mathbf{T})$ 。具体来说，我们沿着运动轨迹渲染出 $\mathcal{M}$ 张清晰图像，然后对这些清晰的帧进行平均处理，从而合成模糊图像。

图 3 展示了我们的 GS-Blur 数据集的构建过程概览。为了收集 GS-Blur 数据集，我们首先使用一组带有对应相机位姿 $\{P_i\}_{i\in N}$ 的 $\mathcal{N}$ 个带位姿的清晰图像 $\{I(P_i)\}_{i\in \mathcal{N}}$ 来训练 3DGS 模型。在此过程中，每个场景使用 3DGS 模型训练 30,000 次迭代。然后，从重建的三维场景中，我们从任意相机视角 \mathbf{P} 渲染出图像 $I(\mathbf{P})$ 。具体来说，为了模拟现实世界中拍摄模糊图像的过程（即移动的相机在快门打开时产生模糊图像），我们通过让相机沿着三维轨迹移动来模仿这一过程。然后，我们通过累积多个渲染图像来创建模糊图像，这些渲染图像由沿着运动轨迹的相机逐个拍摄。令 $\mathbf{T} = \{\mathbf{P}_\tau\}_{\tau\in[\tau_o,\tau_c]}$ 表示沿着生成运动模糊图像 $\mathcal{B}(\mathbf{T})$ 的轨迹的连续相机位姿，我们可以从 3DGS 渲染的清晰图像中合成模糊图像，如下所示：

$\mathcal{B}(\mathbf{T}) = g\left(\int_{\tau_o}^{\tau_c} g^{-1}(\mathcal{I}(\mathbf{P}_\tau)) d\tau\right) \simeq g\left(\frac{1}{\mathcal{M}} \sum_{t = 1}^{\mathcal{M}} g^{-1}(\mathcal{I}(\mathbf{P}_t))\right) \tag{3}$

在这里，相机响应函数（Camera Response Function，CRF） $g$ 将图像从线性 RGB 空间映射到 sRGB 空间， $g^{-1}$ 是其逆函数。我们在线性空间中累积渲染的清晰图像，然后按照 [23, 22] 中的方法将累积得到的模糊图像转换到 sRGB 空间。在实际相机中，RGB 颜色在快门打开时会持续累积。为了模拟这种连续累积过程，我们使用 $\mathcal{M}$ 个中间子帧的有限和来近似，当 $\mathcal{M}$ 足够大时，这种近似是有效的。与实际相机系统不同，通过 3DGS 进行的子帧渲染不会降低图像质量，无论 $\mathcal{M}$ 取值如何。在实际操作中，我们将 $\mathcal{M}$ 设置为 121，并选择中间子帧作为真实清晰图像对。也就是说，清晰图像是从固定相机位置 $\mathbf{P}_{0.5(\tau_o + \tau_c)}$ 渲染得到的；因此，清晰图像表示为 $\mathcal{I}(\mathbf{P}_{0.5(\tau_o + \tau_c)})$

随机模糊生成。通过新视角合成来生成去模糊数据具有独特优势，即模糊图像可由随机生成的相机运动合成。虽然任何多项式曲线或样条模型都可用作相机运动轨迹，但我们采用了随机阶贝塞尔曲线，该曲线在先前的研究 [34, 13, 12] 中被广泛应用。

对于在训练视角中给定初始相机位姿 $P_i$ 的相机运动生成，我们遵循以下步骤：

在六自由度（6DOF）位姿空间中随机生成一条线性运动轨迹。
通过对将线性运动轨迹等分为 $n + 1$ 段的点进行随机扰动，生成一条 $n$ 阶贝塞尔曲线。
将贝塞尔曲线的中心位姿对齐到 $P_i$ ，并从该曲线上采样 $\mathcal{M}$ 个相机位姿。

需注意，我们随机选择曲线参数 $\{n, \delta_t, \delta_r\}$ ，其中 $\in [1, 5]$ 表示贝塞尔曲线的阶数， $\delta_t \in \mathbb{R}^3$ 表示曲线长度， $\delta_r \in \mathbb{R}^3$ 表示方向偏移。这里， $\delta_t$ 和 $\delta_r$ 的三个维度分别对应三维空间中的 $x, y, z$ 轴。

由于随机选择的、对应相机运动的曲线会直接影响模糊效果的形成，我们在预定义范围内选择参数 $\delta_t$ 和 $\delta_r$ ，以体现真实的模糊情况。具体来说，考虑到先前数据集中的模糊长度，我们从区间 $[0, 0.7]$ 中随机采样三维长度 $\delta_t$ ；考虑到在现实世界拍摄模糊图像时，短曝光时间内旋转的影响极小，我们从区间 $[-1.5^{\circ}, 1.5^{\circ}]$ 中随机采样三维方向 $\delta_r$ 。

一对多模糊生成。所提出的数据集生成方法的另一个优势是具备一对多模糊生成的能力。现有的通过高速相机或配备分光镜的相机收集的数据集，通常每张清晰图像仅对应生成一张模糊图像，或者通过改变合成的帧数来调整模糊程度。相比之下，我们的方法通过多次生成独立的轨迹，能够为一张清晰图像合成多张对应的模糊图像，这对于防止去模糊架构出现过拟合现象至关重要。图 4（左侧）展示了一张清晰图像对应多张（ $n$ 张）模糊图像 $\mathcal{B}(\mathbf{T})$ 的示例，这些模糊图像使用了不同的模糊轨迹。

刚体对象运动模糊。使用三维高斯溅射（3DGS）生成去模糊数据的主要局限性在于它只能渲染静态场景，仅能产生由相机移动引起的运动模糊。然而，在现实世界的模糊图像中，运动模糊常常来自于行人或车辆等移动物体，与相机运动无关。为了解决这个问题，我们利用对象的二值分割掩码 $\mathbf{m}_s \in \{0, 1\}$ 来模拟刚体运动。具体而言，我们生成两条随机运动轨迹：一条轨迹 $\mathbf{T}_{obj}$ 用于为对象 $\mathcal{B}(\mathbf{T}_{obj})$ 创建刚体运动模糊，另一条轨迹 $\mathbf{T}_{bg}$ 用于模拟背景中的相机运动模糊 $\mathcal{B}(\mathbf{T}_{bg})$ 。利用这两条轨迹和对象掩码 $\mathbf{m}_s$ ，我们应用阿尔法抠图（alpha matting）技术来生成一张模糊图像，在这张图像中，对象和背景因各自的运动而产生明显不同的模糊效果。在此，用于映射的阿尔法值 $\mathbf{m}_s(\mathbf{T}_{obj})$ 是在沿着 $\mathbf{T}_{obj}$ 对 $\mathbf{m}_s$ 进行三维变形后取平均值计算得到的，如下所示:

$\mathbf{m}_s(\mathbf{T}_{obj}) = \sqrt{\frac{1}{\mathcal{M}} \sum_{t = 1}^{\mathcal{M}} \pi(\mathbf{m}_s; \mathbf{P}_t)} \tag{4}$

$\mathcal{B}(\mathbf{T}_{obj}, \mathbf{T}_{bg}) = \mathbf{m}_s(\mathbf{T}_{obj}) \cdot \mathcal{B}(\mathbf{T}_{obj}) + (1 - \mathbf{m}_s(\mathbf{T}_{obj})) \cdot \mathcal{B}(\mathbf{T}_{bg}) \tag{5}$

每个子帧的对象掩码通过反向变形 [7] $\pi(\mathbf{m}_s; \mathbf{P}_t)$ 计算得出，其中相机内参、子帧t的深度和位姿是变形函数 $\pi : \in \mathbb{R}^{H\times W} \mapsto \mathbb{R}^{H\times W}$ 的参数。请注意，对阿尔法值取平方根可在对象边界处实现更自然的融合，因为在合成 $\mathcal{B}(\mathbf{T}_{obj})$ 时，背景颜色已在边界处混合。图 4（右侧）展示了分别针对对象和背景使用不同随机运动轨迹 $\mathbf{T}_{obj}$ 和 $\mathbf{T}_{bg}$ 生成的模糊图像$ \mathcal{B}(\mathbf{T}{obj}, \mathbf{T}{bg})$示例。

在这里插入图片描述

图 4 随机生成的三维轨迹及其对应的运动模糊图像 $\mathcal{B}(\mathbf{T})$ 的可视化展示。（左侧）通过对不同图像使用不同的轨迹 $\mathbf{T}$ ，我们能够生成与一张清晰图像相对应的多张模糊图像。在此处，我们对对象和背景使用了相同的轨迹 $\mathbf{T}$ 。（右侧）通过分别对对象和背景使用不同的运动轨迹，即 $\mathbf{T}_{obj}$ 和 $\mathbf{T}_{bg}$ ，我们可以模拟刚体运动模糊效果。请注意，图中的第一列和第四列展示的是固定相机视角下的清晰图像。

添加噪声。3DGS 利用球谐函数对与视角相关的 RGB 颜色进行建模，这使得即使输入图像包含轻微噪声，渲染结果也会很平滑。然而，使用这些平滑的渲染结果来训练去模糊深度网络会降低其对真实世界模糊图像的泛化能力，因为网络可能无法学习到自然存在的噪声和复杂模糊变化中典型的必要特征。因此，我们整合了 RSBlur [29] 中提出的逼真模糊合成流程，将逼真的图像噪声合成到由 3DGS 生成的模糊渲染图像中。为此，我们将图像从 sRGB 空间转换到相机 RAW 空间，然后添加泊松噪声和高斯噪声，最后再将它们转换回 sRGB 空间，以此近似真实相机系统中的噪声生成原理。

多分辨率。作为 GS-Blur 数据集来源的 MVImgNet [43]，主要包含以物体为中心的场景，在这些场景中物体通常在靠近相机视角的位置被拍摄，渲染图像的相当一部分像素可能仅由物体构成。然而，在训练去模糊网络时，图像块通常会被裁剪为较小尺寸（如 256×256），由于物体占比过大，这可能导致训练效果不佳。为解决此问题，我们从渲染的高分辨率图像（如 1920×1080）中引入随机下采样渲染（×1/2、×1/3、×1/4 ）作为数据增强手段，使裁剪后的图像块能包含更广泛的三维区域。不过需注意，我们的下采样与先前数据集 [14, 22] 的下采样目的不同，先前数据集下采样是为了减少噪声，而我们是在下采样后添加噪声。

最后，我们从 MVImgNet 子集中重建了 3408 个场景，并训练 3DGS 模型，以获得用于生成模糊图像的 156209 张清晰渲染图像。通过渲染多组随机模糊图像对并利用下采样渲染增强技术，我们构建了一个 GS-Blur 数据集，该数据集总共包含 752335 张模糊图像。

为评估我们的 GS-Blur 数据集的有效性，我们采用了当前最先进的去模糊架构，包括基于 Transformer 的架构（Uformer [40]）以及基于卷积神经网络（CNN）的架构（MIMO-UNet [4] 和 NAFNet [3]），并遵循它们各自的训练协议。具体而言，去模糊网络在随机裁剪为 256×256 大小的图像块上进行训练，MIMO-UNet 和 Uformer 每个 GPU 的批量大小设为 4，NAFNet 每个 GPU 的批量大小设为 8，使用 4 块 NVIDIA Quadro RTX 8000 显卡。根据每个网络的协议，对训练样本还应用了随机水平翻转和图像旋转操作，总共进行 20 万次迭代。对于 Uformer，采用余弦退火策略 [19] ，学习率从 2e−4 开始衰减至 1e−6；对于 NAFNet，学习率从 1e−3 开始衰减至 1e−6 。就 MIMO-UNet 而言，每 3 万次迭代学习率减半。在评估指标方面，我们使用峰值信噪比（PSNR）和结构相似性指数（SSIM）[41] 等传统图像质量评估指标来评价结果。

虽然我们的 GS-Blur 数据集能够有效地模拟真实的模糊效果，并且通过在各种基准数据集上进行交叉验证证明了其价值，但它仍存在两个潜在的局限性。首先，尽管 GS-Blur 数据集通过沿着随机模糊轨迹移动相机视角来模拟真实的模糊效果，并且使用不同的模糊轨迹（分别为对象 $T_{obj}$ 和背景 $T_{bg}$ ）来模拟刚体对象的运动，但它无法考虑随时间改变形状的对象。例如，由于三维场景是基于静态图像构建的，像行人行走时手臂和腿部的动作，或者行驶中车辆旋转的车轮这类动态动作，在 GS-Blur 数据集中并未体现。不过，通过利用最近在四维高斯溅射技术方面的进展（该技术可以从多视角视频输入中重建随时间变化的三维场景），我们计划在未来的工作中扩展我们的数据集，将此类动态变化纳入其中。其次，与直接从相机拍摄的传统清晰图像不同，我们的清晰图像是从三维场景中渲染得到的，这可能会在这些图像与现实世界中的干净图像之间产生差异。尽管如此，我们相信，近期在三维重建和单张图像生成技术方面的进展能够改进我们的方法，从而使我们的 GS-Blur 数据集的重建更加精确。