Implicit Neural Representation for Cooperative Low-light Image Enhancement

GitHub - Ysz2022/NeRCo: [ICCV 2023] Implicit Neural Representation for Cooperative Low-light Image Enhancement

参考：ICCV2023 | 将隐式神经表征用于“低光增强”，北大张健团队提出NeRCo (qq.com)

以下三个因素限制了现有低光图像增强方法的应用：不可预测的亮度退化和噪声、度量友好和视觉友好版本之间固有的差距，以及有限的配对训练数据。为了解决这些限制，我们提出了一种用于合作式低光图像增强的隐式神经表示方法，名为NeRCo。它以无监督的方式稳健地恢复感知友好的结果。具体而言，NeRCo通过可控的拟合函数统一了现实场景的多样化退化因素，从而提高了稳健性。此外，对于输出结果，我们引入了从预训练视觉-语言模型中得出的语义导向监督。它不仅仅是跟随参考图像，而是鼓励结果符合主观期望，找到更符合视觉习惯的解决方案。此外，为了减少对配对数据的依赖并减少解决方案空间，我们开发了一个双闭环约束增强模块。它以自我监督的方式与其他相关模块合作进行训练。最后，大量实验证明了我们提出的NeRCo方法的稳健性和优越效果。

1. Introduction

由于低光图像中物体被覆盖并降低对比度，导致亮度降低，低光图像严重影响了随后的高级计算机视觉任务（例如，目标检测 [23] 和语义分割 [15] 等）。因此，解决亮度退化对于协助探索复杂黑暗环境具有实际重要性。近年来，低光图像增强引起了广泛关注，旨在恢复退化区域中所需内容的图像增强方法 [31, 9, 10, 12, 24, 11, 16, 46]。

在过去几年中，已经提出了大量算法来解决这个经典的不适定问题，大致可分为两类：传统基于模型的方法（例如，直方图均衡化 [31]，伽马校正 [29]，Retinex模型 [30] 和锐化掩模算法 [7]）以及最近的基于深度学习的方法 [22, 51, 16, 44]。前者将退化视为物理模型，并将增强视为估计模型参数的问题，但在表征多样化的低光因素方面存在局限，并需要大量手工先验知识。后者详细说明了各种模型来调整色调和对比度，能够自动从大量数据中学习。基本上，它们被训练来学习从输入到输出领域的映射关系。然而，在现实场景中，许多样本远离了输入域的特征空间，导致训练好的模型缺乏稳定的效果。我们提出在增强之前对退化进行标准化，以使这些样本更接近输入域。此外，现有的监督方法高度依赖配对训练数据，并且主要试图产生度量友好的结果，即与真实数据相似。但有限的监督数据集和度量导向与视觉友好版本之间固有的差距必然影响它们的有效性。

我们制定了一个自我监督的培训策略来解决这个问题。如图1所示，我们对仅包含低光图像而没有常规光参考的LIME [12]数据集进行评估。可以看到，即使是最近提出的表现最佳的算法也存在严重的色彩偏差。

具体来说，我们的关键见解包括： i) 使用可控的拟合函数对输入进行标准化，以减少现实场景中不可预测的退化特征。我们采用神经表示来再现增强操作之前的退化场景。通过操纵位置编码，我们有选择性地避免再现极端退化，客观上实现了标准化，从而降低了增强的难度。 ii) 通过不同的模态监督输出，实现度量友好和感知导向的增强。我们采用多模态学习，从文本和图像两个角度进行监督。与图像监督相比，设计的提示的特征空间更稳定准确地描述亮度，在不同样本之间具有更一致的亮度。在训练过程中，我们的结果不仅被鼓励与参考图像相似，还被强制与它们的相关提示匹配。通过这种方式，我们弥合了度量友好版本和感知友好版本之间的差距。 iii) 开发了一种无监督的训练策略，减少对配对数据的依赖。我们建议使用双闭环协作对抗约束程序对增强模块进行训练，以无监督的方式学习。还提出了更多相关的损失函数，进一步减少解决方案空间。受益于这些策略，我们恢复了更真实的色调和更好的对比度（见图1）。总体而言，我们的贡献如下：

• 我们是第一个在低光图像增强中利用神经表示的可控拟合能力。它标准化了亮度退化并消除了自然噪声，而无需任何额外操作，为未来的工作提供了新的思路。

• 我们首次将多模态学习引入低光图像增强。借助其高效的视觉-语言先验知识，我们的方法学习了多样的特征，导致了感知上更好的结果。

• 我们开发了一种无监督的协作对抗学习策略，减少了对配对训练数据的依赖。其中基于外观的判别确保了从颜色和细节层面的真实性，提高了恢复结果的质量。

• 我们在代表性基准数据集上进行了大量实验，展示了我们的NeRCo相对于一系列最先进算法的优越性。特别是，它甚至超越了一些监督方法。

2. Related Work
2.1. Low-light Image Enhancement

为了提高低光图像的可见性，首先广泛采用了基于模型的方法。Retinex理论[40]将观察结果分解为照明和反射（即清晰的预测），但往往会使外观过度曝光。各种手工先验被进一步引入模型作为正则化项。Fu等人[10]开发了一个加权变分模型来同时估计反射和照明层。Cai等人[2]提出了一个保边平滑算法来建模亮度。Guo等人[12]通过采用相对总变分[45]来预测照明。然而，这些定义的先验知识需要大量人工工作，并且在面向现实场景的泛化性能方面表现不佳。

由于这些限制，研究人员利用深度学习以数据驱动的方式进行恢复[47, 24, 3, 11, 22, 51, 46, 44]，从大量数据中自动获取先验知识。例如，Guo等人[11]将光增强定式为利用轻量级深度模型进行图像特定曲线估计的任务。Jiang等人[16]引入了对抗训练来学习来自不配对监督的知识。Wei等人[43]设计了一个端到端可训练的RetinexNet，但仍然受到严重噪声的困扰。为了缓解这种问题，Zhang等人[49]调整了模型结构并开发了去噪训练损失。Zhang等人[48]提出了一种分解型架构来对反射施加约束。Liu等人[22]采用了架构搜索并构建了一个展开网络。尽管这些精心设计的模型实现了令人印象深刻的有效性，但在现实世界的应用中并不稳定。为了提高稳健性，在增强过程之前，我们使用神经表示将退化预调至统一水平。

2.2. Neural Representation for Images

最近，神经表示法已被广泛应用于描述图像。Chen等人[5]首次利用隐式图像表示进行连续图像超分辨率。然而，多层感知器（MLP）倾向于扭曲高频分量。为解决这个问题，Lee等人[20]开发了一个主导频率估计器，用于预测自然图像的局部纹理。Lee等人[19]进一步利用隐式神经表示将图像扭曲成连续形状。Dupont等人[8]尝试通过操纵隐藏层的潜在编码来用一个MLP生成不同的对象。Saragadam等人[37]采用多个MLP以多尺度方式表示单个图像。Sun等人[38]基于捕获的层析特征预测连续信息。Tancik等人[39]引入元学习来初始化MLP的参数以加速训练。

Reed等人[35]采用神经表示和参数化运动场来预测器官的形状和位置。此外，一些研究人员采用神经表示来压缩视频[1, 4, 50]。然而，现有的神经表示主要应用于图像压缩、去噪和描述连续信息等领域。我们是第一个将其可控拟合能力应用于低光图像增强的研究者。

2.3. Multi-modal Learning

近年来，跨视觉和语言模态的学习引起了广泛关注。出现了各种视觉-语言模型。Radford等人[32]提出了从语言监督中学习视觉模型的方法，称为CLIP。在训练了4亿张图文配对数据后，它可以用自然语言描述任何视觉概念，并且无需特定训练即可迁移到其他任务。此外，Zhou等人[52]开发了软提示来取代手工设计的提示，使用可学习的向量来建模上下文词汇，并获得与任务相关的语境。为了进一步将提示细化到实例级别，Rao等人[34]设计了上下文感知提示，将提示与视觉特征相结合。Cho等人[6]通过将统一框架更新为七个多模态任务的共同目标来在不同任务之间共享先验知识。Ju等人[17]采用了预训练的CLIP模型进行视频理解。

现有的方法主要集中在高级计算机视觉任务上，如图像分类。我们首次将预先训练的视觉语言模型的先验应用于微光图像增强，开发了面向语义的引导，并实现了更好的性能.

3. Our Method
3.1. Framework Architecture

作者先将待增强的暗光图及其对应的空间坐标用全连接层进行编码，并输出一张图片，鼓励输出结果尽可能地与输入的暗光图相似。
然后，利用增强模块(ResNet)将其恢复成亮光结果。在此过程中还引入注意力模块以针对性地增强不同暗光区域。增强后的结果会喂给TAD鉴别其真伪。作者鼓励非成对的亮光自然图像被TAD鉴别为真，鼓励恢复的亮光结果为伪，以此训练增强模块。
文本驱动的外观鉴别器该鉴别器由3条支路构成。输入的亮光图像(增强结果or数据集)会分别从颜色维度，高频分量和语义空间三个角度被监督
中间的紫色支路是一个普通鉴别器，判断输入图像在像素级别上与真实亮光图之间的差异。下方支路是由Sobel算子和鉴别器组成的高频分量鉴别器。Sobel算子先提取图像的高频分量，再由鉴别器判断其与真实图片的分布差异。
上方是作者引入的CLIP先验指导的文本监督，通过对其图像特征和文本特征，引导模型向与文本更匹配的方向优化。实验证明引入文本监督后的模型，其增强结果更符合文本语义特征的分布，甚至比Ground Truth更符合