Abstract
光适应或亮度校正是提高图像对比度和视觉吸引力的关键步骤。 有多种与光相关的任务(例如,低光增强和曝光校正),之前的研究主要单独研究这些任务。 然而,考虑这些与光相关的任务是否可以通过统一的模型来执行是很有趣的,特别是考虑到我们的视觉系统以这种方式适应外部光。 在这项研究中,我们提出了一种受生物学启发的方法,通过统一网络(称为 LA-Net)处理与光相关的图像增强任务。 首先,设计了基于频率的分解模块,将光相关任务的常见和特征子问题解耦为两条路径。 然后,受生物视觉适应的启发,构建了一个新模块,以实现低频路径中的统一光适应。 此外,无论光线水平如何,都可以在高频路径中有效地实现噪声抑制或细节增强。 对低光增强、曝光校正和色调映射这三项任务的广泛实验表明,与为这些单独任务设计的最新方法相比,所提出的方法几乎获得了最先进的性能。
1. Introduction
图像通常是在不同的照明条件下拍摄的,这通常会导致质量不满意并影响进一步的计算机视觉任务,例如物体检测或识别。 因此,图像亮度校正是获得良好视觉外观或促进后续视觉理解的必要步骤。 另一方面,这项任务与生物视觉系统的基本功能(即光适应)密切相关[37],它可以帮助我们通过可靠地适应不同的光照条件来保持稳定的视觉感知。
计算机视觉中有多种任务旨在实现光适应,例如低光增强[15,24,56,57],曝光校正[1,52,54]和高动态范围(HDR) )色调映射[7,23,36,41]。 图 1 显示了这些增强任务的三个示例。 这些与光线相关的任务的共同关键操作是将场景的光线水平调整到适当的水平并显示更多的视觉细节。 例如,低光增强旨在提高黑暗区域的亮度,以显示更多细节,同时控制噪点。 还执行曝光校正任务来调整曝光级别(曝光不足和曝光过度),以显示清晰的图像并增强细节。 此外,HDR色调映射的目的是将HDR场景的动态范围压缩到低动态范围(LDR)屏幕并保留细节,这也可以被视为对HDR输入的一种光适应。
然而,由于这些与光相关的任务具有不同的特性,当前大多数方法都是为了单独处理上述任务而设计的。 例如,低光增强特别考虑去噪[22, 49],因为噪声或伪影通常存在于黑暗区域。 然而,由于输入场景的 HDR,HDR 色调映射可能需要更大幅度的光适应,但较少考虑去噪[36]。 此外,曝光校正必须同时处理曝光不足和曝光过度的场景[1]。
考虑这些与光相关的任务是否可以通过统一的模型执行是很有趣的,特别是考虑到此类系统出现在生物大脑中。 因此,本研究旨在建立一个统一的网络来处理多个与光相关的增强任务,包括低光增强、曝光校正和 HDR 色调映射。 此外,早期视觉系统中的两种视觉通路[38]和视觉适应[37]的机制被认为可以启发我们网络结构的设计。
综上所述,这项工作直接从生物视觉光适应中汲取灵感,所提出模型的贡献如下。 (1)基于频率的分解用于将图像增强任务分解为共同的光适应子问题和针对不同任务的噪声抑制或细节增强的特定算子,而不是采用广泛使用的反射照明分解 视网膜假设。 (2)构建了仿生模块,以实现低频通路中多个与光相关的增强任务的光适应。 通过使用一组可学习的 Naka-Rushton (NR) 函数将输入图像映射到多个通道,通过将多个通道与局部特征融合来实现光自适应。 (3)在高频路径中,设计了一个简单的基于残差的子网络来处理噪声抑制和细节增强。
在实验中,我们证明了所提出的方法在统一网络框架的三个光适应相关任务上与最先进的方法相比取得了相当有竞争力的性能。 此外,与最近的顶级方法(例如 KinD++ [56])相比,所提出的方法计算速度快,并且需要相当低的内存占用。
2. Related Works
存在大量的图像增强方法。 一类重要的传统方法是基于直方图的方法,包括直方图均衡及其变体[33, 34],通常通过映射直方图来增强图像的可见性。 另一种传统方法是基于Retinex的方法,它假设图像可以根据Retinex理论[21]分解为反射和照明,例如单尺度Retinex(SSR)[19]和多尺度Retinex(MSR) )[18]。 因此,以下工作尝试优化光照图的估计,例如NPE [43]、LIME [15]和SRIE [12]。
近年来,深度学习方法已广泛应用于各种图像增强任务,并取得了令人兴奋的进展。 对于低光图像增强,Lore 等人。 首先提出了一种用于对比度增强和去噪的深度网络(称为 LLnet)[24]。 此外,许多研究人员尝试基于Retinex假设[21]构建深度学习网络,该假设通常将图像分为两个部分[6,42,56,57]。 其他基于深度学习的低光增强方法使用不同的学习策略,包括基于无监督学习的方法[17]、基于零样本学习的方法[14]和基于半监督学习的方法[50]。
与低光图像增强任务相反,这是一种曝光不足增强,Afifi 等人。 最近提出了一种新方法,可以使用单个模型校正曝光不足和过度曝光图像的曝光错误[1]。 曝光校正任务也可以被视为图像光适应,但需要同时处理曝光不足和过度的条件[52-54]。
此外,色调映射(TM)是另一个以 HDR 作为输入的与光相关的任务。 TM 算子通常旨在将 HDR 图像的动态范围压缩到标准动态范围,同时保持细节和自然外观。 传统的 TM 方法通常采用全局或局部算子来保留图像对比度 [7,10,36]。 曝光融合方法也用于实现 HDR TM [26, 48]。 受生物视觉系统局部适应机制的启发,一些研究人员基于Retinex理论[27, 28]或视网膜中的神经回路[55]建立了TM模型。 最近还报道了旨在通过深度生成对抗网络实现 TM 的方法 [30,32,35,41]。
与之前的大多数单独关注上述任务的工作相比,我们首先隔离这些与光相关的图像增强任务的常见子问题(即光适应),并使用受视觉启发的统一模型来处理它。 生物视觉系统中的适应机制。 此外,噪声抑制和细节增强是沿着另一条路径处理的。 因此,多个与光相关的增强任务有望通过统一的框架来实现。
3. Method
3.1. Motivation
3.1.1 Frequency-based Decomposition
与光相关的视觉增强任务包含光适应的常见子任务,但也需要不同的算子来处理噪声或细节。 因此,本研究的第一个动机是将常见和特定的子问题从多个与光相关的增强任务中分离出来。 在许多先前的研究中,根据Retinex理论将图像分为两个分量(反射和照明),并在相应的分量中处理不同类型的退化[12,15,43]。 然而,Retinex 假设并不总是成立,反射照明分解是一个不适定问题。
相反,我们采用基于频率的分解,即将图像分解为低频和高频路径。 基于频率的分解在各种增强相关任务中的有效性,例如夜间除雾[47]和除雨[11],已经在之前的工作[46]中得到了证明。 此外,基于频率的分解是一种基于生物视觉系统中两条视觉通路的生物学上合理的方法[49]。 最后,将噪声和细节分解到高频路径中,从而促进低频路径中的光适应并避免放大噪声。 在高频路径中,无论光照水平如何,噪声抑制或细节保留可能更容易实现。
3.1.2 Bio-inspired Model for Unified Light Adaptation
光适应是生物视觉系统中的一个重要机制,用于在不同的视觉场景下保持感知水平的恒定性。 NR方程定义了一种S形响应曲线,广泛用于描述可见光适应过程[31]。 NR函数可以表示为
其中 I 是视觉输入的强度,σ 是用于控制 S 形曲线平均值的适应因子。 在生物视觉系统中,光适应是通过根据不同的光照条件调整 σ 来实现的。 另外,n是通过控制S形曲线的斜率来调节对比度的尺度。 图2显示了NR曲线的基本特征。 因此,NR 功能提供了一种生物学上合理的方式来实现光适应。 然而,如何根据视觉输入或光照的局部变化选择合适的σ和n值是一个具有挑战性的问题。
受生物视觉系统中视觉适应机制的启发,我们的目标是通过设计一个可学习的模块来学习一组针对不同场景和区域的适应参数(σ和n),从而构建统一的视觉适应模型。 因此,可以通过根据局部特征组合具有不同NR曲线的多个通道来实现局部光自适应。
3.1.3 Noise Suppression and Detail Enhancement
图像分解后,噪声和细节通常出现在高频路径中。 为了获得清晰的图像,应去除或抑制噪声(例如,在低光增强中),同时应保留或增强细节(例如,HDR 色调映射)。 因此,可以通过统一的子网络在高频路径中实现噪声抑制和细节增强。 我们的模型尝试区分噪声或细节,无论光照水平如何,旨在降低拟合难度。
3.2. Proposed Model
根据3.1节的描述,我们提出了一种新的具有双路径和视觉适应机制的图像增强网络。 该方法的流程如图3所示。具体来说,输入图像首先通过小型卷积网络分解为低频和高频分量。 然后,利用受视觉适应启发的统一子网络在低频路径中处理光适应。 通过引入基于残差的块,在高频路径中实现噪声抑制和细节增强,可以防止梯度消失,特别是高频路径中的低值。
3.2.1 Frequency-based Decomposition
为了将输入图像分解为两个路径,我们构建了一个小型卷积子网络,其中包含五个 Conv+PReLU 层和一个 Conv+Sigmoid 层。 为了实现分解,我们采用了全变分(TV)损失,该损失已被广泛用于将图像分解为不同的频率分量[2]。 然而,在我们的工作中,我们将TV损失集成到 CNN 网络中,并以端到端的方式进行训练。 本工作中使用的类TV损失包括以下三个术语:
其中 ω1 = 100、ω2 = 2 和 ω3 = 1,这些是通过实验设置的(参见补充材料)。 输出的分支表示为Ihigh和Ilow,其中Ihigh包含主要高频分量,例如边缘和噪声,而Ilow包含亮度和颜色信息。
此外,为了分别约束低频和高频路径中的光适应和细节处理,还使用相同的网络(共享权重)对地面实况图像(表示为T)进行分解,以生成低频和高频路径中的光适应和细节处理。 地面实况图像的高频分量(分别表示为 Tlow 和 Thigh)。 真实图像的损失函数(表示为Ldc−gt)与式(2)类似,即
其中我们实验性地设置 ω3' = 5。这是因为考虑到低光输入的高频分量一般较大,第三项的权重较大可以平衡低光输入的高频分量和地面实况图像之间的信息。 地面实况图像(正常光)中的频率分量。 最后,用于分解网络的最终损失为
3.2.2 Light-adaptation Model
这项工作的关键是在低频路径中实现光适应。 基于具有可学习参数(即 σ 和 n;参见第 3.1.2 节)的 NR 函数,我们首先将输入图像映射到多个通道以获得不同光照级别的图像。 因此,可以通过根据局部特征融合多个通道来实现局部光自适应。 图4所示为光适应模型的计算流程。 输入图像首先被映射到具有可学习 NR 函数的多个通道。 每个通道包含适应特定光水平的信息,即每个通道中特定区域得到增强。 然后,将所有 NR 函数的输出连接起来,然后输入一个小型 U 形网络(补充材料中介绍的具有 32 个输出通道的 3 层 U 形网络)以整合光信息。 最后,U形网络的输出通过1×1卷积层以获得增强图像。
通过端到端学习,所提出的模型可以学习一组 NR 函数(学习到 σ 和 n)并表达各种光适应任务的多个光级别。 同时,融合网络根据学习到的特征将局部光与卷积层集成。 最后,对输入图像低频分量中的光进行校正,实现光自适应。
由于光线调整通常会导致颜色偏移,因此需要使用一个附加步骤来恢复输入场景的颜色。 光适应后的增强图像记为Ic enh,然后得到色彩恢复的光增强图像为
其中Mlow和Menh分别是Ic low和Ic enh的平均图。 无论光适应如何,该方程都使输出图像的颜色与输入图像的颜色相同。 最后,使用损失函数来指导低频路径中光适应的学习,即
3.2.3 Noise Suppression and Detail Enhancement
为了增强细节并抑制潜在噪声,我们设计了一个子网络来处理高频信息(Ihigh)。 子网络的结构如图3所示。具体来说,所提出的子网络中使用了基本残差块(即ResBlock),其目的是避免反向传播中可能出现的梯度消失,其中, 像往常一样,细节图像中的像素值较小。 低频路径中使用的损失函数定义为
所提出的网络旨在实现低光增强任务的噪声抑制,并在面对一些无噪声输入场景(例如HDR场景)时实现细节增强或保留。
3.2.4 Combining Two Pathways
最终结果是通过将低频路径的调光图像(Ilight)和高频路径的细节增强图像(Idetail)相加而获得的。
此外,还使用L2损失函数来打磨两个路径结合后的最终结果,即
最后,广泛使用的感知损失(表示为 LPce)还额外用于保持 VGG16 网络编码的特征空间中的常数[20]。 因此,总损失函数为
其中λ1 = λ3 = λ5 = 1,λ2 = 10,λ4 = 5。主要参数设置的分析可以在补充材料中找到。
4. Experimental Results
4.1. Implementation Details
所提出的网络在运行 Pytorch 框架的 NVIDIA Titan Xp 图形处理单元 (GPU) 上进行训练。 Adam 优化器用于训练网络。 分解网络的初始学习率设置为 0.0002,并在总共 100 个 epoch 后,每 50 个 epoch 缩放 0.5。 低频和高频路径中子网络的学习率设置为 0.0001。 子网络采用不同学习率策略的原因是,在训练开始阶段,分解是优先考虑的,而当分解达到一定程度时,训练将侧重于图像增强。 权重衰减设置为 0.0001,模型总共训练了 200 个 epoch,批量大小为 2。所有训练图像的大小都调整为 512×512。 特别是,所有 NR 函数的初始参数为 σ = 0.5 和 n ∈ [0.5, 8],且间隔相等。
为了压缩所提出模型的大小,分解网络和高频路径中具有相同结构的卷积层共享权重。 有关权重共享的更多实验和讨论可以在补充材料中找到。
4.2. Performance Evaluation
该模型的性能在三个与光相关的图像增强任务上进行评估,即(1)低光增强(LLE)、(2)曝光校正(EC)和(3)HDR色调映射(TM) 。 表1总结了每个任务的主要特征,这表明这三个任务的共同算子是光适应。 在本小节中,我们相应地展示每个任务的实验结果。
Low-light enhancement
主要侧重于照亮场景的黑暗区域,该区域通常也受到噪音和伪影的影响。 在本实验中,采用广泛使用的 LOL 数据集 [6] 来训练和评估所提出的模型。 该数据集包含 485 对用于训练的低光/正常光图像和 15 对用于测试的低光图像; 所有图像均来自真实场景[6]。
KinD++[56]、KinD[57]、Retinex-Net[6]、GLAD[44]、DRBN[50]、EnlightenGAN[17]、Zero-DCE[14]和LIME[15]现有的LLE方法是 用于比较。 采用流行的指标,包括 PSNR、SSIM [45] 和 NIQE [29] 进行定量比较。 PSNR 和 SSIM 是参考指标,而 NIQE 是非参考指标。 表2列出了所有比较方法在LOL数据集的测试集上的数值结果,这表明所提出的LA-Net获得了最高的PSNR和第二高的SSIM。 因此,与最近最先进的 KinD++ 方法[56]相比,所提出的 LA-Net 取得了相当有竞争力的性能。 对其他低光数据集的更多实验显示了补充材料中提供的类似结果。
图 5 比较了两张低光图像。 结果表明,所提出的方法通常在黑暗区域获得更好的光线和细节。 同时,噪声得到了很好的抑制,特别是与 GLAD [44] 和 DRBN [50] 相比。 此外,与Kind[57]相比,所提出的方法获得了相似或稍好的结果,这与表2中列出的指标一致。
Exposure correction
专注于校正真实场景中存在过度曝光和曝光不足错误的图像。 对于此任务,可以使用最近的大规模图像数据集,其中渲染的图像具有广泛的曝光误差,并提供了由五位摄影师手动渲染的相应地面实况图像[1]。 该数据集总共包含 24,330 张图像,其中训练集中有 17,675 张图像,验证集中有 750 张图像,测试集中有 5,905 张图像。 在本实验中,由于可学习参数规模较小,仅使用从训练集中随机选择的 1,000 张图像和相应的真实数据来训练所提出的网络。 关于不同数量的训练图像的影响的更多分析可以在补充材料中找到。
此外,继 Afifi 等人之前的工作之后,采用 PSNR、SSIM 和感知指数(PI)[1,3,25]来定量评估像素精度。 [1]。 这些方法在曝光过度和曝光不足的组合图像(5,905 张图像)上进行评估。 表3列出了所提出的方法和比较方法的数值结果,这表明我们的方法在PSNR和SSIM方面获得了最佳性能。 需要注意的是,比较方法的值直接取自[1]。 在表3中,HDR CNN [8]、DPED [16]和DPE [5]的结果表明[1]中所示的最佳版本,即HDR CNN w/PS、DPED(BlackBerry)和DPE( S-5K)。 此外,图 6 还比较了 Afifi 等人使用的数据集中的两个场景。 [1]。 该方法可以用单个模型调整曝光过度和曝光不足的图像,并获得比 Afifi 等人提出的方法更好的结果。 [1]。 例如,我们结果的颜色外观更自然,更接近参考图像(见图 6 中的第一个场景)。 此外,所提出的方法可以更好地恢复曝光不足区域的细节(见图6中的第二个场景)。
HDR tone mapping
旨在压缩HDR场景的动态范围。 与LDR增强相比,HDR色调映射需要更大的动态范围压缩,但对噪声的关注较少。 在本实验中,采用由 456 张图像和来自 Internet 1 的 105 张图像组成的 LVZ-HDR 数据集 [32] 来训练所提出的网络。 应该注意的是,由于 LVZ-HDR 数据集中图像的动态范围有限,因此应用的额外数据增强是有限的。 我们用 Iavg = (Iin/max(Iin))β 来增强训练数据,其中 β 在 [0.7, 2.0] 之间随机均匀选择,用于控制 HDR 场景的动态范围。 最后,该模型在 HDR 摄影调查 (HDRPS) 数据集 [9] 上进行了评估,该数据集包含 105 张 HDR 图像2。
在本实验中,使用多个TM算子作为比较方法,并采用TMQI[51]和BTMQI[13]的MATLAB实现来定量评估性能。 表 4 列出了在 HDRPS 数据集上获得的指标。 考虑到 Vinker 等人的方法。 [41]输出缩放图像,图像调整大小会影响TMQI分数[4],我们还列出了对结果图像进行相同调整大小的TMQI和BTMQI分数,表示为LA-Net(resized),以进行公平比较。 请注意,我们复制的分数与 Vinker 等人的原始论文中的分数之间存在差异,这可能是由于 TMQI 和 BTMQI 的实现不同造成的。 这些结果表明,与考虑的方法相比,所提出的方法取得了有希望的性能。 此外,图 7 给出了 HDRPS 数据集中的几个场景的比较。 可以看出,通过我们的方法获得的结果显示出适当的压缩级别和更好的色彩外观,而Zhang等人获得的结果。 [55]显示过分强调的明亮区域。
为了进一步分析所提出的光适应模块的特性,所研究的三个任务的NR曲线的学习参数如图8所示。从该图中可以看出,最佳NR曲线具有不同的分布,因此 该模型可以适应不同的光照条件。 一般来说,更多学习的 NR 曲线有助于照亮 LLE 的黑暗区域,如图 8(a) 所示,而 EC 的分布更加多样化是由于过度曝光和曝光不足误差的存在 (图 8(b)) 。 此外,由于输入的高动态范围,学习的 NR 曲线对于 TM 具有最多样化的分布(图 8(c))。 4.3 节列出了对 NR 曲线数量的消融研究,相应的学习 NR 曲线可以在补充材料中找到。
4.3. Ablation Study and Parameter Analysis
为了证明基于频率的分解的贡献,我们建立了一个单路径模型,将原始图像输入光适应子网络(即低频路径)并丢弃高频路径中的处理。 单通路模型还使用相应的测试集在三个光增强任务上进行了评估,即 LLE 的 LOL 测试数据集、EC 的 Afifi 等人的数据集和 TM 的 HDRPS 数据集。
表 5 列出了单路径模型和双路径模型的结果(后者是提出的 LA-Net)。 在 LLE 和 EC 任务上,LA-Net 的性能显着优于单路径模型,该模型受益于具有噪声抑制和细节增强功能的高频路径。 然而,单路径模型在 TM 任务上也取得了稍微更好的结果,并且优于 Vinker 等人最近的方法。 [41]。 考虑到 TM 任务主要关注动态范围压缩并且输入 HDR 场景包含相当弱的噪声,这是合理的。
一些视觉比较如图 9 所示。通过所提出的光适应模型,两种模型都可以在所考虑的三个任务中很好地增强光。 然而,LANet可以很好地抑制低光图像中的噪声并增强曝光错误图像中的细节,但对HDR场景的细节影响不大。
此外,我们还利用LOL测试数据集进一步测试了不同数量的NR曲线对LLE任务的影响。 表 6 列出了在光适应模型(低频路径)中使用不同数量的 NR 曲线时 LOL 测试集(在 GPU 上)的平均结果和运行时间。 结果表明,当使用超过 4 条 NR 曲线时,该模型获得了可接受的性能,并且该模型对于 NR 曲线的数量相对稳健。 相应学习的 NR 曲线可以在补充材料中找到。
此外,所提出的模型只有0.575M可训练参数,这主要得益于网络设计中的权重共享策略。 相比之下,最近的顶级方法 (KinD++ [56]) 具有超过 800 万个可训练参数。 请注意,额外的实验表明,损失函数中包含的参数通常会影响最终结果,这在补充材料中进行了说明。
5. Conclusions and Limitations
这项工作提出了一种受生物视觉系统中多通路处理和视觉适应机制启发的新网络。 特别是,提出了一种新的光适应模块来处理与光相关的增强任务中的常见子问题。 实验结果表明,所提出的方法在三个增强任务上实现了最先进的性能。
我们的方法确实有局限性。 对于4.2节中的结果,我们的方法在光适应方面取得了良好的性能,但对比度有所损失。 作为未来的工作,我们计划建立一个统一的模型,通过集成光适应、对比度增强和色彩校正机制来处理更多的视觉增强任务。