4K-Resolution Photo Exposure Correction at 125 FPS with ~8K Parameters

MSLTNet开源 | 4K分辨率+125FPS+8K的参数量，怎养才可以拒绝这样的模型呢？

错误的曝光照片的校正已经被广泛使用深度卷积神经网络或Transformer进行广泛修正。尽管这些方法具有令人鼓舞的表现，但它们通常在高分辨率照片上具有大量的参数数量和沉重的计算浮点运算（FLOPs）。

在本文中，作者提出了一个极轻量级（仅有约8K参数）的多尺度线性变换（MSLT）网络，该网络采用多层感知架构，可以在125帧每秒（FPS）的速度下，使用泰坦RTX GPU处理4K分辨率sRGB图像。

具体来说，提出的MSLT网络首先使用拉普拉斯金字塔技术将输入图像分解为高和低频层，然后依次通过像素自适应线性变换来纠正不同层，这种实现方式是通过高效的双边网格学习或1×1卷积来实现的。在两个基准数据集上的实验表明，作者的MSLT在照片曝光校正方面与最先进的水平相比具有高效性。大量的消融实验验证了作者的贡献的有效性。

代码：https://github.com/Zhou-Yijie/MSLTNet

1 Introduction

智能手机摄像头的普及使人们像摄影师一样捕捉日常生活场景。然而，快门速度、焦距光圈比和/或ISO值设置不准确可能导致捕捉到的照片曝光不正确，视觉质量下降。为了以视觉上可取的方式正确调整照片曝光，对于边缘设备开发高效的曝光校正方法至关重要。

在过去的几十年里，提出了低光增强方法和过曝校正方法来分别调整欠曝和过曝图像的亮度。然而，低光增强方法在矫正过曝图像时几乎无法实现，而过曝校正方法在矫正欠曝图像时则无法正常工作。

高动态范围（HDR）调色映射方法也可以在一定程度上调整内容的不正确曝光，但主要是通过在曝光不正确区域的局部细节增强以及动态范围减少来实现。最后，所有这些方法都不适合曝光校正，因为曝光校正需要在图像中的不正确曝光进行全局调整。

近年来，基于卷积神经网络（CNN）或Transformer的曝光校正方法或也出现了几种。例如，多尺度曝光校正（MSEC）使用拉普拉斯金字塔技术和UNet架构进行层次曝光校正。后来，[48]的工作利用局部颜色分布先验（LCDP）来定位和增强不正确曝光区域。

基于注意力的照明自适应Transformer（IAT）在Transformer架构下估计与图像信号处理器（ISP）相关的参数。尽管这些曝光校正的卷积神经网络或Transformer具有令人鼓舞的表现，但它们通常受到大量参数数量和计算成本的限制。

为了在提高模型效率的同时产生视觉上令人满意的结果，本文提出了一种极轻量级的多尺度线性变换（MSLT）网络，用于高分辨率图像曝光校正。具体来说，作者首先通过拉普拉斯金字塔技术将输入图像分解为高频和低频层，以实现从粗到细的曝光校正。然后作者设计简单的线性变换网络逐步校正这些层，消耗较少的参数数量和计算成本。对于低频层，作者采用双边网格学习（BGL）框架，在不良曝光和正确曝光图像对之间学习像素级仿射变换。

为了在BGL中学习上下文感知的变换系数，作者提出了一种无参数的上下文感知特征分解（CFD）模块，并将其扩展为多尺度仿射变换。对于高频层，作者通过两个通道的1×1卷积层简单地学习像素级校正Mask。

得益于使用多层感知（MLP）进行从粗到细的曝光校正，作者的最大网络MSLT++有8098个参数，只需要0.14G和3.67ms来处理一个的图像，使用RTX GPU。

作为比较，基于CNN的MSEC、LCDP和基于Transformer的IAT的参数数量分别为约7015K、约282K和约86.9K，对应的FLOPs/速度分别为73.35G/240.46ms、17.33G/507.67ms和22.96G/153.96ms。在两个基准数据集上的实验表明，作者的MSLTs在定量和定性方面都优于最先进的曝光校正方法。如图1所示，在ME数据集上的性能比较结果。

作者主要的贡献可以总结如下：

1. 开发了具有最多8098个参数的多尺度线性变换网络，在运行4K分辨率（3840X2160X3）图像时，最多可达到125 FPS，并具有有效的曝光校正性能。

2.为了加速多尺度分解，设计了一个双边网格网络（BGN）来像素级校正低频层的曝光。

3.通过使用通道级MLP而不是CNN或Transformer来实现BGN，以赋予作者的MSLTs较小的参数数量和计算成本。

4.提出了一种上下文感知特征分解（CFD）模块，用于在作者的BGN中学习层次变换系数，以实现有效的曝光校正。

2 Related Work

Image Exposure Correction Methods

曝光校正任务类似于低光图像增强、过曝校正和HDR调色映射等任务，但又有不同。据作者所知，MSEC是第一个基于深度学习的曝光校正方法。该方法将图像分解为高频和低频部分，并逐步校正曝光错误。然而，MSEC有超过700万个参数，在高分辨率图像上的效率不足。

Local Color Distributions Prior（LCDP）利用局部颜色分布来统一处理欠曝和过曝，大约有282K个参数，需要巨大的计算成本，17.33G FLOPs，处理一个1024X1024X3X3的图像。基于Transformer的照明自适应Transformer（IAT）有大约86.9K个参数，但在高分辨率图像上存在巨大的计算成本和缓慢的推理速度。

在本文中，作者提出了一种轻量级和高效的Multi-Scale Linear Transformation（MSLT）网络，其参数数量最多为8098个，并且可以在125 FPS的速度下运行，用于校正不正确的4K分辨率图像曝光。

Image Processing MLPs

在卷积神经网络（CNNs）和Transformer的繁荣之前，多层感知（MLPs）在视觉任务中起着重要的作用。MLP为基础的网络再次引起了研究人员注意，因为它们具有简单性。MLP-Mixer是一种纯粹基于MLP的网络，没有卷积或自注意力。后来，ResMLP被提出，它只使用线性层和GELU非线性。gMLP的工作利用具有gating的MLP来实现与Transformer在图像分类上相似的结果。Ding等人提出了一种再参数化技术来提高MLP在图像分类上的能力。最近开发的MAXIM是一种多轴MLP为基础的网络，用于通用图像处理任务。

在本文中，作者开发了一种非常高效的曝光校正网络，该网络主要利用通道MLPs（而不是空间MLPs）来全局感知图像的曝光信息。

Light-weight Image Enhancement Networks

为了追求轻量级和高效的模型，一种简单的方法是将模型应用于低分辨率输入，然后将输出放大到高分辨率。但高频细节会丢失。为此，Laplacian Pyramid分解被用来保留高频信息。另一种方法是学习一个近似算子，并将其应用于下采样输入，然后将这个算子应用于原始图像。这样的近似算子通常简单且高效。后来，这个近似洞察也被研究了，用于加速图像处理方法在图像增强、图像去雾和立体匹配等任务上的应用。

在本文中，作者设计了使用拉普拉斯金字塔技术和双边网格学习框架的轻量级和高效的图像曝光校正网络。与CNN和Transformer不同，作者的双边网格网络纯粹由通道MLP实现，消耗的参数和计算成本比CNN和Transformer少得多。

3 Proposed Method

Network Overview

Low-Frequency Layer Correction

照明信息主要存在于低频中，因此作者更关注低频层的有效曝光校正。受到在高效图像处理上的成功启发，作者采用双边网格学习来校正低频层的曝光。

如图2所示，作者的双边网格网络包含三个部分：

学习引导图；
估计仿射系数的双边网格；
系数变换。

如图3（a）所示，上下文感知特征是通过将原始特征通道乘以全局平均池化和全局标准池化计算的平均值和标准差得到的。作者将CFD扩展为一个层次化的特征分解（HFD）模块，通过将三个共享参数的CFD和SFE模块堆叠在一起，如图3（c）所示。

目标是学习一个16x16x72的仿射系数3D双边网格，其中每个12个通道表示一个3x4仿射矩阵。作者通过通道级的1x1卷积来实现层次化的特征分解（HFD）模块，以进行空间一致性和像素自适应亮度调整。在ReLU之前，三个共享参数的1x1卷积（如图3（c）所示），具有较少的参数数量和计算成本。

如图4所示的校正强度热图与输入图像 I 的上下文密切相关。这表明作者的MSLT确实实现了像素自适应的曝光校正。

在SICE上，作者的MSLTs与MSECs具有可比性能，但比IAT和FECNet稍逊一筹。然而，作者的MSLTs在效率方面优于所有比较方法，如表3所示。

在图6中，作者提供了ME数据集中的"Manor"和SICE数据集中的"Mountain"的校正图像，分别由比较方法生成。更多视觉比较结果可参见补充文件。

在过曝的"Manor"图像上，可以看出Zero-DCE，SCI，LPTN和Channel-MLP很难减弱曝光。作者的MSLTs在云、墙壁和草坪的细节上比LCDP和IAT更好。校正后的MSEC图像对比度过高，不够真实。在欠曝的"Mountain"图像上，作者的MSLTs在整体亮度和绿叶细节方面都优于其他方法。