Perceptually Optimized Deep High-Dynamic-RangeImage Tone Mapping

Abstract

我们描述了一种深度高动态范围（HDR）图像色调映射算子，该算子计算效率高且感知优化。我们首先将 HDR 图像分解为归一化拉普拉斯金字塔，并使用两个深度神经网络 (DNN) 根据归一化表示估计所需色调映射图像的拉普拉斯金字塔。然后，我们通过最小化归一化拉普拉斯金字塔距离（NLPD）（最近提出的感知度量），在 HDR 图像数据库上端到端优化整个方法。定性和定量实验表明，我们的方法生成的图像具有更好的视觉质量，并且在现有的局部色调映射算法中运行速度最快。

I. INTRODUCTION

现有的显示器、投影仪和打印输出的动态范围非常有限，不足以再现自然场景中呈现的并由当前传感器捕获的全光谱亮度值 [1]。在低动态范围 (LDR) 显示设备上渲染高动态范围 (HDR) 图像时，需要色调映射算子 (TMO) 进行动态范围压缩，从而保留原始场景的显着视觉特征。简单的 TMO 是将亮度值线性重新调整到可显示范围。然而，这种方法对场景的最大亮度很敏感，并且经常会产生黑暗的外观（见图1（a））。在过去的十年中，人们提出了大量的非线性 TMO [2]-[6]，旨在实现忠实的色调再现和细节保留。这些可以大致分为两类：全球运营商和本地运营商。全局 TMO [7]-[12] 是一组参数函数，包括单应性、伽马映射、对数函数 [10] 和 sigmoid 非线性 [11]。全局方法可以很好地保留全局对比度，但可能会丢失局部细节。最近的研究主要集中在本地 TMO [3]、[6]、[13]-[16]。一个常见的主题是将 HDR 图像分解为基础层和细节层。色调映射应用于基础层，而细节增强则在细节层中完成。沿着这条路径，人们提出了许多方法[6]、[15]、[16]，主要区别在于如何以“更有效”的方式执行两层图像分解。局部方法通常会产生具有令人满意的局部对比度和改善的视觉质量的图像。然而，这通常是以增加计算复杂性为代价的[13]。此外，全局对比度可能会降低，并且色调映射图像中可能会出现诸如光晕状发光之类的局部伪影。

Yeganeh 和 Wang [17] 研究了 HDR 图像色调映射的感知优化。他们在所有可行的色调映射图像的空间中搜索与原始场景最接近的图像，通过结构保真度指数来衡量[18]。后来在[19]中通过结合统计自然度度量对该方法进行了改进。拉帕拉等人。 [20]将 HDR 图像色调映射表述为更一般的图像渲染问题，并考虑到各种显示限制。然而，上述方法需要在高维空间中运行基于梯度的迭代优化器，这在计算上是昂贵的，阻碍了它们在实际应用中的广泛采用。

本文旨在开发一种用于渲染 HDR 图像的 TMO，具有两个所需的设计原则。首先，它应该具有计算效率。我们首先将输入的 HDR 图像分解为归一化的拉普拉斯金字塔 [20]、[21]。我们不是在所有可行的色调映射图像的空间上进行迭代优化，而是训练两个前馈深度神经网络（DNN）：一个接受所有带通通道和高通通道，另一个处理归一化表示的低通通道。它们一起预测所需色调映射图像的拉普拉斯金字塔。这两个网络被设计为高度轻量级，使我们的方法能够在现有的本地 TMO 中运行速度最快。其次，要在感性上进行优化。与大多数 TMO 不同，我们通过优化最近提出的感知指标（预测的 LDR 图像与相应的 HDR 场景之间的归一化拉普拉斯金字塔距离（NLPD）[20]）来端到端训练我们的网络。对 HDR 图像测试集的实验表明，优化方法在定性和定量上始终优于现有 TMO（通过独立感知指标 - TMQI [18] 测量）。

II. THE NLPD METRIC

在本节中，我们将简要回顾 NLPD 指标 [20]，该指标将被用作所提出的基于 DNN 的 TMO 的学习目标。

NLPD 的动机是早期视觉系统的生理学。给定校准的 HDR 图像 S，首先通过指数函数对亮度值（单位为坎德拉每平方米，cd/m2）进行预处理，近似光对视网膜感光器响应的变换[20]

然后递归地应用亮度减法和对比度归一化，将 x(1) 划分为频率子带，模仿视网膜和外侧膝状核中发现的中心-环绕感受野 [20]

其中 D 和 U 分别表示线性下/上采样两倍。低通滤波器 L 继承自拉普拉斯金字塔 [21]。 m代表金字塔层数。我们通过将每个系数除以每个子带内相邻系数的加权和来获得归一化拉普拉斯金字塔

其中  表示 Hadamard 除法，P 是一个经过优化以减少统计依赖性的卷积滤波器 [20]。 c 是一个小的正常数，以避免可能被零除。基于归一化拉普拉斯金字塔表示

其中 y(i) 表示色调映射图像 I 的归一化拉普拉斯金字塔的第 i 层。最终的 NLPD 度量由下式计算

其中 n(i) 是第 i 个通道中的系数数量。使用受试者评分的图像质量数据库对两个指数 α 和 β 进行优化，以匹配人类对图像质量的感知。 NLPD 是连续且可微的 [20]，这允许基于梯度的优化。

III. PROPOSED METHOD

在本节中，我们将描述拟议的 TMO。经过预处理后，我们将输入的 HDR 图像分解为归一化的拉普拉斯金字塔，并将其输入两个 DNN 进行拉普拉斯金字塔估计，进一步折叠以获得最终的 LDR 图像。图2显示了总体框架。

A. Preprocessing

对于 TMO 来说，使用校准的 HDR 图像（即所有像素都具有真实亮度值的图像）非常重要。校准使 TMO 能够区分明亮和昏暗的场景。否则，任意单位的夜间 HDR 图像可能会被色调映射到具有放大的传感器噪声的日光场景。然而实际上，许多 HDR 图像是在没有校准的情况下获取的，这意味着记录的测量值 R 通过未知的比例因子与实际亮度 S 成线性比例。为了将所提出的 TMO 应用于未校准的 HDR 图像，我们需要对原始场景 [20] 中的最小和最大亮度值进行一些有根据的猜测，分别用 Smin 和 Smax 表示。例如，在全阳光下的典型摄影场景的亮度约为 5×103 cd/m2，而磨砂白炽灯泡的亮度约为 105 cd/m2。之后，我们将测量值线性重新调整为估计的亮度值

作为预处理的最后一步，我们根据方程式将“校准”的 S 分解为归一化的拉普拉斯金字塔。 (2)至(5)。

B. Network Architecture

我们方法的核心是两个 DNN，它们使用相应 HDR 图像的归一化表示作为输入来预测 LDR 图像的拉普拉斯金字塔。我们选择上下文聚合网络（CAN）[22]作为我们的默认架构，因为它可以有效地聚合全局上下文信息而不降低空间分辨率。表一显示了详细的规格，这些规格经过手动优化以实现高度轻量级，同时平衡输出图像的视觉质量。所有带通通道和高通通道共享的CAN有四个卷积层。与[23]中类似，我们在前三个卷积之后使用自适应归一化，即恒等映射和批量归一化的组合：

其中 λ1 和 λ2 是两个可学习的参数。带通和高通通道之间的权重共享使得能够接受任意级别的归一化拉普拉斯金字塔。采用漏修正线性单元（LReLU）作为非线性激活函数：

其中 λ3 ≥ 0 是训练期间的固定参数。我们使用另一个具有相同架构的 CAN 来压缩低通亮度通道的动态范围。两个 CAN 一起输出所需色调映射图像的拉普拉斯金字塔，该图像的亮度范围被限制为 [5, 300] cd/m2。

与原始 CAN [23] 相比，一个显着的区别是我们删除了所有偏差项，包括自适应归一化中使用的偏差项。如 [24] 所示，具有 LReLU 非线性的无偏差神经网络是局部尺度不变的：按常量值重新调整输入只是将输出重新调整相同的量 [24]

假设训练集中存在具有不同动态范围的自然场景，尺度不变性使 CAN 对各种亮度水平更加鲁棒。

C. Model Training and Testing

我们将 HDR 图像分解为五级归一化拉普拉斯金字塔。对于目标函数NLPD[20]，我们遵循原始论文，将前端非线性γ设置为1/2.6，局部权重函数P设置为空间可分离的五抽头滤波器[0.05，0.25，0.4，对于带通通道，加性常数 c 为 0.25，0.05]，加性常数 c 为 0.17；对于低通通道，P 为 I，c 为 4.86，度量的两个指数分别为 α 至 2.0 和 β 至 0.6。 LReLU 中的斜率 λ3 设置为 0.2。

在训练过程中，我们使用 Adam 优化器 [25]，小批量大小为 4。初始学习率设置为 10−3，每 1, 000 个时期的衰减因子为 10，我们将我们的方法训练为 2 , 000 个纪元。我们通过随机采样 103 至 105 cd/m2 的最大亮度值来校准 HDR 图像。此外，我们通过随机裁剪和水平翻转来增强训练数据。在测试过程中，我们调整每张 HDR 图像的大小，使短边的大小为 512，并对原始场景中的最大亮度 Smax 进行经验猜测。

IV. EXPERIMENTS

在本节中，我们进行实验来证明所提出的 TMO 的前景。我们首先收集了 432 个 HDR 场景的数据库，并使用 391 个图像进行训练，其余图像进行测试。

我们选择了9个TMO进行比较，包括Drago03 [10]、Reinhard02 [2]、Kim08 [12]、WLS [6]、LLF [13]、Bruce14 [14]、GR [15]、NLPD-Opt [20]、和梁18 [16]。其中，Drago03、Reinhard02和Kim08是全局算子，而WLS、LLF、Bruce14、GR、NLPD-Opt和Liang18是本地算子。值得注意的是，NLPD-Opt 直接最小化图像空间中的 NLPD 度量。因此，如果有足够的迭代，它可以被视为所有 TMO 在 NLPD 方面的下界 [20]。所有算法的实现均来自各自的作者，并使用默认设置进行测试。

A. Qualitative Comparison

图1显示了“Lamp”HDR场景的色调映射结果。简单的线性缩放会产生黑暗的背景并丢失细节。 Drago03 [10] 图像的局部对比度显着降低（例如书中的文本）。 WLS [6]成功地保留了黑暗区域的结构，但在明亮区域遇到了过度曝光的问题。相比之下，我们的方法产生更自然的外观和丰富的细节。

图3显示了“Architecture”HDR图像的色调映射结果。 Dargo03 [11] 图像的明亮区域有点曝光过度。 GR [15] 往往会超出局部细节，使图像变得虚假。所提出的方法产生比 LLF 更温暖的外观。尽管如此，它们却能产生接近的视觉效果，几乎没有伪影。

图4显示了“夜景建筑”HDR图像的色调映射结果。 Kim18 [12] 的图像由于场景的极端动态范围而表现出全局对比度降低。 Liang18[16]成功地改善了玻璃窗和背景的细节，通过我们的方法进一步改善了其对比度。由于计算成本显着降低，我们的结果与 NLPD-Opt [20] 的结果非常接近。

B. Quantitative Comparison

我们采用两个客观指标进行定量绩效评估：TMQI [18] 和 NLPD [20]。 TMQI 是 SSIM 索引 [26] 的变体，用于比较不同动态范围的图像。它结合了结构保真度（用 F 表示）和统计自然度（用 N 表示）测量，使用相应的 HDR 图像作为参考来评估色调映射图像的视觉质量。 TMQI越大或NLPD值越小，感知质量越好。表二显示了结果，从中我们发现本地运营商在 TMQI 方面普遍优于全球运营商。这并不奇怪，因为 TMQI 偏向于比较局部结构相似性，这是局部 TMO 的设计重点。这个结果在 NLPD 方面不太明显。正如预期的那样，NLPD-Opt 实现了最佳的 NLPD 性能，其次是所提出的 TMO 和 LLF。有趣的是，尽管我们的方法是由 NLPD 指导的，但它实现了 TMQI 测量的最佳性能。这为我们的架构设计提供了强有力的理由。

我们在具有 4.4GHz CPU 和 64G RAM 的计算机上使用现有 TMO 测试我们方法的运行时间。所提出的 TMO 是使用 PyTorch 实现的，而所有竞争方法均基于 Banterle 等人实现的 MATLAB1。 [27]。从表 II 中，我们观察到我们的方法是最快的本地 TMO，这归因于手动优化的网络架构只有 74、378 个参数。此外，当启用 NVIDIA GTX 2080Ti GPU 时，我们的方法在所有方法中运行速度最快（0.017 秒）。

C. Ablation Analysis

我们进行了消融实验，以找出归一化拉普拉斯分解和所提出的 TMO 的感知优化的贡献。我们首先分析输入金字塔级别对最终视觉质量的影响。请注意，一级对应于将原始 HDR 图像直接馈送到单个网络中以进行色调映射。如图 5 所示，更多级别可以改善细节再现，但代价是增加计算复杂性。默认的五级金字塔在视觉质量和计算速度之间保持了良好的平衡。然后，我们将 NLPD [20] 切换为其他三个目标函数：平均绝对误差 (MAE)、SSIM [26] 和 TMQI [18]，同时修复网络架构。图6显示了优化结果，在各自的目标下是最优的。可以看出，NLPD优化的网络取得了最好的视觉效果。