Abstract
计算快速的色调映射算子 (TMO) 可以快速适应各种高动态范围 (HDR) 内容,对于在电影屏幕或标准显示器等各种低动态范围 (LDR) 输出设备上进行可视化至关重要。 现有的 TMO 只能成功地对有限数量的 HDR 内容进行色调映射,并且需要进行广泛的参数调整才能产生最佳主观质量的色调映射输出。 在本文中,我们通过提出一种快速、无参数且场景自适应的深度色调映射算子(DeepTMO)来解决这个问题,该算子可产生高分辨率和高主观质量的色调映射输出。 基于条件生成对抗网络 (cGAN),DeepTMO 不仅学习适应大量场景内容(例如室外、室内、人体、结构等),还解决了 HDR 相关场景特定挑战,例如对比度和亮度,同时 保留细粒度的细节。 我们探索了 4 种可能的生成器-鉴别器架构设计组合,以专门解决 HDR 相关深度学习框架中的一些突出问题,例如模糊、平铺模式和饱和伪影。 通过探索 cGAN 设置下尺度、损失函数和归一化层的不同影响,我们最终采用多尺度模型来完成我们的任务。 为了进一步利用未标记 HDR 数据的大规模可用性,我们通过使用客观 HDR 质量指标(即色调映射图像质量指数(TMQI))生成目标来训练我们的网络。 我们定量和定性地展示了结果,并展示了我们的 DeepTMO 在大量现实世界场景中生成高分辨率、高质量的输出图像。 最后,我们通过进行成对主观研究来评估我们结果的感知质量,这证实了我们方法的多功能性。
I. INTRODUCTION
色调映射是高动态范围 (HDR) 成像 [1]、[2]、[3]、[4] 管道中为低动态范围显示器打印或渲染 HDR 内容的先决条件。 随着以高分辨率和卓越品质捕捉/再现场景的前所未有的需求,HDR 技术正在迅速发展 [5]、[6]、[7]。 尽管 HDR 显示系统在过去几十年中取得了进步(例如 Sim2、杜比视界等),但由于这些显示器中使用的材料的技术能力有限,它们仍然需要某种色调映射操作。 此外,由于制造成本较高,绝大多数屏幕的动态范围仍然有限,并且在很大程度上依赖色调映射操作器 (TMO) 来实现所需的顶级质量呈现。
在过去的二十年里,人们设计了多种 TMO,承诺最忠实地再现现实世界的亮度和色域,以实现高质量的输出。 然而,在实践中,由于其参数敏感性,此类 TMO 仅限于成功地对有限数量的 HDR 图像进行色调映射 [8]、[9]。 例如,能够映射明亮的白天场景的 TMO 可能无法同样好地映射黑暗或晚上的场景。 事实上,需要在每个新场景的广泛参数空间中手动调整,以便在使用任何此类 TMO 时获得最佳结果。 因此,寻找最理想的高分辨率色调映射输出的整个过程不仅缓慢、繁琐且昂贵,而且当从众多捕获设备生成大量不同的 HDR 内容时几乎不切实际。
这就提出了一个自然的问题:是否可以制定更具适应性的色调映射函数,该函数可以快速改变自身以适应现实世界 HDR 场景的广泛变化,以再现最佳的主观质量输出,而不会对其高分辨率显示器上的内容造成任何感知损害。 随着深度学习 [10] 最近的成功和 HDR 数据的广泛可用性,现在可以学习具有如此复杂功能的模型来进行有效的色调映射操作。
在本文中,我们提出了一种基于端到端深度学习(DL)的色调映射算子(DeepTMO),用于将任何给定的 HDR 场景转换为具有高分辨率 [1024x2048] 和卓越主观质量的色调映射 LDR 输出 。 基于条件生成对抗网络(cGAN)[11]、[12],DeepTMO模型直接输入32位线性HDR内容并再现逼真的色调映射图像,旨在在有限范围内模仿原始HDR内容[0 -255]。 DeepTMO 经过训练可以满足各种场景内容,例如室内/室外场景、具有结构的场景、人脸、风景、黑暗和嘈杂的场景等。
DeepTMO 设计中生成对抗网络(GAN)的动机源于它们在多项图像到图像翻译研究中的巨大成功[13]。 此类模型已被证明可以通过简单的 L1/L2 损失函数克服结果图像空间模糊的问题。 此外,我们的目标不是针对特定场景 [15]、[2] 优化给定 TMO [14] 的参数,而是设计一个适用于不同场景类型(例如白天/夜间、室外/室内)的模型。 等),从而涵盖了他们所有所需的特征。 总而言之,这对于朴素的损失函数来说很难满足。 此外,设计这样的成本函数相当复杂[16],并且需要专业知识。 因此,我们通过学习“对抗性损失”来克服这一挑战,该损失通过使用底层训练数据封装来自所有理想色调映射图像的所有所需特征; 从而消除了手动设计这种损失函数的需要。
与最先进的模型相比,GAN 能够生成质量更好的图像,但是仍然存在一些突出的问题,例如耕作模式、局部模糊和饱和伪影(见图 5(a))。 为了在高分辨率输出图像中处理这些问题,我们通过比较生成器和鉴别器的单尺度和多尺度变体来探索 DeepTMO 架构设计。 随后,我们展示了生成器-鉴别器架构的多尺度版本如何帮助预测无伪影色调映射图像,这些图像在结构上与输入 HDR 一致,并同时保留从不同尺度恢复的细粒度信息。
DeepTMO 模型实际上是一个多尺度架构,具有 2 尺度生成器和 2 尺度鉴别器,两者都以线性 HDR 输入为条件。 生成器和鉴别器都相互竞争。 生成器试图通过为给定输入 HDR 生成高主观质量色调映射图像来欺骗鉴别器,而鉴别器则试图区分真实生成的 HDR-LDR 图像对和合成生成的 HDR-LDR 图像对。 我们的基本判别器架构类似于 PatchGAN [17]、[18],它对整个图像上的补丁进行分类并对所有补丁进行平均以产生最终的图像分数。 类似地,我们的基本生成器架构由编码器-解码器网络组成,其中输入 HDR 首先提供给编码器,产生压缩表示,然后将其传递给解码器,最终产生色调映射图像。
为了训练我们的模型,我们从免费提供的 HDR 图像源中积累了我们的数据集。 理想情况下,训练数据集应通过主观评估来创建,考虑所有可用 HDR 场景的所有可能的色调映射运算符。 然而,进行这种主观评估非常麻烦且不可行。 因此,需要一个客观的质量评估指标,可以量化每个 TMO 对于任何给定场景的色调映射性能。 对于我们的任务,我们选择一个众所周知的指标,即色调映射图像质量指数(TMQI)。 我们首先使用每个 HDR 输入的 TMQI 指标对 13 个广泛使用的 TMO 进行排名。 然后,我们选择得分最高的色调映射图像作为我们的目标输出。
简而言之,我们
1) 提出一种快速、无参数的 DeepTMO,它可以为各种线性 HDR 场景生成高分辨率和最重要的主观质量色调映射输出,包括室内、室外、人物、结构、白天和夜晚/噪声场景。
2) 探索 4 种可能的 cGAN 网络设置:(a) 单尺度生成器 (Single-G) 和单尺度鉴别器 (Single-D),(b) 多尺度生成器 (Multi-G) 和 Single-D ,(c)单G和多尺度判别器(Multi-D),(d)多G和多D,从而讨论了尺度的影响,最后为我们的问题提出了一个多尺度生成器-判别器模型。
3)详细说明不同损失函数和归一化层的影响,同时详细说明每个步骤如何通过解决不同的工件来帮助改善整体结果。 4) 对我们的模型与超过 105 个图像的最佳色调映射输出进行定量和定性比较,并通过成对主观研究验证我们的技术。
4) 对我们的模型与超过 105 个图像的最佳色调映射输出进行定量和定性比较,并通过成对主观研究验证我们的技术。
II. RELATED WORK
HDR 成像技术在过去几十年中一直是人们感兴趣的主题,它激发了人们在数字画布上捕捉和再现现实世界的各种颜色和发光强度。 通常,HDR 内容中存储的信息使用 32 位浮点格式表示。 但为了应对传统显示器,此类场景通常会使用可用的 TMO 将色调映射为 LDR 格式。 在过去的几年里,人们提出了各种各样的针对不同感知目标的 TMO。 下面,我们快速回顾一下色调映射文献,然后讨论 HDR 成像的各种深度学习技术。
A. Tone Mapping Operators for HDR Content
TMO 在文献中得到了广泛的探索,主要是基于它们如何处理给定 HDR 图像中的对比度、颜色和亮度 [19]。 然而,它们根据不同的标准被分为几个类别[6]、[5]。 主要取决于这些映射函数如何在图像上运行,它们被分为全局方法和局部方法。 诸如[20]、[21]、[22]之类的全局方法对图像的所有像素应用相同的压缩函数。 对于诸如[23]、[24]、[25]之类的局部技术,色调映射像素取决于其相邻像素的值。 尽管全局方法的计算速度更快,但其生成的 LDR 输出无法在图像中保持足够的对比度; 因此,场景显得有些褪色。 相反,局部色调映射函数不会面临这些问题,并且通常能够足够处理对比度,同时保留局部细节。 然而,这些算子会在高频边缘周围产生一些明显的“光环”效应,从而在场景中产生不自然的伪影。 另一类 TMO [26]、[27]、[28] 包括受人类视觉系统启发的设计,可以对诸如随时间适应等属性进行建模,并且可以在高对比度刺激和梯度敏感度下进行区分。 尽管如此,所有这些现有的 TMO 都被设计为独立地瞄准多个不同的目标 [6]、[9],例如模拟人类视觉特性、场景的诚实再现、最佳主观偏好,甚至用于计算机视觉应用 [29]。 然而,在我们的工作中,我们主要关注设计一个旨在“最佳主观质量输出”的TMO。
已经使用不同的标准进行了几项小规模的感知研究,例如有参考或无参考[30]、[8]、[31],以针对不同的感知目标比较这些经典的和新开发的 TMO。 尽管这些主观研究非常适合分析 TMO 的性能,但出于实际考虑,该过程必然使用有限数量的内容和 TMO。 作为替代解决方案,人们提出了[31]、[32]等客观指标来自动化评估。 TMQI 是一种最先进的客观指标,已广泛用于多项 TMO 优化研究 [2]、[15]。 它根据 1) 结构保真度(信号的多尺度分析)和 2) 自然度(使用自然图像统计数据得出)来评估图像质量。 人类感知的这两个关键属性结合起来定义了主观质量得分。
a) Learning-based methods:
手工制作的 TMO 的参数敏感性是一种众所周知的现象,它会影响最终输出的主观质量。 因此,这强调了此类色调映射设计的“场景依赖性”,即,对于给定的主观质量任务,必须针对每个单独的场景类型对 TMO 进行微调。 为此,设计了一些基于优化的色调映射框架 [2]、[15],其中针对给定图像优化了特定 TMO 的参数。 然而,单独针对每个场景进行参数微调过程非常耗时,并且限制了其实时适用性。 此外,它在某种程度上质疑色调映射 [9] 的“自动”性质,因为它们在各种现实世界场景中的适用性。
B. CNNs for HDR Scenes
最近,CNN 已广泛用于多种 HDR 成像任务,例如使用单曝光 LDR 重建 HDR [33]、[34]、[35]、[36]、预测和合并各种高曝光和低曝光图像以进行 HDR 重建 [37] 或从动态 LDR 输入生成 HDR 输出 [38]。 CNN 还被建模为学习输入输出映射,如[39]中的去马赛克和去噪,或学习用于图像增强的有效双边网格[40]。 [41]最近提出了一种深度双边色调映射器,但它仅适用于 16 位线性图像,不适用于传统的 32 位 HDR 图像。 最近的一项工作 [42] 解决了端到端色调映射问题,其中模型针对给定场景进行训练。 这有点类似于参数调整的方法,其中一次仅针对一个给定场景校准模型。 因此,设计一个快速、无参数、端到端的 TMO 的问题仍然具有现实意义,该 TMO 可以有效地对各种现实世界高分辨率内容进行色调映射,以实现实时高质量显示。
正如过去 CNN 研究中所观察到的,结果输出的质量在很大程度上取决于损失函数的选择。 制定一个损失函数来限制 CNN 从相应的线性值 HDR 中产生清晰的、高质量的色调映射 LDR 是很复杂的,也是一个不适定的问题。 我们的工作不会遇到此类问题,因为我们使用基于 GAN 的架构。
C. Generative Adversarial Networks
GAN [11] 因其能够通过强制预测输出与目标图像尽可能难以区分来对潜在目标分布进行建模而受到广泛关注。 在这样做的同时,它隐式地学习了一个适当的损失函数,从而消除了专家手工制作的要求。 这一特性使它们能够用于各种图像处理任务,例如超分辨率[18]、照片写实风格转移[43]和语义图像修复[44]。 对于我们的任务,我们在条件设置下使用 GAN,通常称为 cGAN [12],其中生成的输出以输入图像为条件。 最近,基于 cGAN 的框架被设计用于从单个 LDR 图像生成 HDR 图像的逆问题 [45]、[46]。
cGAN 框架的一个显着特征是它们学习一种结构化损失,其中每个输出像素有条件地依赖于输入图像中的一个或多个相邻像素。 因此,这通过惩罚输入和输出之间任何可能的结构差异来有效地约束网络。这个属性对于我们的色调映射任务非常有用,我们只想压缩 HDR 图像的动态范围,保持输出的结构相似 到输入 HDR。 出于这个特定原因,cGAN 在图像到图像翻译任务中非常受欢迎,其中场景的一种表示形式会自动转换为另一种表示形式,只要有足够的训练对 [13] 或在无监督设置下没有它们 [47]、[48] ],[49]。 然而,使用 cGAN 的一个主要限制是,由于训练不稳定和优化问题,很难生成高分辨率图像。 生成的图像要么模糊,要么包含噪声伪影,如图 5 (a) 所示。 在[50]中,受感知损失[43]的启发,作者推导了直接回归损失来生成高分辨率的2048×1024图像,但他们的方法无法保留精细细节和纹理。 在[51]中,作者最近展示了通过多尺度生成器鉴别器设计对高分辨率生成输出的质量的显着改进。 最近也出现了使用 GAN [52] 将 HDR 转换为 LDR 的类似工作,作者仅在小型 256x256 图像裁剪上进行测试,从而过度简化了色调映射问题。 本质上,这种方法可能无法充分捕获 HDR 图像中存在的完整亮度范围,从而忽略了 TMO 通过处理全动态范围场景的基本目标。 然而,我们在补充材料中使用他们采用的[13]架构在 1024 × 2048 HDR 图像上展示了我们的发现。
总之,我们利用这些给定的发现激发了 DeepTMO 设计,并讨论了生成器和鉴别器的尺度影响,同时展示了它们生成高分辨率色调映射输出的能力。
III. ALGORITHM
A. Problem Formulation
我们提出了一种快速 DeepTMO 模型,其主要目标是为各种真实世界的 HDR 图像生成高分辨率和高质量的色调映射图像。 理想情况下,我们的模型应该自动适应每个场景,而无需任何外部参数调整。 为此,我们建议根据场景类型、内容、亮度、对比度等吸收不同的所需色调映射特性,以产生高感知质量的输出。 在下面的段落中,我们将简要讨论 DeepTMO 模型的制定。
a) Linear Domain Input:
对于我们的模型,我们直接处理线性值。 我们以非常高精度(32 位浮点精度)执行缩放到 [0,1],因此不会影响整体输出亮度。 通过这种方式,我们可以通过让网络从场景中未改变的高动态信息中进行自我学习来简单地自动化整个管道。 此外,我们还在执行色调映射操作之前尝试对输入 HDR 进行对数缩放,特别是为了测试高曝光区域(如图 15 中的太阳)的光晕效应。 请注意,我们使用不同的输入标准化技术进行了一些实验研究。 更多详细信息可以在补充材料中找到。
b) Color Reproduction:
经典 TMO 首先仅在亮度通道中执行动态范围压缩,然后在后处理阶段再现颜色。 这部分地减轻了色调映射操作的计算复杂性。 我们遵循类似的范例,采用通用的颜色再现方法 [22],给出为 Cout = Cin/Lin · Lout,其中 Cout 和 Lout 是输出颜色和亮度图像,而 Cin 是输入 HDR 彩色图像。
c) Motivation for GANs
为了实现所需的 TMO,一种解决方案是使用简单的 L1 或感知 (Lprp) 损失函数 [43] 以及过去各种逆 TMO 所使用的编码器-解码器架构,用于从单次曝光生成 HDR 场景 [33 ] 或多重曝光 [37] LDR 图像。 然而,这种朴素损失函数要么遭受整体空间模糊(在图 1 中的 L1 损失中明显),要么遭受对比度过度压缩(在图 2 中的 Lprp 损失中明显)。 这主要是因为 CNN 架构从训练集场景的广泛可变性中可用的所有可能的动态范围值学习到范围 [0,255] 的映射。 因此,经过训练的模型可以有效地预测输出图像中大多数像素的相当平均的亮度值,以最小化整体损失函数。 另一个简单的想法可能是直接使用 TMQI 作为损失函数。 然而,由于TMQI的自然度成分和特征不连续性的数学设计,TMQI不能直接用作深度学习框架中反向传播的损失函数。 事实上,作者在[2]中提出的替代方法(使用 TMQI 优化给定的 TMO)也不可能被吸收到端到端 DL 管道中,因为它使用两种不同的优化分别处理 SSIM 和自然度 策略。
考虑到我们 TMO 的目标,手动设计有效的成本函数来满足不同场景内容下色调映射特性的广泛变化是一项相当复杂的任务。 另一种解决方案可能是学习这样的损失函数。 这里使用 GAN 是一个合适的选择,因为它自己学习对抗性损失函数(损失是鉴别器网络),该函数封装了在底层训练数据中编码的理想 TMO 所需的所有特征,从而消除了 手动设计损失函数。 GAN 的另一个优点是,与在普通 L1 / Lprp 损失函数的情况下再现更接近平均值或模糊输出的情况相比,它有助于在自然图像子空间中获得感知上优越的色调映射解决方案。
为了获得无伪影的高分辨率色调映射输出,我们在以下部分中开始研究生成器和鉴别器从单尺度到多尺度变体的架构选择。
B. DeepTMO (Single-Scale)
图 3 概述了我们的训练算法。 对于我们的 DeepTMO 模型,我们基本上采用了 cGAN 框架 [12],它隐式地学习从观察到的 HDR 图像 x 到色调映射的 LDR 图像 y 的映射,给出为:G : x −→ y。 该架构由两个基本构建块组成,即鉴别器 (D) 和生成器 (G)。
G 的输入由在 [0, 1] 之间归一化的 H×W×C 大小的 HDR 图像组成。 我们认为 C = 1,即仅给出亮度通道作为输入。 它的输出是一个与输入大小相同的色调映射图像(图 3 中假图像对的顶行)。 另一方面,D 将 HDR 和色调映射 LDR 图像的亮度通道作为输入对,并预测它们是真实的色调映射图像还是假的。 它通过使用输入 HDR 及其相应目标色调映射图像(图 3 中的实数对)的训练数据集,以监督方式进行训练。 我们在第四节中详细介绍了构建目标数据集的完整方法。 对 HDR 输入进行调节的另一个优点是,它使 D 能够拥有一些预信息,以便更好地推理来区分真假色调映射图像,从而加速其训练。
接下来,我们讨论单尺度生成器(Single-G)和单尺度判别器(Single-D)的架构,它们是我们对过去研究的改编[43]、[47],这些研究在风格迁移和超分类方面显示了令人印象深刻的结果。 LDR 图像的分辨率任务。 此外,在后续部分中,我们将解释为什么选择其多尺度版本有助于进一步完善结果。
a) Generator Architecture (Single-G):
Single-G架构是一种编码器-解码器架构,如图4a所示。 总体而言,它由 3 个组件组成的序列:卷积前端 G(Front)、一组残差块 G(Res) 和反卷积后端 G(Back)。 G(Front) 由 4 个不同的卷积层组成,它们对各自的输入执行后续的下采样操作。 G(Res) 由 9 个不同的残差块组成,每个残差块有 2 个卷积层,而 G(Back) 由 4 个卷积层组成,每个卷积层将其输入上采样 2 倍。在下采样期间,G(Front) )压缩输入 HDR,从而保留最相关的信息。 然后,G(Res) 应用多个残差校正将输入 HDR 的压缩表示转换为其目标 LDR 对应物的压缩表示。
最后,G(Back) 通过上采样操作从这个压缩表示中产生全尺寸的 LDR 输出。
b) Discriminator Architecture (Single-D):
SingleD 架构类似于 70 × 70 PatchGAN [13]、[17]、[18] 模型,旨在预测每个 70 × 70 重叠图像块是真还是假,如图 4b 所示。 选择 PatchGAN 判别器而不是全图像尺寸判别器的主要动机是它包含的参数少得多,使其能够以完全卷积的方式轻松用于任何尺寸的图像。 这与我们涉及非常高分辨率图像的问题设置相关。 PatchGAN 判别器的另一个优点是,在处理补丁时,它还通过简单地将其焦点限制在局部图像区域的结构上来对高频信息进行建模。 Single-D 在整个图像上运行,并对各个补丁上的所有响应进行平均,以产生图像的最终预测。 请注意,D 的输入是 HDR 及其相应的 LDR 图像的串联。
尽管 Single-G 和 Single-D 架构在全局水平上产生了高质量的重建,但它会在某些特定区域(例如如图 5a 所示的明亮光源)上产生噪声伪影。 在某种程度上,它需要修改 G 和 D 的单尺度版本,以便不仅满足更粗糙的信息,而且同时关注更精细的级别细节,从而产生更精细的色调映射输出。
C. DeepTMO (Multi-Scale)
在生成高分辨率色调映射图像时,很明显,我们现在需要关注低级微小细节以及高级语义信息。 为此,在[51]的推动下,我们改变了现有的DeepTMO(单尺度)模型,逐步在算法管道中纳入多尺度判别器(Multi-D)和多尺度生成器(Multi-G) 。 与[51]不同,我们的适应(a)利用2尺度判别器,(b)在由(x−xmin)/(xmax−xmin)给出的开始处合并不同的归一化层,在[0,1]之间缩放像素 具有高 32 位浮点精度,(c) 特别输入具有 32 位像素深度线性 HDR 值的单个亮度通道输入。
下面,我们详细介绍 G 和 D 的多尺度版本。我们通过逐步替换 Single-D 及其 Multi-D 变体,然后替换 Single-G 及其 Multi-G 来展示其影响 对方。
a) Multi-D:
对于 SingleD 来说,正确地将高分辨率色调映射输出分类为真或假是相当具有挑战性的。 尽管额外的损失项有效地消除了图像中全局范围内的噪声伪影(稍后将在第 III-D 节中说明),但在使用 Single-D 时,我们仍然会在特定的局部区域中看到重复的模式(例如,在高照明源周围看到的) 如图 5a 中的台灯环的内部/外部以及图 5c 中的灯环上)。 解决这个问题的一种简单方法是将鉴别器的注意力集中在更大的感受野上,这可以通过更深的网络或更大的卷积核来实现。 然而,这反过来又需要更高的内存带宽,这已经成为训练高分辨率 HDR 图像的限制。 因此,我们基本上保留了与之前使用的判别器相同的网络架构,而是将其应用于两个不同尺度的输入,即原始版本和 2× 下采样版本,分别将两个判别器称为 Do 和 Dd。
Do 和 Dd 一起训练以区分真实图像和合成生成的图像。 Dd 通过在较粗的尺度上工作,重点关注整个图像中补丁中较大的感兴趣区域。 此功能随后帮助 G 在图像中生成更加全局一致的补丁级细节。 另一方面,Do 的操作规模比 Dd 更精细,有助于突出显示补丁中更精确的细微差别,从而迫使 G 在生成时也注意非常微小的细节。 因此,通过引入 Multi-D,在 SingleD 中观察到的噪声模式在很大程度上被抑制(例如,如图 5a 和图 5b 所示)。 然而,由于 Single-G 自身的局限性,我们仍然看到了这些伪影的微小痕迹,从而迫使我们转向 Multi-G。 与 Single-G 相反,Multi-G 再现输出时同时考虑较粗和较精细的尺度。 因此,最终的输出在两个尺度上都具有信息,从而产生更加全局一致和局部细化的无伪影图像(例如,如图 5b 和图 5d 所示)。
b) Multi-G:
图6说明了MultiG的设计。 它主要由两个子架构组成,全局下采样网络Gd和全局原始网络Go。 Gd 的架构类似于 Single-G,其组件、卷积前端、残差块集和卷积后端表示为: G(Front) d 、 G(Res) d 、 G(Back) d 、 分别。 Go 也类似地由三个组件组成:G(Front) o 、G(Res) o 和 G(Back) o 。
如图 6 所示,在推理时,虽然 Go 的输入是高分辨率 HDR 图像(2048×1024),但 Gd 接收同一输入的 2 倍下采样版本。 Go 有效地进行色调映射预测,关注局部细粒度细节(由于其在高分辨率 HDR 输入上的感受野有限)。 同时,它还从 Gd 输入,这是一个更粗略的预测(因为它的感受野有更广阔的视野)。 因此,G(Back) o 最终生成的输出在同一色调映射输出中包含局部低级信息和全局结构化细节。 因此,我们最终获得的是结构上保存得更加完整且更加精细的输出,并且没有局部噪声伪影,如图 5d 所示。
总而言之,我们展示了 4 种不同的 cGAN 设计,其中:
1) Single-D & Single-G 架构由于不关注更精细的细节而遇到噪声模式。
2) Multi-D & Single-G 架构能够在一定程度上抑制模式,如前一种情况所观察到的。 这主要是由于Single-G的泛化能力有限。
3) Single-D & Multi-G 架构消除了整个图像中的图案,但是由于 Single-D 的容量有限,一些非常局部的区域仍然面临伪影。
4) Multi-D & Multi-G 架构最终产生优质的无伪影图像。
D. Tone Mapping Objective Function
G 的最终目标是将高分辨率 HDR 输入转换为色调映射的 LDR 图像,而 D 的目标是将真实的色调映射图像与 G 合成的图像区分开来。我们在完全监督的环境中训练 G 和 D 架构。 为了进行训练,我们给出一组对应图像对 {(xi, yi)},其中 xi 是 HDR 输入图像的亮度通道,而 yi 是对应色调映射 LDR 图像的亮度通道输出。 接下来,我们详细阐述训练 DeepTMO 的目标函数(单尺度和多尺度)。
cGAN [12] 背后的基本原理是通过以下目标对给定输入 HDR 的真实色调映射图像的条件分布进行建模:
G和D相互竞争; G 试图最小化其对手 D 的目标,而对手 D 则试图最大化该目标,即
由于 Multi-D 架构由 Do 和 Dd 组成,因此我们的目标是:
我们在现有的 cGAN 损失的基础上附加了一个附加的正则化项,其形式为特征匹配 (FM) 损失 LFM(G,Ds)(类似于感知损失 [53]、[54]),由下式给出:
其中 Di s 是 Ds 的第 i 层特征提取器(从输入到 Ds 的第 i 层),M 是总层数,Ui 表示每层中的元素数量。 简而言之,我们从每个单独的 D 层中提取特征,并将这些中间表示与真实图像和生成图像进行匹配。 此外,我们附加了[43]中使用的感知损失 Lprp,它由根据预训练的 19 层 VGG 网络 [55] 的每个单独层计算出的特征组成,给出:
其中 F(i) 表示 VGG 网络的第 i 层,其中包含 Vi 个元素。 VGG 网络已针对 Imagenet 数据集上的大规模图像分类任务进行了预训练 [56]。 从此以后,我们的 DeepTMO 最终目标函数可以写为:
β 和 γ 控制 LFM 和 LLprp 对于 LcGAN 的重要性,两者都设置为 10。我们在下一段中说明这两个术语的影响。
a) Impact of Feature Matching and Perceptual Loss term:
LFM 和 LLprp 损失项都充当对抗性损失函数的指导,保留整体自然图像统计数据和训练,如果没有这两个项,则会导致整个图像的质量较差。 VGG 项主要检查图像中的全局噪声重复模式并帮助抑制它们。 在应用于完整生成的图像时,VGG 网络分别通过其起始级和后期网络层捕获低级图像特征(例如精细边缘、斑点、颜色等)和高级语义信息 。 基于这些特征,VGG 有效地检测出相应的伪像,将其视为生成场景整体感知质量的缺陷,从而指导纠正它们; 从而产生更自然的图像。 例如,可以通过同时查看图 7b 和 7d 来可视化噪声的去除。 另一方面,FM 损失项迎合更多局部质量细节,例如监视每个子区域的照明条件。 例如,它有效地淡化了建筑物窗户的过度曝光区域,如图 7c 和 7d 所示。 理想情况下,这是通过利用 D 的各种特征层来完成的,这些特征层是通过关注 70×70 局部图像块进行训练的。 两个(VGG 和 FM)损失项一起有助于产生高质量的整体对比度和保留了局部更精细细节的输出图像(如图 7d 所示)。
E. Network Insight
网络中的每个组件在整体色调映射中都起着不可或缺的作用。 从卷积前端 G(Front) d 和 G(Front) o 开始,两者都直接应用于线性 HDR 输入,压缩其色调并将其转换为 HDR 空间中的编码表示。 虽然卷积层通过使用其学习的滤波器导出有意义的特征层,在空间分辨率下采样方面发挥着关键作用,但实例范数和激活函数(位于每个卷积层之后)有助于压缩每个像素强度的动态范围。 接下来,残差层G(Res)d和G(Res)o可以理解为将HDR空间中的当前编码信息映射到LDR空间中的函数。 这本质上是通过向当前压缩形式的 HDR 输入添加残余信息来实现的。 最后,G(Back) d 和 G(Back) o 应用于 LDR 空间中的编码表示,以便将其转换为丰富且视觉上令人愉悦的 LDR 输出。 虽然转置卷积特别关注空间上采样,但激活函数保持了压缩色调,这对于给定场景来说是感知上“最”有吸引力的。
IV. BUILDING THE HDR DATASET
为了设计基于深度 CNN 的 TMO,必须获得具有使用各种相机捕获的各种现实世界场景的大规模数据集。 为此,我们收集了可用的 HDR 数据集。 为了训练网络,从各种不同来源总共收集了 698 张图像,这些图像在补充材料中列出。 从 HDR 视频数据集源中,我们手动选择帧,以便没有两个选定的 HDR 图像是相似的。 所有这些 HDR 图像都是从不同的来源捕获的,这对我们的目标是有益的,即学习适应各种现实世界场景的 TMO。
为了进一步加强训练,我们应用了多种数据增强技术,例如随机裁剪和翻转,这些技术将在第 V-2 节中简要讨论。 我们考虑了 [57] 中的 105 个图像用于测试目的。
A. Target Tone Mapped Images
为给定 HDR 场景选择“目标”色调映射图像是训练 DeepTMO 的关键步骤。 尽管基于不同假设的几项主观研究 [19] 试图回答这个问题,但它们仅针对规模最多 1520 个场景的非常小的数据库进行。 这种主观评估的数据库数量有限,无法有效地用作我们的 DeepTMO 模型的训练数据集。 此外,这些数据库已在不同的评估设置下进行了评估,即通过使用不同的 TMO 集和参考或无参考设置。 因此,与[52]类似,我们采用了广泛使用的客观度量,称为TMQI[31],以确保我们的问题有固定的目标选择标准。
正如第 2 节所讨论的,TMO 的文献相当广泛,而且实际上很难跨越。 因此,为了找到每个训练 HDR 场景的目标色调映射图像,我们选择了 13 个经典 TMO:[20]、[24]、[58]、[26]、[23]、[21]、[22]、[ 59]、[28]、[25]、[27]以及伽玛和对数映射[19]。 这些色调映射的选择受到主观评估研究 [8]、[31]、[2]、[30] 的启发,这些研究突出了映射函数的独特特征,我们的目标是将其灌输到 DeepTMO 模型的学习中。
对于每个 HDR 场景,我们最初使用 TMQI 指标对从所有 13 个 TMO 获得的色调映射输出进行排名。 然后,选择最佳评分色调映射输出作为相应 HDR 场景的“目标”。 由于调整 13 个所考虑的 TMO 的参数对于大量训练图像来说是一项艰巨的任务,因此我们在本文中使用了它们的默认参数设置。 尽管我们承认微调 TMO 参数可以进一步提高整体性能,但考虑到大量的训练图像和 TMO 的巨大参数空间,这个过程几乎不切实际。
V. TRAINING AND IMPLEMENTATION DETAILS
DeepTMO 训练范式受到传统 GAN 方法的启发,其中 D 采取交替随机梯度下降 (SGD) 步骤,然后是 G。我们特别利用最小二乘 GAN (LSGAN),它已被证明可以产生 [60] 更多的结果。 与常规 GAN 相比,学习过程稳定。 对于多尺度架构,我们首先单独训练 Gd,然后对 Gd 和 Go 进行微调(在冻结前 20 个 epoch 的 Gd 权重之后)。 对于 D 和 G,与卷积层对应的所有权重均使用标准差为 0.02 的零均值高斯噪声进行初始化,而偏差设置为 0。
1) Instance Vs. Batch Norm:
我们使用实例标准化[61],这相当于使用批量大小等于1来应用批量标准化[62]。
实例范数的功效如图 8 所示,其中应用普通批范数会导致亮度压缩不均匀。 虽然实例归一化经过训练以学习单个场景的平均值和标准差以达到归一化的目的,但批量归一化则学习整批输入图像。 因此,其平均值和标准偏差是根据整个批次上更广泛的高动态亮度值在空间上计算每个像素的,从而导致标准化不均匀。
缺少批量规范/实例规范会妨碍 G/D 正确训练并导致生成质量较差,因此需要规范化层。 所有实例归一化层均使用均值 1 和标准差 0.02 的高斯噪声进行初始化。
2) Implementation:
所有训练实验均使用带有小批量 SGD 的 Pytorch [63] 深度学习库进行,其中批量大小设置为 4。对于多尺度,由于 GPU 内存有限,我们使用批量大小 1。 我们使用 ADAM 求解器 [64],前 100 个时期的初始学习率固定为 2 × 10−4,然后允许线性衰减到 0.0,直到最后一个时期。 所有时期的动量项 β1 都固定为 0.5。 由于 GAN 训练的复杂性,超参数已设置为其默认值,并且不会进行太多操作。 我们还采用随机抖动,首先将原始图像大小调整为 700 × 1100,然后随机裁剪到大小 512 × 512。 对于多尺度,我们将大小调整为 1400×2200 并裁剪为 1024×1024 大小。 我们所有的网络都是从头开始训练的。
对于所有其他手工制作的 TMO,我们使用了基于 MATLAB 的 HDR 工具箱 [19] 和 Luminance HDR 软件 1。对于每个 TMO,我们按照各自作者的建议启用了默认参数设置。 使用 12 Gb NVIDIA Titan-X GPU 在 Intel Xeon e7 core i7 机器上进行 1000 个 epoch 的训练,需要一周时间。
VI. RESULTS AND EVALUATION
在本节中,我们将展示 DeepTMO 在各种 HDR 场景中的潜力,包括室内和室外、人体和结构以及日景和夜景。 我们将我们的结果与从各种色调映射方法 [21]、[27]、[26]、[22]、[25]、[24]、[58]、[59] 在 105 上获得的最佳主观输出进行比较 测试数据集的图像[57],无论是定性还是定量。 此外,我们还简要讨论了所提出模型的具体特征,包括它们在显示高分辨率色调映射输出时对内容或清晰度的适应。 最后,我们提出了一项主观评价研究,以了解输出的感知质量。 每个输入图像的大小固定为 1024 × 2048。
请注意,测试场景与训练集不同,我们的模型在训练时看不到测试场景。 可以在补充材料中找到全尺寸图像和一些附加结果,以获得更好的视觉质量。
A. Comparison with the Best Quality Tone-Mapped Images
我们开始将 DeepTMO 模型与最佳质量的色调映射测试图像进行比较,以评估在各种场景下再现高质量图像的整体能力。 为了获得目标测试图像,我们遵循第 IV-A 节中提供的类似范例。
在图 9 中,我们展示了我们的模型与使用 TMQI 排名获得的两个得分最高的 TMO 的定性比较,其中包括 Mantiuk [27]、Reinhard [59]、Fattal [28]、Durand [26]、Drago [21] 等方法 ],Pattnaik [24] TMO,超过 7 个典型的真实世界场景,代表室内/室外、白天/夜间条件下的人类和结构。 这些示例场景描述了使用 DeepTMO 的线性 HDR 内容的示例映射,它成功地满足了各种场景的需求,并在整体对比度保留和视觉吸引力方面与各自的最佳质量输出竞争。 在场景 1(室内条件下人类的场景)中,我们观察到我们的 DeepTMO 与目标输出紧密竞争,同时保留曝光不足/过度曝光区域的细节,例如人脸、桌子下面或窗外的区域。 另一个室内场景 2,具有闪亮的表面(室内)和饱和的外部区域(窗户),通过保留这些区域的细节来展示我们模型的有效性,从而产生高质量的输出。 类似的观察可以在具有结构的室外场景中进行,即在场景 3 和 4 中,我们注意到我们的 DeepTMO 模型有效地色调映射了过度暴露区域(例如建筑物的圆顶、天空中的云)中的尖锐频率区域 或牛的身体。 景观场景 5 在旭日东升和黑暗森林区域也有类似的观察结果。 尽管多尺度DeepTMO设计关注全局和微小的子区域信息,但暗淡和过亮区域的照明和细节的保留也是由于FM损失项的存在,而FM损失项又利用了来自不同D 层区域的特征。 由于 D 专注于局部图像块,因此 FM 项隐含地理解如何压缩或增强特定区域的亮度。
更有趣的是,我们观察到 DeepTMO 抑制了黑暗场景 6 中的噪声干扰(即 Waffle House 商店上方),这在两个性能最佳的色调映射图像中显得更加明显。 这是由于添加了 VGG 和 FM 损失项,引导网络处理噪声重复模式和暗传感器噪声,同时保留自然场景统计数据。 此外,我们还展示了夜间高对比度场景 7,其中我们的 DeepTMO 在保持整体对比度的同时与两个最佳质量输出紧密竞争。 然而,我们确实观察到用我们的方法获得的图像具有更饱和的颜色,我们稍后将在第 VII-A 节中讨论。
尽管在大多数情况下,我们的 DeepTMO 与目标图像能够很好地竞争,但在某些情况下,我们观察到它在 TMQI 分数方面甚至优于目标图像。 图 10 比较了测试数据集中的两个示例性 HDR 场景,这些场景是使用 DeepTMO 映射的,以及它们在白天和晚上时间设置中对应的目标 TMO。 在第一行中,DeepTMO 成功保留了天空以及背景中的瀑布和山脉的精细细节。 对于第二行较暗的夜晚场景,DeepTMO 会补偿照明并保留生成场景的整体对比度。 尽管我们使用我们的方法观察到太阳周围的光环(我们稍后将在第 VII-A 节中进行分析),但我们的 TMQI 得分相当高,主要是因为 TMQI 指标是色盲的。
对这种结果的一种可能的解释是生成器能够学习所有可用的最佳色调映射运算符的流形,并随后开发出卓越的色调映射功能(从该流形),从而根据场景产生最佳输出。 换句话说,这种流形学习可以被视为一个松散的公式,建立在训练集中存在的不同场景类型的色调映射所需的理想特征(全局和局部)之上。 事实上,仅使用全局 TMQI 指标分数来学习如此复杂的映射功能并非易事。 这进一步证实了我们培训策略的目标。
a) Quantitative Analysis:
为了进一步证明 DeepTMO 模型在所有 105 个现实世界场景上的高质量映射能力,在图 11 中,我们展示了场景数量与 TMQI 分数的分布图。 为了完整起见,我们还提供了目标色调映射输出所获得的分数。 曲线清楚地表明,DeepTMO 生成的色调映射图像在客观指标上与最佳可用色调映射图像密切竞争,其中 DeepTMO 的表现最好。
我们在表二中提供了定量分析,以展示我们提出的模型与现有方法的性能。 对于每种方法,TMQI 分数是测试数据集 105 个场景的平均值。 最终结果表明,我们提出的色调映射模型适用于各种场景,因此获得了最高分。 请注意,标准 TMO 采用默认参数设置,因此通过参数优化可能会改善结果。 我们的全自动方法的性能仍然具有很强的竞争力。
b) Computation Time:
对尺寸为 1024 × 2048 的测试图像进行推理,平均耗时 0.0187 秒。 对于单刻度和 0.0209 秒。 用于多尺度设计,如图 13 所示。
B. Quality Evaluation
我们进行了主观成对比较,以验证色调映射图像的感知质量。 20 人参与了这项主观研究,年龄范围为 23-38 岁,视力正常或矫正至正常。
1) 测试环境及设置:
测试是在环境照明条件下为专业主观测试保留的房间中进行的。 Dell UltraSharp 24 显示器 (DELL U2415) 用于显示屏幕分辨率为 1920 × 1200、频率为 59 Hz 的图像。 桌面背景窗口设置为128灰度值。
每个刺激都包含一对给定场景的色调映射图像,其中每一对始终包含由 DeepTMO 生成的图像和使用基于 TMQI 排名的最佳性能色调映射函数获得的另一幅图像。 为了满足各种各样的内容,我们从 105 个测试集图像中选择了 15 个场景,代表 5 个不同的类别(每个类别 3 个场景),即 i) 人类,ii) 黑暗/嘈杂,iii) 室内,iv) 结构,以及 v) 风景。
2)程序:
我们进行了一项成对主观实验,要求观察者通过并排显示一对图像来选择图像。 未包含相同的选项来强制用户选择其中一种刺激。 每个参与者都被要求选择一个对他/她来说更现实、更有吸引力的图像。 参与者有无限的时间做出决定并记录他们的选择。 该实验分为训练和测试阶段,训练中每个参与者都被告知熟悉主观质量评估任务。 每个观察者将一对图像进行两次比较,将每个色调映射图像显示在两侧(例如,DeepTMO 与第一最佳色调映射以及第一最佳色调映射与 DeepTMO)。
3)结果:
VII. CONCLUSION, LIMITATIONS AND FUTURE WORK
设计一个快速、自动的色调映射算子,能够从各种线性值 HDR 场景中再现最佳主观质量输出是一项艰巨的任务。 现有的 TMO 解决了一些特定的特征,例如整体对比度、局部细节或场景的感知亮度。 然而,产生高质量色调映射输出的整个过程仍然是一项耗时且昂贵的任务,因为它需要大量的参数调整才能为给定场景产生所需的输出。
为此,我们提出了一种端到端的无参数 DeepTMO。 我们的模型在 cGAN 框架中进行定制,经过训练可以输出逼真的色调映射图像,这些图像适当地包含了可用 TMO 的所有各种独特属性。 我们对各种架构设计选择、损失函数和标准化方法进行了广泛的比较,从而突出了每个组件在最终再现输出中所扮演的角色。 我们的 DeepTMO 成功克服了最近 HDR 相关作品 [9]、[37] 中经常解决的模糊或平铺效果,这是几个基于高分辨率学习的图形渲染应用程序非常感兴趣的问题,如 [9] 中强调的那样。 通过简单地学习多尺度 GAN 框架下的 HDR 到 LDR 成本函数,DeepTMO 成功地保留了所需的输出特征,例如输入 HDR 中以最精细尺度呈现的底层对比度、光照和微小细节。 最后,我们通过与现有 TMO 进行详细的定量和定性比较来验证我们方法的多功能性。
A. Limitations and Future Work
a) Target Selection:
尽管 DeepTMO 成功地展示了处理各种场景的多功能性,但其表达能力受到可用训练数据量和相应“目标”质量的限制。 如第一节所述,由于 HDR 场景无法获得主观注释的“最佳色调映射图像”,我们采用客观 TMQI 指标来构建相应的目标 LDR。 然而,该指标本身并不像人类视觉系统那么完美。 我们在图 14 中说明了这一点。第 3 列和第 4 列中按 TMQI 指标排名较低的图像在某种程度上比第 2 列中排名最高的对应图像更有趣。此类样本最终会限制我们模型的生成功率。
另一种具体情况包括高照度区域(如图 15 所示的太阳)周围的“光环”伪像或环,其中 DeepTMO(第 1 列)与第 3 列和第 4 列中的最高 TMQI 评分输出进行比较。这主要是由于 由此类样本组成的训练数据量不足,并且存在过度饱和的“目标”对应项。 结果,D 几乎没有关于有效色调映射这些区域的信息,因此无法指导 G 在生成时有效消除这种影响。 为了处理此类伪影,我们另外尝试使用对数尺度输入(第 2 列),我们观察到即使对数尺度值也无法纠正此类影响,因此需要足够的训练样本。
解决这个问题的另一种未来工作可以是通过利用弱监督学习范式来弱依赖这些“嘈杂”色调映射的地面实况图像[68]。 我们还可以以完全无监督的方式学习 HDR 到 LDR 的映射,而无需提供任何输入输出对 [47]。 这将允许网络通过独立建模输入 HDR 和输出色调映射图像的底层分布来自行决定哪个是最佳的色调映射输出。
b) Color Correction:
渲染高质量主观色调映射输出时,颜色是一个重要方面。 我们提出的方法已经过训练,可以在 HDR 场景中进行有效的亮度压缩,并使用经典的颜色比率来生成最终的色调映射输出。 尽管它在大多数情况下提供最佳的主观质量输出,但有时会导致颜色过度饱和,这可能看起来不自然并且感觉上令人不愉快。 一种简单的解决方案可能是简单地插入现有的色彩校正方法[67]以获得所需的输出。 图 16 显示了一个示例,其中使用[67]中提出的方法进行了颜色校正,由 Cout = ((Cin / Lin -1)·s+1)·Lout 给出,其中 s 为 色彩饱和度控制。 或者,另一个有趣的解决方案可能是学习一个模型,将内容从 HDR 色彩空间直接映射到 LDR 色调映射输出。