Perceptually Optimized Deep High-Dynamic-RangeImage Tone Mapping

news2024/11/19 19:31:40

Abstract

我们描述了一种深度高动态范围(HDR)图像色调映射算子,该算子计算效率高且感知优化。 我们首先将 HDR 图像分解为归一化拉普拉斯金字塔,并使用两个深度神经网络 (DNN) 根据归一化表示估计所需色调映射图像的拉普拉斯金字塔。 然后,我们通过最小化归一化拉普拉斯金字塔距离(NLPD)(最近提出的感知度量),在 HDR 图像数据库上端到端优化整个方法。 定性和定量实验表明,我们的方法生成的图像具有更好的视觉质量,并且在现有的局部色调映射算法中运行速度最快。

I. INTRODUCTION

现有的显示器、投影仪和打印输出的动态范围非常有限,不足以再现自然场景中呈现的并由当前传感器捕获的全光谱亮度值 [1]。 在低动态范围 (LDR) 显示设备上渲染高动态范围 (HDR) 图像时,需要色调映射算子 (TMO) 进行动态范围压缩,从而保留原始场景的显着视觉特征。 简单的 TMO 是将亮度值线性重新调整到可显示范围。 然而,这种方法对场景的最大亮度很敏感,并且经常会产生黑暗的外观(见图1(a))。 在过去的十年中,人们提出了大量的非线性 TMO [2]-[6],旨在实现忠实的色调再现和细节保留。 这些可以大致分为两类:全球运营商和本地运营商。 全局 TMO [7]-[12] 是一组参数函数,包括单应性、伽马映射、对数函数 [10] 和 sigmoid 非线性 [11]。 全局方法可以很好地保留全局对比度,但可能会丢失局部细节。 最近的研究主要集中在本地 TMO [3]、[6]、[13]-[16]。 一个常见的主题是将 HDR 图像分解为基础层和细节层。 色调映射应用于基础层,而细节增强则在细节层中完成。 沿着这条路径,人们提出了许多方法[6]、[15]、[16],主要区别在于如何以“更有效”的方式执行两层图像分解。 局部方法通常会产生具有令人满意的局部对比度和改善的视觉质量的图像。 然而,这通常是以增加计算复杂性为代价的[13]。 此外,全局对比度可能会降低,并且色调映射图像中可能会出现诸如光晕状发光之类的局部伪影。

Yeganeh 和 Wang [17] 研究了 HDR 图像色调映射的感知优化。 他们在所有可行的色调映射图像的空间中搜索与原始场景最接近的图像,通过结构保真度指数来衡量[18]。 后来在[19]中通过结合统计自然度度量对该方法进行了改进。 拉帕拉等人。 [20]将 HDR 图像色调映射表述为更一般的图像渲染问题,并考虑到各种显示限制。 然而,上述方法需要在高维空间中运行基于梯度的迭代优化器,这在计算上是昂贵的,阻碍了它们在实际应用中的广泛采用。

本文旨在开发一种用于渲染 HDR 图像的 TMO,具有两个所需的设计原则。 首先,它应该具有计算效率。 我们首先将输入的 HDR 图像分解为归一化的拉普拉斯金字塔 [20]、[21]。 我们不是在所有可行的色调映射图像的空间上进行迭代优化,而是训练两个前馈深度神经网络(DNN):一个接受所有带通通道和高通通道,另一个处理归一化表示的低通通道。 它们一起预测所需色调映射图像的拉普拉斯金字塔。 这两个网络被设计为高度轻量级,使我们的方法能够在现有的本地 TMO 中运行速度最快。 其次,要在感性上进行优化。与大多数 TMO 不同,我们通过优化最近提出的感知指标(预测的 LDR 图像与相应的 HDR 场景之间的归一化拉普拉斯金字塔距离(NLPD)[20])来端到端训练我们的网络。 对 HDR 图像测试集的实验表明,优化方法在定性和定量上始终优于现有 TMO(通过独立感知指标 - TMQI [18] 测量)。

II. THE NLPD METRIC

在本节中,我们将简要回顾 NLPD 指标 [20],该指标将被用作所提出的基于 DNN 的 TMO 的学习目标。

NLPD 的动机是早期视觉系统的生理学。 给定校准的 HDR 图像 S,首先通过指数函数对亮度值(单位为坎德拉每平方米,cd/m2)进行预处理,近似光对视网膜感光器响应的变换[20]

然后递归地应用亮度减法和对比度归一化,将 x(1) 划分为频率子带,模仿视网膜和外侧膝状核中发现的中心-环绕感受野 [20]

其中 D 和 U 分别表示线性下/上采样两倍。 低通滤波器 L 继承自拉普拉斯金字塔 [21]。 m代表金字塔层数。 我们通过将每个系数除以每个子带内相邻系数的加权和来获得归一化拉普拉斯金字塔

其中  表示 Hadamard 除法,P 是一个经过优化以减少统计依赖性的卷积滤波器 [20]。 c 是一个小的正常数,以避免可能被零除。 基于归一化拉普拉斯金字塔表示

其中 y(i) 表示色调映射图像 I 的归一化拉普拉斯金字塔的第 i 层。最终的 NLPD 度量由下式计算

其中 n(i) 是第 i 个通道中的系数数量。 使用受试者评分的图像质量数据库对两个指数 α 和 β 进行优化,以匹配人类对图像质量的感知。 NLPD 是连续且可微的 [20],这允许基于梯度的优化。

III. PROPOSED METHOD

在本节中,我们将描述拟议的 TMO。 经过预处理后,我们将输入的 HDR 图像分解为归一化的拉普拉斯金字塔,并将其输入两个 DNN 进行拉普拉斯金字塔估计,进一步折叠以获得最终的 LDR 图像。 图2显示了总体框架。

A. Preprocessing

对于 TMO 来说,使用校准的 HDR 图像(即所有像素都具有真实亮度值的图像)非常重要。 校准使 TMO 能够区分明亮和昏暗的场景。 否则,任意单位的夜间 HDR 图像可能会被色调映射到具有放大的传感器噪声的日光场景。 然而实际上,许多 HDR 图像是在没有校准的情况下获取的,这意味着记录的测量值 R 通过未知的比例因子与实际亮度 S 成线性比例。 为了将所提出的 TMO 应用于未校准的 HDR 图像,我们需要对原始场景 [20] 中的最小和最大亮度值进行一些有根据的猜测,分别用 Smin 和 Smax 表示。 例如,在全阳光下的典型摄影场景的亮度约为 5×103 cd/m2,而磨砂白炽灯泡的亮度约为 105 cd/m2。 之后,我们将测量值线性重新调整为估计的亮度值

作为预处理的最后一步,我们根据方程式将“校准”的 S 分解为归一化的拉普拉斯金字塔。 (2)至(5)。

B. Network Architecture

我们方法的核心是两个 DNN,它们使用相应 HDR 图像的归一化表示作为输入来预测 LDR 图像的拉普拉斯金字塔。 我们选择上下文聚合网络(CAN)[22]作为我们的默认架构,因为它可以有效地聚合全局上下文信息而不降低空间分辨率。 表一显示了详细的规格,这些规格经过手动优化以实现高度轻量级,同时平衡输出图像的视觉质量。 所有带通通道和高通通道共享的CAN有四个卷积层。 与[23]中类似,我们在前三个卷积之后使用自适应归一化,即恒等映射和批量归一化的组合:

其中 λ1 和 λ2 是两个可学习的参数。 带通和高通通道之间的权重共享使得能够接受任意级别的归一化拉普拉斯金字塔。 采用漏修正线性单元(LReLU)作为非线性激活函数:

其中 λ3 ≥ 0 是训练期间的固定参数。 我们使用另一个具有相同架构的 CAN 来压缩低通亮度通道的动态范围。 两个 CAN 一起输出所需色调映射图像的拉普拉斯金字塔,该图像的亮度范围被限制为 [5, 300] cd/m2。

与原始 CAN [23] 相比,一个显着的区别是我们删除了所有偏差项,包括自适应归一化中使用的偏差项。 如 [24] 所示,具有 LReLU 非线性的无偏差神经网络是局部尺度不变的:按常量值重新调整输入只是将输出重新调整相同的量 [24]

假设训练集中存在具有不同动态范围的自然场景,尺度不变性使 CAN 对各种亮度水平更加鲁棒。

C. Model Training and Testing

我们将 HDR 图像分解为五级归一化拉普拉斯金字塔。 对于目标函数NLPD[20],我们遵循原始论文,将前端非线性γ设置为1/2.6,局部权重函数P设置为空间可分离的五抽头滤波器[0.05,0.25,0.4, 对于带通通道,加性常数 c 为 0.25,0.05],加性常数 c 为 0.17;对于低通通道,P 为 I,c 为 4.86,度量的两个指数分别为 α 至 2.0 和 β 至 0.6。 LReLU 中的斜率 λ3 设置为 0.2。

在训练过程中,我们使用 Adam 优化器 [25],小批量大小为 4。初始学习率设置为 10−3,每 1, 000 个时期的衰减因子为 10,我们将我们的方法训练为 2 , 000 个纪元。 我们通过随机采样 103 至 105 cd/m2 的最大亮度值来校准 HDR 图像。 此外,我们通过随机裁剪和水平翻转来增强训练数据。 在测试过程中,我们调整每张 HDR 图像的大小,使短边的大小为 512,并对原始场景中的最大亮度 Smax 进行经验猜测。

IV. EXPERIMENTS

在本节中,我们进行实验来证明所提出的 TMO 的前景。 我们首先收集了 432 个 HDR 场景的数据库,并使用 391 个图像进行训练,其余图像进行测试。

我们选择了9个TMO进行比较,包括Drago03 [10]、Reinhard02 [2]、Kim08 [12]、WLS [6]、LLF [13]、Bruce14 [14]、GR [15]、NLPD-Opt [20]、 和梁18 [16]。 其中,Drago03、Reinhard02和Kim08是全局算子,而WLS、LLF、Bruce14、GR、NLPD-Opt和Liang18是本地算子。 值得注意的是,NLPD-Opt 直接最小化图像空间中的 NLPD 度量。 因此,如果有足够的迭代,它可以被视为所有 TMO 在 NLPD 方面的下界 [20]。 所有算法的实现均来自各自的作者,并使用默认设置进行测试。

A. Qualitative Comparison

图1显示了“Lamp”HDR场景的色调映射结果。 简单的线性缩放会产生黑暗的背景并丢失细节。 Drago03 [10] 图像的局部对比度显着降低(例如书中的文本)。 WLS [6]成功地保留了黑暗区域的结构,但在明亮区域遇到了过度曝光的问题。 相比之下,我们的方法产生更自然的外观和丰富的细节。

图3显示了“Architecture”HDR图像的色调映射结果。 Dargo03 [11] 图像的明亮区域有点曝光过度。 GR [15] 往往会超出局部细节,使图像变得虚假。 所提出的方法产生比 LLF 更温暖的外观。 尽管如此,它们却能产生接近的视觉效果,几乎没有伪影。

图4显示了“夜景建筑”HDR图像的色调映射结果。 Kim18 [12] 的图像由于场景的极端动态范围而表现出全局对比度降低。 Liang18[16]成功地改善了玻璃窗和背景的细节,通过我们的方法进一步改善了其对比度。 由于计算成本显着降低,我们的结果与 NLPD-Opt [20] 的结果非常接近。

B. Quantitative Comparison

我们采用两个客观指标进行定量绩效评估:TMQI [18] 和 NLPD [20]。 TMQI 是 SSIM 索引 [26] 的变体,用于比较不同动态范围的图像。 它结合了结构保真度(用 F 表示)和统计自然度(用 N 表示)测量,使用相应的 HDR 图像作为参考来评估色调映射图像的视觉质量。 TMQI越大或NLPD值越小,感知质量越好。 表二显示了结果,从中我们发现本地运营商在 TMQI 方面普遍优于全球运营商。 这并不奇怪,因为 TMQI 偏向于比较局部结构相似性,这是局部 TMO 的设计重点。 这个结果在 NLPD 方面不太明显。 正如预期的那样,NLPD-Opt 实现了最佳的 NLPD 性能,其次是所提出的 TMO 和 LLF。 有趣的是,尽管我们的方法是由 NLPD 指导的,但它实现了 TMQI 测量的最佳性能。 这为我们的架构设计提供了强有力的理由。

我们在具有 4.4GHz CPU 和 64G RAM 的计算机上使用现有 TMO 测试我们方法的运行时间。 所提出的 TMO 是使用 PyTorch 实现的,而所有竞争方法均基于 Banterle 等人实现的 MATLAB1。 [27]。 从表 II 中,我们观察到我们的方法是最快的本地 TMO,这归因于手动优化的网络架构只有 74、378 个参数。 此外,当启用 NVIDIA GTX 2080Ti GPU 时,我们的方法在所有方法中运行速度最快(0.017 秒)。

C. Ablation Analysis

我们进行了消融实验,以找出归一化拉普拉斯分解和所提出的 TMO 的感知优化的贡献。我们首先分析输入金字塔级别对最终视觉质量的影响。 请注意,一级对应于将原始 HDR 图像直接馈送到单个网络中以进行色调映射。 如图 5 所示,更多级别可以改善细节再现,但代价是增加计算复杂性。 默认的五级金字塔在视觉质量和计算速度之间保持了良好的平衡。 然后,我们将 NLPD [20] 切换为其他三个目标函数:平均绝对误差 (MAE)、SSIM [26] 和 TMQI [18],同时修复网络架构。 图6显示了优化结果,在各自的目标下是最优的。 可以看出,NLPD优化的网络取得了最好的视觉效果。

V. CONCLUSION

我们引入了基于轻量级 DNN 的感知优化 TMO。 我们发现,优化后的方法在各种 HDR 自然场景中达到或超过了最先进的水平,这已通过另一个感知质量指标 TMQI 进行了验证。

与所有受生物启发的 TMO 一样,我们的方法需要在训练和测试期间指定最大亮度值 Smax。 请注意,直接优化 NLPD 将导致 Smax = 0 的简单解决方案,从而创建完全黑色的外观。 可以添加统计自然度测量(例如,使用无参考图像质量模型实现)来帮助优化消除这种不良的局部最小值。

在我们的实验中,我们假设固定显示约束,最小亮度为 Imin = 5 cd/m2,最大亮度为 Imax = 300 cd/m2。 将来,我们将采取措施将各种显示约束纳入所提出的感知优化框架中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2178075.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Mybatis缓存机制(图文并茂!)

目录 一级缓存 需求我们在一个测试中通过ID两次查询Monster表中的信息。 二级缓存 案例分许(和上述一样的需求) EhCache第三方缓存 在了解缓存机制之前,我们要先了解什么是缓存: ‌缓存是一种高速存储器,用于暂时存储访问频繁的数据&…

利用大模型改进知识图谱补全的研究

人工智能咨询培训老师叶梓 转载标明出处 尽管现有的基于描述的KGC方法已经利用预训练语言模型来学习实体和关系的文本表示,并取得了一定的成果,但这些方法的性能仍然受限于文本数据的质量和结构的不完整性。 为了克服这些限制,中国科学技术…

PG高可靠模拟

模拟延迟 主库故障,备库尝试切换为主库

9.29 LeetCode 3304、3300、3301

思路: ⭐进行无限次操作,但是 k 的取值小于 500 ,所以当 word 的长度大于 500 时就可以停止操作进行取值了 如果字符为 ‘z’ ,单独处理使其变为 ‘a’ 得到得到操作后的新字符串,和原字符串拼接 class Solution { …

MySQL - 运维篇

一、日志 1. 错误日志 2. 二进制日志 3. 查询日志 记录了所有的增删改查语句以及DDL语句 4. 慢查询日志 二、主从复制 1. 概述 2. 原理 3. 搭建 三、分库分表 1. 介绍 2. Mycat概述 3. Mycat入门 4. Mycat配置 5. Mycat分片 6. Mycat管理及监控 四、读写分离 1. 介绍 2. 一…

【ADC】使用运算放大器驱动 SAR 型 ADC 时的线性输入范围

概述 本文学习于TI 高精度实验室课程,总结使用运算放大器驱动 SAR ADC 时的注意事项。具体包括:了解运算放大器共模范围和输出摆幅限制如何影响 SAR ADC 性能,研究运算放大器设计技术以避免共模和输出摆幅限制,讨论轨到轨放大器与…

PCB敷铜敷不了相同网络的线怎么办?

图片上的情况就是今天需要讲的内容,可以看出出来的线头是GND,敷的铜也是GND但是相同网络就是不能连在一起。 解释: 这是因为我们敷铜的时候属性选的是连接相同的net,如图所示: 解决办法: 只需要设置改为相同的Object就可以了&…

[Linux#60][HTTPS] 加密 | 数字指纹 | 详解HTTPS工作方案 | CA认证

目录 一.预备知识 1. 什么是HTTPS? 2. HTTP与HTTPS的区别 3. 什么是加密? 4. 常见的加密方式 4.1 对称加密 4.2 非对称加密 4.3 数据摘要与数据指纹 4.4 数字签名 二. HTTPS的工作方案 1 方案一:对称加密 2 方案二:非…

图像增强论文精读笔记-Deep Retinex Decomposition for Low-Light Enhancement(Retinex-Net)

1. 论文基本信息 论文标题:Deep Retinex Decomposition for Low-Light Enhancement 作者:Chen Wei等 发表时间和期刊:2018;BMVC 论文链接:https://arxiv.org/abs/1808.04560 2. 研究背景和动机 低光照条件下拍摄的…

LLM工程师启航:生成式AI简明教程

编者按: 大模型发展了近两年,Baihai IDP公众号也分享了近百篇LLM各环节的技术洞察,有前沿探讨、有落地实践、有应用经验。但回头来看,我们似乎从来没有认真、从0开始探讨过LLM的基本原理。 最近,一些企业客户和伙伴来询…

【IP限流】⭐️通过切面实现无校验保护接口的防刷逻辑

目录 🍸前言 🍻一、实现方法 🍺二、伪代码实现 🍹三、章末 🍸前言 小伙伴们大家好,上次写了一篇文章记录了最近自己装台式电脑中遇到的问题,以及整体的安装步骤和本地的配置选择&#xff0c…

【JavaEE初阶】网络原理

欢迎关注个人主页:逸狼 创造不易,可以点点赞吗~ 如有错误,欢迎指出~ 目录 ⽹络互连 IP地址 端口号 协议 协议分层 优势 TCP/IP 五层网络模型 数据在网络通信中的整体流程 封装和分用 封装 分用 ⽹络互连 随着时代的发展,越来越需…

【PyTorch】生成对抗网络

生成对抗网络是什么 Generative Adversarial Nets,简称GAN GAN:生成对抗网络 —— 一种可以生成特定分布数据的模型 《Recent Progress on Generative Adversarial Networks (GANs): A Survey》 《How Generative Adversarial Networks and Its Varian…

“卷”智能, 从高质量算力开始

算力即国力,这已是产业共识。 当人工智能浪潮席卷全球之际,大家深刻感受到发展算力产业的重要性和紧迫性,高质量的人工智能算力已经与国家竞争、产业升级和企业转型息息相关。 去年,《算力基础设施高质量发展行动计划》的颁布&a…

数据库软题1-数据模型+数据库三级模式两级映像

一、数据模型 (一)常见的数据模型 题1-二维表-关系模型 二、三级模式两级映像 (一) 外模式/模式/内模式 <>视图/基本表/文件 题1-三级模式与数据库的三对应 题2-三级模式与数据库的三对应 题3-视图是虚拟表 解析&#xff1a;视图是从一个或几个基本表&#xff08;或视…

Spring+Quartz定时任务集群及其实现

原文写的不全执行代码不成功&#xff0c;经我修改后可以正常执行。 原文链接&#xff1a;https://blog.csdn.net/qq_22193961/article/details/137743746 Quartz 是一个开源的作业调度框架&#xff0c;它完全由 Java 写成&#xff0c;并设计用于 J2SE 和 J2EE 应用中。它提供…

C++学习9.26

1、 1、什么是虚函数&#xff1f;什么是纯虚函数&#xff1f; 虚函数就是在基类中声明为 virtual的成员函数&#xff0c;允许在派生类中重写。 纯虚函数就是一个没有函数体额虚函数&#xff0c;在类声明中使用0来特指它是纯虚函数 2、基类为甚么要虚析构函数&#xff1f; 虚…

CC-LINK IE Field Basic通讯设置

一、设备简介 硬件&#xff1a;R08EN、FR-E840-EPB&#xff1b; 软件&#xff1a;GX Works3、FR Configurator2&#xff1b; 二、硬件展示 三、PLC侧参数设置 1.登录配置文件&#xff08;配置文件前期博文已经分享了&#xff0c;自行下载&#xff09; 2.导航→参数→模块参数…

大端、小端区分与判断

大小端的判断是根据系统如何存储二进制数据来判断的 大端顾名思义&#xff0c;以数据的高位做开端的操作系统、小端也是以数据的低位做开端的操作系统 用最简单的例子&#xff1a; 对于数据0x01来说&#xff0c;高位为0低位为1&#xff0c;转十进制&#xff1a; 0x01 0 * 1…

存储技术(CXL、open-channel SSD)

一、CXL技术 1.1 CXL技术要解决的问题 1、对系统和设备的一致性访问 传统的是使用Cache&#xff08;L1/L2/L3&#xff09;和内存的方式实现一致性访问的&#xff0c;通过PCIE总线访问的方式通常是非一致性的读写。 主机对连接到 PCIe 设备内存的每次访问也要由 PCIe 设备处理…