Explorable Tone Mapping Operators

news2024/12/26 11:29:57

Abstract

色调映射在高动态范围(HDR)成像中起着至关重要的作用。 它的目的是在有限动态范围的介质中保存HDR图像的视觉信息。 虽然许多工作已经提出从HDR图像中提供色调映射结果,但大多数只能以一种预先设计的方式进行色调映射。 然而,声调映射质量的主观性因人而异,声调映射风格的偏好也因应用而异。 本文提出了一种基于学习的多模态色调映射方法,该方法不仅获得了良好的视觉质量,而且探索了风格的多样性。 该方法基于Byclegan[1]的框架,通过操纵不同的潜在码,可以提供多种专家级的声调映射结果。 最后,我们证明了所提出的方法在定性和定量上都优于现有的音调映射算法。

I. INTRODUCTION

在现实世界中,自然场景的动态范围(DR)往往太宽(DR>10^7),相机无法捕捉,尤其是对太阳等直射光源。 由于多曝光融合技术[2]的发展,我们可以将不同曝光的图像中的所有细节融合到一张高动态范围(HDR)图像中。

HDR图像包含丰富的视觉信息,需要较高的位深度来存储大动态范围的数据。 然而,大多数显示设备只能显示低动态范围的图像(LDR,通常存储在8位)。 然后提出了色调映射算法,将HDR图像压缩为LDR图像,同时尽量保留感知内容。

在过去的二十年里,人们提出了一系列的音调映射算法[3]、[4]、[5]、[6]。 其中许多方法将HDR图像分解为两个部分:一个是经过平滑处理但仍保持原始全局动态范围的基本层,另一个是仅具有局部边缘或细节信息的细节层。 在将基础层和细节层融合回LDR图像之前,基础层通常被压缩以减小动态范围,而细节层被增强或提升以保留更好的视觉内容。

该方案将HDR图像中的低频信息和高频信息分开处理,在保持LDR图像局部细节的同时,大大压缩了图像的动态范围。 因此,将HDR图像分解为基础层和细节层对色调映射方法的质量有很大影响,而分解的方式几乎构成了不同方法之间的主要区别。

至于细节增强,一些方法试图使黑暗物体周围的区域变亮,从而导致光晕伪影[3]。 另外一些方法过分强调边缘信息,从而产生不切实际的过增强结果[7]。 虽然有一些方法可以解决这些问题,但它们通常只在特定类型的图像上有效,并且需要大量的参数调整才能获得最佳的结果[4]。 这个调优过程通常很耗时,而且很难重现。

最近还提出了基于深度学习的声调映射方法。 它们通常被建模为图像到图像的翻译任务。 杨等人[8]使用自动编码器架构将HDR图像转换为LDR图像。 然而,像不真实的颜色和对比度这样的伪影可以在他们的结果中看到。 拉纳等人[9]使用多尺度CGAN架构。 但是,当测试图像的尺度与训练图像不同时,仍然存在光环伪影,并可能导致其他伪影。 此外,上述基于深度学习的声调映射方法都是一对一映射,提供的主观风格较少。

本文提出了一种基于学习的多模态声调映射方法。 该方法可分为两个部分。 一个是EdgePreservingNet,它输出局部变化的内核,用于将输入的HDR图像分解为基础层和细节层。 另一个是预测全局音调压缩曲线的ToneCompressingNet。 两者都根据输入HDR图像的内容和动态范围自适应动态运行。

该方法以最小的伪影获得了良好的质量,在客观和主观上都优于现有的调音算法。 此外,由于Bicclegan[1]的体系结构,我们的方法可以从单个HDR图像中产生多样化的视觉吸引力的tonemapped结果。

我们的主要贡献总结如下:

1)提出了一种基于深度学习的音调映射方法,该方法由一个边缘保留网和一个ToneCompressingNet组成。

2)通过整合bicclegan体系结构,本文提出的方法能够从单个HDR图像中生成不同的色调映射结果。

3)利用双边滤波器,在保持HDR图像高频信息的同时压缩了动态范围的大部分。

4)与现有方法相比,该方法的主观评价和客观评价均较好。

II. RELATED WORK

A. Tone mapping

在过去的二十年里,人们提出了许多声调映射算法。 根据算法的工作方式,它们可以大致分为全局方法和局部方法。 全局色调映射方法在HDR图像的每个像素上使用单一的色调映射曲线[10],[11],这往往会造成对比度和细节信息的损失。 相比之下,局部音调映射方法利用空间特性自适应地执行此任务[12]。 全局方法需要更少的计算时间,而局部方法生成更好的细节。 局部方法通常将图像分解为两个部分:平滑的基础层和细节层[13]。 在局部方法中,晕影通常发生在边缘周围。 局部色调映射算法主要是为了减少这些伪影而提出的。 Durand和Dorsey在[3]中提出了使用边缘保持的双边滤波器来进行色调映射,但是在一些图像中仍然存在晕影。 曼蒂克等人[7]提出了对比处理框架,但细节被过度增强。 法布曼等人[14]提出了一种使用加权最小二乘滤波器的多尺度方案。 梁等人[6]提出了混合L1-L0分解模型。

虽然前人的工作取得了很好的效果,但对于不同的图像,通常需要进行超参数调整以达到最佳的视觉质量和减少晕影伪影。 近年来,基于深度学习的方法被提出,不需要参数调整,利用强大的GPU大大缩短了计算时间。 帕特尔等人[15]使用生成对抗网络(GAN)[16]来执行音调映射。 但问题过于简单化,只能在256×256的小块上进行测试。 杨等人[8]应用带有跳过连接的自动编码器网络将HDR图像传输到LDR空间。 然而,它们未能在一般HDR图像上产生良好的结果。 拉纳等人[9]使用条件生成对抗网络(CGAN)[17]和多尺度方案对图像进行色调映射。 虽然结果获得了很高的TMQI[18]分数,但结果包含光环伪影。 在这项工作中,我们采用BycleGan[1]来允许我们的模型生成多个高质量的色调映射图像。 分解方案使我们的模型能够产生没有晕轮效应的有吸引力的结果。

B. Multimodal image-to-image translation

模式崩溃是CGAN[17]中的一个著名问题。 鲍等人[19]提出了CVAE-GAN,它将变分自动编码器与生成对抗网络相结合,生成现实和不同的结果。 朱等人[1]将CVAE-GaN和CLR-GaN[20]、[21]、[22]组合成双环算法,使编码器产生的潜在码具有可逆性,并显示出更好的性能。 杨等人[23]在生成器中提出了一个新的正则化项来解决这种模式崩溃问题。

III. METHOD

A. Learning-based Bilateral Filters

双边滤波[3]是最常见的调音算子之一。 该算子的核心思想是将HDR图像分解为基础层和细节层,分别代表HDR图像的大部分动态范围和高频信息。 然而,基础层和细节层通常是通过一些手工制作的边缘保持过滤器和压缩操作来分解的。 由于参数量大,调优这些过滤器和操作通常是困难和耗时的。

代替手工制作的过滤器和操作,我们提出了一个基于学习的方案,如图所示 2. 该方案包括两个网络:(a)EdgePreservingNet和(b)ToneCompressingNet。 为了避免伪影,我们将EdgePreservingNet设为核预测网络(KPN)[24]。 因此,给定输入的HDR图像在对数域,EdgePreservingNet生成卷积核来生成基图像。 接下来,通过从输入HDR图像中减去基本图像来获取细节图像。 为了提高图像的视觉质量,我们对细节图像进行了增强处理。 然后使用ToneCompressingNet(典型的Conv-FC网络)预测的全局色调曲线对基图像进行压缩。 最后,将压缩后的基础图像和增强后的细节图像相加,并进行后处理和颜色校正,得到输出的LDR图像。 图 3展示了一个分解图像的例子。

EdgePreservingNet和ToneCompressingNet是使用BycleGan框架联合训练的,这将在第三-C节中描述。 值得一提的是,在训练过程中向这些网络中输入各种随机潜在码Z,使它们能够生成各种LDR图像。 此外,在第III-D节将介绍一个潜在代码优化方案,以帮助用户找到合适的潜在代码。

B. Tone Mapping Operators

我们将U-Net[25]体系结构应用于EdgePreservingNet,它由一个带有跳过连接的编码器-解码器组成。 正如Gu等人所建议的那样[12]中,输入的HDR图像首先被变换到对数域,然后归一化到[0,1]以适应人类的感知。 EdgePreservingNet不是直接生成基图像,而是预测一个大小为h×w×k^2的像素级滤波器,其中k是核大小,h,w是图像的高度和宽度。 然后对每个像素WP处的预测核进行归一化

 

其中I被称为WP的每个元素。 图 4表明这种归一化对色调映射的性能至关重要。

因此,通过在对数域中对输入HDR图像IHDR应用卷积来给出基图像IBASE

 其中1p表示像素p的值为1,否则为0。 然后通过idetail=ihdr-ibase获得细节图像。

 

 ToneCompressingNet由一系列连续的卷积层和一些完全连接的层组成。该网络可以预测压缩速率γ基以及后处理γ后的程度。压缩后的基本图像由

 

 

 D. Latent Code Optimization

回忆一下,色调映射是一个主观的任务,也就是说,人们喜欢不同类型或风格的色调映射图像。虽然我们的方法允许用户通过调整潜码来改变样式,但是由于搜索空间非常大,要找到合适的样式仍然是一个很大的挑战。在测试阶段,我们提出了一种优化音调映射的代表性评估指标TMQI[18]的方案,以帮助用户过滤掉不合适的潜在码,而不是使用随机潜码。给定一个训练良好的音调映射算子,该算子具有固定的模型参数和初始潜码,然后使用Adam[30]优化器通过反向传播迭代优化潜码。一般来说,这个过程通过大约30次迭代收敛。在该方案中,用户只需从少数候选码中选择潜在码即可。请注意,TMQI和我们的模型都是可微的。

V. CONCLUSIONS

提出了一种新的基于深度学习的调音方法。 该方法在定性和定量上均优于现有的传统方法和基于学习的方法。 我们还提供了一个用户研究,使实验结果更有说服力。 此外,通过调整潜在代码,该方法可以产生多种专家级的音调映射结果。

至于未来的工作,使潜在的代码更易于解释和调整可能是一个可能的方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/853380.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

lc1.两数之和

暴力解法:两个for循环,寻找和为target的两个数的索引 时间复杂度:O(n2) 空间复杂度:O(1) 哈希表:遍历数组,将nums数组的数和索引分别存储在map的key和value中,一边遍历,一边寻找是…

多语言多用户购物网站--海外仓进出口贸易平台开发

搭建一个多语言多用户购物网站需要具备一定的技术和资源,下面是一个大致的步骤: 1.确定需求:首先确定购物网站的功能需求,包括商品展示、购物车、订单管理、支付方式、物流管理等。同时还需要考虑到海外仓进出口贸易的特点&#…

如何使用Pycharm 快速搭建 Django 项目 (分享详细图文教程)

1. 准备工作 在开始创建Django项目之前,需要先确保已经安装了Python和Pycharm。并且python中已经安装好了Django依赖。 1安装python(这里我安装使用的是python3.11.4稳定版本) 官网下载太慢了这里直接贴网盘下载连接了,一起贴出py…

java版工程项目管理系统源码+系统管理+系统设置+项目管理+合同管理+二次开发em

​ 鸿鹄工程项目管理系统 Spring CloudSpring BootMybatisVueElementUI前后端分离构建工程项目管理系统 1. 项目背景 一、随着公司的快速发展,企业人员和经营规模不断壮大。为了提高工程管理效率、减轻劳动强度、提高信息处理速度和准确性,公司对内部…

解决vue3中不能使用vue-simple-uploader

vue-simple-uploader本身是基于vue2的,直接npm i vue-simple-uploader -S下载下来版本的是0.7.6。在vue3中无法使用会报错。 解决:使用next安装接下来要发布的版本就会下载1.0.1版本,即可使用vue3 npm i vue-simple-uploadernext -S 注意&…

基于Echarts的大数据可视化模板:智慧物流管理

目录 引言物流管理的重要性大数据可视化在解决物流管理挑战中的作用智慧物流概述定义智慧物流的概念和特点智慧物流的关键技术和平台风险管理和预测:交通拥堵情况和风险预警Echarts与大数据可视化Echarts库以及其在大数据可视化领域的应用优势开发过程和所选设计方案模板如何满…

企业计算机服务器中了locked勒索病毒怎么办,如何预防勒索病毒攻击

计算机服务器是企业的关键信息基础设备,随着计算机技术的不断发展,企业的计算机服务器也成为了众多勒索者的攻击目标,勒索病毒成为当下计算机服务器的主要攻击目标。近期,我们收到很多企业的求助,企业的服务器被locked…

linux程序保护机制gcc编译选项

预备知识: 计算机内存的结构通常包括以下几个主要部分: 1.代码段(Code Segment):也称为文本段,存储程序的可执行指令。代码段是被标记为可执行的,程序从代码段中获取指令并执行。 2.数据段(Data Segment)&#xff1a…

聚焦智慧医疗-RK3566智能主板助力POCT领域

POCT又称即时检验,是IVD(体外诊断)行业的一个细分领域,是指在采样现场即刻进行的快速诊断,省去了标本在实验室检验的复杂处,利用便携式分析仪器及配套试剂快速得到检测结果的一种检测方式。常见的POCT设备有生化分析仪、免疫分析仪…

Netty的ByteToMessageDecoder分析

说明 io.netty.handler.codec.ByteToMessageDecoder是一个解码器,从字节数据转换为其它类型的数据。ByteToMessageDecoder内部有一个累加器,将收到的字节读出来累积到一个ByteBuf中。ByteToMessageDecoder是个抽象类型,其中抽象函数decode(C…

Adobe全家桶-Prelude 2022安装教程

软件介绍 Adobe Prelude简称Pl,是Adobe出品的一款专业级别的视频编辑软件。Adobe Prelude软件将卓越的性能、优美的改进用户界面和许多奇妙的创意功能结合在一起,包括用于动态时间轴裁切、扩展的多机编辑、调整图层等。可用于结构化或简化视频制作工作流…

侯捷 C++面向对象编程笔记——8 静态 模板 namespace

8.1 static 对于非静态的函数和数据: 非静态的成员函数通过this指针来处理不同的数据(一份函数—>多个对象) 对于静态的函数和数据: 静态函数没有this,不能处理一般的数据,只能处理静态的数据 例1&a…

webshell免杀项目-Webshell_Generate(四)

用于生成各类免杀webshell 该工具没什么技术含量,学了一点javafx,使用jdk8开发出了几个简单功能用来管理webshell。页面比较low。 工具整合并改写了各类webshell,支持各个语言的cmd、蚁剑、冰蝎、哥斯拉,又添加了实际中应用到的一…

【Opencv入门到项目实战】(七):图像轮廓检测

所有订阅专栏的同学可以私信博主获取源码文件 文章目录 引言1.​轮廓检测2.轮廓特征3.轮廓近似4.外接矩形总结 引言 这一篇文章我们来讨论图像轮廓相关的知识点,什么叫做轮廓,从定义上来说它是指图像中连续的曲线或边界,表示了图像中目标的…

h5高德地图定位与Audio标签冲突

看到此文说明你也遇见此问题了,在ios设备使用(高德地图、百度地图)定位,如果在页面中有audio标签则会出现定位失败要么就是音频无法播放,此问题已和官方证实 是冲突问题,暂无解决方案。 因为高德地图也是基于原生定位开发的&#…

51单片机学习--红外遥控(外部中断)

需要利用下面这个红外接收头,OUT口会发出红外信号对应的高低电平,由于发送的速度很快,所以需要把OUT引脚接在外部中断引脚上,当OUT一旦产生下降沿,马上进中断,这样响应会更及时。 外部中断引脚位于P3_2和P…

chatGPT能力培训,客户最关注的99个方向

前言: chatGPT的主要应用,包括文本生成、图像生成和图文关联三大核心方向: 用户的在实际的工作和学习过程中,最关心的内容,可以按照上述类别进行划分,我们总结了,相关的插头GPT能力培训的相关主…

工程管理系统简介 工程管理系统源码 java工程管理系统 工程管理系统功能设计em

工程项目管理软件(工程项目管理系统)对建设工程项目管理组织建设、项目策划决策、规划设计、施工建设到竣工交付、总结评估、运维运营,全过程、全方位的对项目进行综合管理 工程项目各模块及其功能点清单 一、系统管理 1、数据字典&#xff…

这些工具让音频文件格式转换更简单

小华是一位音乐爱好者,他平时喜欢下载并播放一些流行音乐。在这个过程中,他发现从不同平台上下载下来的音乐格式并不一样,而不同的播放平台也支持不同的音频格式。这令他感到烦恼,并希望通过一些音频格式转换器来帮助他解决音频格…

2023牛客暑期多校训练营7 I-We Love Strings (分块)

文章目录 题目大意题解参考代码 题目大意 题解 这题给定的 n n n 大小和 s i s_i si​ 的总长度有玄机。 我们发现: 400 2 0 2 40020^2 400202,对于每一组数据 n n n 的个数每增加一个, s i s_i si​ 的平均值就会减小。 处理相同的 l…