【IVIF的超分重建】

news2024/9/20 4:51:34

Multimodal super-resolution reconstruction of infrared and visible images via deep learning

(基于深度学习的红外和可见光图像多模态超分辨率重建)

提出了一种基于编解码器结构的红外-可见光图像融合方法。图像融合任务被重新表述为保持红外-可见光图像的结构和强度比的问题。设计了相应的损失函数来扩大热目标与背景的权重差。此外,针对传统网络映射函数不适用于自然场景的问题,提出了一种基于回归网络的单幅图像超分辨率重建方法。该算法考虑了正向生成和反向回归模型,通过双重映射约束,缩小了不相关函数映射空间,逼近理想场景数据。实验结果表明,与现有方法相比,该方法在视觉效果和客观评价方面均具有上级的性能。此外,它可以稳定地提供与人类视觉观察一致的高分辨率重建结果,同时弥合红外-可见光图像之间的分辨率差距。

介绍

图像融合技术旨在利用特定算法从多个源图像生成信息丰富的图像。红外与可见光图像融合技术由于能够将不同的信息进行融合,在探测成像系统中起着举足轻重的作用。因此,融合结果具有更清晰和完整的场景描述,这有利于人的感知和机器处理。融合图像可以合成出具有源图像互补信息的新图像。最大限度地整合兴趣信息是揭示生物医学、森林消防和安全驾驶中的新见解和基本科学问题的基本瓶颈。例如,通常通过应用多曝光融合(MEF)方法来生成高动态范围(HDR)图像。HDR成像方法可以提供更丰富的图像细节,使重建图像更加清晰,更符合人眼视觉观察的要求。基于这种方法,红外和可见光融合算法可以综合各种信息的优点。一般来说,红外图像缺乏纹理信息,不能有效表征场景。但由于其固有的热辐射特性和在长波红外波段实现云层穿透成像的能力,已得到广泛应用。相比之下,可见光图像包含空间分辨率较高的纹理细节,有利于增强目标识别能力,符合人类视觉系统。但是,可见光图像也有一个致命的缺点:不可能在低照明条件下获得高质量的图像。可见光与红外成像相互依存、共同促进。
尽管图像融合技术有了显著的进步,但由于软件算法和硬件技术的限制,长波红外探测器的像素尺寸已经接近物理极限(17 μm)。同时,随着成像分辨率的提高,器件的制造成本也将急剧增加。因此,现有的双波段图像融合技术不足以稳定实现全天候高分辨率成像。此时,传统的超分辨率(SR)模型和算法已不再适用,其计算复杂度给应用增加了大规模计算的压力。近年来,深度学习(Deep Learning,DL)以其突出的特征提取、表示能力、强鲁棒性和高效的重构性能,成为图像融合领域的一项强有力的技术。从Deepmind公司研发的人工智能机器人到波士顿的强力机器狗,令人鼓舞的消息接连传来。人工智能在我们身边产生了一个熟悉的词汇。这是智能机器逐步取代人工操作的显著表现。这种趋势是由对结合人工智能计算技术的多维传感器的出现的日益增长的需求驱动的。几十年来,深度学习技术成为海量数据时代的研究热点。学术界和工业界都对该技术表现出浓厚的兴趣,尤其是在计算机视觉方面。作为近年来兴起的一种“数据驱动“技术,它在图像分类、目标检测]和识别等许多应用中取得了卓越的成就。如图1所示,克服空间采样不足导致的像素化成像问题也是多图像超分辨率融合(Multi-SR-Fusion)技术的新奇。请添加图片描述

相关工作

目前,得益于DL卷积运算强大的特征提取能力和从海量数据中学习映射函数参数,DL方法已经迅速演化为图像融合领域最具潜力的方向。传统的单帧图像SR 问题指的是从低分辨率(LR)图像恢复到高分辨率图像的过程,不断挑战极限以获得更高的真实世界感知。在计算机视觉领域,卷积神经网络(Convolutional Neural Networks,CNNs)的引入,极大地推动了单幅图像SR技术的发展。研究人员通过引入残差模型、深度卷积结构和密集连通性结构来不断优化SR网络模型,以增强重构性能。然而,由于单幅图像SR问题的病态性,现有的大多数方法在缩放因子较大的情况下会产生伪影,甚至丢失细节纹理。因此,如何准确地重建高频图像细节仍然是一个挑战。在基于DL的主要方法中,有两种主流:卷积神经网络(CNN)和生成逆网络(GAN)。针对这一具有挑战性的问题,国内外学者提出了许多有代表性的研究成果。
在ICCV 2017上,提出了一种经典的融合方法,称为DeepFuse,以解决曝光图像融合任务。在此基础上,Li等人用稠密块代替前一部分的卷积网络进行改进。融合网络由编码器、融合层和解码器结构组成。考虑到融合后的特征与原始图像的相似性,Zhang等提出的方法通过每层特征信息的连续反馈,更好地关注图像特征的有效提取。随着GAN网络的快速发展,学者们也将其应用于红外和可见光图像领域。Ma等人提出了一种基于细节保持学习的红外和可见光图像融合模型。在对抗网络生成框架下,设计了细节损失和目标边缘增强损失的双重损失函数,分别用于提高红外目标细节信息质量和锐化目标边缘。但该方法没有充分考虑红外和可见光图像的特点,融合后的图像难以突出目标信息。根据红外-可见光成像的特点,Li等人提出了一种具有多尺度注意机制的GAN网络。多尺度注意机制生成器聚焦于红外图像的目标信息和可见光图像的背景细节信息,使得融合网络能够集中于源图像的特定区域重构融合图像。一般来说,基于DL的方法不需要人工设计分解处理和融合规则,就能得到满意的结果。但它们在保持背景信息的同时不能突出重要目标,导致融合结果对比度较低。由于传感器的制造工艺、功耗或成本的限制,红外图像的像素成像尚未得到充分解决。Zou等人利用编解码网络成功实现了红外图像的随机共振重构,也验证了其在图像随机共振和特征提取方面的应用潜力。因此,如果能够将SR结构加入到网络中,则融合结果将得到可预见的改善。
Gatys等人提出了神经风格转移方法,并首次将DL方法应用于风格转移任务。该网络通过内容损失约束保持两幅图像基本信息的一致性,并通过反向传播迭代更新输入图像的风格。通过连续的前向传播计算损失和后向传播优化损失以及更新重建图像的像素值,最终得到最优的重建图像。图像风格迁移的实质是两种不同风格图像的融合。从某种意义上说,红外和可见光图像也可以看作是两个独立的“风格“图像。因此,本方法利用神经元风格转换的概念来解决红外与可见光图像融合的问题。正如上面提到的,近年来,红外和可见光图像融合技术基于神经网络具有重要的研究前景。在红外和可见光图像融合的任务,仍面临以下问题:
1)端到端成像数据集。DL重建算法基于多个数据集,而可用于红外和可见光图像融合任务的数据集较少。如何利用现有数据实现网络训练模型是挑战之一。而最关键的一点是目前的融合网络没有考虑红外图像的分辨率,输入的红外图像质量太差,导致重建效果不理想。
2)红外-可见光图像之间的分辨率差距。在红外-可见光融合的任务中,一般来说,红外探测器的分辨率一般会比可见光探测器差很多。因此,能否通过映射函数来提高红外成像质量,从而提高融合图像的质量也是本文研究的关键内容之一。
3)网络架构。图像融合是计算机视觉中的底层任务,网络结构应尽可能的轻量化。而如何充分发挥网络的能力,权衡两幅图像之间的权重也是基本问题之一。
4)损失功能。在网络训练过程中,需要通过损失函数对网络训练参数进行修正,这对损失函数的设计提出了更严格的要求。

方法

对于人类视觉系统来说,包含重要目标的“显著区域“更具吸引力。基于以上分析,红外-可见光图像融合的问题在于如何保持高频细节信息和热辐射信息,从而实现多维数据融合过程。该方法的主要任务是提高红外图像的分辨率,在获得高质量图像分辨率的同时,对异源图像进行加权融合。因此,如何有效地提取每幅图像的特征信息并分配融合权值是本文研究的重点基于U-Net语义分割和风格传递的概念,可以有效地分割红外图像的热辐射信息,然后通过风格传递结构传递红外图像和可见纹理信息。在我们的工作流程中,采用编解码融合结构进行端到端的学习,如图2所示,这样网络不仅可以围绕“显著区域“信息,而且可以学习图像SR映射函数。
在这里插入图片描述
将图像融合问题转化为保持红外和可见光图像的结构和强度比的问题。设计了相应的损失函数,扩大了热目标与背景之间的权重差异。针对传统网络映射函数在实际场景中存在不适定的不足,嵌入逆回归的附加约束,以减少可能映射函数的空间。最后,通过扩展通道数实现了基于场景的伪彩色SR重建。通过这样做,重建的图像更符合人类视觉效果。该方法以红外图像和可见光图像为输入图像,通过端到端监督网络得到彩色融合图像。应用不同维数的核函数对红外和可见光图像进行多尺度特征提取。随后,通过融合层生成红外和可见光融合图像。该融合结构包含多尺度特征提取和残差信道注意块(RCAB),支持有价值的特征映射,抑制不重要的特征映射。编解码SR结构分别实现了特征提取和重构的功能。同时,跳跃连接结构的引入可以将图像特征信息从网络的编码部分传递到解码部分,解决了梯度消失的问题。

Problem formulation

为了更清晰地表达网络的映射关系,可以将网络模型定义为:

其中、𝐹𝑤、𝜃[ .]表示网络的非线性映射函数𝜔,𝜃分别描述网络中的权值和偏差可训练参数,𝐼𝐿𝑅1(𝑥,𝑦)描述输入的长波红外图像,𝐼𝐿𝑅2(𝑥,𝑦)描述输入的可见光图像,𝐼out(𝑥,𝑦)为网络输出的HR图像。详细的网络参数如表1所示。请添加图片描述
网络结构包含卷积、反卷积、元素加法或乘法、通道融合、最大池化和元素最大层。层的输入图像𝑋𝑖由表示𝑖,卷积层和去卷积层由表示:
请添加图片描述
其中,𝑊𝑘和𝐵𝑘分别表示滤波器和偏差。为方便起见,* 表示卷积或反卷积。
对于元素相加层,输出是相同大小的两个输入的相加,然后是Leaky ReLU激活:
请添加图片描述
其中,𝑋𝑖 和𝑋𝑗分别表示i+1层和j+1层, 和𝛼 = 0.01。
对于元素乘法层,输出是相同大小的两个元素的乘法,然后是Leaky ReLU激活:
请添加图片描述
对于通道融合层,输出是相同大小的两个输入通道之和:
请添加图片描述
对于最大池层,输出图像大小是输入图像的一半,其由以下公式表示:
请添加图片描述
其中𝑑𝑜𝑤𝑛表示pooling函数,本文采用max-pooling。
对于element-max层,输出图像的大小与输入图像的大小相同,其由以下公式表示:
请添加图片描述
对于亚像素卷积层,输出图像大小是输入图像大小的两倍,其由以下公式表示:在这里插入图片描述

Loss function

权值分配是图像融合的核心问题,直接决定了融合图像的质量。为了进行网络训练,需要准确地评估融合图像与输入图像对之间的信息相似度,以最小化信息损失,从而有效地保留红外图像的热辐射信息和可见光图像的纹理细节信息。因此,本文将图像融合问题转化为保持红外-可见光图像结构和强度比的问题。强度分布和梯度信息可以分别表征热辐射和结构信息。为了最大限度地保留源图像的代表性特征,设计了一种混合损失函数来保留有价值的特征信息。因此,我们提出的模型的损失函数被设置为:
请添加图片描述
其中𝑥𝑖和𝑦𝑖分别表示输入LR和输出HR图像。𝐿𝑜𝑠𝑠1(𝐹(𝑥𝑖),𝑦𝑖)和𝐿𝑜𝑠𝑠2(𝐷(𝑦𝑖),𝑥𝑖)分别描述了正向回归和逆回归任务的损失函数。在训练过程中,重建图像𝐹(𝑥𝑖)不断收敛到相应的HR图像。类似地,𝐷(𝑦𝑖)在回归处理中连续逼近预测图像和先前输入LR图像之间的相似度。这里我们𝜆将混合损失函数的权重分布设置为0.1。
如果𝐹(𝑥𝑖)是准确的HR图像,则逆回归模型中的预测图像𝐷(𝑦𝑖)应该与LR图像非常相似。在此约束下,我们可以减少可能的映射函数,从而实现鲁棒的图像重建。
在这里插入图片描述
||·||2定义𝐿2范数,▽表示梯度算子。α和β用于平衡两个损失函数,α = β = 0.5。
请添加图片描述
这个公式是一种考虑SR的改进融合方法。**同时约束输入输出图像的正向生成过程和反向回归过程,使双损失函数相互补偿,达到整体损失函数平衡。**计算输入输出图像之间的混合损失以更新网络参数。通过最小化损失,网络在训练阶段执行输入数据的精确重构,强调有价值的信息,并抑制不相关的信息。

网络架构

Multi-scale feature extraction (encoding) module

SR重建的基本部分是如何提取输入图像的特征。一方面,假设可以获得不同维度的信息。在这种情况下将有助于信号恢复。另一方面,通常通过卷积核来提取图像特征信息。因此,提取卷积较大的图像以获得更广泛的感受野的想法一直在萌芽。较大的感受野将促进特征信息的接收。但如果卷积核过大,计算量会急剧增加,不利于模型深度的提升。因此,我们可以将大尺度卷积分解为若干个小尺度卷积,以减少计算量。尽管多尺度卷积块可以提取足够的特征,但是选择性地集中于基本元素而忽略不太重要的元素也是至关重要的。这意味着并非所有特征都有利于重建。中间特征包含有价值的信息,例如主要结构和细节,或者甚至不相关的信息,例如噪声。因此,我们采用了不同核大小的多尺度层,如3 × 3和5 × 5,以获得不同感受野的低频和高频特征。通过这样做,不同尺度的综合图像信息被提取并且彼此重用。特征融合卷积层实质上降低了计算复杂度,提高了网络的收敛速度。因此,引入多尺度提取模块有利于获得更高层次的鲁棒语义特征,保留更多的底层细节,丰富图像特征信息。

Super-resolution (decoding) module

SR网络采用编解码器结构。在解码层中,采用像素混洗的方法,扩大编码层中卷积层对应的特征图尺寸,并通过跳跃连接的方式传递不同维度的信息。跳跃连接不仅传递了图像的特征信息,而且缓解了梯度消失的问题。引入残差通道关注度模块对通道特征信息进行调整,有利于重建HR图像。全局平均池层将所有空间特征编码为一个通道上的整体特征。接收到全局特征后,通过全连接层学习各信道之间的非线性关系。整个操作可以看作是学习每个信道的权重系数,以使模型对每个信道的特征更具区分性
目前,主流网络体系结构模型是朝着更深的方向发展。更深一层的网络模型意味着它具有更好的非线性表达能力。因此,它可以学习更复杂的转换和输入适应更复杂的功能。然而,一个常见的伴随的问题是信息提取的中间层并不充分。因此,跳过残差结构连接是值得提高梯度传播和缓解梯度消失由于网络深化的问题。此外,现有的方法只关注从LR的图像映射到HR的图像。然而,不确定的可能映射空间在训练过程中是不稳定的和具有挑战性的。为了改善这一问题,我们提出了一个SR结构中的双重回归方案,如图3©所示。通过双重约束的约束,提高了网络模型的鲁棒性和对自然场景的适用性。请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/342084.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023年3月AMA-CDGA/CDGP数据治理认证考试这些城市可以报名

目前2023年3月5日CDGA&CDGP开放报名的城市有:北京、上海、广州、深圳、杭州、重庆,西安,成都,长沙,济南,更多考场正在增加中… DAMA认证为数据管理专业人士提供职业目标晋升规划,彰显了职业…

Echarts 设置折线图线条样式(虚线+粗细+阴影)

第012个点击查看专栏目录Echarts折线图的lineStyle属性可以设置折线的颜色,粗细,类型,线段末端类型,阴影,透明度,偏移等属性。文章目录示例效果示例源代码(共128行)相关资料参考专栏…

【Java|多线程与高并发】 使用Thread 类创建线程的5种方法如何查看程序中的线程

文章目录前言线程创建1.继承Thread类重写run()方法如何查看程序中的线程?2.实现Runnable接口3.使用匿名内部类,继承Thread4.使用匿名内部类,实现Runnable5.⭐使用Lambda表达式,创建线程(重要)Thread 的常见构造方法总结前言 在这里主要补充说明一些问题,方便更好地理解下面的…

conda安装nodejs版本过低解决方法

conda命令直接安装nodejs时,可能会由于镜像源中nodejs版本过低导致没法安装高本版的nodejs,导致无法jupyterlab使用一些扩展插件。 解决方法如下:(windows环境下直接按提示下载版本安装就行,此处只介绍linux环境的解决…

2023上半年软考中级系统集成项目管理工程师2月25日开班

系统集成项目管理工程师是全国计算机技术与软件专业技术资格(水平)考试(简称软考)项目之一,是由国家人力资源和社会保障部、工业和信息化部共同组织的国家级考试,既属于国家职业资格考试,又是职…

今天面试招了个28K的人,从腾讯出来的果然都有两把刷子···

公司前段时间缺人,也面了不少测试,前面一开始瞄准的就是中级的水准,也没指望来大牛,提供的薪资在20~30k,面试的人很多,但平均水平很让人失望。看简历很多都是4年工作经验,但面试中,不…

2023年上半年软考高项信息系统项目管理师2月25日开班

信息系统项目管理师是全国计算机技术与软件专业技术资格(水平)考试(简称软考)项目之一,是由国家人力资源和社会保障部、工业和信息化部共同组织的国家级考试,既属于国家职业资格考试,又是职称资…

每天一道大厂SQL题【Day09】充值日志SQL实战

每天一道大厂SQL题【Day09】充值日志SQL实战 大家好,我是Maynor。相信大家和我一样,都有一个大厂梦,作为一名资深大数据选手,深知SQL重要性,接下来我准备用100天时间,基于大数据岗面试中的经典SQL题&#…

MMDetection(五)

目标检测工具包 MMDetection MMDetection 可以做什么 ➢ MMDetection 提供 400 余个性能优良的预训练模型,开箱即 用,几行 Python API 即可调用强大的检测能力 ➢ MMDetection 涵盖 60 余个目标检测算法,并提供方便易用的 工具,…

【Spring Cloud】如何修改Feign的日志记录级别

本期目录前言1. 介绍2. 方式一:配置文件1)全局生效2)局部生效3. 方式二:Java代码1)全局配置2)局部配置前言 本次示例代码的文件结构如下图所示。 1. 介绍 Feign 允许我们自定义配置,下面是 …

kubernetes集群部署springcloud项目【AL】【未写完】

kubernetes集群部署springcloud项目【AL】 (先手工做,非自动化) #环境: 192.168.73.138 master 192.168.73.139 node1 192.168.73.140 node2 192.168.73.137 harbor、mysqlgit clone https://github.com/lizhenliang/simple-…

leetcode.1234 替换子串得到平衡字符串 - 反向滑动窗口

1234. 替换子串得到平衡字符串 题目: 有一个只含有 Q, W, E, R 四种字符,且长度为 n 的字符串。 假如在该字符串中,这四个字符都恰好出现 n/4 次,那么它就是一个「平衡字符串」。 给你一个这样的字符串 s,请通过「替换…

信息安全管理

信息安全管理信息安全管理信息安全风险管理信息安全管理体系应急响应与灾难恢复应急响应概况信息系统灾难修复灾难恢复相关技术信息安全管理 管理概念:组织、协调、控制的活动,核心过程的管理控制 管理对象和组成:包括人员在内相关资产&…

【ArcGIS Pro二次开发】(3):UI管理_显示隐藏Tab、Group、Control等控件

在ArcGIS Pro工作中,有时候会涉及到工具栏UI的管理,比如,打开模型构建器时,工具栏才会出现新的选项卡(Tab)【ModelBuilder】,工程未做更改,则【保存】按钮显示灰色不可用。 下面以一个小例子来学习一下。 一…

VScode+cuda编程:常见环境问题

VScodecuda:常见环境配置问题1、VScode终端问题(PS)2、编译问题(CUDA版本过低)3、nvcc编译问题(arch架构)1、VScode终端问题(PS) 问题描述: 在VScode下打开终端执行nvcc指令,发现执行不了,但是在外部终端powershell和cmd都可以。…

波奇学c语言:代码的编译和链接

test.c(源文件)->编译->test.obj(目标文件)->链接->test.exe(可执行文件)编译1.预编译(预处理):text.c->text.i使用gcc -E test.c 进行停止预处理指令&am…

Java修饰符和运算符,超详细整理,适合新手入门

目录 一、访问控制修饰符 1、访问权限 二、运算符 1、算术运算符 2、关系运算符 3、逻辑运算符 4、赋值运算符 5、三元运算符 一、访问控制修饰符 Java 支持 4 种不同的访问权限: private 私有的 protected 受保护的 public 公共的 default 默认 1、…

【手写 Vuex 源码】第九篇 - Vuex 响应式数据和缓存的实现

一,前言 上一篇,主要介绍了 Vuex 的 State 状态安装,主要涉及以下几个点: State 状态的安装逻辑;两个核心问题的思路;代码实现以及执行情况分析; 本篇,继续介绍 Vuex 模块相关概念…

计算机组成原理(五)

3.理解主存储器与CPU的连接原理;   主存通过数据总线、地址总线和控制总线与CPU连接;   数据总线的位数与工作频率的乘积正比于数据传输率;   地址总线的位数决定了可寻址的最大内存空间;   控制总线(读/写&am…

excel操作实例:如何制作一个学习计划阶段图表

预则立不预则废。不管是为了避免被裁员的窘迫,还是为了获得更高的薪水,都有必要在2023年尽快学精Excel,成为行业高手。教程把要成为Excel高手的几道坎,也是要攻克的目标做成图表,希望大家的努力更有效。要变成Excel高手…