分离表示学习:通用图像融合框架

news2024/9/29 23:34:28

IFSepR: A General Framework for Image Fusion Based on Separate Representation Learning

(IFSepR:一种基于分离表示学习的通用图像融合框架)

提出了一种基于分离表示学习的图像融合框架IFSepR。我们认为,基于先验知识的共模态图像和多模态图像都具有共同特征和私有特征,利用这种非纠缠表示方法可以帮助图像融合,特别是融合规则的设计。受自编码器网络和对比学习的启发,构建了一个具有对比约束的多分支编码器来学习成对图像的公共和私有特征。在融合阶段,基于解纠缠后的特征,设计通用的融合规则,将融合后的私有特征与公共特征进行融合,然后将融合后的私有特征与公共特征一起送入解码器,重构融合图像。我们对三种典型的图像融合任务,包括多聚焦图像融合,红外和可见光图像融合,医学图像融合进行了一系列的评估。

图像融合是图像处理领域的一个重要分支。图像融合可以弥补使用单个传感器的缺点,使融合后的图像包含更多的可靠信息。在数码摄影领域,同一场景的多焦点图像可以在不同焦距设置下融合,获得清晰的全焦点图像;在军事或民用监视系统中,红外和可见光图像的融合可以带来更多的可观测信息,有利于环境监测;在医学图像领域中,计算机断层扫描图像(CT)、磁共振图像(MRI)和增强磁共振图像(GAD)显示关于疾病的各种信息以用于可靠的诊断。图像融合方法一般可分为基于变换域的方法和基于空间域的方法。
基于空间域的方法通常将整个源图像划分为许多小块,并根据设计的融合规则对每对块进行融合。这类方法主要用于融合具有一致模态的图像,限制了它在某些特定任务中的应用。
基于变换域的方法通常将源图像变换到特征域,然后在变换后的空间上进行特征融合操作,最后通过逆变换重建融合图像。最经典的融合方法是基于多尺度变换(MST),其中大量的融合方法已经出现。最近的发展集中在使用先进的信号表示理论,如独立分量分析(ICA)和稀疏表示(SR)。而传统的基于变换域的融合方法的性能很大程度上依赖于变换工具和每个融合过程的手工设计,其复杂度高导致计算量大,限制了融合实时任务的应用。近年来,深度学习在图像融合方面变得越来越有效。卷积神经网络(CNN)因其在图像特征提取方面的强大能力而受到广泛关注。Liu等人采用CNNA作为焦点检测,将多焦点图像分为清晰和模糊部分。为了推广到多模态图像融合中,他们进一步使用所获得的决策图来融合MST系数。该方法构建了一个用于共模态图像特征学习的单片编码器,忽略了图像之间的潜在关系。遵循单片编码器框架,Li等人采用了一种经过良好训练的自编码器从图像中提取特征,然后设计了一种融合策略,在重构前对特征进行融合。但该方法只讨论了红外与可见光的融合任务。Zhang等人在合成的多焦点数据集上训练了一个简单的四层CNN,并使用choose-max规则融合中间特征,这在不同的图像融合任务中表现出很强的泛化能力,并证明在数据驱动的图像融合领域,特征学习和重建这两个关键步骤可以通过交叉模态学习来训练。然而,如何解析多模态图像之间的关系仍然是一个悬而未决的问题。将图像融合到生成对抗网络(GAN)是另一个最近的发展。Ma等人首先采用GAN融合红外图像和可见光图像。它们的内容损失函数使融合图像同时具有红外辐射和可见光梯度信息,并且生成器和鉴别器之间的最小-最大博弈有助于引入更多的可见细节。尽管GAN具有更好的自适应能力,但融合步骤的可解释性不足,这破坏了基于GAN的方法被推广到更多模态。总体而言,基于深度学习的图像融合方法已经取得了先进的性能,但仍存在一些局限性:(1)上述基于CNN的方法同等地处理来自源图像的特征,忽略相应的模态特征;(2)大多数方法处理单一的融合任务,对各种模态的泛化能力有待进一步验证。因此,有必要利用共模态图像之间的关系,并开发一个更通用的图像融合框架。为了探索多个数据源之间的内在相关性,已经提出了许多方法。基于多视图表示学习,Liu等人提出了一种揭示数据间一致性和互补关系的半监督算法。基于子空间学习,Li 等人通过利用几何结构中的局部和全局一致性,进一步弥合低级空间特征和高级语义信息的差异。实际上,利用自动编码器中的潜在数据结构和先验知识可以促进解纠缠特征学习,并且将先验知识联合嵌入深度网络可以使下游计算机视觉任务受益。具体而言,对于图像融合,成对的源图像之间总是存在冗余和互补关系冗余特征通常代表共享结构,而互补特征反映了融合过程中的关键成分的排他性信息。通过学习这种关系,应提高的可解释性的特征,这有利于设计一个良好的定向融合过程。
根据上述考虑,我们的目标是发现一个解开的共同和独特特征的潜在空间,这是适合于图像融合的自动编码器框架下。本文提出了一种三码流的自动编码器,两个流的独特特征和一个共同的特征,本文提出。该方法将公共特征和独特特征结合起来分别重建成对的图像,然后对这些特征进行融合运算,得到相应的融合图像。然而,如果没有适当的约束,神经网络将倾向于给予一个平凡的解决方案在解开,保留几乎所有的信息在独特特征。近年来对比学习的突破,为我们提供了解决这一问题的视角。Chen等人提出了一个具有对比交叉熵损失的简单框架,以最大化来自同一类别但具有不同视图的目标的潜在表示之间的相似性,并有效提高分类任务的准确性。Mei等人使用对比三元组损失对预训练的网络进行了微调,以改善表示,从而解开人类感知相关和不相关维度,从而在图像翻译任务中保持良好的视觉质量。受他们工作的启发,设计了差异损失,以确保公共和私人特征的解开。此外,为了促进自动编码器的特征学习,经过良好训练的分类网络VGG19 的一部分被转移到编码层中。此外,为了提高算法在不同类型图像融合任务中的泛化能力,设计了一种能更好地适应不同图像融合任务的融合规则。为了证明我们的方法的有效性,我们定量和定性地评估它对三个图像融合任务:多焦点融合、红外和可见光融合以及多模态医学图像融合。
综上所述,所提出的方法的贡献如下:
1)本文提出了一种新的解纠缠特征学习方法,实现了深度学习框架下的图像融合。该算法利用三流自动编码器中的公共和私有特征,提高了潜在呈现的可解释性,为设计精确的融合规则提供了帮助.设计了一种对比度差损失,以提高所提出的自动编码器的解缠能力。
2)提出了一种自适应融合策略,该策略综合考虑图像各位置所包含的能量,选择合适的融合规则,能够更好地保留重要信息。
3)所提出的方法提供了一个通用的框架,它可以在多聚焦,红外和可见光,以及医学图像融合任务中获得有竞争力的性能。

RELATED WORK

最近,已经提出了许多基于深度学习的图像融合方法。由于图像融合数据集没有地面真值,经过良好训练的自动编码器被广泛使用,它可以学习更鲁棒和层次化的特征。为了解决多曝光图像融合问题,Prabhakar提出了一种具有两个编码层和三个解码层的自动编码器。同时,权重共享解码层可以减少网络参数。通过融合层中的简单处理,可以将学习到的特征合并到解码层中,以获得重建的曝光图像。为了将先验知识纳入特征学习,Baruch Epstein提出了一种具有多任务并行结构的自动编码器。该模型由公共分支和私有分支组成。公共分支倾向于通过在训练期间共享权重来学习公共特征,而私有分支不共享权重并且倾向于学习独特特征。虽然图像融合中的一些数据具有不同的模态,但在同一视场内采集的图像具有相似的特征,因此它们的共同特征和私有特征可以看作是先验知识的关系,区分这种关系在图像融合过程中具有重要意义。在这里插入图片描述
传统的自动编码器如图1(a)所示。以图像A为例。A是输入图像,并且通过对从编码部分的卷积层提取的特征进行解码来重构图像A。重建过程被示出为以下等式:在这里插入图片描述
在图像融合任务中,图像A和图像B是在同一场景中捕获的,因此它们具有公共特征信息和私有特征信息。通过应用先验知识,可以将自动编码器网络修改为如图1(b)所示的多流结构。重建方程如下所示:在这里插入图片描述
每个源图像,编码器被划分为公共分支和私有分支。中间的公共分支学习两个图像的公共特征。之后,通过共享权重的解码层重构图像。与在各自特征空间中编码的源图像相比,该网络结构中的私有分支和公共分支能够更好地分离和表达图像特征。以图像A为例。( g A g^A gAdec g P A g^PA gPAenc)是图像A私有分支的编码过程和解码过程,而( g A g^A gAdec g C A g^CA gCAenc)(A)是图像A公共分支的编码过程和解码过程。可以通过组合来自公共分支和私有分支的特征来获得重建图像 -A。同样的事情可以用图像B进行。然而,在上述自动编码器中,图像A和B的公共分支不能提取真实的的共享信息。即使采用权重分担方法,图像A的公共部分和图像B的公共部分也经常不相等。同时,公共特征提取的不完全会影响到私有特征,进而影响到最终的融合图像。为了更好地提取图像的私有和公共特征,我们在图1(c)中设计了如下的网络结构,私有分支专注于区分与公共分支不同的特征,而公共分支学习图像A和B中的特征。为了实现两个图像的单独表示,学习过程的等式简单地总结如下:在这里插入图片描述
然而,仅依靠多分支自动编码器模型仍然难以准确区分一对图像的公共特征和私有特征。因此,对比学习方法的流行也给了我们启发。
对比学习方法的目的是学习编码器F,得分函数score(f(x),f(x+))和score(f(x),f(x-)),其中x+是与x相似或等于x的数据点,即阳性样本。x-是不同于x的数据点,即阴性样本得分函数是测量两个特征之间的相似性的指标。基于这些观察,我们在训练阶段向自动编码器添加评分函数,以最大限度地区分图像特征的公共部分和私有部分。同时,我们使用分数作为损失函数的一部分来实时训练我们的网络,以达到分离表示学习的目的。

PROPOSED METHOD

我们的网络架构包括三个部分:编码层、融合层和解码层。在编码层,公共分支和私有分支独立训练,但在解码层,输入图像通过共享权重重构。整个过程分为两个阶段:第一阶段是特征学习阶段,第二阶段是融合阶段。

Disentangled Feature Learning

在特征学习阶段,通过图像重构的训练过程实现了自动编码器的解缠特征提取能力。我们使用一对图像A和B作为编码器的单独私有分支的输入,以学习单个特征。对于公共分支,A和B首先被输入到它并且由前两个共享层处理以获得与私有特征不同的相应特征。然后,将A和B的特征连接在一起到卷积层,以提取A和B中的共同特征。接下来,在解码部分的最后一层中,将从中提取的公共特征与源图像A和源图像B的私有特征组合,以分别重构源图像-A和-B-。
为了更准确地重建输入图像,我们最小化输出和输入图像之间的损失函数Lloss来训练我们的编码器和解码器:在这里插入图片描述
其中M和N分别是图像的宽度和高度。I(x,y)是输入图像的像素矩阵,O(x,y)是重建图像的像素矩阵。Lmse可以引导网络拟合图像的像素,使间隙最小化。同时,我们增加了结构相似度(SSIM)Lssim,使其在训练过程中更好地保持结构完整性成为可能。在这里插入图片描述
此外,我们在训练阶段添加了对比学习函数Ldiff,以鼓励公共和私有编码器对输入的不同方面进行编码。HC表示图像的隐藏公共表示。 H P H^P HPA H P H^P HPB是输入图像A和B的私有表示。差异损失通过最小化公共表示和私有表示之间的点积来扩大差异的程度。同时,为了减少两个私有分支提取的特征的交集,我们还对两个私有特征 H P H^P HPA H P H^P HPB的子空间进行点积运算:在这里插入图片描述
在这里插入图片描述

Network Structure

VGG19在特征学习方面有很好的能力,可以从与像素和边缘相关的低层特征中学习,抽象出高层语义特征,而图像融合则更侧重于从底层学习的低层特征。为了提高网络训练的速度和精度,我们选择VGG19网络的前三个卷积层作为网络的编码层,通过使用VGG19网络的前三个卷积层的权值来初始化编码层。我们的详细参数如表I所示。在这里插入图片描述

Fusion Layer

当模型在训练阶段之后能够重建源图像并提取相应的特征时,模型可以进一步用于融合任务。在融合阶段,一对源图像A、B被输入到编码器网络以分别获得公共特征和私有特征。然后,通过前三个解码器层重建公共和私有特征,然后基于设计的融合策略进行合并。最终的融合图像通过解码器中的最后一层重建。
由于提取的共同特征是冗余的,代表共享的形状和结构信息,在两个源图像中,我们只需要设计私有特征的两个私有分支,代表互补的特征的融合规则。而互补关系可以反映不同类型源图像的不同特征。在共模态输入图像(例如,图7中的热气球的多焦点图像)的情况下,可以使用多焦点图像),通过取两个共模态图像特征的最大值可以获得最佳效果,因为它们之间的互补信息在于像边缘和线的高频细节。然而,当两个图像是多模态图像时,多模态图像对的特征倾向于在私有特征空间中具有不同重要性级别的分层信息。基于这些考虑,我们提出了一种自适应的融合策略,在特征空间,以确保保留互补信息。
我们给出了两个活性测度 E m E^m EmK(K ∈{A,B})和CK。M表示特征图的总数,并且m代表特征图中的通道索引。当两幅图像的总信息量log( E m E^m EmA + E m E^m EmB)小于阈值T时,采用选择最大规则,否则采用L1范数规则。 E m E^m EmK的L1范数可以是特征图的活动水平度量。因此,初始活动水平图Ck(x,y)被计算为:在这里插入图片描述
为了说明我们的直觉的合理性,图1给出了一个例子。3比较自适应策略和选择最大策略。图3(a)和图3(b)是红外和可见光图像。3(c)和图图3(d)是它们对应的提取的私有特征。图3(c)包含人的热辐射信息,而在图3(c)中包含人的热辐射信息。在图3(d)中,人被烟雾遮蔽,并且仅提取烟雾的信息。来自私有分支的显著特征表现出相同的特征,即。高能量。在融合的过程中,我们希望既能提取出人的信息,又能提取出烟雾的信息。
基于choose-max策略和自适应融合策略的融合结果如图所示。3(e)和图3(f)分别。显然,简单地采取选择最大规则会导致重要信息的丢失,并且人的信息几乎被烟雾信息覆盖,然而图1B显示了烟雾的信息。3(f)不仅可以保存烟雾,而且可以确保人的区别。由于choose-max策略保留了高能量的信息,这将降低对两个显著信息的识别,而自适应融合策略考虑了所提取的特征中包含的能量。当两个私有特征中的能量太低时,这意味着信息不重要,则选择最大规则足以确定更重要的一个。当能量过高时,采用L1范数,根据特征的重要性水平为两个特征分配权值,使两个特征都能保持层次性,验证了自适应策略的有效性。在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/687595.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Fast Segment Anything Model(FastSAM)

Fast Segment Anything Model(FastSAM) Fast Segment Anything Model(FastSAM)是一个仅使用SAM作者发布的SA-1B数据集的2%进行训练的CNN Segment Anything模型。FastSAM在50倍的运行速度下实现了与SAM方法相当的性能。 SAM代码&a…

pubg 依赖安装

一、安装python 1、进入官网 https://www.python.org/ 2、勾选Add python.exe to PTHA 3、自定义下载 测试和文档不需要勾选,然后next 4、自定义安装路径 点击install安装 安装成功,点击close。 5、测试 windr键,输入cmd 输入python回…

基于SSM的餐厅点餐系统设计与实现(Java+MySQL)

目 录 第一章 绪论 1 1.1系统研究背景和意义 1 1.2研究现状 1 1.3论文结构 2 第二章 相关技术说明 3 2.1 JSP(Java Server Page)简介 3 2.2 Spring框架简介 4 2.3 Spring MVC框架简介 5 2.4 MyBatis 框架简介 5 2.4 MySql数据库简介 5 2.6 Tomcat简介 6 2.7 jQuery简介 7 2.8系…

计算机毕业论文内容参考|基于大数据的信息物理融合系统的分析与设计方法

文章目录 导文摘要前言绪论课题背景国内外现状与趋势:课题内容:相关技术与方法介绍:系统架构设计:数据采集与处理:数据存储与管理:数据分析与挖掘:系统优化与调试:应用场景:挑战与机遇:研究方向:系统分析:系统设计:系统实现:系统测试:总结与展望:

SpringBoot原理(1)--@SpringBootApplication注解使用和原理/SpringBoot的自动配置原理详解

文章目录 前言主启动类的配置SpringBootConfiguration注解验证启动类是否被注入到spring容器中 ComponentScan 注解ComponentScan 注解解析与路径扫描 EnableAutoConfiguration注解 问题解答1.AutoConfigurationPackage和ComponentScan的作用是否冲突起因回答 2.为什么能实现自…

WIN10上必不可少的5款优质软件

噔噔噔噔,作为一个黑科技软件爱好者,电脑里肯定是不会缺少这方面的东西,今天的5款优质软件闪亮登场了。 颜色拾取器——ColorPix ​ ColorPix是一个颜色拾取器工具,可以让你快速地获取屏幕上任意位置的颜色值,如RGB、…

ivshmem-plain设备原理分析

文章目录 前言基本原理共享内存协议规范 具体实现设备模型数据结构设备初始化 测试验证方案流程Libvirt配置Qemu配置测试步骤 前言 ivshmem-plain设备是Qemu提供的一种特殊设备,通过这个设备,可以实现虚机内存和主机上其它进程共存共享,应用…

618美妆个护28个榜单:欧莱雅稳住冠军?珀莱雅大爆发第二?

存量时代的购物造节大竞争,作为消费复苏后的首场大促,今年的618堪称史上最“卷”,也承载着消费振兴、经济复苏等希望。 不过,今年所有平台都未公布具体GMV,某种程度说明大促造节的时代俨然已成过去式了。 5月18日&am…

怎么去除视频里的背景音乐?其实非常简单!

如何去除视频背景音乐?在视频处理中,有时我们需要从视频中提取声音并进行处理,而不仅仅是简单地去除整个背景音乐。我们可能需要有选择性地去除人声或背景音乐。这个处理过程对于选用合适的工具至关重要。在本文中,我将分享两种可…

【⑦MySQL】· 一文了解四大子查询

前言 ✨欢迎来到小K的MySQL专栏,本节将为大家带来MySQL标量/单行子查询、列子/表子查询的讲解✨ 目录 前言一、子查询概念二、标量/单行子查询、列子/表子查询三、总结 一、子查询概念 子查询指一个查询语句嵌套在另一个查询语句内部的查询,这个特性从My…

抖音林客生活服务商机构

抖音林客生活服务商机构是在抖音平台上提供各种生活服务的机构或组织。这些机构通常会提供家政服务、保洁服务、美容美发服务等,也有一些提供餐饮、旅游、电商等服务。用户可以通过抖音搜索、浏览和下单,享受到优质的服务体验。 这些服务商机构在抖音…

数值组件滚动趋势图联动需求拆解

技术栈:使用vue3的composition API tsx 进行开发 一、需求描述 直接看UI图吧。 简单描述一下: 数值卡片: 上方部分是一个数值卡片列表,每个卡片维护不同的集中状态,选中态,hover态。 细节&#xff1…

【测试学习】Junit5的简单使用

目录 🌟需要知道: 🌟Junit学习 🌈1、常用的注解 🌈2、测试用例的执行顺序 🌈3、参数化 🌈4、断言 🌈5、测试套件 🌟需要知道: 问题1:Selen…

ATA-4315高压功率放大器在铁路钢轨损伤检测中的应用

随着高速铁路的建设和不断发展,确保铁路线路的安全和稳定运行变得越来越重要。钢轨作为铁路的重要组成部分,其损坏可能导致严重的事故和交通堵塞。因此,对钢轨损伤进行及时、准确的检测至关重要。高压功率放大器作为一种精密的测试仪器&#…

SQL 优化(一):慎用 SQL 函数

假如有下面这样一张用户表 CREATE TABLE t_user (user_id int(11) NOT NULL AUTO_INCREMENT,username varchar(50) DEFAULT NULL,sex tinyint(1) DEFAULT NULL,mobile varchar(45) DEFAULT NULL,create_time datetime DEFAULT CURRENT_TIMESTAMP,PRIMARY KEY (user_id),KEY id…

Linux系统下查看网卡配置和网络流量监控指令:ifconfig、ethtool

文章目录 1 查看/设置网卡(ifconfig)2 查看网卡配置、属性(ip、ethtool)3 查看网络接口配置情况:4 查看网络接口属性信息5 测试网路通信(ping) 6 查看具体网卡配置文件 1 查看/设置网卡&#xf…

Unity | HDRP高清渲染管线学习笔记:Lightmapping(光照烘焙)与Lightmap(光照贴图)

目录 相关概念 1.渐进式光照贴图烘焙 1.1 渐进式光照贴图烘焙对模型的要求 1.2 渐进式光照贴图烘焙对硬件的要求 1.3 渐进式光照贴图烘焙支持的Unity渲染管线 1.4 进行渐进式光照贴图烘焙结果 1.5 渐进式光照贴图烘焙的CPU版本和GPU版本 1.6 Lighting窗口Lightmapping …

2023MWC上海|平行云邀您一起聊聊“未来数字世界中的社交,游戏与娱乐”

“世界移动通信大会(MWC上海),自2012年落户上海以来已经举办9届,是中国乃至亚太区域移动产业向世界展示最新发展成果与发展战略的关键平台。2023年MWC上海将于2023年6月28-30日在上海新国际博览中心举行,主题是“时不我…

Spring 更简单的读取和存储对象、使用注解存取对象

文章目录 1.前言2.存储 Bean对象2.1 前置任务:配置扫描路径(重中之重)2.2 添加注解存储 Bean 对象2.2.1 类注解2.2.2 方法注解 Bean 3.获取 Bean对象3.1 属性注入3.2 构造方法注入3.3 Setter 注⼊3.4 三种注释的优缺点3.5 另⼀种注⼊关键字&a…

python学习——时间序列

目录 1 生成时间1.1 pd.Timestamp1.2 pd.to_datetime 最常用1.2.1 单个转换为时间戳1.2.2 多个时间转换为时间戳1.2.3 日期在前 dayfirst1.2.4 处理特殊格式 format1.2.5 处理无效时间 errors1.2.6 和timestamp互转 1.3 固定跨度时间的生成 pd.date_range 2 时间格式转换 .dt.s…