【信息量判别块:语义监督:GAN:IVIF】

news2025/2/25 2:32:21

Semantic-supervised Infrared and Visible Image Fusion via a Dual-discriminator Generative Adversarial Network

(通过双重鉴别器生成对抗网络进行语义监督的红外和可见光图像融合)

我们提出了一种新的端到端模型,以在红外和可见光图像融合中获得语义上更加一致的图像,称为语义监督的双鉴别器生成对抗网络 (SDDGAN)。特别是,我们设计了一个信息量判别 (IQD) 块来指导融合进程。对于每个源图像,块确定用于保留每个语义对象的特征的权重。通过这种方式,生成器学习通过不同的权重融合各种语义对象以保留其特征。此外,使用双重鉴别器来识别融合图像中红外和可见信息的分布。每个鉴别器都作用于融合图像中不同语义对象的特定模态 (红外/可见),以保留和增强其模态特征。因此,我们融合的图像更具信息性。红外图像中的热辐射和可见图像纹理细节都可以很好地保留。

介绍

图像融合旨在为后续的高级应用程序提供服务,例如目标识别和语义分割。因此,融合图像应该具有更好的语义表达能力,包含更多的语义信息。我们将其概括为 “高级语义感知”。为此,我们提出了一种端到端模型,称为语义监督双鉴别器生成对抗网络 (SDDGAN),该模型可以提高融合图像的高级语义一致性。我们首先设计了一个特殊的信息量判别 (IQD) 块,为每个语义对象生成适当的融合权重,以保留其特征并监督图像融合过程; 从而,生成器可以学习不同语义对象的融合机制。然后,我们应用双重鉴别器来识别融合图像中红外和可见信息的分布; 每个鉴别器都作用于不同语义对象的某种模态 (红外/可见)。IQD块引导生成的融合图像具有高度信息性和语义一致性。双重鉴别器有助于保留和增强融合图像中不同语义对象的模态特征。结果,我们的融合图像获得了很高的语义一致性和场景表示能力,这有利于后续的应用程序和任务。

贡献

1)我们设计了一个特殊的信息量判别 (IQD) 块,以确定融合图像中每个对象的保存程度并监督图像融合过程; 融合图像具有相当大的信息量,并且具有很高的场景表示能力。
2)提议的双重鉴别器作用于不同语义对象的不同模态 (红外/可见),从而在融合图像中保留并增强了它们的模态特征。
3)提出的SDDGAN是端到端的,并以自动方式统一了特征提取和融合。
4)由于其更简单的生成器网络,因此拟议的SDDGAN在效率上优于最新方法。

相关工作

Traditional Fusion Methods

传统的图像融合算法手动设计特征提取和融合规则,以保留源图像的基础特征。

基于多尺度变换的方法是最流行的图像融合方法,包括金字塔变换,小波变换,非子采样contourlet变换和边缘保留滤波器。他们将源图像分解为子图像,并设计特定的融合规则来重建融合图像。Liu等人提出了一种基于可转向金字塔的方法,该方法将多尺度分解与差分测量相结合,提高了特征提取能力。Madheswari等人在离散小波变换 (DWT) 域中设计了粒子群优化图像融合框架,该框架可以通过双树离散小波变换 (DTDWT) 和粒子群优化来优化融合图像。Hu等人介绍了一种基于多尺度定向双边滤波器的方法 (MDBF),该方法结合了双边滤波器和定向滤波器组的特点来表示图像的固有几何结构。

基于稀疏表示的方法旨在学习一个过度完整的字典,然后用稀疏的表示系数表征源图像的背景和纹理细节。Yang等人引入了同时正交匹配追踪技术,以确保将不同的源图像稀疏地分解为字典基的同一子集; 从而可以准确地表示图像信息。Liu等人提出了一种自适应稀疏表示 (ASR) 模型,该模型可以从众多高质量图像补丁中学习一组紧凑的子词典,并在图像融合过程中自适应地选择其中一个子词典。Wang等人设计了一种基于稀疏表示和压缩感知的图像融合方法。他们压缩了传感数据,并获得了压缩样本上的稀疏系数。最后,根据组合的稀疏系数重建融合图像。

基于显著性的方法使用显著性以自下而上的方式吸引人类视觉注意力。它们可以保持突出目标区域的完整性,同时改善人类的视觉效果。因此,它们在图像融合中得到了广泛的应用。Han等人在马尔可夫随机场 (MRFs) 的基础上,提出了一种显著感知的融合算法来增强融合图像的可视化。Zhao等人设计了一种基于局部窗口的频率调整方法,该方法可以计算视觉显着性图,并显示每个像素和区域的人们对图像的关注权重。Shibata等人利用局部对比度测量局部显著性,然后采用泊松图像编辑,融合源图像的梯度信息,构造输出图像。其他图像融合算法,例如基于子空间的方法和混合方法,可以激发图像融合的新思路和新观点。

Deep Learning-based Fusion Methods

近年来,由于神经网络的强大功能,基于深度学习的图像融合方法备受关注。它们可以从源图像中自动提取有效特征,并从本质上描述输入数据和目标数据之间的复杂关系。这些方法通常依赖于卷积神经网络 (CNN)。Liu等人提出了一种多焦点图像融合方法。他们使用深度卷积神经网络来学习焦点图和源图像之间的直接映射。随后,他们生成了活动级别的测量和融合规则。
(略)

Generative Adversarial Networks

最近,许多生成对抗网络 (generative adversarial networks,GANs) 被提出来生成图像,例如FusionGAN 、MEF-GAN、AttententionFGAN、DDcGAN。受GANs的启发,Guo等人提出了一种自动嵌入生成对抗网络 (AEGAN),通过从自动编码器中提取的潜在嵌入来合成高分辨率图像。Liu等人提出了一种用于深度视图综合的自洽生成网络 (SCGN)。Yin等人 提出了一种先验感知的生成对抗网络 (PA-GAN),以从具有极端曝光的两个低动态范围 (LDR) 图像中产生高动态范围 (HDR) 图像。
(GAN的公式演变:略)

方法

Problem Formulation

给定红外图像Ir和可见光图像Iv,我们的目标是学习一个生成器G,该生成器可以从源图像中提取最有效的特征,并生成具有增强视觉效果的信息融合图像,从而促进后续处理和应用。但是,不同的语义对象具有不同的特征,其表示的场景信息在不同的方式中差异很大。我们没有为整个图像设计一系列新的图像融合规则,而是将图像融合问题表述为其中不同语义对象的融合。更具体地说,我们设计了一个IQD块,该块可以根据其自身的特征和内容确定融合图像中每个语义对象的保存程度,以监督图像融合过程。此外,我们在网络中使用双重鉴别器来识别红外和可见信息的分布。每个鉴别器都作用于融合图像中语义对象的一种模态,以通过与G的对抗性游戏来保留和增强其模型特征。因此,G的训练目标可以被制定为最小化以下目标:
请添加图片描述

其中Lsup和Ladv分别表示监督损失和对抗损失。具体地,IQD块可以为每个语义对象生成不同的融合权重,Lsup表示在不同融合权重下每个语义对象在融合图像和源图像中的总距离。Ladv代表生成器G试图愚弄鉴别器。Lgrad和Lmse是梯度损失和均方误差 (MSE) 损失,以迫使融合图像保留来自源图像的大量信息。α,β 和 γ 是正则化项。因此,判别者的目标是最大化对抗性损失Ladv。

Information Quantity Discrimination Block

请添加图片描述
(信息量判别块的示意图。Ir和Iv分别表示红外图像和可见光图像。Lf表示标记图像Lr和Lv的融合结果,以提供每个语义对象的位置。Sr和Sv是显著性检测结果。我们使用LC,NR-IQA和EN来计算每个语义对象的包含信息EQ,并利用权重图M来表达它们在融合图像中的保留程度。该模块仅在训练过程中用于监督图像融合网络

为了评估每个语义对象的保留程度,我们建立了一个特殊的信息量判别 (IQD) 块,该块由无参考图像质量评估 (NR-IQA),熵 (EN)和显着性 (LC,亮度对比度) 。如图1所示。我们使用NR-IQA来评估源图像中每个对象区域的质量。它可以测量物体区域质量是否由于特定类型的失真而下降,例如模糊,压缩,阻塞效应和各种形式的噪声。
请添加图片描述
如图2(a)-(b) 所示,通过反射光对可见图像进行成像,并且可见图像中的对象倾向于具有较高的IQA。但是,IQA只能评估对象区域的质量,而不考虑其他方面。典型的例子如图2© 所示。可见图像中的云区域具有更高的IQA,而红外图像中的云区域具有更完整的场景表示。直观地说,我们更喜欢它的融合结果更接近红外图像。从理论上讲,来自融合图像中保存的源图像的语义对象的信息越多越好。因此,我们应用客观度量EN来估计每个语义对象中的信息量。数学上,EN的定义如下:
请添加图片描述
其中L是灰度等级的数量,通常设置为256。pl是相应水平的概率。红外图像中的车和人由于热辐射而显著,如图2(d) 所示,这不能使用EN和nr-iqa来计算。因此,我们添加LC作为评估标准,以确保这些特征可以很好地保留在融合图像中。图像I中像素Ik的显著性值定义为:

请添加图片描述
其中,Ii,j的值在 [0; 255] 的范围内,并且 | | · | | 表示颜色距离度量,并且通常使用欧式距离。EN可以确保在融合图像中获得可观的信息,而LC可以保持目标区域的重要性。然而,它们都对噪音敏感。作为补充,IQA可以评估噪声和其他降低图像质量的问题。因此,NR-IQA、EN和LC的组合是一个综合的评价标准,可以有效地计算每个语义对象的包含信息。

请添加图片描述
IQD块的最终目标是生成权重图M,该权重图可以表达融合图像中不同语义对象的保存程度,并监督图像融合过程。如图1所示,我们首先对红外图像Ir和可见图像Iv进行标记,以获取标记图像Lr和Lv。尽管如此,由于成像原理的差异,部分语义对象仅由Ir或Iv捕获。因此,我们将带标签的图像Lr和Lv与预先设计的规则融合在一起,以获取完整的标签Lf,这可以帮助我们确定源图像中每个语义对象的位置。在我们的测试过程中不需要标记的图像。我们计算Ir和Iv中每个语义对象的包含信息EQ,可以定义如下:
在这里插入图片描述
在这里插入图片描述
其中M^p表示权重图M中的语义对象区域p,其值表示p在Ir中的保留度,p在Iv中的保留度定义为: 1 − M^p。 如果M^p<0.5,则Iv中的p包含丰富的纹理细节。 如果M^p> 0.5,则由于热辐射,Ir中的p显著。

Generative Adversarial Network with Dual Discriminators

请添加图片描述

我们的SDDGAN的整个框架如图3(a) 所示。我们使用两个鉴别器Dr和Dv与G进行对抗性游戏; 我们分别将Ir和Iv视为真实数据。特别是,我们不使用If作为Dr和Dv的假数据,而是使用重建图像Irf和Ivf,其中Irf可以定义为:

在这里插入图片描述
相反,黑色区域表示其内部语义对象的融合结果应接近于Iv。我们使用来自真实数据Ir的Irm2来替换If中的非红外偏好部分。因此,Dr被训练以识别Ir的分布并约束G以在红外语义对象区域中保留Ir的实质特征。类似地,鉴别器Dv识别Iv的分布,并被训练以区分由Iv和If组成的真实图像Iv和假图像Ivf。因此,Dv迫使G生成在可见语义对象区域中保留Iv的纹理细节的结果。两个鉴别器在If中作用于语义对象的不同部分,而不与之交互。因此,在训练之后,融合图像If可以保留红外和可见光图像的所需特征,并且不需要在生成器和鉴别器之间寻求平衡点。
请添加图片描述

我们方法测试一下过程如图3(b) 所示。我们仅将源图像Ir和Iv输入到经过训练的生成器中,并输出最终的融合图像If。

Loss Function

我们提出的SDDGAN的损失函数可以分为两部分: 生成器G的损失函数和两个鉴别器Dr和Dv的损失函数。生成器损失LG用Eq (5) 表示,包括监督损失Lsup、对抗损失Ladv、梯度损失Lgrad和MSE损失Lmse。

监督损失Lsup可以定义为:
请添加图片描述
其中W和H分别表示输入图像的宽度和高度。M中的 (M)i,j表示源图像中不同语义对象的融合权重,它们的值在不同语义区域中是不同的。因此,它可以确定融合图像中每个语义对象的保存程度,η 是一个正参数,控制两个项之间的权衡。

第二损失Ladv表示生成器G和两个鉴别器之间的对抗损失,可以定义为:
在这里插入图片描述
第三损失Lgrad表示梯度约束。我们强制融合图像If具有类似于Ir和Iv的梯度,可以表示如下:
在这里插入图片描述
第四损失Lmse代表MSE损失。我们应用MSE损失来约束融合图像以包含来自源图像的大量信息,可以定义为:
在这里插入图片描述
对判别器进行了训练,以区分真实数据和虚假数据,并输出标量,该标量估计输入来自真实数据而不是G的概率。这两个判别器的对抗性损失定义如下:
在这里插入图片描述

Network Architecture

Generator Architecture
我们的生成器G的网络架构如图4所示。我们在通道维度上连接红外和可见图像,并将它们用作G的输入。输出是最终的融合图像。G由五个常见的卷积层组成。对于每个卷积层,填充设置为SAME(SAME用来保证在卷积过程中不改变输入图像的大小),步幅设置为1。因此,特征图的大小不会改变。在所有卷积层中,我们采用批归一化和激活功能来克服数据初始化的敏感性并避免消失的梯度。对于前四层,我们采用批归一化和Leaky ReLU激活函数来提高G的鲁棒性; 对于最后一层,我们仅使用tanh激活函数。五个卷积层中的内核大小为5 × 5、3 × 3和1 × 1。卷积核的数量为16、16和1。我们在前四层中从密集连接的卷积网络中应用密集连接的层。如图4中的箭头所示,我们以前馈方式在每个层和所有层之间建立连接,以进行特征重用,防止在卷积过程中删除一些重要信息。因此,五层的输入和输出通道分别为2:16、16:16、32: 16、48: 16和64: 1。
请添加图片描述

Discriminator Architecture
我们的网络中有两个判别器Dr和Dv。它们具有相同的体系结构,如图5所示,它们都用作分类器,生成标量以估计来自真实数据而不是G的输入图像的概率。我们的鉴别器的体系结构是一个简单的五层卷积神经网络。步幅设置为2,填充设置为有效。因此,不需要池化层。我们在第二,第三和第四卷积层中应用批归一化,并在前四层中采用Leaky ReLU激活功能。最后一层是全连接层,主要用于分类。从第一层到第四层,内核大小设置为3 × 3,卷积内核的数量设置为32、64、128和256。因此,输入和输出通道是1: 32、32: 64、64: 128和128: 256。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/39652.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java序列化,看这篇就够了

面试官&#xff1a;兄弟&#xff0c;说说你对transient的理解和感悟 哪吒&#xff1a;what&#xff1f;还有感悟&#xff1f; 先说结论&#xff0c;在序列化、反序列化时&#xff0c;被transient关键字修饰的成员属性变量不会被序列化。 面试官&#xff1a;这就完了&#xf…

Flutter高仿微信-第51篇-群聊-修改群名

Flutter高仿微信系列共59篇&#xff0c;从Flutter客户端、Kotlin客户端、Web服务器、数据库表结构、Xmpp即时通讯服务器、视频通话服务器、腾讯云服务器全面讲解。 详情请查看 效果图&#xff1a; 实现代码&#xff1a; //修改群名 void _updateGroupName(){bool isOwner fals…

Multi-Interest Network with Dynamic Routing forRecommendation at Tmall 论文阅读笔记

1. ABSTRACT 1.1 Industrial recommender systems &#xff08;1&#xff09;工业推荐系统通常由匹配阶段和排名阶段组成&#xff1b; &#xff08;2&#xff09;匹配阶段&#xff1a;检索与用户兴趣相关的候选项&#xff1b; &#xff08;3&#xff09;排名阶段&#xff1a;…

Spring Cloud OpenFeign - - - > 日志配置

项目源码地址&#xff1a;https://download.csdn.net/download/weixin_42950079/87168704 OpenFeign 有 4 种日志级别&#xff1a; NONE: 不记录任何日志&#xff0c;是OpenFeign默认日志级别&#xff08;性能最佳&#xff0c;适用于生产环境&#xff09;。BASIC: 仅记录请求方…

BT - Unet:生物医学图像分割的自监督学习框架

BT-Unet采用Barlow twin方法对U-Net模型的编码器进行无监督的预训练减少冗余信息&#xff0c;以学习数据表示。之后&#xff0c;对完整网络进行微调以执行实际的分割。 BT-Unet由 Indian Institute of Information Technology Allahabad开发&#xff0c;发布在2022年的JML上 …

相关性质和条件变量-ReentrantLock详解(2)-AQS-并发编程(Java)

文章目录1 可重入2 可打断3 公平锁4 条件变量4.1 await()4.1.1 主方法4.1.2 addConditionWaiter()4.1.3 isOnSyncQueue()4.1.4 checkInterruptWhileWaiting()4.2 signal()4.2.1 主方法4.2.2 doSignal()4.2.3 transferForSignal()5 后记1 可重入 可重入在加锁中体现代码如下&am…

零经验,小白变大厨!

平时煮泡面都会翻车的老王      昨天在朋友圈po了一组美食图      朋友小聚,20分钟搞定一桌菜,嘻嘻。      我点开一看,嚯!      红烧里脊、糖醋排骨、油焖大虾、剁椒鱼头……个顶个的硬菜,而且色泽诱人看起来很好吃的样子,关键是居然20分钟搞定?      难…

2022 高教杯数学建模C题古代玻璃制品的成分分析与鉴别回顾及总结

2022 高教杯数学建模C题古代玻璃制品的成分分析与鉴别回顾及总结 Paper & Code&#xff1a;https://github.com/Fly-Pluche/2022-mathematical-modeling-C 希望可以施舍几个star⭐️ 国赛分工 我们三人都有主要的分工: 队员A主要负责二&#xff0c;三问的求解以及代码的编…

被问到可重入锁条件队列,看这一篇就够了!|原创

本文深入解读了高频面试点——ReentrantLock的条件队列使用方法及其原理。源码有详细注释&#xff0c;建议收藏阅读。点击上方“后端开发技术”&#xff0c;选择“设为星标” &#xff0c;优质资源及时送达Jdk中独占锁的实现除了使用关键字synchronized外,还可以使用ReentrantL…

用HTML+CSS做一个简单的新闻门户 1页网页

⛵ 源码获取 文末联系 ✈ Web前端开发技术 描述 网页设计题材&#xff0c;DIVCSS 布局制作,HTMLCSS网页设计期末课程大作业 | 茶文化网站 | 中华传统文化题材 | 京剧文化水墨风书画 | 中国民间年画文化艺术网站 | 等网站的设计与制作 | HTML期末大学生网页设计作业&#xff0c;…

Web前端大作业—电影网页介绍8页(html+css+javascript) 带登录注册表单

HTML实例网页代码, 本实例适合于初学HTML的同学。该实例里面有设置了css的样式设置&#xff0c;有div的样式格局&#xff0c;这个实例比较全面&#xff0c;有助于同学的学习,本文将介绍如何通过从头开始设计个人网站并将其转换为代码的过程来实践设计。 精彩专栏推荐&#x1f4…

DevOps初学者的指南——阿里出品学习图册带你掌握高薪技术!

开篇 你是否想开始学习DevOps&#xff0c;或者愿意通过增加DevOps这一技能来转变你的职业生涯&#xff1f; 如果你的答案是肯定的&#xff0c;那么你就来对地方了 从初创企业到跨国企业&#xff0c;技术行业的每个细分领域都在改变其软件开发方法。DevOps工具和实践惊人地减…

【mysql 高级】explain的使用及explain包含字段的含义

explain的使用及explain包含字段的含义1.id2. select_type3.table4.type5.possible_keys6.key7.key_len8.ref9.rows10.Extra使用explain关键字可以模拟优化器执行SQL语句&#xff0c;从而知道MySQL是如何处理你的SQL语句的&#xff0c;从而分析你的查询语句或是表结构的性能瓶颈…

面向OLAP的列式存储DBMS-10-[ClickHouse]的常用数组操作

参考ClickHouse 中的数据查询以及各种子句 ClickHouse 数组的相关操作函数&#xff0c;一网打尽 在关系型数据库里面我们一般都不太喜欢用数组&#xff0c;但是在 ClickHouse 中数组会用的非常多&#xff0c;并且操作起来非常简单。ClickHouse 里面提供了非常多的函数&#x…

文本生成视频Make-A-Video,根据一句话就能一键生成视频 Meta新AI模型

Meta公司&#xff08;原Facebook&#xff09;在今年9月29日首次推出一款人工智能系统模型&#xff1a;Make-A-Video&#xff0c;可以从给定的文字提示生成短视频。 Make-A-Video研究基于文本到图像生成技术的最新进展&#xff0c;该技术旨在实现文本到视频的生成&#xff0c;可…

[附源码]Python计算机毕业设计高校第二课堂管理系统

项目运行 环境配置&#xff1a; Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术&#xff1a; django python Vue 等等组成&#xff0c;B/S模式 pychram管理等等。 环境需要 1.运行环境&#xff1a;最好是python3.7.7&#xff0c;…

第十章 二叉树的各种遍历

第十章&#xff1a;二叉树的前、中、后序遍历前期准备:一、前序遍历1、遍历的思路2、遍历代码3、遍历图示二、中序遍历1、遍历的思路2、遍历代码三、后序遍历1、遍历的思路2、遍历代码三、遍历的应用1、计算二叉树中的节点个数2、二叉树叶子节点的个数3、二叉树的深度4、二叉树…

EMC原理-传导(共模、差模)与辐射(近场、远场)详解

目录&#xff1a; 第一章、EMC概念介绍 第二章、感应干扰(近场) 第三章、辐射干扰(远场) 第四章、差模干扰 第五章、共模干扰 ------------------------------------------------------------------------------------------------------------------------ 第一章、EMC…

ceph块存储在线扩容

记录&#xff1a;339 场景&#xff1a;在CentOS 7.9操作系统上&#xff0c;部署ceph-13.2.10集群。应用ceph块设备(ceph block device)&#xff1b;主要是创建ceph块存储和在线扩容相关操作。 版本&#xff1a; 操作系统&#xff1a;CentOS 7.9 ceph版本&#xff1a;ceph-1…

牛顿法(牛顿拉夫逊)配电网潮流计算matlab程序

牛顿法配电网潮流计算matlab程序 传统牛顿—拉夫逊算法&#xff0c;简称牛顿法&#xff0c;是将潮流计算方程组F(X)0&#xff0c;进行泰勒展开。因泰勒展开有许多高阶项&#xff0c;而高阶项级数部分对计算结果影响很小&#xff0c;当忽略一阶以上部分时&#xff0c;可以简化对…