【读论文】GANMcC

news2024/11/27 10:36:11

GANMcC

  • 简单介绍
  • 网络结构
    • 生成器
    • 辨别器
  • 损失函数
    • 生成器损失函数
    • 辨别器
    • tips
  • 总结
  • 参考

论文:https://ieeexplore.ieee.org/document/9274337

如有侵权请联系博主

这几天又读了一篇关于GAN实现红外融合的论文,不出意外,还是FusionGAN作者团队的人写出的论文,相比之前的GAN实现红外图像融合的论文,这篇论文又提出了新的一些解决思路。一起来看看吧。
在这里插入图片描述

简单介绍

读过了几篇图像融合的论文,对这个领域稍微入门了一些,见到了各种各样的方法,不得不说,大佬们真的强。
在这里插入图片描述
今天要说的这篇论文是基于GAN来实现的,这篇论文提供给我的最重要的一个点就是在保存纹理细节和对比度上的处理。之前我们读过的大部分论文在这方面的处理都只是保留可视图像的纹理信息和红外图像的对比度,但正如这篇论文的作者所说的那样,可视图像的对比度和红外图像的纹理信息同样也值得我们注意。如下图,左边是可视图像,右边是红外图像
在这里插入图片描述
仔细观察上图的信息,你会发现第一行中的右边红外图像中树叶纹理信息反而保存的更好,第二行中可视图像的对比度更强,事情就开始变得有趣起来了,接下来我们一点点去聊这篇论文。
在这里插入图片描述

网络结构

先看下总体的网络结构
在这里插入图片描述

相比于DIVFusion的网络结构,还算是蛮简单的,接下来我们一点点去了解网络的组成部分。

生成器

在这里插入图片描述
上图为生成器的网络结构,生成器的输入分为两个路径,分别是梯度路径和对比度路径,梯度路径包含两个可视图像和一个红外图像,对比度路径包含两个红外图像和一个可视图像。与FusionGAN相同,这里的输入图像都要被填充到132x132大小,从而保证最终生成的图像与输入图像有相同的大小。

两个路径的输入首先经过四层卷积(卷积核,激活函数和批量归一化的具体内容在图中都有表示),提取特征,然后将两个路径提取的特征连接到一起,经过一个1x1的卷积和激活就生成了目标图像。

这里有一个很有趣的地方,这里的生成器的输入不是单张的可视图像和红外图像,反而是这样多张的堆叠。

辨别器

在这里插入图片描述
辨别器的网络结构如上图所示,细心的你会发现,最终输出和我们之前看到GAN不大一样。

回忆一下FusionGAN和DDcGAN,你会发现二者的辨别器最终都是只输出一个一维概率,即使像DDcGAN这样的双辨别器,最终输出也只是一维概率,而GANMcC中的辨别器的输出则是一个二维数据。

那么为什么要这么设计呢?

这里论文作者的逻辑与其他人的稍微有些不同,辨别器输出的二维数据分别代表输入图像是可视图像的概率和输入图像是红外图像的概率。

那么怎么应用这个二维数据?

现在想一下这个模型的作用,即生成一个包含更多纹理信息和对比度信息的融合图像,带入到GAN的架构中,是不是我们希望融合图像包含更多纹理信息就代表辨别器认为融合图像就是可视图像概率越高越好,同样对于可视图像也是如此,即当融合图像输入到辨别器中输出的两个概率都很大时,我们的融合效果就很好了。在损失函数中我们详细的讲一下这个过程。

现在回到标题,你就会发现多分类就在这呢

损失函数

生成器损失函数

在这里插入图片描述
生成器整体的损失函数如上图所示,第一部分是纹理和对比度损失,第二部分是与辨别器的对抗损失。

这里的LGcon相对复杂一点,正如我们前面说的,一方面我们要保证可视图像的纹理和红外图像的对比度,另一方面我们还要保证可视图像的对比度和红外图像的纹理。

下面先讲LGcon的两个损失函数,这两个损失函数的作用就是保证融合图像中有可视图像的纹理特征和红外图像的对比度信息。

下面公式用于保证融合图像尽量包含更多红外图像中的对比度信息(以图像像素强度来保证对比度信息)
在这里插入图片描述
下面公式用于保证融合图像中包含更多可视图像中的纹理信息(这里以梯度信息来保证纹理信息)
在这里插入图片描述
到了这里还没有结束,前文中提到,我们还要保留红外图像中的纹理信息和可视图像中的对比度信息,因此我们还要为保留这两类信息设计损失函数,如下。和上面的公式相同,就是计算梯度的对象变成了红外图像,计算强度(对比度信息)的变成了可视图像
在这里插入图片描述

最终一个大汇总
在这里插入图片描述
其中β1 > β4, β2 > β3, {β2, β3} > {β1, β4}

那么为什么要这么设置β呢?

这里作者在论文中做了解释,首先β1是融合图像与红外图像对比度之间损失函数的参数,β4是融合图像和可视图像对比度之间损失函数的参数,因为我们要保留的对比度信息主要来自红外图像,所以β1 > β4;同理也应设置β2 > β3。

那么为什么要设置{β2, β3} > {β1, β4}?作者在论文中提到梯度损失项的值往往小于对比度损失项,为了在训练过程中可以保证可以保留纹理信息和对比度信息相平衡,这里就要设置{β2, β3} > {β1, β4},即将纹理损失的参数设置的比对比度的参数要大。

到这里为止,生成器单独保证梯度信息和对比度信息的损失函数就讲完了。

因为文章中使用的网络架构是GAN,因此还需要与辨别器进行对抗,损失函数如下

在这里插入图片描述
观察前面整个架构的图片,你会发现辨别其输出的是一个二维的向量,向量的第一个位置的数据代表输入图像为可视图像的概率,即D(Ifuse)[1];向量的第二个位置的数据代表输入图像为红外图像的概率,即D(Ifuse)[2]。

这样上面的损失函数就比较容易看懂了。因为希望辨别器认为融合图像是可视图像,同样也认为融合图像是红外图像,因此这里的d设置为1,这样训练之后的结果就会使得融合图像既像可视图像也像红外图像。

辨别器

辨别器的整体损失函数如下
在这里插入图片描述
从左到右依次为可视图像辨别的损失,红外图像辨别的损失和融合图像辨别的损失。

他们的作用是什么呢?

很清楚,可视(红外或融合)图像辨别的损失是帮助辨别器拥有更强的识别判断是否是可视(红外或融合)图像的能力,将这三者结合在一起,就会使得辨别器拥有更好的识别可视图像,红外图像和融合图像的能力。
在这里插入图片描述
先看下可视图像辨别能力的损失函数。这里你会发现咋又多了个函数,Pvis,Pir是啥,别急,其实Pvis就对应我们前面生成器提到的D(Ifuse)[1],Pir就对应D(Ifuse)[2].

现在思考一下,如果你希望辨别器提高识别可是图像的能力,是不是说你希望输入一个可视图像,输出的Pvis尽可能的接近1,而Pir尽可能接近0,如果你是这么想的话,那恭喜你,你想对了。这里的
a1就设置为1,a2就设置为0。
在这里插入图片描述
上面的损失函数是帮助辨别器提高辨别红外图像的能力,同上一个损失函数,这里的b1设置0,b2设置1,原因可以类比可以类比上一个可视图像识别损失函数。
在这里插入图片描述
最后一个损失函数就是帮助辨别器提高识别融合图像的能力。以辨别器的角度来看,图像被他分成了三类,分别是可视图像,红外图像和融合图像,但是上面的只有两个概率(图像为可视和红外图像的概率),那应该怎么判别图像为融合图像的概率呢?

这里试想一下,如果说辨别器处理一个图像之后输出的可视图像概率和红外图像概率都很小,是不是代表这个图像在辨别器眼里不是可视图像,也不是红外图像,而辨别器中的图像共有三类,不是那两类,那就是第三类了,也就是融合图像,这样的话,我们就晓得了,那么c就设置为0,即让辨别器认为融合图像既不是可视图像也不是红外图像,从而实现辨别融合图像的功能。

tips

这里注意下,在论文的参数设置那里提到了关于损失函数中的a1,a2,b1,b2和c的设置,这里采用软标签,即本来应设置为1的,设置为0.7到1.2之间的一个随机数;而本来设置为0,被设置为0到0.3之间的随机数。而前面设置为1或0,只是为了方便大家理解。

总结

同样又是一篇收获满满的文章,这里简要说一下

  • 提取纹理信息时不仅仅只关注可视图像,同样也关注红外图像的纹理信息
  • 提取对比度信息时不仅仅只关注红外图像,同样也关注可视图像的对比度信息
  • 辨别器生成多分类的概率

其他融合图像论文解读
读论文专栏,快来点我呀

【读论文】DIVFusion: Darkness-free infrared and visible image fusion

【读论文】RFN-Nest: An end-to-end residual fusion network for infrared and visible images

【读论文】DDcGAN

【读论文】Self-supervised feature adaption for infrared and visible image fusion

【读论文】FusionGAN: A generative adversarial network for infrared and visible image fusion

【读论文】DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pairs

【读论文】DenseFuse: A Fusion Approach to Infrared and Visible Images

参考

[1] GANMcC: A Generative Adversarial Network With Multiclassification Constraints for Infrared and Visible Image Fusion

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/51694.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python语音合成小工具(PyQt5 + pyttsx3)

TTS简介 TTS(Text To Speech)是一种语音合成技术,可以让机器将输入文本以语音的方式播放出来,实现机器说话的效果。 TTS分成语音处理及语音合成,先由机器识别输入的文字,再根据语音库进行语音合成。现在有…

JavaScript -- 三种循环语句的介绍及示例代码

文章目录循环语句1 While循环2 do-while循环3 for循环4 嵌套循环循环语句 通过循环语句可以使指定的代码反复执行 JS中一共有三种循环语句 while语句do-while语句for语句 通常编写一个循环,要有三个要件 初始化表达式(初始化变量)条件表…

风云气象卫星系列介绍

风云气象卫星系列是中国于1977年开始研制的气象卫星系列,目前发射了风云一号、风云二号、风云三号、风云四号等卫星。 风云一号 FY-1卫星分为两个批次,各两颗星。01批的FY-1A星于1988年7月9日发射,FY-1B星于1990年9月3日发射。02批卫星在01批…

Word处理控件Aspose.Words功能演示:在 Java 中将 Word 文档转换为 EPUB

大多数智能设备,如智能手机、平板电脑、笔记本电脑等,都支持EPUB格式来查看或阅读文档。它是电子书或电子出版物的常用格式。另一方面,MS Word 格式,如DOCX、DOC等,是数字世界中广泛使用的文档格式之一。在本文中&…

Web3中文|NFT无法保障数字所有权?

来源 | nftnow 编译 | DaliiNFTnews.com 2021年,有这样一个头条新闻:一家投资公司以大约400万美元的价格在The Sandbox上买下了2000英亩的虚拟地产。 通过在以太坊区块链上购买792个NFT,该公司得到了元宇宙平台上的1200个城市街区。 但是…

家用宽带如何叠加多条宽带,提高局域网速度

前言 关于多条宽带如何合并,使局域网内带宽更快?通常我们在企业网络或实际项目中,随着用户的增加,一条或者几条带宽不能满足正常使用,便可以对带宽进行叠加,便于网络带度更快; 一、为什么要用…

web基础阶段的小兔鲜儿项目学习

小兔鲜儿1. 所用素材2. 项目文件介绍3. index页面的基本骨架4. 思路:先写外面大盒子和版心,由外往内写5. 源码:1. 所用素材 素材链接,点我跳转:https://download.csdn.net/download/angrynouse/87228151 2. 项目文件…

全国产!全志T3+Logos FPGA核心板(4核ARM Cortex-A7)规格书

核心板简介 创龙科技SOM-TLT3F是一款基于全志科技T3四核ARM Cortex-A7处理器 + 紫光同创Logos PGL25G/PGL50G FPGA设计的异构多核全国产工业核心板,ARM Cortex-A7处理单元主频高达1.2GHz。核心板CPU、FPGA、ROM、RAM、电源、晶振、连接器等所有器件均采用国产工业级方案,国产…

【HDU No. 4902】 数据结构难题 Nice boat

【HDU No. 4902】 数据结构难题 Nice boat 杭电OJ 题目地址 【题意】 有n 个数字a 1 , a 2 , …, an ,每次都可以将[l , r ]区间的每个数字都更改为数字x (类型1),或将[l ,r ]区间每个大于x 的ai 都更改为最大公约数gcd(ai , x …

云服务连续三年增长150%,网宿科技开拓新赛道

摘要:开拓云服务市场,网宿科技的打法。 提到网宿科技,很多人还停留在传统IT服务商的印象中。其实,网宿科技已经在一条新赛道加速前行,这就是云服务。 “借助亚马逊云科技的持续赋能,网宿科技积累了丰富的云…

swiper轮播图片+视频播放,预览及页面跳转功能

1.效果 2.上代码 <template> <swiper :circulartrue indicator-dots"true" change"changeSwiper" :autoplay"true" interval5000 classswiper-view><swiper-item class"swiper-img" v-for"(item,index) in swipe…

2022 CMU15-445 Project0 Trie

通过截图 在线测试 本地测试 总览 代码风格 我们的代码必须遵循 Google C Style Guide。在线检测网站使用 Clang 自动检查源代码的质量。如果我们的提交未通过任何这些检查&#xff0c;您的项目成绩将为零。 对于 Google C Style Guide &#xff0c;我们可以看这里 google-s…

Spring Boot Logback启动流程

Spring Boot 默认使用的是 Logback 的日志框架、Logback 的组件主要通过 Spring Boot ApplicationListener 启动的 // LoggingApplicationListener Override public void onApplicationEvent(ApplicationEvent event) {if (event instanceof ApplicationStartingEvent) {onApp…

测试工作中的测试用例设计

测试工作中的测试用例设计 测试工作的最核心的模块&#xff0c;在执行任何测试之前&#xff0c;首先必须完成测试用例的编写。测试用例是指导你执行测试&#xff0c;帮助证明软件功能或发现软件缺陷的一种说明。 进行用例设计&#xff0c;需要对项目的需求有清晰的了解&#xf…

Excel找回打开密码过程

Excel文件设置了打开密码&#xff0c;但是忘记了打开密码或者不知道这份文件的打开密码都没办法打开excel文件了。可是文件的打开密码&#xff0c;一旦忘记了&#xff0c;想要再打开文件&#xff0c;都是需要找回密码的。网上的一些绕过密码、直接删除密码都是无效的解决方法。…

C# 文件压缩解压与sqlite存储文件数据

文章目录环境压缩nugetUI代码资源链接&#xff08;下载地址&#xff09;ZipFile 类方法环境 .netframerwork4.8sqlite3 压缩 nuget <package id"System.IO.Compression" version"4.3.0" targetFramework"net48" /><package id"…

四嗪-五聚乙二醇-羧基,1682653-79-7,Tetrazine-PEG5-COOH 水溶性和稳定性怎么样?

●中文名&#xff1a;四嗪-五聚乙二醇-羧基 ●英文&#xff1a;Tetrazine-PEG5-COOH ●外观以及性质&#xff1a;Tetrazine-PEG5-COOH为红色固体&#xff0c;四嗪目前被广泛应用于蛋白质特定位点功能阐释、亚细胞结构选择性标记。四嗪PEG衍生物用于与 TCO&#xff08;反式环辛烯…

【Linux初阶】操作系统概念与定位 | 操作系统管理硬件方法、系统调用和库函数概念

&#x1f31f;hello&#xff0c;各位读者大大们你们好呀&#x1f31f; &#x1f36d;&#x1f36d;系列专栏&#xff1a;【Linux初阶】 ✒️✒️本篇内容&#xff1a;操作系统的基础概念、设计OS的目的&#xff0c;操作系统的定位&#xff0c;操作系统管理硬件方法&#xff0c;…

【正厚软件干货】我推荐你的入门编程语言选python

By——正厚技术极客陈多多 当友友看到这篇文章的时候&#xff0c;心里一定有一个学习编程的想法&#xff0c;但是又不知道挑选哪个作为入门语言&#xff01;我写这篇文章就是为了帮有困难的你做出选择&#xff01;&#xff08;作者本人有选择困难症&#xff0c;当时也纠结了好久…

图神经网络关系抽取论文阅读笔记(五)

1 依赖驱动的注意力图卷积网络关系抽取方法&#xff08;Dependency-driven Relation Extractionwith Attentive Graph Convolutional Networks&#xff09; 论文&#xff1a;Dependency-driven Relation Extraction with Attentive Graph Convolutional Networks.ACL 2021 1.1 …