【读论文】AT-GAN

news2026/2/12 8:33:48

【读论文】AT-GAN

介绍
网络架构
- 生成器
- - IAM
  - STM
- 辨别器
损失函数
- SEM
- 损失
- - 内容损失
  - 结构损失
  - 对抗损失
总结
参考

论文：https://www.sciencedirect.com/science/article/pii/S156625352200255X
如有侵权请联系博主

介绍

大概是刚开学的时候就读到一篇文章，看完这个指标，我直接膜拜。
在这里插入图片描述
这次要介绍的文章仍然是我们熟悉的Imformation Fusion中一篇论文，论文中将图像质量评价引入到图像融合领域，并且根据红外图像和可见光图像的不同，分别设置了IAM和STM两个模块。融合效果太强了，接下来我们一起看看吧。

网络架构

在这里插入图片描述
整体的网络架构是GAN，左边是生成器，右边是辨别器，可以看到网络架构十分的简单。（最近好像有这个趋势，大家都意识到庞大的网络也许可以产生较好的效果，但是可能无法达到实时性的要求，因此大家都有意识精简网络。）

我们可以发现红外特征提取路径和可见光特征提取路径是十分相似的，不同的是红外特征提取是使用的IAM，而可见光特征提取是使用的STM，之后我们再仔细去聊这两个模块。

接下来我们一点点的去看看吧

生成器

IAM

在这里插入图片描述
上图就是IAM的网络架构，可以看出这篇文章中的网络模型无时无刻不再告诉你，我是轻量模型。IAM的架构也是十分的简单，输入的特征直接被输入到四个卷积层中，然后得到四个不同的结果，我们可以按顺序给这几个结果命个名，Q，K，V和F0。看到你是不是突然觉得，这几个字母有点熟。是不是有点像transformer，没错正是在下
在这里插入图片描述

okokok 不扯了，这里IAM的计算过程就像Transformer的计算过程，如下
在这里插入图片描述

这里的Reshape是将经过注意力操作之后的特征还原至与F0大小相同，之后再乘以一个alpha，再与F0相加得到最终的特征。

作者希望通过这种注意力的方式来尽可能的保留重要的红外目标信息。

STM

正如我们所知道的那样，纹理信息是存在于浅层特征中，但是单纯的提取浅层特征会导致纹理特征会出现大量的噪声，因此作者希望通过更深一层的特征信息来约束本层特征信息，从而减少可是图像中的噪声信息。
在这里插入图片描述

这里的作者的操作是先将深层特征和较浅层特征进行拼接，然后进行卷积将拼接的特征的通道数减半，然后再与深层特征相加。

到现在为止，生成器就介绍完毕了。

辨别器

在这里插入图片描述
辨别器的结构就十分的友好了，由卷积层和全连接层组成。注意这里辨别器的输出类似我们之前了解过的GANMcc，都是输出的一个多分类的结果。

损失函数

SEM

这里着重说一下这个部分，也是我认为文章中最亮眼的部分。

之前的大多数文章在设置损失时会给红外图像和可见光图像对应的损失分配一个固定的超参数，这有什么问题呢

例如下面这两幅源图像
在这里插入图片描述
我们肯定希望更多的保存红外图像中的信息，因为可见光图像收到强光的污染，如果设置二者的权重相同的话产生的结果肯定并不是那么让人满意。这种设置下我们再来看下面这两幅源图像，我们可以看出可见光图像的图像质量是相当可以的，但如果我们给红外图像更高的权重就会导致可见光图像中的信息的丢失，从而导致生成的图像效果并不理想。
在这里插入图片描述