Mun-GAN: A Multiscale Unsupervised Network for Remote Sensing Image Pansharpening
(Mun-GAN:一种多尺度无监督遥感图像泛锐化网络)
在遥感图像融合中,全色锐化是一种遥感图像融合方法,旨在融合全色(PAN)图像和多光谱(MS)图像,以产生高分辨率的MS(HRMS)图像。基于深度学习的泛锐化技术提供了一系列先进的无监督算法。然而,存在几个挑战:1)现有的无监督泛锐化方法只考虑了单尺度特征的融合; 2)对于MS和PAN图像特征分支的融合,现有的泛锐化方法都是直接通过级联求和来实现,没有关注关键特征或抑制冗余特征;以及3)网络体系结构的长跳跃连接中的语义间隙将产生意想不到的结果。在这篇文章中,我们设计了一个基于生成对抗网络(GANs)的多尺度无监督架构,用于遥感图像泛锐化(Mun-GAN),它由一个生成器和两个鉴别器组成。该生成器包括多尺度特征提取器(MFE)、自适应加权融合(SWF)模块和嵌套特征聚合(NFA)模块。首先,利用MFE从输入图像中提取多尺度特征信息,然后将此信息传递到SWF模块进行自适应权重融合。然后,多尺度特征重建的NFA模块,以获得HRMS图像。这两个鉴别器是针对生成器使用的频谱和空间鉴别器。此外,我们设计了一个混合损失函数来聚合多尺度光谱和空间特征信息。
INTRODUCTION
目前,大量遥感卫星在轨运行,包括QuickBird、GaoFen-1、GaoFen-2、和WorldView-3。卫星技术已广泛应用于遥感领域,如土地覆盖变化检测,环境监测和道路跟踪。然而,卫星传感器技术的局限性使得单颗卫星传感器难以捕捉到丰富的光谱和空间信息。全色锐化致力于融合具有不同空间和光谱分辨率的图像,以产生具有高空间和光谱分辨率的图像。因此,为了整合空间和光谱信息,通常采用全色锐化方法。QuickBird图像获得的全色锐化结果示例如图1所示。近年来,已经提出了几种泛锐化方法,这些方法通常可以分为传统和基于深度学习的方法。传统的泛锐化方法可以大致分为三大类,即基于分量替换(CS)的方法、基于多分辨率分析(MRA)的方法和基于模型的方法。其中,基于CS的方法是通过用高分辨率全色(PAN)图像中的相应信息替换多光谱(MS)图像中的低空间分辨率信息来实现全色锐化任务。代表性算法是GSA、C-GSA、BDSD和BDSD-PC。然而,由于PAN和MS图像之间的差异,这种类型的方法可能产生光谱失真。基于MRA的方法通过提取PAN图像的空间信息,然后将其注入到MS图像中来实现全色锐化任务。这一类的代表性算法主要是AWLP,MTF-GLP,MF等。在光谱信息保留方面,基于MRA的方法通常优于基于CS的方法,但可能产生空间失真。基于模型的方法通过建立图像融合模型以获得HRMS图像来优化MS图像和PAN图像的融合。常用的方法主要有FE-HPM、SR-D 和RR。然而,由于图像融合模型的设计是非常复杂的,这种类型的方法消耗更多的计算时间和资源。基于深度学习的泛锐化提供了一系列先进的算法。Masi等人采用卷积神经网络(CNN)来实现全色锐化(PNN)。然而,由于有限的卷积层数,PNN未能提取有效的特征,这导致图像细节的部分损失。与PNN的网络结构简单不同,后期的泛锐化结构的模型设计变得越来越复杂,以获得更上级的性能。BDPN是一种新型的双向金字塔结构,它允许网络在两个单独的分支中处理MS和PAN图像。在网络的每个级别,从PAN图像提取的空间细节被注入到MS图像中,将图像从粗分辨率融合到细分辨率中间。基于残差网络,Yang等人提出了一个更深的网络(PanNet)来优化培训过程。PanNet利用跳过连接将MS图像传递到解码器的最后一层,并在高通域下训练模型,以保留更多的空间信息。He等人提出了一个新的基于细节注入的CNN框架,命名为DiCNN。它主要包括两部分,第一部分是DiCNN1,通过PAN图像和MS图像挖掘MS的细节,第二部分DiCNN2仅使用PAN图像。该方法的主要创新之处在于,它提供了一个明确的物理解释,并使快速收敛。聚焦于MS和PAN图像之间的差异,Liu等人设计了一个TFNet,用于提取相应的空间和光谱特征,并将其融合到特征域中。考虑到PAN和MS独立分支中的光谱和空间信息,Xiang等人设计了一个多级的基于上下文的联合注意力融合网络用于泛锐化。它有效地聚合空间和光谱上下文信息,并开发了一个加权注意力融合模块,以提高提取的详细信息。将遥感图像融合作为图像生成问题,Liu等人提出了PSGAN,它基于生成对抗网络(GANs)用于遥感图像泛锐化。在这项工作之后,Shao等人采用残差编码器-解码器网络来设计用于泛锐化的条件GAN。
所有上述基于深度学习的方法都是使用地面实况(GT)信息实现的。事实上,他们遵循Wald的协议来训练他们的模型。在Wald的协议中,MS和PAN图像被下采样,并且原始MS图像被用于模拟GT图像。虽然具有这种GT图像监督的泛锐化方法可以在缩减尺度图像中获得令人满意的结果,但是一旦扩展到现实世界的应用,缩减尺度图像和现实世界图像之间的域偏差导致通常较差的融合结果。为了克服这个困难,最近出现了一系列无监督的泛锐化方法。Luo等人提出了一种基于CNN的无监督泛锐化网络,该网络无需GT图像即可实现训练过程。Ni等人提出了一种基于可学习退化过程的新的无监督网络,称为LDP-Net。受GANs在图像生成领域的有效性的启发,Ma等人开发了一种新的无监督框架,名为Pan-GAN,通过使用两个鉴别器,一个光谱鉴别器和一个空间鉴别器,旨在与生成器进行对抗游戏。通过这种设计,原始图像的光谱和空间信息(特别是空间信息)被更好地保留。同时,Zhou等人提出了一种用于全色锐化的类似结构,并采用了无参考质量(QNR)来设计一种新的损失函数。
尽管这些基于深度学习的无监督框架中的一些已经获得了令人满意的性能,但它们仍然面临着一些缺点:1)它们没有下采样算子,这妨碍了多尺度特征的提取,忽略了不同分辨率之间互补信息的重用; 2)对于MS和PAN图像特征分支的融合,现有的无监督融合方法直接通过级联和求和来实现,而没有注意关键特征的保留/抑制;以及3)为了保留原始图像的高频信息,经常利用长跳跃连接,但是语义间隙经常导致意外的结果。
为了克服上述问题,我们引入了一个多尺度无监督网络,称为Mun-GAN,基于GANs进行遥感图像泛锐化,它专注于无监督学习,并在生成器和鉴别器之间使用连续的对抗学习来保留光谱和空间信息。利用这种方法,建立了两个鉴别器(光谱鉴别器和空间鉴别器)来对抗生成器,以确定输入图像是真实的还是假的。特别是,一种新的生成器的设计,以决定是否忽略不同尺度之间的互补信息的重用。我们的动机是充分提取多尺度信息的遥感图像。由于不同数据集的位深度不同,因此可以利用这种多尺度信息的多样性来有效地提高模型的泛化能力。这项工作的主要创新贡献可以总结如下。、
1)我们设计了一个新的多尺度无监督融合框架,名为Mun-GAN,它由一个生成器和两个鉴别器。通过生成器和鉴别器的对抗学习,有效地实现了无监督遥感图像融合。特别地,在生成器中,为了重用不同尺度的特征信息,提高模型的泛化能力,我们使用多尺度特征提取器(MFE)模块提取原始输入图像的多尺度特征,并设计嵌套特征聚合(NFA)模块重构不同尺度的深度特征,实现深度特征的提取和保留.
2)为了有效地聚合的关键信息,同时抑制MS和PAN图像的特征分支之间的冗余信息,我们设计了一个自适应加权融合(SWF)模块,在我们的生成器的两个分支融合网络,其目的是有效地聚合的光谱和空间信息的原始图像。由于这种新的自适应融合策略,所提出的方法可以有效地保持原始图像的空间和光谱信息。
3)为了聚合MS和PAN图像在多个尺度之间的分布,引入QNR和Kullback-Leibler(KL)混合损失来优化网络。
METHOD
本文重点研究了不同尺度之间互补信息的重用。与其他泛锐化算法不同,我们的Mun-GAN由一个生成器和两个鉴别器设计。该生成器包含一个MFE,和NFA是用来提取和融合的多尺度特征图。此外,SWF模型的基础上的注意力机制和自适应参数整流器线性单元被用来聚合上下文重要的语义信息和抑制无用的信息。开发了两个鉴别器,通过与生成器的对抗游戏来保留原始图像的空间-光谱信息。Mun-GAN的发生器和鉴别器如图2所示。
Generator Architecture
生成器的架构如图2所示。生成器包括三个主要部分:MFE、SWF和NFA。
1) Multiscale Feature Extractor: 为了重用不同尺度之间的互补信息,多尺度纹理提取器(MFE)用于提取更深的多尺度特征图,并且可以描述如下:
2) Self-Adaptation Weighted Fusion Model: 为了有效地聚合关键信息,同时抑制MS和PAN图像特征分支之间的冗余信息,我们专注于自适应遥感图像权重融合策略。受注意力机制和自适应参数ReLU的启发,开发了自适应加权融合(SWF)模型,以有效地聚合原始图像的光谱和空间信息。我们的SWF模型的架构如图3所示。
为了获得融合的特征图,
I
i
I^{i}
IiM和
I
i
I^{i}
IiP被馈送到SWF模型的序列中,并且每个SWF模型的输出
F
i
F^{i}
Fiw可以从以下公式获得:
在第一步中,将输入
I
i
I^{i}
IiM和
I
i
I^{i}
IiP馈送到ReLU和GlobalAvgPooling中以获得1-D向量,该1-D向量用于表示正特征的全局信息。同时,相同的输入
I
i
I^{i}
IiM和
I
i
I^{i}
IiP也被传输到函数min(x · 0)和GlobalAvgPooling,以获得另一个1-D向量,用于表示全局负特征。得益于两个压缩的一维向量,参数的数量比原始特征信息少得多,并且后续网络的计算量显著减少。1-D正特征向量和1-D负特征向量可以从以下公式获得:
其中FB(·)表示全连接(FC)层和批归一化(BN)层,其中每个FC层的神经元数量和输入特征的通道计数相等,并且BN层用于加速训练过程。σ表示sigmoid函数,它可以将乘法系数转换为浮点数。α表示学习的斜率。特征图的输出可以通过以下公式获得:
其中max(·)函数用于计算成对比较的最大值,其可用于获得全局正特征信息。通过将输入特征传播到此函数max(x,0)+ α·min(x,0),可以获得正特征信息和负特征信息。
O
i
O^{i}
Oi表示第i个尺度输出正特征图和负特征图。
具体来说,为了抑制无用的信息,我们采用逐点卷积(PWConv)作为通道聚合器,并且最后的GlobalAvgPooling沿着空间维度H × W对各个特征通道进行操作。通过GlobalAvgPooling,可以获得第i个尺度
w
i
w^{i}
wi的信道信息聚合:
其中x和y是图像
O
i
O^{i}
Oi中的相对位置。PWC(·)是逐点卷积,其中PWC1应用于压缩信道以抑制冗余信息,并且PWC2用于恢复输入信道。
然后,如下应用FC层和Sigmoid函数以根据聚合的上下文信息计算相应的自适应权重:
3) Nest Feature Aggregation: 为了重用不同尺度之间的互补信息,避免长跳跃连接中的语义鸿沟,采用NFA模块实现跨尺度融合和密集跳跃连接,解决多尺度信息不能重用以及语义失真的问题。在我们的NFA中,我们通过密集跳跃和跨尺度融合来增强特征表示,并使用特征重用来提高模型泛化。NFA模块具有九个卷积块(N11、N12、N13、N14、N15、N16、N21、N22和N31)和一个卷积层(Conv)。NFA的输出可以如下获得:
其中NFA(·)表示用于重建图像的NFA,并且FNFA表示NFA的输出特征图。以下步骤重点介绍NFA的详细信息。
每个SWF模块的输出
F
i
F^{i}
Fiw被馈送到卷积块(N11、N21和N31)中,并且被传播到其他对应的卷积块中。利用跳过连接操作来保留来自先前层的更多信息。嵌套连接过程可以表示如下:
此外,N(·)表示对应的卷积块,其由卷积层、BN层和ReLU激活函数组成。为了消除长跳跃连接造成的语义失真,增强特征表示,我们建立了一系列短跳跃连接,它们是跨尺度连接和密集连接。特别地,为了解决多尺度特征信息重用的问题,我们分别对多尺度特征图F22、F31和
F
4
F^{4}
F4w上采样两次、四次和八次,并且相继将它们与F14、F15和F16融合。最后,将N16的输出F16传播到核大小为3 × 3的卷积层中,得到融合图像FNFA。
具体地,我们将上采样的MS图像和PAN图像的高通信息添加到NFA的输出,以更好地保留光谱和空间。最终图像FH由下式给出
Discriminator Architecture of Mun-GAN
建立了两个鉴别器(光谱鉴别器和空间鉴别器)以更好地保留光谱和空间。这些鉴别器的框架图如图4所示。为了便于描述,空间鉴别器和光谱鉴别器分别被称为Dp和Dm。一方面,通过将下采样的FH图像和原始IM图像馈送到Dm中来计算输入之间的光谱信息的方差。另一方面,Dp被设计为通过传播最大池化的FH图像和原始IP图像来决定空间信息的保留。我们将所有卷积层的步长设置为2,所有内核设置为3 × 3,以避免消失梯度问题。最后,双曲正切函数被用来产生标量。由于PAN图像具有较大的尺寸,因此我们将空间鉴别器的网络结构设计为比光谱鉴别器更深。为了加快训练阶段的收敛速度,我们采用了实例归一化,并使用ReLU激活函数来避免梯度稀疏。
Loss Function
Mun-GAN的损失函数由两个分量组成,其中一个是生成器的损失(LG),另一个是鉴别器的损失(LDm和LDp)。在下文中,我们将重点讨论生成器损失和鉴别器损失的组成部分。
1) Q Loss: 受PGMAN [44]的启发,我们采用Q损失来训练我们的网络。LQ是无GT损失函数,其基于QNR非参考索引设计,并且可以设计如下:
其中,QNR是由空间失真指数Ds和光谱失真指数Dλ组成的图像评价指数。通过最小化LQ,我们迫使我们的网络在没有任何GT的情况下保留空间和光谱信息。QNR可以计算如下:
在(13)中,H、M和P分别表示融合的HRMS、MS和PAN图像,P ~表示PAN劣化。K表示频带编号,i表示第i个频带。Q(x,y)表示图像质量指数(QI)。
2) KL Loss: 考虑到不同尺度下的MS和PAN图像的方差应具有相似的分布,我们引入KL散度损失来归一化不同尺度下的残差项分布,如下所示:
其中,φ(·)表示softmax函数,RP(·)表示通道维度中四个相同图像的总和。在Rlow和Rhigh中,前者指示低质量MS和PAN残余特征,而后者表示两者的高质量残余特征。为了有效地减少H的谱失真,我们将KL散度损失应用于Rlow和Rhigh的相似分布。
3) Adversarial Loss: 利用两个鉴别器Dm和Dp分别提示生成器保留光谱信息和空间信息。LG的损失函数可以由以下等式表示:
LDm和LDp表三种类型的数据集的具体细节分别表示光谱鉴别器损失和空间鉴别器损失,并且被应用于区分输入图像和融合图像。两个鉴别器的损失函数如下:
其中λ是超参数,GP(·)是梯度惩罚。为了稳定训练,我们采用WGAN-GP作为基本框架,并对判别器采用梯度惩罚。这些培训策略在[44]中得到了有效利用。