PGMAN: An Unsupervised Generative Multiadversarial Network for Pansharpening
(PGMAN:一种无监督的生成式多对抗网络)
全色锐化的目的是融合低分辨率多光谱(MS)图像和由卫星获取的高分辨率全色(PAN)图像以生成HR MS图像。在过去的几年中,已经开发了许多基于深度学习的方法。然而,由于不存在预期的HR MS图像作为学习参考,因此几乎所有现有方法都对MS和PAN图像进行下采样,并将原始MS图像视为目标以形成用于训练的监督设置。这些方法可以在缩小比例的图像上良好地执行;然而,它们对全分辨率图像的推广较差。为了克服这一问题,我们设计了一个无监督的框架,能够直接从全分辨率图像学习,而不需要任何预处理。该模型是基于一种新的生成式多模对抗网络建立的。我们使用双流发生器分别从PAN和MS图像中提取模态特异性特征,并开发了双重鉴别器以在执行融合时保留输入的光谱和空间信息。此外,引入了一种新的损失函数,便于在无监督环境下进行训练。
介绍
由于受到物理条件的限制,许多卫星如QuickBird, GaoFen-1, 2,和 WorldView I, II,只能同时提供一对模态:低空间分辨率的多光谱(MS)图像和高空间分辨率但低光谱分辨率的全色(PAN)图像。在许多实际应用中,期望使用高分辨率(HR)MS图像。全色锐化结合了MS图像和PAN图像的优点,生成HR MS图像,为这一问题提供了一个很好的解决方案。在过去的几十年中,遥感界的研究人员开发了各种全色锐化方法。这些方法,为了区别于最近提出的深度学习模型,我们称之为传统的全色锐化方法,主要可以分为三类:基于组件替换(CS)的方法、基于多分辨率分析(MRA)的方法和基于模型的方法。CS方法将MS图像转换到一个新的空间中,其中一个分量被PAN的空间部分代替,然后执行逆变换以获得全色锐化图像。强度-色调-饱和度技术(基于IHS的方法)、主成分分析(基于PCA的方法)和Gram-Schmidt(GS 方法)是那些被广泛采用的变换。MRA方法应用多分辨率算法提取PAN图像的空间信息,然后将其注入MS图像。一些代表性方法包括调制传递函数和基于平滑滤波器的强度调制(SFIM )。基于模型的方法试图建立输入PAN和MS以及理想HR MS的可解释的数学模型,它们通常需要求解优化问题来参数化模型。一种典型的方法是带相关空间细节(BDSD)模型。这些传统的方法在实践中被广泛使用,然而,它们解决高度非线性映射的能力有限,并且因此经常遭受空间或频谱失真。
最近,深度学习技术在各种计算机视觉任务中取得了巨大成功,从低级图像处理到高级图像理解。卷积神经网络(CNNs)显示出强大的建模能力和在解决图像增强问题如单幅图像超分辨率等方面的优越性。受此启发,许多深度学习模型被开发用于全色锐化。PNN将SRCNN引入到全色化中,设计了一个融合网络,也是一个三层CNN,PanNet 借鉴ResNet的跳跃连接思想,构建更深层次的网络,在高频域训练模型,学习上采样的低分辨率(LR)MS图像与期望的HR MS图像之间的残差。DRPNN也借鉴了ResNet ,设计了一个更深层次的11层CNN。MSDCNN试图通过使用不同大小的滤波器并结合浅网络和深网络来探索图像的多尺度结构。TFNet构建了一个双流融合网络,并设计了UNet的变体来解决该问题。PSGAN通过使用生成式对抗训练改进了TFNet。这些用于全色锐化的深度学习方法取得了令人满意的性能。然而,它们不能在没有监督图像的情况下被优化,因此难以在全分辨率图像上获得最优结果。具体地说,现有的工作需要理想的HR MS图像,而这些图像不存在以训练网络。为了优化网络,他们对PAN和MS图像进行降采样,并以原始MS图像为目标形成训练样本。在测试阶段,还对下采样图像进行评估。然而,对于遥感图像,该协议可能会导致降采样图像与原始图像之间存在间隙。与自然图像不同,遥感图像通常具有较深的比特深度和明显的像素分布。这些有监督的方法在降采样图像域可能有很好的性能,但是它们对原始全尺度图像的泛化能力较差,这使得它们缺乏实用性。
为了克服这一缺点,我们提出了一种无监督的生成式多对手网络PGMAN,PGMAN专注于无监督学习,在原始数据上训练,不需要下采样或任何其他预处理步骤,以充分利用原始空间和光谱信息。我们使用双流生成器分别从PAN和MS图像中提取模态特异性特征。由于我们没有目标图像来计算损失,所以我们验证所生成图像的质量的唯一方式是全色锐化图像与PAN和MS图像之间的一致性属性,即,HRMS图像的降级版本(光谱降级和空间降级两者)应尽可能接近PAN和MS图像。为了实现这一点,我们建立了两个鉴别器,一个是从输入的MS图像中鉴别下采样融合结果,另一个是从输入的PAN图像中鉴别灰度化融合图像。此外,受非参考度量QNR 的启发,我们引入了一个新的损失函数来提高全色锐化图像的质量。
贡献
1)我们设计了一个无监督的生成式多对抗网络用于全色锐化,称为PGMAN,它可以在全分辨率PAN和MS图像上训练,而无需任何预处理。它利用了原始数据丰富的空间和光谱信息,与真实的应用环境一致。
2)为了与原始PAN和MS图像保持一致,将融合结果转换回PAN和LR MS图像,并设计了一种双鉴别器结构来保留空间和光谱信息。
3)受QNR度量的启发,在无参考图像的无监督学习框架下,引入一种新的损失来优化网络。
4)我们在Gaofen-2、QuickBird和WorldView-3影像上进行了广泛的实验,将我们提出的模型与最先进的方法进行了比较。实验结果表明,该方法在全分辨率图像上能取得最佳的分割效果,具有一定的实用价值。
相关工作
深度学习技术在各种计算机视觉任务中取得了巨大的成功,这启发了我们为全色锐化问题设计深度学习模型。Masi等人观察到全色锐化和单幅图像超分辨率具有相似的精神,并在Dong等人的推动下提出了一种基于三层CNN的全色锐化方法。在这项工作之后,越来越多的研究致力于开发基于深度学习的全色化。例如,Zhong等人提出了一种基于CNN的混合全色锐化方法。最近的研究表明,更深的网络将在视觉任务中获得更好的表现。应用残差网络的第一次尝试是PanNet。他们采用了与Rao等人和Wei等人类似的想法,但使用ResNet 来预测图像的细节。这样,空间信息和光谱信息都可以很好地保留。Goodfellow等人提出的生成式对抗网络(GANs)在各种图像生成任务中取得了令人瞩目的性能。GAN的主要思想是在对抗中训练一个带有鉴别器的生成器。生成器学习输出真实感图像以欺骗鉴别器,而鉴别器学习区分生成的图像和真实图像。然而,稳定训练GAN的难度仍然是一个问题。DCGAN将CNN引入到GAN中,去掉了池层,提高了性能。LSGAN用最小二乘损失函数代替Sigmoid交叉熵损失函数,以避免梯度消失问题。WGAN 利用Wasserstein距离作为目标函数,并使用权重裁剪来稳定训练过程。WGAN-GP相对于其输入惩罚鉴别器的梯度范数,而不是使用权重裁剪。SAGAN增加了自我关注模块,用于长期依赖建模。为了加快收敛速度和简化训练过程,我们选择WGAN-GP作为基本的GAN来构建我们的模型。
近年来,研究人员不再局限于单发生器单鉴别器的GAN结构,而是尝试设计多个发生器和鉴别器来处理复杂的任务。GMAN将GAN扩展到多个鉴别器,并赋予它们两个角色:可怕的adversaries和宽容的teachers。一个是更强的鉴别器,而另一个是较弱的。CycleGAN设计两对生成器和鉴别器提出了周期一致性损失减少的空间可能的映射功能。MsCGAN是一个多尺度敌对的网络组成的两个生成器和两个鉴别器处理不同层次的视觉特性。SinGAN 使用生成器和鉴别器的金字塔来学习单个图像中的多尺度面片分布。考虑到全色锐化的特定领域知识,我们设计了两个鉴别器来针对一个生成器进行训练,以保持频谱和空间特性。
方法
Network Architecture
1) Generator Architecture:
我们基于TFNet 的架构设计了生成器,并对其进行了以下修改,以进一步提高全色锐化图像的质量。首先,受PanNet的启发,在高通域上训练发生器,并将其输出添加到上采样LR MS图像中,以便更好地保留光谱。通常,图像的高通域通常包含更多的空间细节。此外,学习LR MS图像和最终HR MS图像之间的残差可以稳定训练过程。其次,考虑到输入图像对PAN和MS的大小不同,我们建立了两个独立的特征提取子网络。PAN FE子网络具有两个跨距为2的卷积用于降采样,而MSFE子网络具有两个跨距为1的卷积用于在不进行降采样的情况下保持要素图分辨率。我们将这两个子网络产生的特征图连接起来,并附加一个残差块以实现融合。最后,应用步长均为1 - 2的两个连续分数步长卷积对特征图进行上采样,以满足所需HR MS的大小。输出是全色锐化MS图像的高频部分。我们将它们添加到上采样的LR MS图像中以获得最终结果。图1显示了我们的生成器的详细架构。
2) Discriminators Architecture:
我们使用两个鉴别器来验证全色锐化过程的一致性。首先,我们将融合图像降采样到与LR MS图像相同的空间分辨率,然后应用鉴别器-1 D1来约束使它们具有相同的光谱信息。第二,应用鉴别器-2 D2以将融合图像的空间结构与PAN图像的空间结构匹配。与Ma等人不同,我们不使用全局平均合并或最大合并来获得融合HR MS的光谱退化版本。相反,我们训练一个仅由一个3 × 3卷积层组成的辅助网络来估计从MS图像到PAN图像的转换。辅助光谱退化网络是用LR MS和下采样PAN图像单独预训练的,并且在训练生成器和鉴别器时将被固定。我们使用类似于Isola等人使用的鉴别器。由于输入LR MS和PAN具有不同的图像大小和通道,因此这两个鉴别器具有不同的架构,如图1所示。D2具有多一个卷积层以对特征图进行下采样,因为PAN图像具有较大的图像尺寸。
正如WGAN-GP所建议的,我们删除了鉴别器中的最后一个激活函数和批量归一化层。
可以看出,我们的生成器和鉴别器是完全卷积的,这使得我们的模型易于训练并且可以在测试阶段接受任意大小的PAN和MS图像。
Loss Function
为了简化和方便起见,表I列出了本文后面部分中使用的一些关键符号。
1) Q-Loss:
基于监督学习的方法通常使用L1或L2损失来训练网络。然而,在无监督设置下,没有理想图像可供比较。在这项工作中,我们试图设计一个替代的解决方案,可以量化融合结果的质量与输入,而不是地面实况。这背后的直觉是,模态之间必须存在一些一致性,这意味着我们可以在LRMS和PAN图像中获得一个测量值,并且在将其应用于HR全色锐化MS图像时仍然有效。图像质量指数(QI)提供了两个单色图像之间的统计相似性度量。为了测量光谱一致性,我们可以计算LRMS图像中任意一对光谱带之间的QI值,并将其与全色锐化图像中的QI值进行比较。类似地,MS图像和PAN图像中的每个光谱带之间的QI值应当与全色锐化图像和PAN图像中的每个光谱带之间的QI值一致,这定义了空间一致性。其基本原理是,当光谱信息在空间分辨率上从粗尺度转换到细尺度时,QI值在融合后应该保持不变。
回想在全色锐化范例中,由QI测量的MS图像的任何一对光谱带之间的相互关系在融合之后应当不变,否则全色锐化的MS图像可能具有光谱失真。此外,MS的每一条波段和相同尺寸的PAN图像之间的相互关系应该在不同尺度上保持。因此,可以直接从全色锐化图像、LR MS图像和PAN图像计算空间和光谱一致性,而无需地面实况。交叉相似性相互关系一致性的基本假设由以下事实证明:真实的HRMS数据,无论何时可用,在模型的近似值范围内,表现出的光谱和空间失真均为零,并且肯定低于任何融合方法所获得的失真。为了定量描述这一点,我们在QNR上引入了非燃气轮机损失,其定义如下:
QNR是quality with no reference的缩写,是Dλ和Ds的组合。Dλ是频谱失真指数,而Ds是与Dλ互补的空间质量度量
QNR的最佳值为1
其中P是全色锐化结果,X代表LR MS输入,K是波段数。Pi和Xi分别代表它们中的第i个谱带。Q代表图像QI。其定义如下:
其中σxy表示x和y之间的协方差,σ2x和σ2y分别为x和y的方差。x-和y-分别为x和y的平均值
该损失函数使我们能够测量来自输入PAN和MS图像的融合图像的质量,而不需要真实HR MS图像。
2) Adversarial Loss:
我们设计了两个鉴别器,D1用于谱保持,D2用于空间保持。生成器学习保留更多的光谱信息以欺骗D1,其能够区分真实的和伪造的LR MS图像,并且学习保留更多的空间细节以欺骗D2,其能够区分真实PAN图像和光谱退化的融合结果。生成器G的损耗函数采用以下形式:
其中N是样本数。P、X和Y分别是全色锐化MS、LR MS和PAN图像。P~和P^代表空间和光谱退化的P,α和β是超参数。
为了稳定培训,我们采用WGAN-GP作为基本框架,即:使用Wasserstein距离并对鉴别器应用梯度惩罚。D1和D2的损失函数公式如下: