A Cross-Direction and Progressive Network for Pan-Sharpening
(一种交叉递进的泛锐化网络)
本文提出了一种交叉方向渐进(cross-direction and progressive)网络CPNet来解决全色锐化问题。对信息的充分处理是我们模型的主要特点,体现在以下几个方面:一方面,对源图像进行交叉处理,得到不同尺度的源图像,作为不同阶段融合模块的输入,最大限度地利用了源图像中的多尺度信息;另一方面,渐进重建损失(progressive reconstruction loss)被设计用于促进我们的网络的训练,并且避免部分失活,同时保持融合结果与地面真实值的一致性。由于从源图像中提取信息以及融合图像的重建是基于整个图像而不是单一类型的信息,因此几乎不存在由于不充分的信息处理而导致的部分空间或光谱信息的损失。
介绍
随着光学遥感地面卫星的蓬勃发展,其强大的地面侦察能力日益受到人们的重视。然而,由于物理传感器技术的限制,光学卫星很难获得同时具有高空间分辨率和光谱分辨率的高质量图像。卫星捕获的主要模式有两种:具有高空间分辨率但低光谱分辨率的全色(PAN)图像和具有高光谱分辨率但低空间分辨率的多光谱(LRMS)图像。为了满足实际应用中对高空间分辨率和高光谱分辨率的要求,提出了一种融合PAN和LRMS图像的全色锐化方法,通过融合它们的互补信息,生成高分辨率多光谱(HRMS)图像。近几十年来,随着对全色锐化技术的理论研究和实际应用的重视,学者们不断探索高质量的算法来解决全色锐化问题。现有的全色锐化方法一般可以分为传统方法和基于深度学习的方法。然而,由于每个传感器的光谱唯一性和地面物体的多样性,对于传统方法来说,找到一种解决方案来建立源图像和生成的HRMS图像之间的连接是一项艰巨的任务。正因为如此,学者们正在寻求新的突破口,以获得更高质量的融合结果。
过去几年,深度学习的爆发为解决泛锐化问题提供了新的思路。得益于神经网络的高度非线性,在基于深度学习的全色锐化方法中可以很好地建立源图像和生成的HRMS图像之间的联系。总体而言,这些方法的融合性能确实比传统方法有所提高。但仍有一些问题有待解决。
1)一方面,在全色锐化问题中,源PAN和LRMS图像通常以两种不同的尺度(或分辨率)呈现。在大多数全色锐化方法中,它们以固定的缩放比率执行特征处理,直到最终输出,即,因此,HRMS图像不能充分利用跨不同尺度的源PAN和LRMS图像的相关信息。由于PAN和LRMS影像多尺度信息的开发和利用有限,这些方法仍有一定的改进空间。
2)另一方面,在一些方法的现有概念中,所生成的HRMS图像的重建信息仅来自PAN图像中的空间信息和LRMS图像中的光谱信息。空间/光谱信息对于一个卫星图像不是唯一的,并且空间和光谱信息都包含在PAN/LRMS图像中。该概念的直接后果是在生成的HRMS图像中丢失一些空间和光谱信息。
为了解决上述问题,提出了一种用于全色锐化的交叉渐进网络CPNet。具体地,“cross-direction”指的是源图像的交叉方向处理(PAN图像的下采样和LRMS图像的上采样)以构造三个多尺度输入。同时,“progressive”意味着最终的融合图像,即,即HRMS图像。拟议CPNet的整个框架如图1所示。在我们的模型中,我们构造了三个多尺度输入,并对源图像进行了交叉方向处理。
将三个尺度的输入分别输入到不同的网络(初级、中级和高级融合模块)进行处理,充分利用源图像中包含的多尺度信息。除此之外,渐进重建损失(包括低尺度和高尺度重建损失)促进了网络的所有方面的训练,并促进融合的HRMS图像接近地面实况。此外,由于该模型同时提取和重建了每幅图像不同尺度的空间和光谱信息,最大程度地避免了由于信息处理不充分而造成的空间和光谱信息的丢失。
贡献
1)通过对源图像的交叉处理和HRMS图像的渐进重建,提出了一种能够充分处理源图像不同尺度信息的横向渐进网络(CPNet)全色锐化方法。
2)模型中设计了渐进重建损失。它可以促进网络各方面的训练,避免局部网络的失活。另一方面,它确保了融合图像,即,HRMS图像和真实数据。
3)通过大量实验,与已有的研究成果相比,本文提出的CPNet在直观的定性结果和传统的定量指标上都显示出了很大的优越性。
相关工作
Traditional Pan-Sharpening Methods
随着对全色锐化技术需求的快速增长,近几十年来已经开发了传统的方法来实现它。根据其原理可分为四类:基于成分替代的方法、基于多尺度分解的方法、基于模型的方法和混合方法。
1)基于组件替换的方法:这些方法是最经典的全色锐化技术,包括强度-色调-饱和度(IHS)、主成分分析(PCA)等,它们通常是通过灵活地变换和替换变换域中的某些分量来实现的,最后通过逆变换得到融合图像。高效、易实现、空间信息高保真是三个最突出的优势;然而,它们将遭受严重的频谱失真。
2)基于多尺度分解的方法:与其他图像融合方法类似,分解、融合和变换是这类全色锐化方法的主要三个步骤。典型的基于多尺度分解的方法包括主成分分析、轮廓波、非负矩阵分解和金字塔。
3)基于模型的方法:大多数基于模型的方法假设PAN图像可以被建模为HRMS图像的所有波段以及梯度图之间的线性关联,并且空间和光谱信息的保存通常通过建模来优化。经典的基于模型的方法包括最小均方误差最优方法和基于稀疏正则化的方法。
4)混合方法:这类方法主要结合了现有全色锐化方法的优点,以达到更好的融合性能。例如,基于Curvelet和ICA的融合是结合了基于分量替换和多尺度分解的方法的优点的一个代表。
现有的传统全色锐化方法的主要难点在于源图像与融合图像之间的构造。在我们的工作中,高度非线性映射的卷积神经网络被用来建立它们之间的联系。通过监督方式,所生成的HRMS图像被迫保持与地面实况的高度一致性。
Deep Learning-Based Pan-Sharpening Methods
近年来,由于深度学习技术的不断进步及其在数据处理、自动特征提取、表征能力等方面的不断提高,基于深度学习的全色锐化方法不断被提出,并表现出比传统方法更好的融合性能。当前用于全色锐化的深度学习方法主要基于卷积神经网络(CNN)和生成式对抗网络(GAN)。
在基于CNN的方法中,Masi等人以监督的方式用CNN解决了全色锐化问题。在此基础上,结合特定领域的知识,提出了PanNet ,重点关注光谱和空间信息的保留,这改善了融合结果。此外,Zhong等人提供了一种混合全色锐化方法,该方法结合了CNN和Gram-Schmidt变换的优点。
此外,为了充分利用深度学习的高度非线性,在DRPNN中采用了LRMS和真实数据之间的残差学习来建立深度卷积神经网络。类似地,Wei等人提出的CMC从使用双流深度学习架构改进网络结构的角度解决了全色锐化问题。Fu等人提出了一种具有反馈连接的双路径网络,以充分利用强大的深度特征,而Zhou等人设计了一种基于自动编码器和感知损失的无监督感知全色锐化框架。
对于基于GAN的方法,Liu等人提出了PSGAN,通过生成器和鉴别器之间的对抗学习来生成高质量的全色锐化图像,这也是第一个基于GAN的全色锐化方法。此外,提出了RED-cGAN,残差编码器-解码器模块提取多尺度特征,并利用鉴别器进一步增强空间信息。Ma等人提出的Pan-GAN采用了无监督的GAN。在该模型中,一个生成器与两个鉴别器之间建立了对抗关系,两个鉴别器用于保持光谱和空间信息。
本文提出的CPNet是一种基于CNN的全色锐化方法。此外,与现有的基于深度学习的全色锐化方法相比,该模型能够在不同尺度上充分提取和重构源图像中的信息。
方法
Problem Formulation
全色锐化的目的是通过融合全色图像和LRMS图像来尽可能多地保留源图像的空间和光谱信息。为此,包括源图像中信息的提取和重构在内的处理是至关重要的。我们的CPNet的主要思想是通过对源图像的交叉向处理和对HRMS图像的渐进重建来充分处理信息。
如图1中的棕色背景图像所示,LRMS图像和高分辨率PAN图像分别是尺寸为W ×H×N和rW×rH×1的源图像。W和H是LRMS图像的宽度和高度。N被设置为4,表示带的数量,r被设置为4,表示PAN图像和LRMS图像之间的空间分辨率比。
为了充分利用PAN和LRMS图像在不同尺度上的相关信息,通过对PAN和LRMS图像的交叉处理(PAN图像下采样和LRMS图像上采样),构造了三个多尺度输入:PAN和LRMS↑4; PAN↓2和LRMS↑2; PAN↓4和LRMS。该模型分为三个融合阶段,分别对应于初步融合、中间融合和高级融合模块。
CFNet的融合思路如下:在通过像素混洗进行上采样之后,当前融合级的输出与更大尺度的源图像一起用作下一融合级的输入。最终的融合图像:HRMS图像,低尺度融合图像:HRMS↓2图像,在最终输出之前预先生成。
所生成的HRMS和HRMS↓2图像受到地面实况和地面实况↓2的约束,其中地面实况↓2具有高尺度构造损失和低尺度构造损失。两者均构成渐进重建损失。渐进重建损失不仅促进了网络的所有方面的训练,特别是在初步融合阶段,而且确保了融合图像之间的高度一致性,即,HRMS图像和真实数据。
Network Architectures
初级融合、中级融合和高级融合模块代表了融合过程的三个阶段。初步融合模块和中间融合模块具有最相似的功能。为了提高融合模块的利用率并减少网络参数,初步融合模块和中间融合模块的网络结构是一致的并共享相同的权重。
Network Architecture of the Pre-Block
该算法利用两个预块对级联数据进行预处理,然后将预块的输出作为初始训练/中间训练的输入。每个预块包含两个卷积层,核大小和步长分别为3 × 3和1。两个卷积层的输出信道数分别为16和32。
Network Architecture of the Preliminary/Intermediate Fusion Module
初级/中级融合模块的网络架构如图2所示。融合模块主要用于输出图像的渐进重建。有四个卷积层,网络体系结构的设计借鉴了DenseNet的概念。具体地说,作为一种前馈方式,每一层都与其他层直接相连。密集块的参考进一步增强了特征的利用,并缓解了训练过程中梯度消失的问题。此外,我们将所有卷积层的填充模式设置为“REFLECT”。值得注意的是,我们将所有内核大小设置为3 × 3,步长设置为1。Leaky ReLU被用作所有卷积层中的激活函数。
Network Architecture of the Advanced Fusion Module
高级融合模块的网络架构如图3所示,由5个卷积层组成。高级融合模块负责融合多尺度信息和降维,并输出生成的HRMS图像。与初/中融合模块的网络架构一致,各卷积层的填充方式设置为“REFLECT”,核大小设置为3 × 3,步长设置为1。前4层卷积采用Leaky ReLU作为激活函数,最后一层卷积采用tanh作为激活函数。
Loss Function
损失函数决定了网络优化的方向和程度。在我们的CPNet中,网络优化的方向和程度由渐进重构损失决定。这可以促进网络各方面的训练,避免部分网络的失活。这确保了融合图像,即,HRMS图像和真实数据。渐进重建损失Lpro由高尺度重建损失Lhigh和低尺度重建损失Llow组成,其定义如下:
具体地,采用高尺度重构损失Lhigh来约束所生成的高尺度融合图像,即,HRMS图像,以及高比例地面实况。因此,所生成的HRMS图像可以与地面实况保持高度一致。高尺度重构损耗Llow在数学上由下式给出:
采用低尺度重构损失Llow来约束所生成的低尺度融合图像,即HRMS↓2图像与低比例地面实况、真实情况↓2。换句话说,它可以促进网络各方面的训练,避免部分网络的失活。低尺度重构损耗Llow在数学上用公式表示如下: