SDPNet: A Deep Network for Pan-Sharpening With Enhanced Information Representation
(SDPNet:一种增强信息表示的泛锐化深度网络)
本文提出了一种基于表层和深层约束的全色锐化网络SDPNet,以解决全色锐化问题。聚焦于全色锐化的两个主要目标,即:空间和光谱信息的保留,我们首先设计了两个编码器-解码器网络,从两种类型的源图像中提取深层特征,以及表层特征,作为增强的信息表示。通过深层次的特征提取,可以得到表征源图像中唯一信息的唯一特征图。进一步设计了一个具有密集连接块的全色锐化网络,以加强特征传播,减少参数数目,并利用唯一特征图有效地约束全色锐化结果与地面真实值之间的相似性,从而避免信息失真。
介绍
随着光学对地观测卫星的发射,它们捕获的许多数据可用于各种任务,如环境监测、地理、农业和土地调查。但由于物理技术的限制,卫星很难将高空间分辨率和高光谱分辨率同时结合起来。捕获的数据通常有两种形式:具有低光谱分辨率的高分辨率全色(PAN)图像和具有高光谱分辨率的低分辨率多光谱(LRMS)图像。根据这两种模式之间的互补性,通过融合PAN和LRMS图像,可以产生具有高空间和光谱分辨率的高分辨率多光谱(HRMS)图像,如图1所示。这是全色锐化突破技术限制的目标。
近年来,人们提出了许多不同种类的传统方法来解决这一问题。根据相应的理论,它们可以分为以下几类:1)基于多尺度分解的方法,包括金字、轮廓波、非负矩阵分解和主成分分析;
2)基于组分替代的方法,例如,通过多元回归改进的分量替换全色锐化、使用部分替换的自适应分量替换、以及基于图像遮片的新颖分量替换框架;
3)基于模型优化的方法,如基于稀疏正则化的方法和最小均方误差意义下的优化算法;
4)混合方法,HCM算法,集成了混合颜色和即插即用算法。然而,由于不同传感器的光谱响应不同以及地物的复杂性,传统方法很难建立源图像与HRMS图像之间的关系。
在过去的几年中,受益于深度学习的广泛应用,学者们试图利用卷积神经网络(CNNs)的高非线性来解决全色锐化问题。PNN是一种众所周知的基于CNN的方法。它通过应用遥感中的一些特定知识来修改超分辨率方法SRCNN的三层架构。此外,基于三层CNN,Zhong等人提出了一种混合全色锐化方法。它利用神经网络来提高多光谱图像的空间分辨率;然后利用Gram-Schmidt变换对增强后的MS和PAN图像进行融合。此外,基于域知识,Yang等人通过将上采样LRMS图像直接传播到网络的输出以保留光谱信息并在高通滤波域中训练网络以保留空间结构,提出了PanNet。此外,通过改进架构,Wei等人提出了DRPNN,通过应用更深的网络来学习LRMS图像和地面真实值之间的残差(空间细节)。此外,基于目标自适应使用模态,Scarpa等人提出了TACNN,该TACNN确保在存在与训练集甚至跨不同传感器的失配的情况下具有非常好的性能。除上述系列作品外,还有一些基于其他模式的作品。例如,Liu等人基于生成式对抗网络(GANs)提出了PSGAN,从概率分布的角度来增加相似度。通过将自动编码器的思想与GAN相结合,Shao等人提出了RED-cGAN,其采用残差编码器-解码器模块来提取多尺度特征,并应用条件鉴别器来鼓励估计的MS图像与参考的HRMS图像共享相同的分布。相比之下,Ma等人提出了一种称为Pan-GAN的无监督方法,其中生成器分别与光谱鉴别器和空间鉴别器建立对抗博弈,以保留MS图像的丰富光谱信息和PAN图像的空间信息。作为传统算法和深度学习的结合,Zhang等人提出了一种高效的双向金字塔网络,在两个独立的分支中逐层处理MS和PAN图像。最近,根据梯度和强度的比例保持,提出了一种通用的融合框架,称为PMGI,可用于解决全色锐化问题。
虽然现有的方法都能取得较好的效果,但仍存在一些问题有待解决。一方面,许多方法通过最小化所生成的HRMS图像与地面真实值之间的欧几里得距离来训练网络,导致相对模糊的结果。为了解决这个问题,在一些方法中,光谱或空间信息可以通过附加操作来进一步保存,在高通滤波域中训练或学习残差。然而,这些操作通常以手动方式进行,并且仍然受到限制,例如特征或域选择的适当性。另一方面,难以全面地定义空间/光谱信息。这种信息可以简单地定义为表面级特征,高频分量和像素强度。然而,这些特征反过来又不足以完整地表示卫星图像中的空间/光谱信息。此外,空间/光谱信息不仅仅存在于一种类型的卫星图像中。相反,PAN和LRMS图像同时包含这两类信息。因此,预定义特征可能不反映一种类型的源图像中所包含的与另一种类型的源图像相比的唯一信息。
上述挑战激励我们提出一个新的pan-sharpening网络基于表面和深层约束,即,SDPNet。SPNet的流程图2所示,有三个阶段。在第一阶段,我们训练M2PNet P2MSNet学习 MS图像和相应的PAN图像(相同的空间分辨率)之间的转换。在第二阶段,空间和光谱编码器和解码器是学会提取特征图(包括独特的特征映射和共同特征映射)和重建原图像。在最后阶段,我们使用预训练的空间和光谱编码器进行深层约束。基于深度和表面上的约束,PNet训练生成pan-sharpened结果。
贡献
1)我们设计了两个编码器-解码器网络来提取深层特征和表层特征,分别用于增强空间和光谱信息表示。深层特征允许我们进一步最小化泛锐化结果和地面真实值之间的差异。
2)该算法不保留人工预先定义的空间/频谱相关特征,而是重点保留由相应编码器提取的每类源图像中的唯一特征,以提高约束的有效性。这些独特的特征起到了空间/频谱相关特征的作用,以便更好地保存信息。
3)在这两种编解码网络的基础上,进一步设计了一种全色锐化网络,通过引入稠密连通块来增强特征传播,同时减少参数数目。定性和定量结果均表明,SDPNet方法具有更小的空间和光谱失真,优于现有方法。
方法
我们将LRMS图像表示为尺寸为W × H × B的M,将高分辨率PAN图像表示为尺寸为rW×rH×1的P,其中W和H分别表示为LRMS图像的宽度和高度,B是波段数,r是P和M之间的空间分辨率比。HRMS图像是用于监督学习的地面实况数据,表示为大小为rW ×rH × B的G。因此,我们的工作的目的是学习一个模型fp,其输出X = fp(P,M)可以作为G的近似。
Surface-Level Characteristics
由于全色锐化的两个优先级是保持空间和光谱信息,因此我们主要从这两个方面来约束X和G之间的相似性。通常认为空间信息主要存在于空间结构中,而光谱信息主要由MS图像中每个波段的像素强度来表征。因此,通过最大化X和G之间的空间和光谱相似性,问题可以被公式化为:
其中1 − SSIM(Xb,Gb)是空间结构信息的约束条件,因为SSIM是结构相似性指数,主要关注亮度、对比度和结构信息。
∣
∣
X
b
−
G
b
∣
∣
2
||X~b~ −G~b~||^2
∣∣X b −G b ∣∣2F表示光谱保存的像素强度约束,其中||·||F表示Frobenius范数。Xb表示所生成的具有B个波段的HRMS图像的第b个波段。类似地,Gb表示真实数据的第b个波段。θp表示模型fp中待优化的参数。λ是一个正数,用于控制权衡。因此,这两个项可分别用于最大化空间和光谱相似性。
Deep-Level Features
除了上述的表面特征外,还有一些额外的特征在SSIM和Frobenius范数的约束项之外。例如,SSIM不处理大位移,也不评估几何变形。当参考图像的方差或亮度较低时,它将变得不稳。对于Frobenius范数,将对所有看似合理的输出进行平均。因此,这样的约束可能产生相对模糊的全色锐化结果,导致空间和频谱失真。为了弥补表层度量的不敏感性,利用神经网络的高非线性和强学习能力,对编码器-解码器网络提取的深层特征进行补偿性相似性约束。
1) Spatial-Related Features:
高质量的空间结构的唯一信息是包含在P中而在M的频带中是不可用的。为了提取唯一的空间相关特征,我们假设它们是P与M中最不同的特征。为此,伪PAN图像P~可以由LRMS图像构建为
为了学习从MS图像到PAN图像的映射关系,即fMS2P。我们使用称为MS2PNet的网络来学习不同信道之间的映射。由于映射关系与空间分辨率差异无关,因此使用具有高空间分辨率的地面实况图像G而不是LRMS图像和对应的PAN图像作为训练数据来训练MS2PNet。为了学习fMS2P,使用AdamOptimizer优化MS2PNet中的参数,以最大化P和fMS2P(G)之间的相似性,如下所示
其中θMS2P表示MS2PNet中的参数。通过最小化在(3)中定义的损失函数,我们可以学习fMS2P的最优解。MS2PNet的网络架构如图3所示。在激活函数之后显示特征图的编号,包括LeakyReLU和tanh。核大小为3 × 3,步长为1。
利用预先训练的fMS2P,我们可以如(2)中那样从LRMS图像生成伪PAN图像。尽管存在一些类似的部件,由于P和
P
−
P^-
P−是同一场景的表示,因此它们中包含相似的像素强度分布,高质量的结构信息通常仅在P中可用,如图4所示。图4中P和
P
−
P^-
P−的共同特征图虽然在构造上存在一定的差异,但在独特特征图中构造细节的差异更为明显。
在通过预训练的孪生网络(这些网络的训练过程将在后面描述)之后,即:对于具有相同结构和参数的网络,某些差异较大的特征图可视为P或
P
−
P^-
P−的唯一特征图。根据P和
P
−
P^-
P−之间的明显差异,这些通道中提取的特征图可视为空间相关特征,如图4中的唯一特征图所示。
相比之下,那些差异较小的特征图包含更多的信息,这些信息在P和
P
−
P^-
P−中都可用,如图4中的共同特征图所示。因此,该编解码器网络可以看作是一个空间编解码器网络,其具体架构如图5所示,其中数字表示输出特征图的通道。
对于该网络的训练阶段,不是顺序训练,而是使用P和
P
−
P^-
P−作为联合训练的训练数据。通过最大化
P
−
P^-
P−与重建的PAN图像
P
−
P^-
P−之间的相似性以及P ~与重建的伪PAN图像
P
−
P^-
P− ~之间的相似性来训练空间编解码器网络。相似性度量与(1)中定义的相似性度量相同,只是当网络的输入为P时,B设为1,(X,G)由(P,P ~)代替。在另一种情况下,当网络的输入为
P
−
P^-
P−时,(X,G)由(
P
−
P^-
P−,P ~)代替。对于实验设置,用10个时期和10个批量大小训练网络。参数表示为θ spat,并由AdamOptimizer以0.002的学习率和指数衰减进行更新。
2) Spectral-Related Features:
2)光谱相关特性:类似地,B波段光谱信息是包含在M中的与P相比唯一的信息。为了提取唯一的光谱相关特征,我们通过使用P构建伪LRMS图像
M
−
M^-
M−,其可以定义为
类似地,为了学习从PAN图像到MS图像的映射关系,即,针对P2MS,我们设计了一个网络,称为P2MSNet。训练数据仍然是具有相同空间分辨率的PAN图像和对应的地面实况图像G,而不是具有较低空间分辨率的LRMS图像。为了学习fP2MS,使用AdamOptimizer优化P2MSNet中θP2MS参数,以最大化G和fP2MS(P)之间的相似性,如下所示
通过求解(5)中定义的问题,可以学习fP2MS的最优解以执行(4)中定义的变换。P2MSNet的网络架构如图3所示,与MS2PNet类似,只是输入为一路,输出为四路。
从图6所示的唯一特征图和共同特征图中可以看出,它们是通过图7所示的预训练编码器-解码器网络从M和
M
−
M^-
M−中提取的,它们的共同特征图共享相似的像素强度分布和纹理细节。然而,它们独特特征的像素强度分布变化很大。通过比较,M的唯一特征图显示出与
M
−
M^-
M−相似的结构,但更丰富的像素强度分布。独特而丰富的像元强度可以作为光谱信息的表征。
M和
M
−
M^-
M−都用于联合训练频谱编码器-解码器网络。通过最大化M和重建的LRMS图像M~之间的相似性以及伪LRMS图像
M
−
M^-
M−和其重建
M
−
M^-
M− ~之间的相似性来训练它。损失函数的定义与(1)相同,只是(X,G)被(M,M ~)或(
M
−
M^-
M−,
M
−
M^-
M− ~)代替。B具体设定为4。该网络还以10的批量大小进行训练。迭代的数目被设置为10。参数表示为θ spec,并由AdamOptimizer以0.002的学习率和指数衰减进行更新。
PNet
通过综合考虑所生成的数据X和地面实况数据G之间在表面级特征和深层级特征两者上的相似性,全色锐化问题可以被修改为
为了求解(6)中的模型fp,我们设计了一个称为PNet的网络,其中要更新的参数表示为θp。
PNet的输入是P和↑ M在信道维度上的级联。PNet的体系结构如图8所示。有八层,其中每层由卷积层和以下激活函数组成。为了更有效地训练PNet并改善信息流,受密集连接块的启发,我们构建短连接在第二至第五层中。更具体地,以前馈方式在接近输入的层和接近输出的层之间建立直接连接。这些连接可以缓解梯度消失的问题,并加强特征传播,以提高网络性能,同时减少参数的数量。随后的三层逐渐减少特征图的数量,直到生成X。
对于每一层的具体设置,在激活功能之后显示特征图的编号。卷积层的核大小设置为3 × 3,步长设置为1。我们使用反射填充来减少边界伪影。除最后一层的激活函数为tanh外,前七层的激活函数均为斜率为0.2的LeakyReLU。