GTP-PNet: A residual learning network based on gradient transformation prior for pansharpening
(一种基于梯度变换的剩余学习网络)
提出了一种基于梯度变换先验的残差学习网络GTP-PNet,用于生成光谱分布准确、空间结构合理的高质量HRMS图像。与以往深度模型仅依赖于HRMS参考图像的监督不同,本文在深度模型之前引入梯度变换,以提高求解精度。该模型由梯度变换网络(TNet)和全色锐化网络(PNet)两个网络组成。TNet致力于寻找PAN和HRMS图像梯度之间的非线性映射,本质上是不同范围成像波段的空间关系回归。PNet是用于生成HRMS图像的残差学习网络,其不仅由HRMS参考图像监督,而且由训练的TNet约束。结果,由PNet生成的HRMS图像不仅在光谱分布上近似于HRMS参考图像,而且在空间结构上符合梯度变换先验。
介绍
遥感图像被广泛应用于许多领域,如环境监测和目标检测。常见的遥感图像包括两种以完全不同的模式形成的图像,即多光谱(MS)图像和全色(PAN)图像。MS图像包含丰富的光谱信息,而PAN图像具有高空间分辨率。然而,MS传感器的光谱/滤波机制需要一个较大的瞬时视场(IFOV)来满足信噪比的要求,这意味着它在保证了结果图像的光谱丰富度的同时,降低了空间分辨率。因此,无法获得高分辨率的多光谱(HRMS)图像,这在一定程度上影响了遥感的高精度应用。为了解决这一挑战,泛锐化技术融合了低分辨率(LR)光谱信息和HR空间结构信息,生成了HRMS图像,如图1所示:
在过去的几十年里,许多发展了泛锐化方法,根据原则可以分为六类: i)基于组件替代的方法。这种方法通常采用线性变换和替代,这些变换非常快速和容易实现,如强度饱和和主成分变换。ii)基于多尺度分解的方法。这些方法包括分解、融合和转换三个步骤。基于分解的方法同时提供了空间域定位和频域定位,并取得了更好的性能。iii)混合方法。这类方法结合了分量替代方法和多尺度分解方法的优点。具有代表性的是基于curvelet和ICA的融合。iv)基于模型的方法。它们通常基于建模的光谱优化和空间信息的保存,并且大多数遵循假设PAN图像(或其梯度)可以被建模为HRMS中的所有波段(或它们的梯度)之间的线性组合。v)基于深度学习的方法。这种类型的方法通常约束网络,以最小化融合结果与HRMS参考图像之间的距离。由于神经网络具有较强的非线性拟合能力,这类方法往往具有较好的性能。基于元启发式算法的方法。这类方法通常将其他领域的经验或规律引入泛锐任务中,以完成特定参数的估计。通常,一些方法使用仿生策略来估计每个MS波段的权重,以达到最佳强度。
在生成的融合结果的质量方面,最有前途的方法是基于模型和基于深度学习的方法,而其他方法在提高融合结果的空间分辨率的同时,通常会出现光谱失真。虽然这两种类型的方法在大多数情况下可以产生有希望的结果,但仍有两个重要的方面有待改进。首先,基于模型的方法的性能高度依赖于关于HRMS和PAN图像之间关系的假设。不幸的是,之前的工作并没有准确地建立这种关系,这限制了面板的进一步改进。其次,基于深度学习的方法只使用HRMS参考图像监督下的光谱信息,而没有考虑PAN图像丰富的空间信息。更具体地说,这些方法只建立了融合结果与HRMS参考图像之间强度的距离损失,从而导致一定的空间信息损失。
为了解决这些问题,我们提出了一种新的基于梯度变换先验的残差学习网络GTP-PNet,它在深度模型之前引入了梯度变换,以提高求解精度。我们的模型由两个具有不同功能的网络组成,即梯度变换网络(gradient transformation network
(TNet))和泛锐化网络(pansharpening network (PNet))。TNet的目的是寻找HRMS图像和PAN图像在水平和垂直方向上的波段之间的梯度映射。与以往的假设模型不同,我们将PAN和HRMS图像之间的梯度差扩展到非线性空间,从而可以建立更精确的梯度变换关系。PNet是泛锐化任务的目标网络,它采用残差学习来关注空间结构的保存。一方面,我们使用HRMS参考图像的约束来减少残差学习对最终结果的光谱质量的影响。另一方面,我们引入了TNet学习到的梯度映射关系,来约束融合结果中所包含的空间结构的合理性。我们还要求生成的结果在低分辨率水平上仍然满足与HRMS参考的一致性,这相当于向PNet添加一个额外的约束。在这些因素的帮助下,PNet不仅可以产生准确的光谱分布,而且具有合理的空间结构。值得注意的是,由于对特征通道数量的控制,我们的网络中的参数数量很小。因此,我们的方法可以在高速完成泛化任务,这是竞争与现有的替代方案来解决这些挑战。
贡献
首先,我们将HRMS和PAN图像之间的梯度变换假设扩展到一个非线性空间,从而建立一个更精确的梯度映射模型,称为TNet。
其次,在PNet优化之前引入网络网络学习的梯度变换关系,可以学习更合理的残差,从而抑制频谱失真和空间结构失真。
最后,通过定性和定量比较,我们证明了我们的GTP-PNet相对于现有方法的显著优势,并将我们的方法应用于其他遥感任务,即生成HR归一化差异植被指数(NDVI)。
相关工作
Model-based pansharpening methods
泛锐化的目的是保持PAN图像的空间结构和LRMS图像的光谱分布。然而,PAN是一个单通道图像,MS是一个多通道图像,这使得很难定义它们的纹理或强度之间的对应关系。大多数基于模型的方法都遵循这样的假设:PAN图像(或其梯度)可以被建模为HRMS图像的所有波段(或其梯度)之间的线性组合,这可以形式化为:
其中,PAN和MS代表PAN和HRMS图像,b为谱带指数,b为HRMS中的谱带总数。ω(·)和α(·)表示线性组合的系数,ε(·)并为偏差项。对于Eq.(1),已经给出了许多初步的解决方案。特别地,在广义HIS方法中,对不同的波段采用相同的权重。.此外,P+XS(Ballester等人提出)认为应该使用不同的值ωb来描述这种关系。因此,采用优化的方法来确定这些线性组合系数。然而,这些方法都依赖于Eq.(1)由于安装在卫星上的不同传感器对物体的响应特性非常不同,因此都有或多或少的光谱失真。换句话说,HRMS和PAN图像的强度差异很大,而MS图像强度的线性组合往往无法合成出较好的伪PAN图像,如图3 (a).所示因此,这降低了HRMS图像的强度保真度。
相对而言,保证PAN和HRMS图像空间结构的一致性更为合理,如图3 (b).所示因此,最近大多数方法都倾向于遵循Eq.(2),保证了PAN图像和HRMS图像的高通滤波分量的一致性,而不是强度。Chen等人提出了SIRF引入动态梯度稀疏性,它将PAN图像复制到与MS图像相同的通道数,并要求它们具有梯度一致性。值得注意的是,这一定义仍然存在问题。由于PAN图像是一个更宽的波段成像,其纹理结构比MS图像的任何波段都更丰富。因此,将PAN图像复制到多个通道,然后限制梯度的一致性是不合理的。随后,Jiang等人采用梯度重建误差L1/2惩罚法动态求解Eq.(2)的参数αb,可以产生更合理的结果。
LGC最近的一项工作创新性地指出,上述所有方法的线性加权都是基于全局视角,不能很好地模拟MS和PAN图像之间的局部关系。在此基础上,提出了一种具有局部梯度约束的变分泛锐化方法,它可以表述为:
其中,b为光谱波段的指数,ηb,k表示以通道b位置k为中心的图像块,αb,k和εb,k是局部区域ηb,k内常数的线性系数。这种局部梯度约束可以提供更准确的空间保护。然而,由于线性组合很难精确地拟合MS和PAN图像之间的这种复杂的梯度映射关系,因此对梯度映射仍有改进的空间。
Deep learning-based pansharpening methods
近年来,神经网络促进了泛锐化的巨大发展。基于深度学习的泛锐化方法依赖于卷积网络中强大的特征提取能力,通常可以获得相对较好的融合性能。我们提供了三个典型的工作来说明开发阶段。Masi等人引入了卷积神经网络(CNN)来实现泛锐化,这主要依赖于对HRMS参考图像的监督。然而,该神经网络的研究结果往往会出现局部空间结构在L2损失约束下被平滑的现象。此外,简单的三个卷积层使得PNN具有有限的非线性拟合能力,导致融合结果中存在一定的光谱失真。在意识到这一点之后,Yang等人提出了PanNet来提高泛锐化的性能。一方面,网络是在高通滤波域而不是图像域进行训练的。具体地说,他们将采样的MS图像加到网络学习到的残差中,生成最终结果,以加强空间结构的保存。另一方面,PanNet采用ResNet来深化网络,从而获得更准确的光谱分布。其他一些工作通过仔细设计网络结构来提高泛锐化的性能,如DRPNN和CMC。然而,在这些工作中,只使用融合图像和HRMS参考图像之间的距离来指导网络的优化。值得注意的是,如果不能明确地约束空间结构,将会影响最终融合结果的空间质量。以上所有工作都有监督,Ma等人首次使用生成对抗网络在没有监督的情况下实现泛锐化。他们的模型由一个发生器、一个光谱鉴别器和一个空间鉴别器组成,它们一起保存光谱和空间信息。值得注意的是,在保存空间信息时,他们采用了具有相等权重的线性组合的假设。如前所述,这是一个非常粗略的假设,对融合结果的质量有很大的影响。在本工作中,我们准确地建立了MS图像和PAN图像之间的非线性梯度变换关系,如图4所示。这种梯度转换关系作为先验引入我们的深网。这可以限制空间结构,使它们更合理。
方法
Problem formulation
泛锐化的主要目标是尽可能准确地保持光谱分布和空间结构。对于光谱信息的保存,在HRMS参考图像的监督下进行直接回归是一种通用而有效的方法。为了实现空间信息的保存,残差学习可以加强对纹理细节的关注,从而提高融合结果的空间质量。然而,残差实际上是大量的空间结构信息和一小部分光谱信息的混合物。由于对空间结构缺乏直接和明确的限制,限制了泛锐化展示的进一步改进。我们的GTP-PNet的主要思想是在空间结构上引入一个额外的有效约束,以提高空间质量的同时确保光谱质量。GTP-TNet的整体泛锐化框架如图5所示。可以看出,我们的方法由两个具有不同功能的网络组成,即TNet和PNet。PNet是完成泛锐化任务的目标网络,它采用了残差学习的有效设计。光谱信息主要由插值LRMS提供,空间信息从学习到的残差中获得。
GTP-TNet的整体泛锐化框架如图5所示。可以看出,我们的方法由两个具有不同功能的网络组成,即TNet和PNet。PNet是完成泛锐化任务的目标网络,它采用了残差学习的有效设计。光谱信息主要由插值LRMS提供,空间信息从学习到的残差中获得。值得注意的是,最终的融合结果是通过将学习到的残差添加到插值LRMS中而产生的。换句话说,学习到的残差也提供了部分光谱信息。因此,学习到的残差中所包含的纹理结构应符合空间信息的真实分布,否则会导致质量下降。
为了实现这一目标,我们提出了TNet来指导PNet的优化,从而使空间分布更加合理,如图6所示。TNet致力于寻找HRMS和PAN图像之间的梯度映射关系,这本质上是不同光谱波段之间的空间关系的回归。与之前的工作不同,我们将这种映射关系扩展到非线性空间,可以形式化为:
T(·)为TNet的非线性变换函数,▽为(水平或垂直)梯度算子。训练过的TNet作为指导PNet学习残差的前提,被称为梯度变换的先验。在PNet的优化过程中,TNet要求PNet生成的融合结果的空间结构必须符合梯度变换之前,这使得学习到的残差更加合理。因此,所提出的GTP-PNet可以产生高质量的HRMS图像,它不仅具有准确的光谱分布,而且具有精细的空间结构。值得注意的是,我们只使用TNet学习到的空间先验来指导PNet的训练,而在泛锐化过程中,光谱和空间信息的保存都是由PNet单独完成的。
Network architecture
Network architecture of TNet
TNet的网络结构如图7所示。TNet的任务是找到HRMS和PAN图像之间的梯度变换关系。我们设计了一个轻量级的网络来实现,网络有六个卷积层,以及它们的内核大小是3×3。除最后一层外,所有卷积层都使用Leaky ReLU作为激活函数,而最后一层采用Tanh作为激活函数。此外,我们还使用跳跃连接来结合深特征和浅特征,以提高特征的表达能力。
Network architecture of PNet
我们提出的PNet是一个双分支的CNN,如图8所示。首先,我们使用两个插值操作和两个卷积层对LRMS图像进行上采样到与PAN图像相同的大小。该模式可以避免由转置卷积引起的棋盘效应。其次,MS分支和PAN分支都使用四个卷积层来提取特征,其中PAN分支中的特征被单向注入MS分支,以提高MS分支中特征的空间质量。然后,使用三个卷积层来融合以前的特征并生成残差。最后,通过对插值的LRMS图像添加残差,得到最终的融合结果。值得注意的是,我们在一些卷积层之后使用空间注意(spatial attention (S-A))模块来加强对空间维度上有效特征的关注,S-A模块的详细结构如图8右下角所示。为了防止卷积过程中的信息丢失,我们基于DenseNet的思想重用了这些特性)。也就是说,每个卷积层的输入由之前所有卷积层的输出连接起来。除S-A模块外,所有卷积层的卷积核大小均为3×3。我们在前几个卷积层中使用泄漏的ReLU作为激活函数,在最后一层中使用Tanh作为激活函数。
Loss function
在我们的GTP-PNet中,TNet和PNet是独立优化的,所以它们有自己的损失函数。
Loss function of TNet
TNet的目的是找到HRMS和PAN图像之间的梯度映射。损失函数的定义如下:
Loss function of PNet
PNet是泛锐化的目标网络,设计了三个损失项来约束其优化:HR损失LHR、LR损失LHR和梯度变换损失LGT。我们将其正式化为:
其中LPNet表示PNet的总损失,γ(·)用于在这些损失项之间进行权衡。由于PNet是泛锐化的目标网络,我们使用L1损失而不是损失L2来减少回归引起的平滑效果.
HR损失项LHR用于限制融合图像在高分辨率水平上的分布,以近似于HRMS参考图像的分布,其形式化为:
LR损失项LLR表示生成的HRMS图像与原始LRMS图像分布之间的损失,定义如下:
其中↓P(LRMS,PAN)表示将生成的图像降采样为与LRMS图像相同的分辨率。实际上,它的设计遵循了Wald的协议,这要求融合的图像仍然在低分辨率水平上保持一致性。最小化LHR和LLR并建立一个循环一致性,从而使光谱分布的保持更加准确。
但是,如果我们只依靠上述两个损失项,仍然不能得到令人满意的结果。原因是空间信息的保存没有受到直接有效的约束,使得学习到的残差不合理。不幸的是,不合理的残差会导致质量下降。因此,我们引入训练后的TNet来指导残差的优化,并定义梯度变换损失LGT:
其中,LGT要求融合结果的空间结构必须满足TNet预先学习到的梯度变换。在这三个损失项的约束下,PNet可以学习实现高质量的泛锐化P(·),其中准确地保持了光谱分布和空间结构。