D2TNet: A ConvLSTM Network With Dual-Direction Transfer for Pan-Sharpening

(D2TNet:用于泛锐化的双向传输ConvLSTM网络)

在本文中，我们提出了一种有效的卷积长短期记忆(ConvLSTM)网络，具有双向传输的泛锐化，称为D2TNet。我们设计了一个特殊结构的ConvLSTM网络，允许双向通信，包括多尺度信息和多级别信息。一方面，由于空间信息对尺度的敏感性和光谱信息对水平的敏感性，提取多尺度、多层次的信息，便于更充分地利用源图像。另一方面，利用ConvLSTM捕获多尺度信息和多层次信息之间的强依赖关系。此外，我们还引入了多尺度损失，使不同尺度之间相互促进，从而产生更接近地面真实的高分辨率多光谱图像。

INTRODUCTION

由于卫星强大的地面测量能力，其传感器捕获的遥感图像包含了丰富的地面信息。低分辨率多光谱(LRMS)图像和全色(PAN)图像是两种常见的捕获方式。前者具有高光谱分辨率而低空间分辨率的特点，后者则具有相反的特点。为了满足一些实际应用的需要(如土地调查、环境监测和目标检测)，pansharpening方法将捕获的LRMS图像和PAN图像融合在一起，产生理想的高分辨率多光谱(HRMS)图像。因为生成的HRMS图像中具有优良的特性，泛锐化已成为遥感图像处理领域的研究热点。
在过去的几十年里，泛锐领域受到了越来越多的关注。人们提出了各种传统的方法来解决泛锐化问题。一般来说，传统的泛锐化方法大致可分为四类:基于组件替换(component substitution, CS)的方法、基于多分辨率分析(multiresolution analysis, MRA)的方法、基于CS/MRA混合的方法和基于模型的方法。由于地物的复杂性和不同传感器捕获的光谱特征的多样性，传统方法的手工设计使得原始图像与目标HRMS图像之间难以建立联系。
幸运的是，在过去的几年里，由于神经网络强大的特征提取能力和非线性，深度学习已经成为人们关注的焦点，并被引入到各种各样的任务中，包括图像融合。基于深度学习的泛锐化方法可以分为基于卷积神经网络(CNN)的方法和基于生成对抗网络(GAN)的方法。大多数基于cnn的方法构建网络来提取特征，融合特征，重构HRMS。编解码器网络、密集卷积网络和残差卷积网络是常用的网络结构。在此基础上，基于GAN的方法引入一个生成器和一个鉴别器，通过它们之间的最小-最大博弈实现融合过程，不存在真值。基于CNN的方法和基于GAN的方法在经过大量数据训练后，都能够从源图像到目标图像建立更加鲁棒的非线性映射，从而摆脱传统方法的局限性，达到最先进的性能。
尽管目前基于深度学习的泛锐化算法已经取得了令人印象深刻的成果，但仍有一些紧迫的问题需要解决。一方面，以往的作品大多是将原始尺寸的LRMS和PAN图像直接输入到网络中。然而，不同传感器捕获的不同地物特征存在较大差异。因此，不同尺度的图像可以包含部分不重叠的信息。考虑多尺度信息，增强它们之间的交互作用，可以更好地利用源图像的多尺度信息，从而使融合结果包含更多的特征信息。另一方面，虽然一些泛锐化方法考虑了多尺度信息，但它们往往通过密集块或Resblocks来关联不同尺度和不同层次的信息。然而，不同尺度、不同层次的信息存在很强的依赖性。不加区分地传递信息会导致无效或冗余信息的增加，同时降低有效信息的地位。如何正确传递信息是一个值得思考的问题。在这里插入图片描述

为了继承深度学习的优势并解决上述问题，我们提出了一种有效的双向迁移泛锐化方法，称为D2TNet。具体来说，双向传递包括多尺度、多层次的信息交互。结合卷积长短期记忆(ConvLSTM)在处理长期信息依赖方面的优势，设计了一个如图1所示的八字形卷积长短期记忆网络，更好地解决双向信息交互问题。这种特殊的结构利用ConvLSTM中的三个门来实现不同尺度和层次之间的长期信息交互。它可以更充分地利用原始信息，从而获得更丰富的空间细节和更真实的光谱特征。除了八字形的ConvLSTM结构外，我们还在总损失函数中引入了三尺度的信息损失，使得生成的HRMS图像空间和光谱分布更接近地面真实值。
我们的贡献可以总结如下
1)提出了一种基于特定ConvLSTM结构的有效信息双向传递泛锐化方法，实现了不同尺度和层次间的长期信息交互，从而更充分地利用了原始信息，获得了更丰富的空间细节和更真实的光谱特征。
2)引入了一种包含三尺度损失的新型损失函数，增强了融合结果与地面真值的一致性。
3)进行了广泛的实验，以验证我们的D2TNet在具有高效率的同时从最先进的方法中脱颖而出。

RELATED WORK

Deep-Learning-Based Pan-Sharpening Methods

近年来，随着深度学习在图像处理领域的发展，基于深度学习的泛锐化方法越来越受欢迎。这些方法大致可以分为基于CNN的方法和基于GAN的方法。Masi等人受到基于CNN的图像超分辨率处理方法SRCNN的启发，引入PNN解决泛锐化问题，这是第一个基于CNN的泛锐化方法。它将插值后的LRMS和原始PAN图像叠加在一起，并将它们作为输入生成HRMS图像。PNN网络结构简单，效率高。此外，Liu等提出了利用特征提取能力的TFNet的CNN。它构建了一个编码器-解码器网络来实现特征提取、特征融合和重构过程。Xu等提出了以空间信息和光谱信息为重点的SDPNet。具体来说，设计了空间编解码器和光谱编解码器来选择两幅原始图像之间唯一的特征映射。此外，Wang等介绍了基于ConvLSTM的MPNet。它利用原有的ConvLSTM将LRMS和PAN图像在不同层次上进行特征融合，而没有充分利用ConvLSTM来驱动融合后的图像包含更有效的信息。除了上述方法外，还有一些基于多尺度特征的方法。Wang等提出了MSDRN，它是一种多尺度深度残差网络。它将拼接的原始图像下采样到不同的尺度，并通过上卷积和拼接将它们连接起来。Xu等提出了一种名为CPNet的多尺度网络。首先对PAN图像进行2次和4次降采样，并对LRMS进行相应次数的上采样，得到3组不同尺度的输入。在我们的方法中，我们遵循在CPNet中获得多尺度图像的方法。然而，他们将不同尺度的图像联系起来的方式是“pixel shuffle”，这是一种主观的人类决定，会导致信息丢失的风险。之后，Jin等人提出了一种新的泛锐化方法，利用拉普拉斯金字塔将图像分离到不同的尺度。对于每个尺度，设计一个融合CNN，得到融合结果。然而，它仅通过共享参数来关联多尺度特征，这种联系显得很弱，不足以充分利用多尺度特征。此外，上述方法中的多级信息传递都是通过稠密块或Resblocks来实现的，忽略了浅层和深层之间的关系。
与基于CNN的方法不同，基于GAN的方法通过生成器和鉴别器之间的对抗过程来实现融合。Liu等提出了PSGAN，首次将GAN引入到pansharpening中。设计了一个融合PAN和MS图像的生成器，并利用鉴别器来减小融合图像与地面真实之间的差距。之后，Shao等人采用残差编码器-解码器网络提出了RED-cGAN。条件鉴别器的设计可以进一步补充最终结果中的空间信息。此外，Ma等人提出了使用双鉴别器的Pan-GAN，这是一种没有接地真值的无监督方法。双重鉴别器使结果看起来既像PAN图像又像LRMS图像，从而既具有PAN图像的空间信息又具有LRMS图像的光谱信息。
在上述方法中，没有利用两幅原始图像之间的多尺度和多水平信息或没有适当关联，它们中的任何一种都可能导致光谱畸变或空间畸变。本文提出了一种考虑多尺度、多层次有效信息通信的新方法，使原始信息得到更充分的利用。

Convolutional Long Short-Term Memory

长短期记忆(LSTM)是一种擅长处理长序列记忆问题的网络。与普通网络结构相比，LSTM通过增加三个门，即输入门、输出门和遗忘门，改变了内部网络结构。输入门对两个元素(包括前一个时间戳的输出和当前时间戳的输入)进行非线性变换，以获得新的输入。遗忘门根据前一个时间戳和当前时间戳的状态选择性地更新状态向量。输出门根据遗忘门控制当前时间戳的输出。
当时间数据为三维图像时，普通LSTM难以描述点间复杂的空间特征。为了更好地描述图像之间的时空关系，引入了ConvLSTM。它最早由Xingjian等人提出，作者通过实验验证了ConvLSTM在获取时空关系方面优于LSTM。
由于ConvLSTM在传递图像信息方面的成功，它被广泛地应用于图像处理领域，包括图像分类、图像分割等。只有Wang等引入了基于ConvLSTM的MPNet来解决泛锐化问题。然而，他们利用原有的ConvLSTM对LRMS和PAN图像进行了不同层次的特征融合，并没有充分利用ConvLSTM来驱动融合后的图像包含更有效的信息。由于ConvLSTM可以合理地筛选有用的信息并将其传递到下一个时间戳，因此我们利用它来增强多尺度和多层次之间的信息通信。

PROPOSED METHOD

Problem Formulation

一方面，有必要提取不同层次的分层特征，因为它们有助于更全面地表示原始信息。此外，CNN提取的深层低频特征可以看作是对浅层高频特征的进一步提取;深层对浅层有很强的依赖性。因此，我们设计了多层ConvLSTM来捕捉它们之间的差异，从而学习更准确的层次光谱特征。另一方面，由于不同尺度的空间细节和光谱特征存在差异，关联多尺度信息有利于保持更丰富的空间细节和更真实的光谱特征。此外，低规模信息和高规模信息也是基于同样的原因相互依赖的。因此，我们还设计了多尺度ConvLSTM来关联多尺度特征，以保持更丰富的空间细节和更真实的光谱特征。
因此，为了更好地利用原始信息，有效地与多尺度、多层次信息交互，我们利用ConvLSTM在信息传输方面的优异性能，提出了一种通过ConvLSTM网络(D2TNet)双向(多尺度、多层次)传输的pansharpening方法。
整个框架如图2所示。生成多尺度图像以获取层次信息。具体来说，对LRMS图像进行上采样，得到LRMS↑2和LRMS↑4。同样，对PAN图像进行下采样，得到PAN↓2和PAN↓4。将三组相同尺度的图像进行串联，分别送入三流(上、中、下)网络，如图2所示。在这里插入图片描述

为了实现我们的目标，我们设计了八字形的ConvLSTM网络来连接不同尺度和不同层次的信息。为了向ConvLSTM网络提供相同类型的特征，我们让卷积层在ConvLSTM之前共享参数。此外，由于我们的损失函数利用了三流网络的所有乘积，最后的卷积层也共享参数，以保证中间和底部的流网络有助于生成HRMS。

Network Architectures

最终确定的网络结构如图2所示。顶流网络的网络参数如图3所示。
在这里插入图片描述
事实上，在顶部、中间和底部流网络中，相应的卷积层具有相同数量的输入或输出通道，只是它们的规模大小不同。简单地说，我们只给出了顶流网络的网络参数
Conv(·)中的三个参数分别表示内核大小、输入通道数和输出通道数。除最后一层使用tanh外，所有卷积层的激活函数都是漏整流线性单元(ReLU)(lrelu) 。ConvLSTM(·)中的三个参数分别表示单元数量、第一个单元的输入通道和最后一个单元的输出通道。更具体地说，每个单元具有相同的输入通道32和相同的输出通道32，这使得它易于在多尺度和多电平之间传输状态。此外，由于学习效率的优势，残差网络在实施过程中被充分利用。在这里插入图片描述

对于ConvLSTM各单元，其内部网络架构如图4所示。计算过程可表述如下: 在这里插入图片描述
其中·表示乘法，*表示卷积。
在我们的方法中，X_t表示该单元的输入，C_t−1、H_t−1、C_t和H_t分别表示最后一个单元的状态、最后一个单元的输出、这个单元的状态和这个单元的输出。当这个单位是第一个单位时，我们设Ct−1和Ht−1都为零，这也称为初始态。从图2中，我们发现一个单元有可能有两个输入状态，例如，ConvLSTM1的单元5;它不仅接收从unit2传入的状态，还接收从unit4传入的状态。在这种情况下，unit4首先被上采样到unit2的大小;然后，我们把所有的输入状态加起来得到最终的输入状态。各单元的具体操作如下(1)-(5)。首先，将X_t、H_t−1和C_t−1经过卷积积分到输入门，实现了Xt的有效信息保持在C_t中。同样地，同样的元件被输入到遗忘门以筛选从C_t−1到C_t的信息，输出门控制从C_t到H_t的信息输出量。首先，将X_t、H_t−1和C_t−1经过卷积积分到输入门，实现了X_t的有效信息保持在C_t中。同样地，同样的元件被输入到遗忘门以筛选从C_t−1到C_t的信息，输出门控制从C_t到H_t的信息输出量。

Loss Functions

我们的损失函数包含三个部分，对应于三流网络。与传统的仅对融合图像进行约束相比，这种约束更强，使最终的融合图像更接近地面真实。整个损失函数可以表示为:
在这里插入图片描述
其中L_top、L_middle和L_bottom分别表示这三种流网络的损失函数。λ₁和λ₂被用来在(6)中的三个部分之间进行权衡。

Loss Function of Top Stream Network: 对于顶部流网络，我们期望生成的HRMS尽可能接近地面真相。我们从光谱和空间两个角度约束了HRMS的生成。具体地说，我们使用结构相似度(SSIM)指数测量和Frobenius范数来约束HRMS与地面真值之间光谱信息的相似性，并使用梯度损失来约束空间细节的相似性。此外，为了进一步约束特征，我们将得到的HRMS降采样到LRMS大小，并强制其特征信息收敛。因此，确定L_top为
HRMS表示顶端流网络的生成图像，这也是最终结果。G表示地面真值，根据文献[31]中引入的Wald协议得到。H、W、C分别表示HRMS图像的高度、宽度和通道数。SSIM(·)表示两个元素之间的SSIM。利用ξ1和ξ2在式(7)中的四个部分之间进行权衡。
Loss Functions of Middle and Bottom Stream Networks:对于中间和底部流网络，我们以与处理顶部流网络相同的方式约束它们。它们的损失函数如下所示:
其中，HRMS₂和HRMS₄分别代表中流网络和底流网络的产物。G↓2和G↓4是将接地真值降低到原始尺寸的一半或四分之一的产品。