【双向ConvLSTM Network：遥感融合】

D2TNet: A ConvLSTM Network With Dual-Direction Transfer for Pan-Sharpening

（D2TNet: 双向传输的卷积长短期记忆递归神经网络用于泛锐化）

本文提出了一种高效的具有双向传输的卷积长短期记忆递归神经网络（convolutional long short-term memory (ConvLSTM) ）网络，称为D2TNet。我们设计了一个特殊结构的ConvLSTM网络，它允许双向通信，包括多尺度信息和多级信息。一方面，由于空间信息对尺度的敏感性和光谱信息对层次的敏感性，提取多尺度和多层次信息有利于更充分地利用源图像。另一方面，利用ConvLSTM来捕捉多尺度信息与多尺度信息之间的强相关性。此外，我们引入了多尺度损失，使得不同的尺度能够相互贡献，从而生成更接近地面真实情况的高分辨率多光谱图像。

介绍

由于卫星强大的地面测量能力，其传感器捕获的遥感图像包含了丰富的地面信息。低分辨率多光谱（LRMS）图像和全色（PAN）图像是两种常见的捕获模态。前者具有高光谱分辨率但低空间分辨率，而后者呈现相反的特征。为了满足一些实际应用的需要（如：土地勘测、环境监测和对象检测），全色锐化方法融合所捕获的LRMS图像和PAN图像以产生所需的高分辨率多光谱（HRMS）图像。由于生成的高分辨率遥感影像具有优良的特性，全色锐化已成为遥感影像处理领域的研究热点。

在过去的几十年里，泛锐化领域受到了越来越多的关注。已经提出了各种传统方法来解决全色锐化问题。一般而言，传统的全色锐化方法可以大致分为四类：基于分量替代（CS）的方法、基于多分辨率分析（MRA）的方法、基于CS/MRA混合的方法和基于模型的方法。由于地物的复杂性和不同传感器捕获的光谱特征的多样性，传统方法的手工设计使得难以在原始图像和目标HRMS图像之间建立联系。

幸运的是，在过去的几年里，由于神经网络强大的特征提取能力和非线性，深度学习已经成为人们关注的焦点，并被引入到包括图像融合在内的各种任务中。基于深度学习的全色锐化方法可以分为基于卷积神经网络（CNN）的方法和基于生成对抗网络（GAN）的方法。大多数基于神经网络的方法构建网络来提取特征，融合它们，并重建HRMS。编码器-解码器网络、密集卷积网络和剩余卷积网络是常用的网络结构。在此基础上，基于GAN的方法引入了生成器和鉴别器，通过它们之间的最小-最大博弈来实现融合过程，而不需要ground truth。基于CNN和GAN的方法都是在大数据量下训练的，能够建立从源图像到目标图像的更鲁棒的非线性映射，从而摆脱了传统方法的局限性，达到了最先进的性能。

目前基于深度学习的全色锐化算法取得了令人瞩目的效果，但仍存在一些亟待解决的问题。1）以往的研究大多将原始尺寸的LRMS和PAN图像直接输入网络。然而，不同传感器捕获的不同地物特征表现出较大的尺度差异。因此，不同尺度的图像可以包含部分不重叠的信息。考虑多尺度信息，增强多尺度信息之间的交互作用，有利于更好地利用源图像的多尺度信息，从而促进融合结果以维护更丰富的功能。
2）另一方面，尽管少数全色锐化方法考虑了多尺度信息，但它们倾向于通过dense blocks 或者 Resblocks来关联不同尺度和不同级别的信息。然而，不同尺度、不同层次的信息之间存在着很强的依赖性。不加区别地传递信息会导致无效或冗余信息的增加，同时降低有效信息的状态。如何正确传递信息是一个值得思考的问题。

为了继承深度学习的优点并科普上述问题，提出了一种高效的双向传递全色锐化方法D2TNet。具体而言，双向传递包括多尺度、多层次的信息交互。结合卷积长短期记忆递归神经网络（ConvLSTM）在处理长期信息依赖方面的优势，设计了一种八字形（eight-shaped）（如图1所示）的ConvLSTM网络，较好地解决了双向信息交互问题。
请添加图片描述

这种特殊的结构利用ConvLSTM中的三个门实现不同尺度和层次之间的长期信息交互。它能够更充分地利用原始信息，从而获得更丰富的空间细节和更逼真的光谱特征。除了八字形的ConvLSTM结构外，我们在总损失函数中引入了三尺度信息损失，这促进了空间和光谱分布更接近地面真实情况的HRMS图像的生成。

贡献

1）提出了一种基于ConvLSTM结构的有效信息双向传递全色锐化方法,使长期不同尺度之间的信息交互和水平,从而使充分利用原始信息和实现富裕的空间细节和更现实的光谱特性。
2）通过引入一种新的损失函数，包括三尺度损失，提高了融合结果与真实数据的一致性。
3）通过大量的实验，验证了本文提出的D2TNet算法在高效性的同时，还具有较好的性能。

相关工作

Deep-Learning-Based Pan-Sharpening Methods

近年来，随着深度学习在图像处理领域的发展，基于深度学习的全色锐化方法得到了广泛的应用。这些方法可大致分为基于神经网络的方法和基于遗传网络的方法。Masi等人受基于神经网络的图像超分辨率处理方法SRCNN的启发，引入PNN来解决全色锐化问题，这是第一个基于神经网络的全色锐化方法。它将插值的LRMS和原始PAN图像叠加，并将它们用作输入以生成HRMS图像。并拥有一个简单的网络,从而实现效率高。此外,Liu等人提出TFNet,利用CNN的特征提取能力。它构造一个encoder-decoder网络实现特征提取,特征融合和重建过程。Xu等人提出了SDPNet，侧重于空间信息和光谱信息。具体地说，设计了空间编解码器和频谱编解码器来选择两幅原始图像之间的唯一特征映射。此外，Wang等人引入了基于ConvLSTM的MPNet。该方法利用原有的ConvLSTM对LRMS和PAN图像进行不同层次的特征融合，但没有充分利用ConvLSTM的优势来驱动融合图像包含更多的有效信息。除上述方法外，还有一些基于多尺度特征的方法。Wang等人提出了MSDRN，这是一种多尺度深度残差网络。它将连接的原始图像降采样到不同的比例，并通过上卷积和连接将它们连接起来。Xu等人提出了一种多尺度网络，命名为CPNet。该算法首先对PAN图像进行2次和4次下采样，然后对LRMS图像进行相应次数的上采样，得到3组不同尺度的图像作为输入。在该方法中，我们遵循了CPNet中获取多尺度图像的方法。然而，它们将不同尺度的图像关联起来的方式是“pixel shuffle”，这是主观的人为决定，导致丢失信息的风险。之后，Jin等人提出了一种新颖的全色锐化方法，该方法使用拉普拉斯金字塔将图像分离到不同的尺度。针对每一尺度，设计一个融合CNN，得到融合结果。然而，它仅通过共享参数来关联多尺度特征，这种关联似乎很弱，不足以充分利用多尺度特征。此外，上述方法中的多级信息传递是通过dense blocks或者Resblocks来实现的，这忽略了浅级和深级之间的关系。

与基于神经网络的方法不同，基于遗传神经网络的方法通过生成器和鉴别器之间的对抗过程来实现融合。Liu等人提出了PSGAN，这是首次将GAN引入到全色锐化中。设计了一种融合PAN和MS图像的发生器，设计了一个融合PAN和MS图像的发生器，并利用鉴别器来缩小融合图像与ground truth之间差距。之后，Shao等人提出了使用残差编码器-解码器网络的RED-cGAN。条件判别器的设计可以进一步补充最终结果中的空间信息。此外，Ma等人提出了使用双鉴别器的Pan-GAN，这是一种无真实地面的无监督方法。双鉴别器迫使结果看起来既像PAN图像又像LRMS图像，从而拥有PAN图像的空间信息和LRMS图像的光谱信息。

在上述方法中，两幅原始图像之间的多尺度和多层次信息没有被利用或没有被适当地关联，它们中的任何一个都可能导致光谱失真或空间失真。为了充分利用原始信息，提出了一种新的多尺度、多层次信息传递方法。

Convolutional Long Short-Term Memory

长短期记忆递归神经网络（LSTM）是一个擅长处理长序列记忆问题的网络。与常规网络结构相比，LSTM改变了内部网络结构，增加了三个门：输入门、输出门和遗忘门。输入门两个元素的非线性变换,包括以前的时间戳的输出和输入当前的时间戳,获取新的输入。遗忘门基于先前时间戳和当前时间戳的状态选择性地更新状态向量。输出门基于遗忘门控制当前时间戳的输出。

当时间数据为三维图像时，普通的LSTM难以描述点间复杂的空间特征。为了更好地描述图像之间的时空关系，引入了ConvLSTM。它最早由Sectraetal提出，作者通过实验验证了ConvLSTM在获取时空关系方面优于LSTM。

由于ConvLSTM在传递图像信息方面的成功，它已经被广泛地应用于图像处理领域，包括图像分类、图像分割等，只有Wang等人引入了基于ConvLSTM的MPNet来解决全色锐化问题。然而，他们利用原始的ConvLSTM在不同层次上融合LRMS和PAN图像的特征，而没有充分利用ConvLSTM来驱动融合图像包含更多有效信息。由于ConvLSTM能够合理地筛选有用信息并将其传递给下一个时间戳，因此我们利用它来增强多尺度和多层次之间的信息交流。

方法

Problem Formulation

一方面，需要提取不同层次的层次特征，因为它们有助于更全面地表示原始信息。此外，CNN提取的深层低频特征可以看作是对浅层高频特征的进一步提取;深层级对浅层级有很强的依赖性。为此，我们设计了多级ConvLSTM来捕捉它们之间的差异，从而学习更准确的层次光谱特征。另一方面，由于不同尺度下的空间细节和光谱特征存在差异，多尺度信息的关联有利于保持更丰富的空间细节和更真实的光谱特征。此外，基于同样的原因，低尺度信息和高尺度信息相互依赖。因此，我们还设计了多尺度ConvLSTM来关联多尺度特征，以保持更丰富的空间细节和更真实的光谱特征。因此，为了更好地利用原始图像信息，有效地与多尺度、多层次信息交互，本文利用ConvLSTM在信息传递方面的优异性能，提出了一种基于ConvLSTM网络（D2TNet）的多尺度、多层次双向传递的全色锐化方法。

整个框架如图2所示。产生多尺度图像以获得分层信息。具体而言，对LRMS图像进行上采样以获得LRMS↑2和LRMS↑4。类似地，PAN图像被下采样以得到PAN↓2和PAN↓4。将三组相同比例的图像连接起来，并分别送入三个流（顶部、中部和底部）网络，如图2所示。
在这里插入图片描述

为了实现我们的目标，eight-shaped的ConvLSTM网络被设计用于链接不同尺度和不同层次的信息。为了向ConvLSTM网络提供相同类型的特征，我们让ConvLSTM之前的卷积层共享参数。此外，由于我们的损失函数利用了三流网络的所有乘积，最后的卷积层也共享参数，以保证中间和底部流网络有助于HRMS的生成。

Network Architectures

上游网络如图3所示：
请添加图片描述

在顶部、中部和底部流网络中，对应的卷积层具有相同数量的输入或输出通道，并且仅在它们的尺度大小上不同。简单地说，我们只给出了上游网络的网络参数。
Conv（·）中的三个参数分别表示核大小、输入通道数和输出通道数。除了最后一层使用tanh之外，所有卷积层的激活函数都是泄漏整流线性单元（ReLU）（lrelu）。ConvLSTM（·）中的三个参数分别表示单元数、第一个单元的输入通道和最后一个单元的输出通道。更具体地，每个单元具有相同的输入通道32和相同的输出通道32，这使得其易于在多尺度和多级之间传输状态。另外，由于残差网络具有学习效率高的优点，在实现过程中充分利用了残差网络。

请添加图片描述
对于ConvLSTM的每个单元，其内部网络架构如图4所示。计算过程可表述如下：
在这里插入图片描述
其中·表示乘法，* 表示卷积。
在我们的方法中，X_t表示这个单元的输入，C_t−1、H_t−1、C_t和H_t分别是表示最后一个单元的状态、最后一个单元的输出、这个单元的状态和这个单元的输出的符号。当这个单位是第一个单位时，我们将C_t−1和H_t−1设为全零，这也称为初始状态。从图2中，我们发现单元有可能具有两个输入状态，ConvLSTM 1的单元5;它不仅接收从单元2传递的状态，而且还接收从单元4传递的状态。在这种情况下，首先将单元4上采样到单元2的大小;然后，我们将所有输入状态相加以得到最终输入状态。各单元的具体操作如下（1）-（5）。首先，X_t、H_t−1和C_t−1在卷积后被积分到输入门，这实现了从X_t保持在C_t中的有效信息。同样，相同的元素被输入到遗忘门，以筛选从C_t−1到C_t的信息，而输出门控制从C_t到H_t输出多少信息。

Loss Functions

我们的损失函数包含对应于三流网络的三个部分。与传统的仅对融合图像进行约束相比，该约束更强，使得最终的融合图像更接近真实地面。整个损失函数可表示为
请添加图片描述

其中L_top、L_middle和L_bottom分别表示这三个流网络的损失函数。λ1和λ2被用来在（6）中的三个部分之间进行权衡。
1) Loss Function ofTop Stream Network:
对于上游网络，我们希望生成的HRMS尽可能接近ground truth。我们从光谱和空间角度限制HRMS的生成。具体而言，我们使用结构相似性指数（SSIM）和Frobenius范数来约束HRMS光谱信息与ground truth的相似性，并使用梯度损失来约束空间细节的相似性。此外，为了进一步约束特征，我们将获得的HRMS降采样到LRMS大小，并强制其特征信息收敛。因此，L_top确定为在这里插入图片描述
其中||·||F表示Frobenius范数。HRMS代表了顶流网络的生成图像，也是最终结果。
G表示获得的ground truth(根据Wald协议中的规则)。H、W和C分别表示HRMS图像的高度、宽度和通道数。SSIM（·）表示两个元素之间的SSIM。ξ1和ξ2被用于在（7）中的四个部分之间获得折衷。
2) Loss Functions ofMiddle and Bottom Stream Networks:
对于中游和下游网络，我们以与处理上游网络相同的方式约束它们。其损失函数如下：
请添加图片描述