【基于通道-空间注意的高分辨率锐化】

Channel–spatial attention-based pan-sharpening of very high-resolution satellite images

（基于通道-空间注意的很高分辨率卫星影像全色锐化）

全色锐化处理旨在生成新的合成输出图像，其保留全色的空间细节和多光谱图像输入的光谱细节。近年来，基于深度学习的方法在遥感领域取得了巨大的成功，主要是传统卷积神经网络（CNNs）的应用。传统的基于神经网络的方法大多对所有信道一视同仁，无法学习信道间的相关性。注意机制可以学习通道间的相关性，在超分辨率和目标检测任务中被证明是有效的。在本研究中，我们借由设计一个密集残余注意力模组（RAM），提出了一个新颖的深度学习架构–以通道空间注意力为基础的全色锐化方法（CSAPAN）。此外，我们在高频域训练模型，并在与全色图像叠加以进一步提取特征之前，使用像素重排（pixel shuffle）方法对低分辨率多光谱图像进行上采样。

介绍

全色锐化是遥感中生成新的合成输出图像的常用技术，该合成输出图像保留全色的空间细节和多光谱图像输入的光谱细节。全色锐化遥感图像已广泛应用于土地覆盖分类、变化检测、目标检测，甚至Mastcam图像。在过去的几十年里，人们提出了各种方法来对地球观测（EO）数据进行全色锐化，这些数据可以分为四类：(1)基于组件替换（CS）的方法;（2）基于多分辨分析（MRA）的方法;（3）基于变分优化（VO）的方法;（4）基于深度学习的方法。此外，Kwan等人从是否使用点扩散函数（PSF）的角度将全色锐化方法分为四类。
最近，基于深度学习的方法在全色锐化中得到了广泛关注并产生了成功的结果。基于神经网络的全色锐化（PNN）的思想来源于使用卷积神经网络的超分辨率（SRCNN），SRCNN是为单幅图像超分辨率而设计的，仅包含三个卷积层，并取得了令人满意的结果。Yang等人提出了一种PanNet，其中上采样的多光谱图像被包含在网络输出中以保持光谱，并且网络在高通滤波域中进行训练以保持空间。Yuan等人提出了一种多尺度多深度卷积神经网络（MSDCNN），其中PNN被用作浅部，较深的多尺度特征提取层被用作深部，以生成深度架构。Wang等人进行了详细的比较分析，以评估典型的基于深度学习的模型的全色锐化结果的性能和视觉质量。
2018年提出了一种用于遥感图像全色锐化的生成对抗网络（Generative adversarial network，PSGAN），该网络以两个流为生成器，以三层卷积网络为鉴别器，并取得了竞争性的结果。最近，Ozcelik等人提出了一种自监督框架PanColorGAN，将全色锐化处理作为一个彩色化问题，实现了高水平的空间细节保持。
由于当前基于神经网络的方法通常公平地对待所有通道，并且不能学习通道之间的相关性，因此提出了注意机制，并且已经证明在目标检测和图像超分辨率任务中是有效的。在遥感领域，Li等人引入了多尺度信道注意残差网络（MSCARN），用于提取多尺度特征和信道特征。不过，在全色锐化任务上仍值得进一步探索。

在本研究中，我们提出了一个新的深度残余通道-空间注意力为基础的框架，即CSAPAN的全色锐化任务，通过构造一个密集残余注意力模块（RAM）。首先，我们将通道空间注意机制引入到全色锐化中，以改善和提高全色锐化图像的质量。其次，与传统的基于CNN的方法相比，我们在高频域中训练我们的模型以保留空间信息，并且使用双三次插值方法的上采样多光谱图像通过网络传播以进行光谱保留。最后，当与全色图像叠加用于进一步的特征提取时，我们使用像素重排（pixel shuffle）方法而不是简单的双三次插值对下采样的多光谱图像进行上采样。

Material and methods

Attention mechanism

基于CNN的网络已经在包括全色锐化在内的各种任务中取得了有希望的性能。然而，在基于CNN的网络中，所有的信道被同等对待，低分辨率图像中包含的丰富的高频信息没有被充分利用。注意机制被提出来解决这些问题，并且已经被证明能够学习通道之间的更深的相互依赖性，如在用于图像超分辨率的具有递归挤压和激励网络（SESR）的单幅图像超分辨率和非常深的残余通道注意网络（RCAN）中所示。图1（a）描述了挤压和激发模块。SE模块包括通过使用平均池来挤压每个通道的全局空间信息的挤压函数以及包含两个完全连接的层和Sigmoid函数。然后，sigmoid函数的输出与原始H × W × C输入进行元素级乘积，以完全捕获通道级相关性。请添加图片描述
图1（b）示出了信道注意模块（CAM），其用卷积层替换了全连接层。简单地说，设X ∈ $R^{H×W×C}$ 是一个具有C个特征的输入，特征大小为H × W。我们通过应用平均池得到了信道统计量z ∈ $R^C$ 。然后，我们通过使用sigmoid函数来获得注意映射 s:
在这里插入图片描述
其中f和σ分别表示Sigmoid函数和ReLU函数。W_D表示具有缩减率r的信道下采样卷积层的权重。W_U表示具有比率r的信道上采样卷积层的权重。最后，利用学习到的通道统计量对输入信号X进行尺度变换。
请添加图片描述

图1（c）描述了空间注意力模块。输入X ∈ $R^{H×W×C}$ 的最大池和平均池沿着信道轴的级联被馈送到卷积层。然后我们计算Sigmoid函数的输出与原始H ×W × C输入的逐元素乘积。

Proposed framework

我们提出的CSAPAN的总体框架如图2所示。该方法由四部分组成：图像预处理、特征融合子网络、超分辨率子网络、光谱保持子网络。
请添加图片描述

Image preprocessing

基于Wald协议设计了典型的基于深度学习的全色锐化模型,包括PNN 、MSDCNN、PanNet 。根据Wald协议，首先对I_PAN和I_MS进行尺度因子为4的降采样，分别得到全色I_PAN-down和多光谱图像I_MS-down的降分辨率。其次，通过比例因子4对下采样的多光谱图像I_MS-down进行上采样，以生成具有与原始多光谱图像I_MS相同分辨率的上采样的多光谱图像I_MS-up。最后，基于深度学习的模型将I_PAN-down和I_MS-up作为输入，将IMS作为目标图像来计算损失。I_HRMS代表融合的全色锐化图像。我们还根据Wald的协议训练我们的模型。
请添加图片描述

从图2可以看出，红色虚线框为图像预处理部分。首先，全色图像I_PAN被下采样到多光谱图像的大小，缩放因子为4 ×到I_PAN-down。其次，对多光谱图像I_MS进行4倍尺度下采样，得到I_MS-down。在这里插入图片描述

Features Fusion subnetwork

特征融合如图2中的绿色虚线框所示。在特征融合子网络中，首先对输入的I_PAN-down和I_MS-down进行高通滤波，得到高频信息I_PAN-edge和I_MS-edge。然后，我们使用三个卷积层和一个像素混洗层对I_MS-edge进行上采样以产生I_MS-edge-up。因此，我们有
在这里插入图片描述
我们将X_fuse表示为I_PAN-edge和I_MS-edge-up的级联特征：

其中f_concat表示级联操作。

Super-resolution subnetwork

受图像超分辨率任务的启发，我们设计了一个超分辨率子网络，如图2中紫色虚线框所示，用于学习图像的高频。超分辨率子网络由一个用于浅层特征提取的卷积层、多个用于深层特征提取的剩余注意模块（RAM）和另一个用于图像重建的单个卷积层组成。
让我们将X₀表示为浅层特征提取部分的输出。
请添加图片描述
如果我们将 $X^i$ _in和 $X^i$ _out分别作为第i个RAM模块的输入和输出
在这里插入图片描述
然后，使用卷积层来重构图像信息。假设我们有n个RAM模块，

Spectral preservation subnetwork

光谱保存子网络如图2中的蓝色虚线框所示。为了保存光谱信息，我们通过使用具有4 ×比例因子的简单双三次插值方法将I_MS-down上采样到I_MS-up，并将长跳跃连接添加到深度残差网络，如红线所示。因此，最终全色锐化输出I_HRMS可描述为在这里插入图片描述

Residual attention module

提出了一种用于深度信息提取的剩余注意力模型。提出的RAM是由超分辨率任务中使用的注意机制激发的。如图3所示，RAM由密集残差块、注意块、1 × 1卷积层和全局跳跃连接组成。
请添加图片描述
密集残差块由五个卷积层组成，每一层将所有后续层作为其输入。我们在卷积层后增加了一个注意模块，如图1（a）-（c）所示，用于学习通道之间的相关性，并分别命名为CSAPAN-SE、CSAPAN-CA和CSAPAN-CBAM。同时，我们将不使用注意模块的模型命名为NCAPAN，以评估注意模块的效果。添加1 × 1卷积层以改变特征的尺寸。最后，采用全局跳跃连接来稳定训练过程。
请添加图片描述