【跨层注意力：多层次融合】

Multi-level features fusion via cross-layer guided attention for hyperspectral pansharpening

（基于跨层注意力引导的多层次特征融合高光谱全色锐化）

近年来，卷积神经网络（CNN）在计算机视觉中的成功应用引起了人们的广泛关注。特别地，具有注意力机制的深度学习模型在高光谱（HS）全色锐化中表现出令人印象深刻的性能。然而，这些现有模型大多遵循早/晚融合策略，没有充分利用层次特征。为此，设计了一种新的基于跨层注意力引导的端到端多级特征融合网络（HP-MFFN），该网络能够逐层提取层次特征。由于网络的不同层次具有不同的感受域和包含不同的细节，利用跨层引导注意力融合模块（CLGAF）对从HS图像和全色图像中提取的层次特征进行细化，得到细节精细、语义丰富的空谱特征。

介绍

高光谱图像是一个包含空间域和光谱域信息的三维数据立方体。它在军事、农业、环境等诸多领域显示出显著的优越性。然而，由于传感器物理特性等因素的限制，空间分辨率和光谱分辨率之间存在着关键的折衷。HS图像通常具有几十条甚至上百条连续条带，空间分辨率较低，极大地限制了其应用。因此，现有的全色（PAN）传感器可以捕获具有高空间分辨率但低光谱分辨率的图像。因此，PAN图像作为一种互补信息，被用于融合同一场景的低分辨率HS（LRHS）图像，以生成高分辨率HS（HRHS）图像。此过程称为全色锐化。在地物精细分类、目标检测和环境检测等许多领域都表现出了良好的性能。
已经开发了大量的HS全色锐化方法，这些方法大致可以分为两类，即：传统算法和基于深度学习的算法。传统的算法可以进一步分为四类：成分替代（CS）方法、矩阵分解方法、基于贝叶斯的方法和多分辨率分析（MRA）。第一类算法主要包括Gram-Schmidt（GS）、自适应GS（GSA）和主成分分析（PCA）这些方法通过采用逆变换用PAN图像代替HS图像的空间分量。然而，这些方法可能导致一些明显的频谱失真。作为矩阵分解的代表，耦合非负矩阵分解（CNMF）算法交替分解HS和多光谱图像，以获得有利的端元和丰度矩阵。最近，作为矩阵分解的高阶推广的张量分解已被广泛应用于HS图像处理，例如HS图像分类、HS去噪和HS图像融合。例如，Dian等人提出的非局部稀疏张量分解方法（NLSTF_SMBF）实现了HS图像和多光谱图像的融合。随后，他们提出了一种基于低张量训练秩（LTTR）的融合算法，其中通过LTTR先验学习非局部相似HS图像立方体的空间、光谱和非局部模式之间的相关性。“…剩下的略…”

总之，一些学者的工作已经证明，来自多个层的特征有利于生成更好的结果。网络越深，接受域越大，这是一个被广泛接受的真理。具有小感受野的低级特征保留了高分辨率重建的细节，而具有大感受野的高级特征提供了图像区域类别识别的语义知识。
本文提出了一种端到端的多层次特征融合网络（HP-MFFN），旨在挖掘尽可能多的不同层次的细节特征，更有效地传递信息。该方法基于两重性提出。一方面，HP-MFFN能够重点提取每一层的PAN和HS细节，并基于注意力机制逐步整合这些提取的特征，以减轻直接重构高分辨率细节HS图像的困难。另一方面，采用空间-频谱关注机制进一步细化每一层的信息，提高特征表示能力。

贡献

1）提出了一种双分支多级特征聚合网络HP-MFFN，该网络有效地提取不同层次的层次特征，提高了全色锐化的性能。

2）受网络深度不同、感受野不同的启发，设计了跨层引导注意力融合模块（CLGAF），生成细节精细、语义丰富的精细化空谱特征,在每个CLGAF之间，通过密集连接形成连续的存储机制，以减轻一步恢复详细HS图像的难度。

3）与基于自然图像任务注意机制的HS全色锐化方法不同，本文提出了一种全局-局部空间-谱注意机制（GL-PySSAM），该机制由局部金字塔通道注意（LPCA）和全局金字塔空间注意（GPSA）组成，用于多核选择建模。GLPySSAM通过使用具有多个核的通道关注来局部地维持光谱相似性，并使用多个核来全局地捕获不同级别的对象信息，从而有助于产生更有效的空间-光谱特征。

相关工作

Method overview

设PAN ∈ $R^{1×M×N}$ 是可用的PAN图像，大小为M×N的。设H_l∈ $R^{C×m×n}$ 表示观察到的LRHS图像，其中C表示频带的数目，m×n是每个带上的像素数。让H_u∈ $R^{C×M×N}$ 表示上采样HS图像，其从LRHS H_l被内插到与输入PAN图像相同的大小，并且H∈ $R^{C×M×N}$ 表示期望的HS图像。

设计了高光谱全色锐化网络，利用PAN和H_u对HS图像H进行复原。大多数现有的基于深度学习的现有技术水平的全色锐化算法可以大致分为两类：1）早期融合算法，2）后期融合算法，其可以被描述为在这里插入图片描述
然而，早期的融合全色锐化方法是将PAN图像和预插值后的HRHS图像连接起来作为输入直接送入网络，未能充分利用PAN图像复杂的空间信息。对于后期融合全色锐化方法，这些高级模型主要集中于分别从PAN图像和HS图像中的深卷积层提取的高级特征的非线性组合。这些方法的输出结果常常由于缺乏低级信息（例如，对象边缘和细节）。

由具有小区域的浅卷积层生成的低层特征映射适合捕获输入图像的精细细节，这一点被广泛接受。随着网络的卷积层增加，每个卷积层中的特征将具有不同的感受域。CNN的本质是当前卷积层的每个像素是前一卷积层的感受野中所有像素的加权平均。CNN可以通过增加网络深度获得更大的感受野。因此，不同层次的卷积层可以捕获具有不同外观和形状的物体。在此基础上，提出了HPMFFN算法，分别用于提取HS图像和PAN图像的潜在多层次特征。HP-MFFN的流程图如图1所示。
请添加图片描述

HP-MFFN通过提取每一层的多层次特征，保证了融合结果的多样性，为生成满意的融合结果提供了更多的空间细节信息。简单地说，这个过程可以用公式表示为：在这里插入图片描述

The Architecture of HP-MFFN

拟议的HP-MFFN由三个部分组成：两分支多层次特征提取模块、基于空谱关注度的多层次特征融合模块和特征重构模块。为了保证双分支网络结构的高度相似性，HP-MFFN将预插值后的HRHS图像和PAN图像分别作为双分支的输入。HS图像分支开始于卷积层，其被采用以从预内插HS图像H_u提取初始浅层表示。在这里插入图片描述
CBs跟随第一卷积层。CB由两个卷积层和两个整流线性单元（ReLU）激活层组成。针对深度学习中“网络越深，感受野越大”的特点，提出的HP-MFFN采用3个CBs来提取多层次特征。在第一个convblock和最后一个convblock之间添加剩余连接，以避免以下公式的梯度色散问题在这里插入图片描述表示HS图像分支中第N个convblock的操作。PAN分支也由用于浅层特征提取的初始卷积层和用于多层特征提取的三个CBs组成。从PAN图像PAN获得的初始特征表示可以用公式表示为。
然后，利用CBs挖掘PAN图像的潜在多层次特征。同样地，残差连接也被嵌入到多级特征提取中。这个过程可以写成:
在这里插入图片描述
在获得PAN和HS图像不同层次的特征后，如何有效地融合层次特征是一个值得考虑的问题。现有的基于深度学习的HS全色锐化算法大多假设提取的特征具有相同的重要性。因此，针对上述问题，如图1所示，我们提出了一种**新的跨层引导注意力融合模块（CLGAF）**来融合层次特征,它可以表示为。
请添加图片描述
然后，我们采用两个卷积层和一个ReLU激活函数来重建一个满意的HRHS图像H。该过程用以下公式表示。
在这里插入图片描述

The Architecture of CLGAF

请添加图片描述

近年来，人们发现人类视觉系统的一个重要特性是每个人都能自动聚焦于感兴趣的区域而不是聚焦于整个场景。这种科学机制被称为注意机制，以往的文献对此进行了广泛的研究。如图1所示，本文采用了一种基于注意机制的多层次特征融合模型CLGAF，利用每一层的所有早期细化特征进行特征增强。在每个CLGAF之间，采用密集连接形成连续记忆机制，提高了空间-光谱特征的有效传递。具体地说，在网络的每一层，我们利用由局部金字塔通道注意力（LPCA）和全局金字塔空间注意力（GPSA）组成的全局-局部注意力模块（GL-PySSAM）来获得初始的精细特征。考虑到不同感受野的每一层特征所包含的信息不同，我们创新性地采用了层叠GL-PySSAM算法，利用早期提取的层次特征进一步增强初始细化特征，以捕获更详细的信息，促进更有效的信息流动。这个过程被称为跨层引导注意力融合。与传统的特征融合策略直接采用逐元素或串接运算不同，基于注意力的特征融合策略可以直接关注图像的高亮区域，提高特征的表示能力。设 $F^{Fu}$ _K表示 $F^{HSI}$ _K和 $F^{PAN}$ _K的和， $F^{HSI}$ _K和 $F^{PAN}$ _K分别表示第K层提取的特征。E_K表示CLGAF在第K层的输出。以第K层的CLGAF为例，可表示为在这里插入图片描述

The Architecture of GL-PySSAM

虽然现有的注意模块在视觉图像处理中表现出了良好的性能，但是将这些注意机制直接转移到与HS图像处理相关的任务中可能会产生一些问题。例如，传统的通道注意力（CA）算法直接压缩输入特征图的空间维度来计算通道注意力图，而使用通道注意力图来细化整体特征不可避免地破坏了HS图像的原始局部谱向量。同时，传统的空间注意（SA）模块采用核大小为3×3的卷积层或7×7生成空间注意掩模时，未能充分利用上下文感知信息，导致局部细节纹理平滑。因此，提出了LPCA和GPSA算法，有效缓解了传统注意带来的问题，进一步提高了全色锐化的性能。在GL-PySSAM中，我们利用LPCA和GPSA形成复合注意掩码，以便在网络中有选择地传递更有效的信息。

The Architecture of LPCA

LPCA是局部金字塔渠道关注的对象。基于同一HS图像中的相邻像素通常是相关或相关的概念，如图2所示，我们通过使用具有不同大小核的最大池和平均池，在局部区域采用通道关注，以保持局部光谱矢量相似性，并在通道维度上为每个局部区域定制不同的关注水平。在这里插入图片描述
我们首先整合输入特征地图F2RC的局部空间信息通过采用平均池化和和最大池操作在四个尺度3×3,5×5,7×7、9×9和步幅分别为3、5、7和9，其输出可分别表示为 $F^{k×k}$ _Lavg和 $F^{k×k}~Lmax~，k∈{3，5，7，9}，$ F^{{k×k}$~Lavg~和$F}{k×k}_Lmax将四个尺度转发到每个共享网络以生成四个局部信道注意力图M_Lavgc∈ $R^{C×((M-k))//k+1)×((N-k)//k+1)}$ ，k∈{3,5,7,9}和M_Lmaxc∈ $R^{C×((M-k))//k+1)×((N-k)//k+1)}$ ,k∈{3,5,7,9}。具有一个隐层的多层感知器（MLP）是每个尺度的共享网络的组成部分。为了最小化参数开销，隐层参数设置为 $R^{C/r×1×1}$ ,其中r是缩减比，1是核大小。然后，我们合并输出特征图 $F^{k×k}$ _Lavgc。
分别使用元素方式求和 $F^{k×k}$ _Lmaxc的四个标度。这个过程可以写成
请添加图片描述

为了融合4个尺度的局部信道关注度图，采用最近插值的方法保持局部区域的关注度权重不变。通过Sigmoid激活函数分别对各尺度的注意力图进行插值融合，得到最终的注意力图F_LC。简而言之，LPCA的计算公式为在这里插入图片描述

The Architecture of GPSA

在这里插入图片描述
GPSA是全局金字塔空间注意力。基于同一对象类别在同一幅图像中可以出现在不同尺度上的知识，如图3所示，我们采用了具有四个层次的不同类型核的空间注意力来捕捉不同层次的细节，使特征更加锐化。
输入特性的信道信息映射F是第一聚合特性映射采用maxpooling和avgpooling,分别生产两种特性表示: 在这里插入图片描述
为了获得更精细的空间注意力图，我们采用金字塔结构对输入进行多尺度解析。 $F^s$ _avg∈ $R^{1×H×W}$ 和 $F^s$ _max∈ $R^{1×H×W}$ 由金字塔核大小分别为3×3,5×5,7×7,9×9进行级联的卷积，然后在Sigmoid函数之后生成2D空间注意力图。简而言之，这个过程可以用公式表示为在这里插入图片描述

Loss function

{ $H^{(i)}$ _u、 $P^{(i)}$ ， $R^{(i)}$ }^N_i=1表示训练样本，其中N表示样本数。 $H^{(i)}$ _u、 $P^{(i)}$ 和 $R^{(i)}$ 分别代表第i个样本的输入预插值HRHS图像、输入PAN图像和参考HS图像。一些先前的HS超分辨率任务已经证明，均方误差（称为L2损失）可能产生过平滑结果，因为平方惩罚在图像边缘处不起作用。
因此,我们采用损失函数的平均绝对误差(称为L1损失),广泛应用于自然超分辨率商品形象的任务,导致微妙的细节。Pavia Center dataset的训练损失曲线图4所示。的损失函数HP-MFFN可以写成。