Unsupervised Pansharpening method Using Residual Network with Spatial Texture Attention

（基于空间纹理的残差网络无监督泛锐化方法）

近年来，深度学习已经成为最受欢迎的泛锐化工具之一，许多相关方法已经被研究并反映出良好的性能。然而，一个不可忽视的问题是缺乏地面实况（GT）。常见的解决方案是使用退化图像作为训练输入，原始图像被用作GT。低分辨率（LR）和高分辨率（HR）之间的学习映射是模拟的，不是真实的，这可能导致融合图像的光谱失真或空间纹理增强不足。为了解决这一问题，提出了一种新的无监督注意力泛锐化网（UAP-Net）。提出的UAP网络主要包含两个主要组成部分：1）深度残差网络（DRN）和2）空间纹理关注块（STAB）。DRN的目标是从低分辨率多光谱（LRMS）和全色（PAN）中提取光谱特征和空间细节特征，并融合这些特征，使其更具代表性。所设计的STAB采用相应输入PAN的高频分量作为权重，以增强剩余块输出特征的空间细节。建立了一个包含两个空间损耗和两个频谱损耗的新的损失函数。分别在空间域和频率域中计算损失。在Gaofen 2和Worldview-2遥感数据上的实验表明，该UAP-Net可以在不需要高分辨率多光谱（HRMS）的情况下有效地融合PAN和LRMS图像。该框架是完全通用的，可用于许多多源遥感图像融合，并达到最佳的性能方面的主观视觉效果和定量评价。

INTRODUCTION

高空间分辨率和高光谱分辨率遥感图像的获取是一个难点。为了弥补这一缺陷，许多卫星同时携带多光谱和全色传感器，以获得低空间分辨率的多光谱图像和高空间分辨率的全色图像。自然地，高分辨率多光谱（HRMS）可以通过融合LRMS和PAN来产生。研究人员已经提出了许多全色锐化方法，其主要可以分为三种类型：组分替换（CS）、多分辨率分析（MRA）和基于模型的方法。基于CS的方法主要将PAN作为表示空间细节的组件。然后，从LRMS提取的另一个空间细节分量被PAN替换以获得HRMS。典型的基于CS的方法包括强度-色调-饱和度（IHS）变换、主成分分析（PCA）、GramSchmidt （GS）和Brovey变换。一般来说，基于CS的方法具有最丰富的空间细节，几乎和PAN一样多。然而，由于替换的分量可能会在一定程度上影响融合图像的光谱，基于CS的方法遭受明显的光谱失真。为了减少频谱失真，已经提出了一些算法，例如频带相关空间细节（BDSD）注入，部分替换CS（PRACS）和Gram-Schmidt自适应（GSA）变换。
基于MRA的方法主要是将MS和PAN分解为高频和低频分量，然后设计不同的融合规则分别对高频和低频分量进行融合。最后通过逆变换得到融合图像。基于MRA的方法主要包括小波变换、离散小波变换、拉普拉斯金字塔、超越小波（例如，剪切波、轮廓波）和基于匹配调制传递函数（MTF）的高斯滤波器的广义LP（GLP）。与基于CS的融合方法相比，基于MRA的融合方法在一定程度上可以减轻融合图像的光谱失真，但在空间细节增强方面并不理想。
基于模型的方法将泛锐化任务视为一个逆问题，可以通过最小化具有先验约束的损失函数来解决。基于模型的方法主要包括稀疏表示和深度学习算法。Yang等人首先提出了一种稀疏表示泛锐化方法，该方法假设HR图像和LR图像对于不同的过完备字典具有相同的稀疏系数，并且HR和LR图像字典可以通过字典训练获得。Zhu等人直接使用PAN和下采样PAN作为过完备字典，融合图像的视觉效果得到了改善，但在图像的某些部分丢失了一些空间信息。基于稀疏表示的方法鲁棒性强，可以获得更好的融合性能，然而，它是不容易找到一个最佳的变换基，以获得最稀疏的表示的变换基。
大多数基于深度学习的方法都来自超分辨率（SR）重建。SR主要是建立LR-HR图像对，并使LR图像学习到HR图像的映射。基于SR的第一个泛锐化工作之一是泛锐化CNN（PNN）模型，其仅包含3个卷积层。此后，大量的相关算法被研究，其中一些改进了网络结构，如深化网络，使用剩余网络，使用密集块等等。此外，为了提高频谱和空间质量，已经提出了几种网络结构，例如双流融合网络，双向金字塔网络，编码器-解码器网络和多尺度CNN 。
由于缺乏HR地面实况，基于SR思想的那些泛锐化方法的常见解决方案是遵循Wald协议，使用退化图像作为LR图像，并且原始图像用作HR图像。这可能导致预测的HR图像频谱失真或空间纹理增强不足。为了避免模拟训练数据的退化，许多学者致力于无监督算法的发展。有的采用博弈论的生成对抗网络（GAN）来生成HRMS。Ma等人在GAN的基础上提出了一种称为Pan-GAN的无监督方法，其中生成器分别与光谱鉴别器和空间鉴别器建立对抗博弈，以保留融合图像的丰富光谱和空间信息。Zhou等人开发了一种名为PercepPan的方法，其中网络结构由生成器，重建器和鉴别器组成。PercepPan基于自动编码器和感知损失，不需要退化图像进行训练。Qu等人提出了一种基于自注意机制的泛锐化方法来估计空间变化细节提取和注入函数。Guo等人提出了一种基于模糊核学习的泛锐化方法，该方法可以以无监督的方式学习PAN和MS之间的空间和光谱模糊核。Ni等人开发了一种基于双流CNN的全色锐化方法，该方法结合了两个可学习的退化模块，可以适应复杂的模拟和真实的情况。Zhou等人采用双流生成器从PAN和MS图像中提取模态特定特征，并在特征域中融合提取的特征以重建融合图像。Wang等人开发了一种基于GAN的多尺度全色锐化方法，其中设计了一个多尺度密集生成器网络，从原始图像中提取特征，以生成HRMS图像。此外，另一组研究人员利用MS、PAN和融合图像之间的关系来设计空间约束和光谱一致性。例如，Xiong采用无参考质量评价函数作为损失函数来计算融合图像的光谱损失和空间损失。
近年来，为了提高网络的性能，提高网络的频谱和空间质量，越来越多的研究者关注于模型的损失函数，并考虑了大量的损失函数。例如，将L-1范数惩罚（参数稀疏惩罚）和L-2范数惩罚（权重衰减惩罚）添加到原始损失函数以改善网络的性能。此外，Xu等人提出了一种基于图像结构相似度的空间损失函数，以增强融合过程中空间信息的保留。在空间损失函数中，提取局部亮度、对比度和结构对比度来构造函数，评价融合图像与参考图像之间的结构相关性。受图像质量评价函数的启发，文献受图像质量评价函数的启发，文献[49]、[50]、[51]、[52]将光谱或空间评价指标应用于损失函数，取得了令人满意的效果。此外，为了捕捉融合图像和参考图像之间的感知差异，基于GAN的方法利用感知损失来提取高级语义特征，使得生成的图像可以很好地保留高频信息。将光谱或空间评价指标应用于损失函数，取得了令人满意的效果。此外，为了捕捉融合图像和参考图像之间的感知差异，基于GAN的方法利用感知损失来提取高级语义特征，使得生成的图像可以很好地保留高频信息。
为了克服缺乏真实性的缺点，提出了一种新的无监督注意力泛锐化网络（UAPNet）。无监督网络旨在将MS和PAN直接融合，利用无监督网络将原来的MS和PAN直接馈入网络中生成HRMS，而无需对训练数据进行退化处理。此外，为了更好地保留PAN的空间纹理信息，设计了一种基于空间纹理注意块的PAN高频。在空间纹理注意块中，采用高通滤波器提取PAN的高频分量。PAN的高频分量在梯度变化剧烈的部分（例如，边缘、纹理），而在接近0的部分梯度变化不明显。利用PAN的高频分量作为掩模可以有效地增强融合图像的空间细节。此外，为了保持融合图像良好的光谱信息，我们进一步设计了一个由两个空间损失函数和两个光谱损失函数组成的损失函数，分别在空间域和频率域计算融合图像的光谱损失和空间损失。在频域中计算的损失函数主要用于生成未完成的HRMS，并控制生成HRMS的亮度范围与输入图像一致。在空间域计算的损失函数主要用于对网络模型进行微调，使融合后的图像具有丰富的空间信息，同时频谱失真较小。我们的主要贡献可概括如下。
1）我们设计了一个无监督的注意力泛锐化网络，称为UAP-Net，它可以训练原始的MS和PAN图像，并避免使退化的模拟数据。所提出的UAP-Net是完全通用的，可用于多种多源遥感图像融合模型。
2)提出了一种基于PAN高频分量的空间注意块，使融合后的图像在保持良好的光谱信息的同时具有丰富的空间细节。
3)我们进一步提出了一个有效的混合损失函数计算在空间和频率域。所提出的损失函数优化无监督网络，以提高全色锐化结果的性能。
在这里插入图片描述

PROPOSED FUSION FRAMEWORK

Overview

提出的UAP-Net旨在通过融合PAN和LRMS在没有地面实况（GT）的情况下生成HRMS。设m∈ $R^{w×h×C}$ 和P∈ $R^{W×H×1}$ 分别表示输入LRMS图像和输入PAN图像。W和H表示PAN的宽度和高度，w和h表示MS的宽度和高度。通常，PAN与MS的空间分辨率比为W/w = H/h = 4。C是MS的光谱带的数目。因此，所需的融合HRMS图像记为M∈ $R^{W×H×C}$ 。
图1示出了所提出的用于全色锐化的无监督框架的概述。该网络主要由基于残差的特征提取块（Res-block）和空间纹理注意块（STAB）两个模块组成。首先，LRMS m被上采样到m↑∈ $R^{W×H×C}$ ，其分辨率与PAN相同。然后，我们连接上采样的LRMS m ↑和原始PAN P作为训练输入T ∈ $R^{W×H×(C+1)}$ 。接下来，使用高通滤波器来获得PAN的高频信息分量P_hp ∈ $R^{W×H×1}$ 。最后，T和P_hp被馈送到一系列的Res-block和STAB中以生成HRMS。由于所提出的方法是无监督的，没有参考图像的网络输出，进一步提出了一种新的混合损失函数。所设计的损耗函数包括两个空间损耗和两个谱损耗，分别在空域和频域测量融合后的HRMS图像。

Spatial Texture Attention Block (STAB)

该网络主要由特征提取块和注意力块组成。一般来说，增加网络的宽度和深度可以很好地提高其性能。深度网络通常比浅网络好，但简单地增加网络的深度会导致梯度分散或梯度爆炸。因此，提出了残差网络来解决上述问题。为了使网络能够提取不同层次的特征，改善网络退化问题，使网络更容易优化，我们采用残差网络作为特征提取块。
图2（a）示出了残差网络的结构。由于批量归一化层将拉伸图像的颜色和对比度，导致输出图像变差，因此去除批量归一化层。残差块具有两个卷积层，其后是整流线性单元（ReLU）函数层，卷积核的大小为3 × 3，并且在每个卷积层中使用32个滤波器。是逐像素加法运算。
现有的注意机制大多是通过神经网络的操作产生一个mask。将mask上的值视为权重，对需要注意的点给予更多的权重。由于没有直接监督这些mask的产生，很难解释注意力模型学到了什么。与现有的空间注意模块不同，本文提出了空间注意模块来增强融合图像的空间纹理信息。图2（b）示出了所提出的空间注意力模块的架构。首先，利用PAN的高频信息分量作为权值，由于PAN的高频图像在边缘和纹理部分表现出较高的值，而在亮度变化较小的区域接近于0。使用P_hp作为空间注意力的权重可以确保它只增强空间细节，也使所提出的STAB更直观和解释性。⊗是逐像素乘法运算。
STAB跟随残差块并且用于增强由残差块提取的特征的空间细节。在所提出的架构中，五个残差块和五个STAB用于融合MS和PAN。
在这里插入图片描述

Hybrid Loss Function

为了在全尺度图像上训练所提出的网络，如图3所示的一种新颖的混合损失函数。在这里插入图片描述
设计损失函数公式为：

损失函数包含四项，包括两个空间损失函数和两个谱损失函数。ω1、ω2、ω3和ω4是用于平衡这些损失项的贡献的权重。采用loss_spatial1度量融合图像的空间损失，其核心是通用图像质量指数（UIQI）。UIQI的表述为：在这里插入图片描述
其中x是输入图像，y是参考图像，σ_xy是x和y的协方差，σ_x和σ_y分别是x和y的方差，x-和y-分别是x和y的平均值。公式中的第一项是x和y之间的相关系数，其范围为[-1，1]。根据Cauchy-Schwartz不等式，第二项和第三项的范围是[0，1]。因此，UIQI的动态范围是[1，1]。当输入图像和参考图像的所有像素相等时，即，x = y并且UIQI取最佳值1。UIQI越接近1，融合图像的空间细节损失越小。然后，loss_spatial1公式为：在这里插入图片描述
其中，F是网络输出的融合图像，P_n是堆叠n次的PAN，并且n是融合图像的频带数。通过应用该空间损失函数，融合图像的每个波段的空间纹理信息尽可能接近PAN。
采用loss_spectral1测量融合图像的光谱损失，其核心是光谱角映射（SAM）。SAM公式为：在这里插入图片描述
SAM测量x和y之间的光谱信息的相似度。该值越小，网络输出的频谱失真越小，最佳SAM值为0。由于缺乏GT来评估融合图像的光谱失真程度，一种可行的方法是利用Wald算法将融合图像退化到原始MS尺寸，然后计算退化后的融合图像与原始MS之间的光谱损耗。基于此，loss_spectral1公式为：

在这里插入图片描述
当仅使用loss_spaceal1和loss_spectal1时，融合结果具有丰富的空间细节和较小的频谱失真。这是不理想的，并且仍然存在一些缺点，将影响网络训练和融合结果的质量。首先，UIQI使融合图像的每个波段尽可能接近PAN，这可以为融合图像提供良好的空间细节。然而，随着每个频带趋于PAN，频谱失真将不可避免地发生（在极限情况下，融合图像中的每个频带将是PAN）。第二，UIQI和SAM的计算都包含分母。在初始训练中，很容易分母为0，导致Nan损失。第三，UIQI和SAM的小值并不完全等同于融合图像的轻微空间和光谱失真。例如，将图像A的每个像素值放大2倍以得到图像B，然后计算图像A和图像B的UIQi和SAM值。显然，图像A和图像B的UIQi和SAM值都很小，但其他客观质量评价指标可能会受到图像A和图像B之间的不同范围的影响。此外，由于图像A和图像B之间的范围不同，数据显示期间的颜色合成和图像拉伸也会影响视觉效果。
为了使融合结果具有更好的视觉效果，更好的质量评价指标，并使网络易于训练。我们设计了一对在频域计算的损失函数作为上述损失函数的补充。所设计的补充损失函数为，在这里插入图片描述
图像的高频信息对应于急剧变化的部分，即图像的边缘、纹理和细节。loss_spatial2计算灰度融合图像和PAN的高频分量的均方误差（MSE），以使融合图像的空间纹理尽可能类似于PAN。上采样的MS可以被视为理想融合图像的分量，以去除高频信息。采用loss_spectral2来减小融合图像的低频分量与上采样MS之间的均方误差，以保证融合图像的频谱信息尽可能接近MS。由于在loss_spatial2和loss_spectral2中使用了MSE，融合图像的亮度范围与输入图像的亮度范围一致。