Zero-shot：半监督：pansharpening

Zero-shot semi-supervised learning for pansharpening

（用于全色锐化的零次半监督学习）

全色锐化是指融合低分辨率多光谱图像（LRMS）和高分辨率全色（PAN）图像以生成高分辨率多光谱图像（HRMS）。传统的全色锐化方法使用单对LRMS和PAN以全分辨率生成HRMS，但是由于融合产物之间的线性关系（通常不准确）的假设，它们无法生成高质量的融合产物。卷积神经网络方法，即，有监督和无监督学习方法可以对数据之间的任意非线性关系建模，但当测试数据与训练数据不一致时，性能甚至比传统方法更差。此外，监督方法依赖于模拟降低分辨率的数据进行训练，导致全分辨率的信息丢失。由于缺乏参考图像和退化过程估计的不准确性，无监督的泛锐化遭受失真。在本文中，我们提出了一种用于泛锐化的零镜头半监督方法（Zero-Shot Semi-Supervised Method for Pansharpening，简称Zero-Pan），该方法只需要一对PAN/LRMS图像来训练和测试网络，结合了监督和非监督方法的优点。面对训练数据有限和没有参考图像的挑战，使用两阶段三分量模型构建了C-Pan框架，即，降低分辨率的监督预训练（RSP）、空间退化建立（SDE）和全分辨率无监督生成（FUG）阶段。具体而言，一个特殊的参数初始化技术，数据扩充策略，并提出了一个非线性退化网络，以提高网络的表示能力。

Introduction

遥感图像通常需要高空间分辨率，这在许多领域中是必不可少的，例如，气象、农业和环境观测。在保持信噪比（SNR）的约束条件下，通过改进卫星硬件来提高遥感产品的空间和光谱分辨率是一项艰巨的任务。因此，许多商业传感器，包括WorldView-3（WV 3）和WorldView-2（WV 2），产生两种具有互补特征的图像：保留光谱信息的低分辨率多光谱（LRMS）图像；以及高空间分辨率全色（PAN）图像，即，具有比MS对应物更精细的分辨率的单色数据。全色锐化是指MS和PAN图像的融合，其目标是构建高分辨率多光谱图像（HRMS），结合所获取的LRMS/PAN对的最佳特征，如图1所示。在这里插入图片描述

近年来，已经提出了许多全色锐化算法，以从MS图像中提取光谱信息和从PAN图像中提取空间信息，并产生有效组合它们的图像。它们可以大致分为四类，即（i）组件替换（CS）方法，（ii）多分辨率分析（MRA）技术，（iii）变分优化（VO）方法，（iv）深度学习（DL）方法。CS ，MRA 和VO方法是三种传统的泛锐化类，（通常）严重依赖于线性数学建模和优化。例如，基于CS的Gram-Schmidt光谱锐化方法将GS正交化应用于MS图像，基于MRA的广义拉普拉斯金字塔方法设计MS传感器的调制传递函数（MTF）匹配滤波器以获得高性能。基于VO的方法将全色锐化任务视为不适定的逆优化问题，包括贝叶斯方法，变分方法，基于元分析的方法和压缩传感技术。这些方法基于坚实的数学基础，并且具有仅使用单对LRMS和PAN来生成HRMS的优点。然而，由于LRMS、PAN和HRMS之间的线性关系的假设（通常是无效的），它们中的许多表现出光谱和空间失真，这意味着其结果的性能降低。
DL方法，利用卷积神经网络的有效特征提取能力来实现高性能。DL广泛应用于许多计算机视觉领域，即，图像超分辨率，图像分割和图像去噪。由于在全分辨率下没有参考，因此处理该问题的方式主要可分为两类，即，监督学习和无监督学习方法。对于监督学习方法，网络的训练依赖于降低分辨率的模拟数据，并且在降低分辨率下训练的网络以全分辨率用于测试，从而生成HRMS。然而，在降低分辨率下的训练可能会扭曲全分辨率下的原始特征，因此，监督泛锐化在全分辨率实验中的表现通常比降低分辨率的实验更差。无监督泛锐化最近引起了人们的注意，作为提高全分辨率性能的解决方案。无监督网络的训练是直接在全分辨率下进行的，训练是基于对退化过程建模以计算损失函数。然而，这些技术对降解过程的（通常是线性的）估计是不准确的。此外，这些方法仍然需要大量的训练数据，并且当训练数据与测试数据不一致时，它们的性能可能比传统方法更差。Zero-shot学习（在计算机视觉中引入）可以在训练和测试阶段使用相同的图像。由于训练数据的最小大小，Zero-shot方法可以相对快速地训练。此外，由于训练和测试是在同一图像上执行的，因此不需要额外的模拟图像，并且训练和测试数据完全一致。
提出的零次半监督学习泛锐化（Zero-Shot Semi-Supervised Learning for Pansharpening，简称ZS-Pan）试图解决传统泛锐化和DL泛锐化的缺点。ZS-Pan利用一对LRMS和PAN图像作为非线性网络的输入，探索它们的原始特征。应用零次学习的挑战包括有限的训练数据和缺乏参考图像。为了应对这些挑战，提出的ZS-Pan由三个相关组件构建，即，降低分辨率的监督预训练（RSP），空间退化建立（RSP）和全分辨率无监督生成（FUG）阶段。这项工作的贡献如下：
1）我们提出了一种用于多光谱全色锐化任务的零次半监督学习算法(ZS-PAN)。任何全色锐化网络都可以使用ZS-PAN作为即插即用模块，在全分辨率下进行训练，并使用唯一的LRMS/PAN对，而不需要标记的数据。据我们所知，这是首次尝试应用零次半监督学习策略进行全息锐化。
2）设计了一种两阶段三分量半监督模型来解决训练数据有限和无参考图像的问题。更具体地，在RSP阶段中，仅对可用的LRMS和PAN图像对进行监督训练。在建模阶段，设计了一个MS2PAN网络来学习非线性空间退化过程。最后，在FUG阶段，在上述两个阶段的支持下进行无监督训练，得到HRMS图像。

Related works and motivations

所提出的ZS-PAN半监督框架属于DL类。由于泛锐化没有自然的参照，现有的范式可以分为两类，即有监督和无监督。在这一部分中，我们将首先介绍现有的监督和非监督的全锐化学习策略，以及其他计算机视觉领域的零次学习。之后，我们将指出这项工作的动机。不同全锐化策略的框架如图2所示。在这里插入图片描述

Supervised learning for pansharpening

由于卷积神经网络强大的特征提取能力，DL的使用最近成为泛锐化的热门话题。监督泛锐化的核心思想是使用模拟数据以降低的分辨率训练网络。LRMS和PAN图像被下采样以达到降低的分辨率并用作输入。相反，利用原始LRMS图像作为参考。然后，在降低分辨率下训练的网络在全分辨率下用于测试，从而生成HRMS图像。第一个用于泛锐化的卷积神经网络之一已经在[50]中开发出来，即所谓的PNN。PNN应用了一个简单的三层全卷积模型，带有整流线性单元（ReLU）激活。Yang等人设计了一个深度卷积神经网络（CNN），称为PanNet。PanNet分为两部分，一部分用于保留空间细节，另一部分用于保留光谱信息。为了更好地提取这些信息，使用四个ResNet块使用跳过连接来加深网络深度。Deng等人探索了CNN方法和传统融合方案的组合，即，CS和MRA，以解决pansharpen的任务，并创建一个新的基于CNN的架构，称为FusionNet。
然而，在大多数监督方法中存在两个限制：（1）全分辨率失真，即，由于缺少HRMS图像，网络的训练以降低的分辨率进行，因此忽略了原始（全）分辨率的特征;（2）大规模数据集依赖性，即，基于CNN的网络的训练需要大量的数据，这意味着使用高性能设备和长的训练时间。此外，当训练数据与测试数据不一致时，这些监督网络的性能会降低。

Unsupervised learning for pansharpening

为了克服监督学习方法的缺点，已经提出了一些基于无监督学习的泛锐化方法。无监督学习意味着训练不再依赖于模拟高分辨率MS图像，而是依赖于PAN和MS图像本身（表明网络可以在全分辨率下训练）。在这种情况下，主要问题是损失函数没有利用任何参考数据，并且应该使用输入的LRMS和PAN数据以及融合的HRMS立方体来计算。因此，要以无监督的方式工作，必须回答以下问题：（1）如何建模HRMS和LRMS图像之间的光谱关系？(2)如何建立HRMS和PAN图像之间的空间关系模型？关于第一个问题，HRMS图像通常被下采样到LRMS分辨率，使用后者进行比较。相反，对于第二个问题，线性模型经常被利用。例如，Ma等人考虑将HRMS波段的光谱平均值与PAN图像进行比较。在[52]中，Luo等人通过线性模型将HRMS波段与通过PAN图像的下采样版本和LRMS立方体之间的均方误差最小化计算的相关系数相结合。在[53]中，利用具有高空间保真度的传统方法对空间关系进行了建模。非线性和多阶段模型通常是其他无监督方法的首选，因为它们放松了线性假设。例如，GTP-PNet 设计了一个TNet来建立HRMS和PAN图像之间的梯度连接。SUFNet提出了跨尺度学习和两阶段比较。Zhang等人还设计了P2 Net和STNet用于P2 Sharpen中的非线性空间关系和多阶段训练。虽然这些方法使用更合理的非线性关系，但它们使用复杂的损失函数，例如，P2 Sharpen中的五个损失函数和SUFNet中的四个损失函数，使得参数调整过程过于困难，因此难以获得良好的结果。
无监督泛锐化方法仍存在一些局限性：（1）缺乏参考数据，导致损失函数难以设计，且方法对所选损失和相关超参数的敏感性较高，从而导致调整阶段复杂;（2）训练的大规模数据集依赖性，甚至需要比监督学习更多的计算资源，因为它是在全分辨率下完成的;（3）训练和测试数据之间的不一致可能导致非理想的泛锐化结果，如对于监督技术一样。

Zero-shot learning

零次学习依赖于单个图像，其中训练和测试在同一图像上执行。zero-shot方法不需要大量的训练数据，因此训练非常轻。针对图像超分辨率问题，首次提出了图像处理领域的零拍学习方法。在[48]中，Shocher等人指出，单个图像内部的视觉熵比一般的外部图像集合小得多，因此可以使用单个图像训练网络。实际上，zero-shot超分辨率的核心是使用轻量级网络的隐式跨尺度补丁匹配方法。此后，零次学习被多次尝试用于超分辨率，甚至在其他研究领域。对于图像恢复，Wang等人提出了一种使用去噪扩散零空间模型的零拍摄学习策略。在遥感和多光谱图像锐化领域，Nguyen等人将零次学习应用于Sentinel-2锐化，其中跳过连接CNN优于SOTA方法。
无论如何，将零次学习应用于全色锐化仍然存在一些困难：(1)如何建立空间和光谱关系？由于零次学习没有参考图像，因此，无监督学习的典型挑战也存在于零次任务中。(2)如何解决数据受限的问题？零次全色锐化的输入仅为单个LRMS/PAN对。如何利用有限的数据量生成高质量的HRMS图像是另一个相关的问题。

Motivations

基于DL的全色锐化具有很大的数据集依赖性，但传统的全色锐化方法提醒我们，小数据也可以生成高质量的融合结果。虽然数据驱动的方法在某些领域取得了令人满意的结果，但当训练和测试数据不一致时，基于DL的 pansharpening性能较差，使我们思考如何优化训练数据以避免这个问题。基于模型的方法很难超越DL方法，因为它们假设LRMS、PAN和HRMS之间存在线性关系，但它们仍然生成出色的视觉结果。假设LRMS、PAN和HRMS之间存在线性关系，它们仍然生成出色的视觉结果，并且它们更灵活，因为它们不需要大量数据，并且它们（通常）不需要任何模拟步骤。因此，使用小规模数据集和非线性模型可以很好地解决全色锐化问题。
有监督和无监督的泛锐化都有各自的优点和缺点。监督学习不能以全分辨率探索信息，但它有一个参考图像来指导训练过程。无监督pansharpening探索全分辨率特征，但缺乏参考使训练变得困难。因此，这两种策略的结合可以提高网络的表示能力。在这里插入图片描述
因此，我们比较了不同泛锐化范式的优缺点，如表1所示，我们提出了一个零次半监督泛锐化框架。我们的LRMS/PAN的输入数据是单个LRMS/PAN对。原始（全分辨率）特征可以通过非线性神经网络来探索。
将零次半监督学习应用于全色锐化有一些好处：（1）一致的训练和测试数据，即，零激发全色锐化的训练和测试数据都是要融合的单个LRMS/PAN对;（2）跨尺度训练，即，我们的方法的训练是在降低和在全分辨率下执行的，这意味着降低分辨率下的参考可以帮助提高表示能力，即使不忽略全（原始）分辨率下的信息。

The proposed method

Notation and DL-based pansharpening

本文中使用的符号是第一次。LRMS图像被定义为MS∈ $R^{h×w×c}$ ，而PAN图像被定义为P∈ $R^{H×W}$ 。c是LRMS光谱带的数量，h和w分别表示LRMS图像的高度和宽度，而H和W分别表示PAN图像的高度和宽度。融合后的高分辨率遥感图像表示为^MS∈ $R^{H×W×c}$ 。下采样后的LRMS和PAN图像分别被称为降分辨率多光谱图像（RRMS）和降分辨率全色图像（RRPAN），分别表示为~MS ∈ $R^{h/r×w/r×c}$ 和~P∈ $R^{h×w×c}$ 。相反，r代表PAN和MS之间的分辨率。
基于深度学习的泛锐化方法的核心思想是估计一个融合函数。这个函数的输入是MS ∈ $R^{h×w×c}$ 和P∈ $R^{H×W}$ ，相关的输出是^MS∈ $R^{H×W×c}$ 。聚变方程如下：
在这里插入图片描述
其中，N（·）表示融合函数，𝜃表示待估计函数的参数。
泛锐化网络的训练是一个优化过程。在监督泛锐化的情况下，使用模拟（参考）地面实况（GT）数据的训练过程可以表示为：

Overall framework

ZS-Pan框架是具有三个组件的两阶段半监督框架，即，RSP、SDE和FUG。在第一阶段中，RSP和SDE同时进行。在第二阶段，执行FUG生成HRMS。随后，我们将深入到一个详细的讨论三个组成部分的ZS-Pan。图3中示出了完整的ZS-Pan方法在这里插入图片描述

RSP

如第2.3节所述，零次学习的问题之一是用较少的数据生成高质量的HRMS。为此，我们提出了RSP策略。在这种策略中，我们首先使用LRMS作为参考，以低分辨率训练所提出的零次网络（Zero-Shot Network），参见图4。然后，我们使用在降低分辨率下训练的参数以全分辨率初始化神经网络。在这里插入图片描述

在下文中，我们将给出RSP的每一步以及相关的方程。我们首先（使用MTF匹配滤波器）对原始LRMS和PAN图像进行下采样，以获得RRMS和RRPAN，其中抽取decimation率等于PAN和MS之间的分辨率比：
在这里插入图片描述
其中，MTF表示MTF匹配滤波器函数加上抽取。我们执行数据增强，即，将原始图像裁剪成五块，并在RRMS、RRPAN和LRMS上使用镜像对称变换翻转它们，如下所示：

监督学习利用参考图像。以这种方式进行的训练使网络处于更有利的状态，以应用零次方法。首先，通过低分辨率进行监督训练，可以在参考数据的帮助下初始化网络的表示模式。随后，以全分辨率进行无监督训练作为微调，使网络能够有效地处理原始（全分辨率）图像。这种方法相对于只进行无监督学习的优越性在4.4节中得到了证明。
数据增强提出了在我们的ZS-Pan中用于降低分辨率的监督训练。应该注意的是，数据增强策略仅应用于LRMS和PAN对，以确保ZS-Pan保持与零次学习的要求一致。由于ZS-Pan最初是在低分辨率的LRMS和PAN图像上训练的，因此将该网络应用于原始（全分辨率）LRMS和PAN图像有助于防止过拟合。数据增强用于扩大数据集的大小，促进ZS-Pan学习更广义的网络，而不是偏向于特定的模式，从而减轻过拟合。然而，为了生产更高质量的HRMS图像，数据扩增应仅在降低分辨率的训练过程中应用，而不是在全分辨率下应用。我们把这个训练阶段称为RSP阶段。

SDE

如第2.3节所述，零次学习必须解决生成空间和光谱退化过程的问题，这些过程用于计算损失函数。因此，如何对HRMS和LRMS图像之间的光谱关系建模以及如何对HRMS和PAN图像之间的空间关系建模是在设计阶段要考虑的问题。在这里插入图片描述

关于空间关系，我们在训练阶段训练了一个非线性网络（称为MS2PAN），如图5所示。我们首先介绍了每一步的相关方程。再次，PAN图像被下采样（使用基于MTF的滤波器）以得到RRPAN。因此，我们有：在这里插入图片描述
然后，我们利用通道加权和块（CWSB）模块提取LRMS的空间特征。CWSB通过包括所有LRMS通道的加权和来提取空间细节，甚至考虑Sigmoid函数来解释非线性。因此，我们有：
至于以前的无监督泛锐化方法，线性函数通常应用于HRMS图像来建模HRMS-PAN关系。然而，简单的线性函数可能会在从HRMS图像提取空间细节的过程中导致失真，而非线性函数在获取空间信息时可能更准确。因此，我们考虑非线性MS 2 PAN网络的训练。
值得注意的是，我们在LRMS图像上训练MS 2 PAN-Net，使该网络也适用于HRMS图像，因此在此阶段应避免过拟合。为了解决过拟合问题，应该在深度弹性和受限网络之间进行权衡。深度弹性网络（具有更多参数）具有更好的表示一般（非线性）变换的能力，但过拟合会显着降低此类网络的性能，特别是对于零次任务。相反，简单的受限网络具有较低的表示能力，但具有减少的过拟合现象。这两种网络的比较如图6所示。选择CWSB模块来构建受限网络。第4.4节中的实验表明，后一种网络在零触发任务的更复杂的解决方案方面具有更好的性能。如第3.3节所述，在训练之前还应用了数据增强，以避免过拟合。考虑到MS 2 PAN网络（MS 2 PAN-Net）用于提取空间特征，此阶段称为SDE。在这里插入图片描述

FUG

前两个组件(即RSP和SDE)在以降低分辨率工作的第一阶段期间被利用。在ZS-PAN框架的第二阶段使用FUG组件。ZS-Net的网络体系结构可以是任何最先进的基于DL的全锐化体系结构，例如FusionNet或该领域的任何其他。
为了以无监督的方式训练神经网络，应该定义空间和光谱损失。对于空间损失，可以应用已经在训练阶段训练好的MS2PAN网络。HRMS被输入MS2PAN网络以提取空间特征：在这里插入图片描述
因此，可以以无监督的方式训练网络。总损失只是空间和频谱损失的加权和：
为了以零次学习的方式来训练神经网络，它应该使用在RSP阶段获得的权重来初始化。因此，如上所述适当地初始化权重（用“𝜃_𝑍S”表示），并且可以在FUG阶段期间对它们进行微调，从而在（13）中以全分辨率损失驱动该过程。最后，该过程的输出是所提出的全色锐化方法的结果。

MTF

在所提出的PAN中，MTF匹配滤波器被应用于对PAN和MS进行下采样。MTF匹配滤波器是被设计为匹配MS传感器的MTF的模糊滤波器。它们通常具有类似高斯的形状，其中唯一的自由参数（标准差）被适当地设置以获得匹配。为了这个目的，在奈奎斯特频率的增益被利用（因为通常由遥感传感器供应商分配）来定义这些高斯滤波器，以获得所需的匹配。MTF匹配滤波器的使用是遥感全色锐化中的一种普遍做法。
总的来说，我们设计了ZS-Pan模型，目的是解决第2.3节中提到的挑战：（1）RSP和FUG阶段有助于解决跨尺度训练和数据增强的“有限样本”问题。(2)通过建立非线性退化关系和应用MTF匹配滤波器，可实现对“空间/光谱关系”问题的解决。