PercepPan: Towards Unsupervised Pan-Sharpening Based on Perceptual Loss
(PercepPan:基于感知损失的无监督泛锐化)
在基于神经网络的全色锐化文献中,作为地面实况标签的高分辨率多光谱图像通常是不可用的。为了解决这个问题,一种常用的方法是将原始图像降维到一个较低的分辨率空间,以便在Wald协议下进行有监督的训练。在这篇论文中,我们提出了一个无监督的全色锐化框架,称为“感知全色锐化”。该方法基于自动编码和感知损失,不需要退化训练。为了提高性能,我们还提出了一种新的训练模式,称为“先有监督预训练,然后无监督微调”,以训练无监督框架。
介绍
全色锐化通常被描述为旨在基于低分辨率多光谱(LRMS)图像和全色(PAN)对应物生成高分辨率多光谱(HRMS)图像的图像融合问题。经典的全色锐化方法包括分量替换、多分辨率分析和变分优化。
深度学习的热潮,越来越多的研究人员使用神经网络来解决pan-sharpening问题和达到不错的效果。灵感来源于图像超分辨率,Masi等人构建一个三层pan-sharpening卷积神经网络。Shao等人设设计具有两个分支的深度卷积网络,其中一个用于LRMS图像,另一个用于PAN图像。为了充分利用领域知识,Yang等人集成了一种特殊设计的结构,用于光谱和空间信息保存。为了进一步提高图像质量,Liu等人使用生成对抗网络(GAN)来构建全色锐化网络,称为PSGAN,其中双流生成器被设计为同时接收LRMS图像和PAN图像。与其他方法不同,基于(深度)神经网络的方法可以有效地提取多级抽象特征,以利用标准反向传播提高性能。
尽管取得了这些成就,但全色锐化总是遇到地面实况HRMS图像通常无法用于神经网络训练的问题。与遥感图像分类问题不同,通过人工标注不可能获得用于全色锐化的地面实况HRMS图像。因此,基于神经网络的方法通常遵循Wald协议,以将原始LRMS图像作为标签,并将原始LRMS和PAN图像降级到较低分辨率空间作为输入。这种监督学习方式将导致在较低分辨率空间中训练的全色锐化网络G’。此外,G’可以在原分辨率空间中直接求出。
是否有必要基于降级步骤在较低分辨率空间中训练全色锐化网络?本文提出了一个无监督的全色锐化框架,其中全色锐化网络G可以直接在原始分辨率空间中训练。新方法不再需要用于训练的退化步骤,而是利用辅助重建器网络R。图1说明了基于降级步骤的传统监督透视图与我们的非监督透视图之间的差异。
为了训练无监督泛锐化框架,我们提出了一种新的训练模式,称为“先有监督预训练,再无监督微调(SPUF)“。一般而言,深度神经网络有三种成功的训练范例。第一种是“先无监督预训练,后有监督微调(UPSF)”。UPSF方法通常包含贪婪的逐层预训练阶段,并且优于随机初始化。第二个是“端到端培训(E2E)“。由于大规模标记数据集的出现,E2E方法变得越来越流行。第三种是“先有监督预训练,后有监督微调(SPSF)”。由于SPSF方法可以受益于有监督的预训练,近年来,它被应用于许多任务,如目标检测、语义分割、超分辨率等,综合实验表明,预训练通常有助于下游任务。预训练的成功以及HRMS图像的缺失激发了用于全色锐化网络训练的新颖SPUF范例。值得注意的是,本文主要关注如何在没有退化步骤的情况下以无监督方式训练全色锐化网络。
贡献
1)提出了一种新的无监督学习框架“感知全色锐化(PercepPan),”该框架不再需要退化步骤。该框架由生成器、重构器和鉴别器组成。生成器负责生成HRMS图像,重建器利用先验知识将观察模型从HRMS图像模拟为LRMS-PAN图像对,鉴别器从LRMS-PAN图像对中提取特征以计算特征损失和GAN损失。
2)采用感知损失作为目标函数。该损失由三部分组成,一部分在像素空间计算,另一部分在特征空间计算,最后一部分在GAN空间计算。混合损失有益于改善所生成的HRMS图像的感知质量。
3)采用一种新的训练模式SPUF对PercepPan进行训练。实验结果表明,SPUF算法通常优于随机初始化算法。
4)实验表明,PercepPan可以与多种不同的生成器协同工作。在QuickBird数据集上的实验表明,无监督的结果与有监督的结果具有可比性。当推广到IKONOS数据集时,类似的结论仍然成立。
Perceptual Loss
基本上,所提出的PercepPan使用感知损失来训练。感知损失主要取决于高水平特征提取(卷积)神经网络而不是图像像素值。之后引入图像超分辨率,失去了越来越多的关注。
感知损失最显著的例子是实时风格转移和图像超分辨率,其中通过欧几里得距离计算真实特征和重构特征之间的感知损失。这种损失可以在一定程度上减少高分辨率图像和低分辨率图像之间的模糊性。
感知损失也可以与GAN损失联合收割机以获得更好的性能。变分自动编码器/生成对抗网络(VAE/GAN),特征损失和GAN损失被结合用于相似性度量学习,这可以被视为感知损失的扩展。它也激发了我们对全色锐化的感知损失使用。具体而言,VAE/GAN使用三种不同的损失进行训练。第一个是先验损失KL(z = Enc(x))||zp),其约束从数据点x学习的潜在表示z遵循与从先前分布中得出的zp相同的分布;第二个是特征损失,||Di
s
(
1
)
s^{(1)}
s(1)(x)− Di
s
(
1
)
s^{(1)}
s(1)(x~Dec(z))||2 2,基于VAE/GAN中鉴别器第l层的隐藏表示;最后一个是GAN损失,log(Dis(x))+ log(1 − Dis(x~ ))+ log(1 − Dis(xp)),它可以提高图像的清晰度。这里,KL表示Kullback-Leibler散度;Enc、Dec和Dis分别表示编码器、解码器和鉴别器;x~ 和xp分别表示生成和重建的图像。
PercepPan采用了与VAE/GAN相似的损失计算方法,但也存在一些差异。PercepPan直接将HRMS图像作为潜在表示,表示的维数高于输入的维数;此外,PercepPan在像素空间中引入了损失计算,作为之前损失的替代方法。
利用GAN的感知损失的另一示例是增强型超分辨率GAN(ESRGAN),其中引入残差中残差密集块(RRDB)作为基本单元,以及相对论性生成对抗网络和感知损失。这些技巧帮助ESRGAN生成具有更好感知质量的高分辨率图像,并赢得了PIRM 2018-SR挑战赛的第一名。从数学上讲,ESRGAN可以简单地表示为
其中x和y分别表示具有三个通道的低分辨率(LR)和高分辨率(HR)图像。图2显示了ESRGAN的发生器架构。
除了一些小的调整,提出的PercepPan也简单地采用ESRGAN的架构作为全色锐化的生成器。具体而言,PercepPan中使用的图像是多光谱(MS)图像,其通常具有更多的通道/波段,例如IKONOS和QuickBird为4个,WorldView-2为8个,因此需要改变第一卷积层中滤波器的通道数。此外,PercepPan使用ESRGAN进行“残差学习”,而不是直接生成HR图像,
其中,x表示MS图像,µx和σx为残差,二者的通道数与x相同。这意味着最后卷积层中的滤波器的信道数也需要改变。作为示例,图2还示出了对具有四个频带的MS图像的适应。然后,这些学习的残差将以类似风格转移的方式与PAN图像融合。
应该注意的是,该PercepPan可以配合不同的生成器。上述构造架构只是一个例子,它不是PercepPan框架的一个关键部分。
方法
Pan-Sharpening Formula
给定具有N个样本的训练数据集,{(
x
(
n
)
x^{(n)}
x(n),
p
(
n
)
p^{(n)}
p(n),
y
(
n
)
y^{(n)}
y(n))} N n=1,,其中
x
(
n
)
x^{(n)}
x(n)∈
R
W
×
H
×
C
R^{W×H×C}
RW×H×C、
p
(
n
)
p^{(n)}
p(n)∈
R
r
W
×
r
H
R^{rW×rH}
RrW×rH、
y
(
n
)
y^{(n)}
y(n)∈
R
r
W
×
r
H
×
C
R^{rW×rH×C}
RrW×rH×C分别表示LRMS图像、PAN图像和HRMS图像。W、H和C分别表示LRMS图像的宽度、高度和带数,r是LRMS图像和PAN图像之间的空间分辨率比。
当地面实况HRMS图像
y
(
n
)
y^{(n)}
y(n)已知时,全色锐化问题可被表达为以下监督学习问题:
其中g表示全色锐化模型/生成器的集合;L是损失函数,例如像素空间中的MSELoss(均方误差损失)或L1 Loss/MAELoss(平均绝对误差损失);^y (n)表示从全色锐化生成器G ∈ g生成的HRMS图像,
在本文中,我们引入自动编码器来处理HRMS图像的缺失。通常,自动编码器由学习输入的潜在表示的编码器和从学习的表示重构输入的解码器(或重构器)组成。它通常在像素空间中通过重建损失来训练,并且不需要任何标记。对于全色锐化,发生器G扮演编码器的角色,并且在这种情况下,潜在表示正好是融合的HRMS图像^y (n)。引入了一个额外的结构R =(Rx,Rp)来从^y (n)重建LRMS-PAN图像对,也就是说,
基于重建图像,损失计算可以从HRMS图像空间移动到LRMS-PAN图像对空间。因此,等式(3)可以重新表示为
然而,仅在像素空间中计算损失可能会引入模糊,尤其是在使用MSELoss时。为了防止模糊并获得更好的感知质量,引入了混合损耗。一般来说,损失计算可表示如下:
其中M是任意函数。当M是单位函数时,等价于仅在像素空间中的损失计算,
其中,Lpixel是MSE损耗或L1损耗。当M对于从LRMS-PAN图像对中提取特征而言更复杂时,则可以将其表示为
其中为了清楚起见,F代替M,Lfeat是MSE损耗或L1Loss。当M是GAN 的鉴别器D时,损失可表示为
其中LGAN可以是BCELoss(二元交叉熵损失)。这三种损失可以代表不同抽象层次的LRMS-PAN图像对。
将等式(8)-(10)组合在一起,用于全色锐化的优化目标函数可表达如下:
α、β和γ是控制不同损失项重要性的超参数。等式(11)可被视为感知损失的扩展,其通常用于风格转移和图像超分辨率。这就是为什么我们称这个模型为“感知泛锐化”,或者简称为PercepPan。它完全是一个无监督的学习公式,完全不需要地面实况HRMS图像。需要注意的是,本文中F是作为D的一部分实现的,而不是单独的神经网络。
图3显示了PercepPan的结构,其中G、R和D都由神经网络实现。F是D的一部分,并且它被分成两个流,F =(Fx,Fp),其中Fx从LRMS图像提取特征,而Fp从PAN图像提取特征。这些特征将首先沿着通道轴连接在一起,然后由VGG型网络处理。
Network Architecture
如图3所示,提出的PercepPan由三部分组成:
1)生成器G,其将LRMS-PAN图像对(x,p)作为输入以生成HRMS图像y;
2)重建器R,将生成的HRMS图像y作为输入,以重建相应的LRMS-PAN图像对,输出分别表示为x和p;
3)鉴别器D,其将真实的/重建LRMS-PAN图像对作为输入,以计算特征损失和GAN损失。
Generator. 生成器G需要融合来自LRMS图像的光谱细节和来自PAN图像的空间细节。现有的生成器将LRMS-PAN图像对直接带入网络以提取那些细节,或者根据LRMS图像学习残差细节,可以充当G的角色。我们还尝试了根据PAN图像的具有残差学习的ESRGAN式生成器,
残差学习受著名的风格转换方法启发,称为“自适应实例归一化(AdaIN)”。具体地,将x视为风格图像,并且ESRGAN风格生成器学习对应的风格特征µx和σx,而将p视为内容图像,并且内容特征µp和σp分别被简单地分配为零矩阵和单位矩阵。
Reconstructor. 重建器R =(Rx,Rp)旨在从所生成的HRMS图像重建LRMS-PAN图像对。它可以通过神经网络来实现。本文设计了一个浅层的R架构来模拟如何通过卫星获取LRMS-PAN图像对的观测过程。
因为LRMS图像相对于对应的HRMS图像在空间上退化,所以重建器的第一部分Rx被视为模糊和下采样的组合,
由于PAN图像通常覆盖MS图像光谱带的所有波长,因此可通过HRMS图像带的线性组合近似PAN图像,换句话说,重建器的第二部分Rp可定义为
Discriminator. 鉴别器D负责计算特征损失和GAN损失。
特征丢失计算需要LRMS-PAN图像对作为输入。为了同时接收不同种类的图像,D包含两个输入分支F =(Fx,Fp),其中Fx用于LRMS图像,而Fp用于PAN图像。然后将提取的特征融合在一起。
为了计算GAN损失,D进一步将这些特征发送到VGG型神经网络。对于每个输入,VGG风格的体系结构输出一个标量,它表示输入特征来自真实的数据而不是生成的特征的概率。
Initialization
初始化对于训练神经网络至关重要。最常用的策略是根据特定概率分布进行随机初始化。另一种策略是预训练初始化,其中使用来自预训练网络的权重。后者近年来被越来越多的作品所利用。
为了初始化生成器G,使用随机初始化和预训练初始化两者。对于随机初始化,使用高斯分布,表示为随机样式。对于预训练初始化,使用两个预训练神经网络,其中一个称为PSNR风格,其利用像素损失进行训练,另一个称为ESRGAN风格,其基于前者利用GAN损失进行微调。
为了初始化重建器R =(Rx,Rp),我们开发了一种新的初始化策略,称之为先验初始化,这其中使用了特定的卫星特性。一方面,模糊算子H1,H2,……,Rx中的HC通常被实现为高斯滤波器,其权重从卫星的奈奎斯特截止频率导出。另一方面,Rp中的线性权重可以根据卫星的归一化光谱响应曲线计算。这些特征参数构成初始化的先验知识,如表1所示,以供参考。这种先验知识起到了类似正则化项的作用,有助于减少^y的不确定性。
为了初始化鉴别器D,公共随机初始化就足够了,并且再次使用高斯分布