SIPSA-Net: Shift-Invariant Pan Sharpening with Moving Object Alignment for Satellite Imagery
(SIPSA-Net:卫星影像平移不变平移锐化与运动目标对齐)
全色锐化是合并高分辨率(HR)全色(PAN)图像及其对应的低分辨率(LR)多光谱(MS)图像以创建HR-MS和全色锐化图像的过程。然而,由于不同传感器的位置、特性和采集时间,PAN和MS图像对往往会有不同程度的错位。用这种未对准的PAN-MS图像对训练的传统的基于深度学习的方法遭受各种伪影,例如在所得到的PAN-sharped图像中的双边缘和模糊伪影。本文提出了一种新的基于平移不变的运动目标对齐全色锐化(shift-invariant pan-sharpening with moving object alignment (SIPSA-Net))框架,它是第一个考虑到运动目标区域的这种大的未对齐的全色锐化方法。SISPA-Net具有特征对准模块(feature alignment module (FAM)),其可以调整一个特征以与另一个特征对准,甚至在两个不同的PAN和MS域之间。为了在全色锐化图像中更好地对准,新设计了平移不变光谱损失,其忽略了原始MS输入中的固有未对准,从而具有与利用良好对准的MS图像优化光谱损失相同的效果。
介绍
卫星图像正在广泛应用于环境监测、监视系统和制图服务等领域。Google EarthTM是最流行的虚拟地球仪应用程序之一。这种高分辨率多光谱图像从商业化的全色锐化软件获得,该软件融合低分辨率(LR)多光谱(MS)图像和高分辨率(HR)单通道全色(PAN)图像以生成全色锐化(PS)图像。所产生的PS图像应具有与PAN图像相似的高频细节和与MS图像相似的颜色。然而,当将虚拟地球仪应用中的PS图像与原始PAN和MS图像进行比较时,经常观察到许多类型的伪影,对于这些伪影,PS图像的细节不如PAN图像的细节清晰,并且颜色看起来与MS图像失真。最近,已经提出了许多基于深度学习的全色锐化方法,并且显示出优于先前的现有技术的全色锐化方法。这些方法中的大多数通过以监督的方式最小化伪地面实况MS图像和网络输出PS图像之间的差异来训练它们的网络,尽管不存在实际地面实况PS图像。全色锐化的主要困难之一是PAN和MS图像对之间的固有未对准。由于不同传感器的特性、物理位置和捕获时间,PAN和MS图像对不可避免地具有大的像素未对准,这对于诸如高速公路上的汽车之类的局部移动对象来说甚至更糟。这经常导致输出PS图像中的各种伪影,诸如双边缘和模糊伪影,特别是在具有极端未对准的运动对象区域上。
本文提出了一种新的平移不变全色锐化(SIPSA-Net)框架,该框架不仅考虑了全局失准,还考虑了由于地面运动目标不同采集时间引起的局部失准。SIPSA-Net通过一个新提出的特征对齐模块(FAM)优化了MS图像的颜色与PAN图像中相应形状的对齐。SIPSA-Net通过利用我们的新颖的偏移不变光谱损失来进一步阐述对准,该偏移不变光谱损失忽略了原始MS输入中的固有未对准,从而具有与利用良好对准的MS图像来优化光谱损失相同的效果。如图1所示,SIPSA-Net的输出图像显示了结构和颜色之间的良好对齐,尤其是在移动的汽车周围。在来自其他方法的PS输出中,汽车的颜色在向上的方向上被涂抹为彗星尾伪影。
贡献
1)对齐感知全色锐化:除全局配准外,以往的PS方法均未考虑运动物体引起的极端局部失准。我们提出了第一个基于深度学习的PS方法,该方法可以从未对准的PAN-MS图像对生成局部和全局良好对准的PS图像。
2)特征对齐模块:新提出的特征对准模块学习对准的MS像素相对于PAN图像中的像素位置在特征域中的偏移的概率图,以科普全局和局部未对准。然后使用从MS图像提取的概率图和特征来生成相对于其对应PAN图像对准的MS图像。
3)频移不变光谱(SiS)损失:传统的基于深度学习的PS方法通过使用未对准的MS图像作为伪背景来优化其网络。然而,这种方法导致PS输出中的伪影,例如双边缘和模糊伪影。为了弥补这一点,提出了一种SiS损失,它可以有效地转移来自未对准MS图像的光谱信息,以匹配PAN图像中的相应细节。SiS损失被计算为输出PS图像与MS输入图像的多移位版本中的每一个之间的最小差异。以此方式,在未对准的MS图像到PAN图像的颜色配准中,该损失变为偏移不变的。
相关工作
Traditional pan-sharpening methods
在过去的几十年中,已经开发了许多传统的PS方法,例如多分辨率分析方法、分量替代算法和基于模型的算法。
多分辨率分析(MRA)方法基于PAN图像具有MS图像中不存在的高频细节的想法。利用多尺度分解技术将这些高频细节从PAN图像中分离出来,然后与MS图像的上采样版本自适应地融合。
分量替换(CS)算法利用特定的变换将MS图像的空间和光谱信息分离,然后用PAN图像替换空间分量。基于CS的算法包括基于强度色调饱和技术、主成分分析和Brovey变换的全色锐化方法。这些方法非常快,因为它们只需要放大MS输入图像并应用一些光谱变换来分离和替换空间分量。
基于模型的算法将PAN和MS图像视为理想PS图像的光谱和空间退化版本。在这种假设下,全色锐化成为一个恢复问题,旨在从退化的观测值(PAN和MS输入)中重建理想的PS图像。基于模型的算法优化利用独立于特定训练数据的一些先验知识设计的目标函数。由于优化过程,与先前提到的方法相比,这些方法需要高的计算复杂度。
Deep-learning based methods
最近,已经提出了许多基于深度学习的全色锐化方法。这种方法的结构是基于卷积神经网络(CNNs)。已经提出了许多类型的用于全色锐化的CNN架构,并且所提出的方法已经显示出比传统方法大幅度的性能改进。
全色锐化任务的目标是获得高分辨率PS图像。在没有PAN图像作为指导的情况下,这仅仅成为超分辨率(SR)任务。因此,大多数先前的基于深度学习的全色锐化方法已经借用了现有SR框架的CNN架构。然而,为了更好地利用高分辨率PAN图像,需要仔细设计损失函数,以帮助全色锐化网络保持PAN图像的高频细节和MS图像的光谱信息。
第一种基于深度学习的全色锐化方法是PNN 。PNN的网络基于SRCNN,这是第一个基于CNN的SR方法。PNN的网络由三层卷积结构组成。该算法以最小化低尺度全色锐化图像与原始尺度目标MS图像之间的差异为优化目标,并给出伪地面真实值。Yang等人提出了PanNet,其在高通滤波域而不是图像域中训练其网络,以更好地保持空间结构。DSen2在网络设计和损耗函数方面与PanNet有着相似的想法。PanNet和DSen2的网络架构都基于称为VDSR 的SR网络,其相对于SRCNN提高了SR质量。Zhang等人提出了BDPN ,其利用双向网络设计来融合PAN和MS图像。
然而,当从未对准的PAN-MS图像对生成PS图像时存在一些困难。S3是第一篇考虑这种未对准产生的伪影的论文。S3基于MS和PAN输入之间的相关图提出了频谱和空间损耗函数。相关图用作双损失函数的权重。相关图用作双损失函数的权重。它们对具有较高相关值的区域的频谱损失函数赋予更多权重,而具有较低相关值的区域对空间损失函数具有较高权重。该方法通过减少由未对准引起的伪影,提高了PS输出的视觉质量。然而,S3具有一个严重的缺点,即具有较低相关值的区域(具有较大未对准的区域)主要受空间损失的影响。因此,来自MS图像的原始颜色减弱。处理未对准的适当方式将是移动MS图像上的对象的颜色以匹配其在对应PAN图像上的形状。
方法
图2展示出了我们提出的移位不变全色锐化网络(SIPSA-Net)的体系结构。SIPSANet具有两级全色锐化结构,包括特征对齐模块(FAM)和全色锐化模块(PSM)。FAM校正未对准的MS图像以使其对准,使得MS图像的颜色与PAN图像中的对应形状匹配。PSM从对准的MS图像和PAN图像生成PS图像。以端到端的方式训练所述模块,其中所述移位不变损失函数和边缘损失函数被应用于对准的MS输出和PS输出。
Feature alignment module
我们提出了一种新的特征对齐模块(FAM),它将每个MS输入图像与其对应的PAN图像在特征域中对齐,产生对齐的MS图像,然后将其馈送到SIPSANet的全色锐化模块(PSM)。如图2所示,得到的对准MS图像 I a l i g n I^{align} IalignMS具有与尺寸为W×H×3的输入MS图像IMS相同的尺寸,并且与其对应的尺寸为W×H的缩小PAN图像 I d o w n I^{down} IdownPAN对准。FAM中的对准帮助PSM容易地生成在颜色和形状之间具有良好对准的鲁棒且稳定的PS输出IPS,给定具有大的未对准的输入MS-PAN对。
如图2所示,FAM包括两个特征提取器:对准和MS特征提取器。对准特征提取器学习大小为W×H×81的逐像素偏移概率图(pixel-wise offset probability map (PWOPM)),以将MS输入IMS的特征FMS与大小为4W×4H×1的对应PAN输入IPAN的特征FPAN对准,从而产生对准的MS特征
F
a
l
i
g
n
F^{align}
FalignMS。偏移值表示PAN和MS特征之间的未对准量,其可进一步用于在随后的操作中对准两个特征。MS特征提取器将像素域的IMS转换为特征域的FMS。对于IMS的级联输入和尺寸为W×H×16的空间通道重排PAN输入
I
s
2
c
I^{s2c}
Is2cPAN,FAM的输出是PWOPM,其中9×9尺寸的对准偏移概率图位于沿着81深度通道维度的每个像素位置。每个9×9大小的对齐偏移概率图通过softmax函数获得,然后与以相应像素位置为中心的9×9大小的局部区域进行卷积。请注意,所有特征通道在相同像素位置共享9×9大小的对齐偏移概率图。通过这样做,获得对准的MS特征
F
a
l
i
g
n
F^{align}
FalignMS。
如图2的右上部分所示,PWOPM中的81维特征向量显示在重新排列的9×9大小的偏移概率图中,其中红色圆圈表示中心像素位置(0,0),(-1,2)位置中的绿色圆圈具有最高偏移概率值。这指示(-1,2)位置处的MS特征可能被移动到中心像素位置。
上述FAM操作由等式(1)表示。1.令PWOPM为M = [M0,0,…,MW,H],Mx,y ∈
R
9
×
9
R^{9×9}
R9×9。通过逐像素概率对齐卷积(PWPAC),提取MS特征FMS,FMS ∈
R
W
×
H
×
C
R^{W×H×C}
RW×H×C可以与
I
d
o
w
n
I^{down}
IdownPAN逐点对齐。所得到的对齐的第c个特征图可以表示为
其中1 ≤ x ≤ W,1 ≤ y ≤ H,1 ≤ c ≤ C。应注意的是,我们的PWPAC与逐像素自适应卷积(PAC)不同。PAC用学习的滤波器值进行局部卷积以进行上采样,而PWPAC在概率意义上执行逐像素对准,即,概率对准卷积,用于MS输入的所提取的特征相对于PAN输入的局部特征。
图3示出了由MS特征提取器对MS输入进行的特征提取。MS特征提取器提取特征图
F
p
r
e
F^{pre}
FpreMS,并通过逐点面片矢量化操作将其扩展为一组特征图FMS,该操作将步长1中的每个9×9大小的面片重新排列到通道维中。FMS是
F
p
r
e
F^{pre}
FpreMS从(-4,-4)到(4,4)的逐点移位版本的集合。因此,作为中间信道的偏移(0,0)的版本与
F
p
r
e
F^{pre}
FpreMS相同。Eq.(1)通过PWOPM M在Fpre MS的移位版本的集合上执行概率对准操作。
Pan-sharpening module
图2中的全色锐化模块(PSM)基于对齐的MS输入 I a l i g n M S 和 大 小 为 W × H × 16 的 空 间 到 通 道 重 排 的 P A N 输 入 I^{align}~MS~和大小为W×H×16的空间到通道重排的PAN输入 Ialign MS 和大小为W×H×16的空间到通道重排的PAN输入I^{s2c}PAN执行全色锐化。在前五个ResBlock之后,中间输出通过Pixel-Shuffe层放大4倍。IPAN的2D梯度被连接到后两个ResBlock的输出,然后作为输入被馈送到最后的卷积层。值得注意的是,2D梯度有助于保持PAN输入IPAN的细节,同时产生最终PS输出IPS。
Loss function
对于SIPSA-Net的训练,使用两种不同类型的损失函数来生成精确的全色锐化图像。为此,引入边缘细节损失和平移不变光谱损失,分别保持空间和光谱信息。
Edge detail loss
边缘细节丢失被设计为在生成PS图像时保留PAN图像的边缘细节。我们将输出PS图像的空间细节的地面真实值设置为输入PAN图像的边缘图。应当注意,由于PAN和MS图像信号的不同特性,边缘方向可能不同,尽管它们的位置相同。因此,我们利用PAN图像的绝对边缘值作为PS输出的亮度的绝对边缘值的基准。计算FAM和PSM模块的两个边缘损耗,计算公式如下:
Shift-invariant spectral loss (SiS loss)
传统的光谱损失最小化缩小比例的PS图像和没有对准的输入MS图像之间的差异,因此导致PS网络产生彩色的彗星尾伪影,特别是对于具有大的未对准的物体。
为了解决这个问题,我们提出了两种平移不变光谱(SiS)损耗:(i)一个目标是最小化对准的MS图像与FAM的MS输入图像的多移位版本中的每一个之间的差异中的最小值,表示为
L
F
A
M
L^{FAM}
LFAMSiS ;以及(ii)另一个用于最小化PS输出图像与PSM的放大的MS输入图像的多个移位版本中的每一个之间的差中的最小值,表示为
L
P
S
M
L^{PSM}
LPSMSiS。这两种SiS损耗具有与利用良好对准的MS输入图像优化光谱损耗相同的效果。可以将颜色信息从MS输入图像精确地转移到输出PS图像,而不管MS和PAN图像之间的未对准。
L
F
A
M
L^{FAM}
LFAMSiS和
L
P
S
M
L^{PSM}
LPSMSiS的c通道SiS损耗由下式给出:
其中i和j是整数值,
I
u
p
I^{up}
IupMS是通过双线性内插的放大的输入MS图像。
I
a
l
i
g
n
(
x
,
y
)
I^{align (x,y)}
Ialign(x,y) MS,c,
I
(
x
,
y
)
I^{(x,y)}
I(x,y)MS,c和
I
u
p
I^{up}
IupMS,c分别是位置(x,y)处的
I
a
l
i
g
n
I^{align}
IalignMS、IMS和
I
u
p
I^{up}
IupMS的第c个信道分量。在Eqs(4)和(5)中,
I
a
l
i
g
n
I^{align}
IalignMS的移位范围设置为9×9,跨距为1,IPS的移位范围设置为36×36,跨距为4,因为在WorldView3数据集中的大多数情况下,PAN和MS图像之间的未对准量在MS尺度上小于3个像素。对于具有与先验知识的较大未对准的不同数据集,应当调整移位范围,这是没有问题的,因为不同的卫星图像集具有不同的信号特性,并且需要它们自己的专用网络用于训练和测试,如在先前方法中经常进行的。PSM的SiS损失在从放大的MS图像
I
u
p
I^{up}
IupMS的未对准的基本事实学习颜色并以平移不变的方式将它们转移到PS图像IPS中是有效的。
用于训练所提出的SIPSANet的总损失函数被定义为上述损失函数的加权和,其由下式给出: