Mutual Information-driven Pan-sharpening
(互信息驱动的全色锐化)
全色锐化的目的是综合纹理丰富的全色图像和多光谱图像的互补信息,生成纹理丰富的多光谱图像。尽管已有的全色锐化方法取得了显著的进步,但它们并没有明确地加强PAN和MS图像两种模态之间的互补信息学习。这导致信息冗余没有得到很好的处理,进一步限制了这些方法的性能。针对上述问题,提出了一种基于互信息驱动的泛锐化框架。具体地说,首先将PAN和MS图像分别投影到模态感知特征空间,然后对它们施加互信息最小化以明确地鼓励互补信息学习。这种操作能够减少信息冗余,提高模型性能。在多个卫星数据集上的实验结果表明,该算法在定性和定量上均优于现有方法,对真实场景具有较强的泛化能力。
介绍
随着遥感技术的飞速发展,爆炸物卫星图像被广泛应用于军事、环境监测、测绘等领域。由于物理条件的限制,卫星通常同时捕获多光谱(MS)和全色(PAN)传感器以获得互补信息。MS图像具有较高的光谱分辨率,但空间分辨率有限; PAN图像具有丰富的空间信息,但光谱分辨率较低。为了获得高光谱和高空间分辨率的遥感影像,融合MS和PAN影像的全色锐化技术受到了影像处理界和遥感界的广泛关注。
作为融合任务,已经开发了具有两种主要融合策略的相当多的全色锐化方法:1)图像级融合和2)特征级融合。如图1(a)所示,第一类在将MS和PAN图像馈送到网络之前沿着信道维度直接连接MS和PAN图像。
由于没有明确地进行跨模态融合,因此“input fusion”策略在研究互补信息方面受到限制,从而导致不令人满意的性能。
第二类尝试从PAN和MS图像中独立提取模态感知特征,然后在特征空间中进行信息融合,如图1(b)所示。
尽管取得了令人鼓舞的进展,但仍存在以下问题。由于PAN和MS图像以不同的模态捕获相同的场景,因此它们包含共享信息以及独特特征,如图3所示。
然而,现有的全色锐化方法并没有明确地执行PAN和MS图像两种模态之间的互补信息学习,从而导致学习特征的冗余和所谓的复制伪影。针对现有方法的局限性,本文通过加强互补特征学习和减少信息冗余来提高全色锐化的性能。
如图1(c)所示,我们提出了一种新的级联方式的互信息驱动全色锐化框架,详细流程如图4所示。
该算法首先将MS和PAN图像分别送入两个独立的卷积分支获取模态感知特征,然后对它们施加互信息最小化,以促进互补信息由浅入深的学习。具体地,将所获得的模态感知特征进一步转换为低维特征向量以计算互信息,其中,后一级特征向量是根据以下两种方式获得的:1)特征向量计算中的当前层模态特征和2)前一层直接处理特征。这种操作能够减少信息冗余,如图2所示。
在获得精细特征后,设计了一个后融合模块,通过配置有效的可逆神经网络将其投影回期望的MS图像。在多个卫星数据集上的实验结果表明,该算法在定性和定量上均优于现有方法,对真实场景具有较强的泛化能力。
贡献
1)我们设计了一种新的级联互信息最小化全色锐化框架。据我们所知,这是第一次尝试明确鼓励MS和PAN模态之间的多模态学习。该模型减少了全色锐化过程中的信息冗余,减轻了全色锐化过程中的伪影。
2)在多个卫星数据集上的大量实验结果表明,该算法相对于现有算法具有较好的性能。在真实世界全分辨率卫星场景中也验证了该算法的泛化能力。
相关工作
Classic Pan-sharpening methods
近年来,人们提出了许多经典的全色锐化方法,试图将低分辨率多光谱(LR-MS)图像与全色图像融合,得到高分辨率多光谱(HRMS)图像。常用的划分方法是将经典全色锐化方法分为以下几类:基于组件替换(CS)的方法、基于多分辨率分析(MRA)的方法和基于变分优化(VO)的方法。CS方法的核心思想是用从PAN图像中提取的分量替换LR-MS图像的空间分量。但是,由于高频细节被注入到变换域中,因此在实际使用中经常存在频率混叠问题。此外,也有一些混合方法将CS方法和MRA方法相结合,试图利用两者的优势互补。在最近的过去,许多VO方法已经作为它们在全色锐化领域的良好表现而出现。这些方法被设计成通过某些先验约束或假设来找到最优函数。然而,如何选择合适的先验约束和合理的假设是VO方法面临的巨大挑战。
Deep learning based methods
目前,随着基于深度学习(Deep learning,DL)的方法在高光谱图像和遥感图像领域的成功,DL方法也开始应用于全色锐化,并取得了很大的进步。著名的DL方法称为PNN,其基于三层卷积神经网络。随后,PANNet在训练过程中引入高通滤波域以保留空间信息。MSDCNN考虑到了多尺度的问题,在网络中加入多尺度模块来提升性能。此外,在SRCNN的基础上,Cai等人将超分辨率方法应用于全色锐化。上述网络都是基于残差块设计的,残差块限制了浅层网络特征的重用。Wang等采用U型网络解决了这一问题。此外,WSDFNet通过自适应跳跃加权器将浅层特征传播到深层。此外,还有一些基于生成对抗模型的网络,如Pan-GAN。像GPPNN这样的用于全色锐化的模型驱动深度网络提高了模型的可解释性,但性能有所下降。
Mutual information
InfoMax原则激发了爆炸性表征学习研究者的工作,他们最大化交互信息以实现有效表征。有研究人员提供了关于三个折叠上的连接和应用方向的经验证据:1)同一图像的全局特征和局部特征,2)同一场景上不同图像模态的多个视图,以及3)数据的顺序分量。此后,Zhang 等人引入互信息最小化来明确鼓励RGB图像和深度数据之间的多模态信息学习。Sanghi 等人最大化3D对象及其几何变换版本之间的互信息,以改进表示。然而,在全色锐化任务中自然存在信息冗余,并导致所谓的复制伪影。为此,我们引入了两模态PAN和MS图像之间的互信息最小化来鼓励多模态学习。
方法
我们将PAN图像表示为P ∈ R H × W × 1 R^{H×W×1} RH×W×1,其对应的MS图像首先以与M ∈ R H × W × C R^{H×W×C} RH×W×C相同的空间分辨率P进行上采样。
Model architecture
如图4所示,我们提出的方法由三个模块组成:PAN和MS图像的模态感知特征提取、互信息约束和基于可逆神经网络(Invertible neural networks (INN))的后融合模块。
Modality-aware feature extraction. 首先采用两个独立的特征提取分支,以核大小为3 × 3的卷积层为基本成分,将PAN和MS图像从浅到深投影到模态感知特征映射上。具体地,这些特征被表示为P1、P2、、、PK和M1、M2、、、MK分别进行比较。两者都配备了H ×W × C的尺寸。假设两个分支分别表示为fp和fm,则该过程可写为
Mutual information.
参照上述PAN特征P1、P2、、、PK和MS特征M1、M2、、、MK,我们首先将它们转换成低维特征向量以准备互信息。具体地说,首先将第一层特征P1和M1分别送入一个核大小为3 × 3的卷积层(信道维为
P
1
P^1
P1T和
M
1
M^1
M1T),然后再送入两个全连通层(全连通层接收上述整形后的特征),得到低维特征向量Ep1和Em1。
其中C3、FCs分别表示核大小为3×3的卷积层和全连通层。在后一层特征方面,以第i层为例,特征向量是通过组合先前的中间特征变换
P
i
−
1
T
、
P^{i−1}~T~、
Pi−1 T 、M^{i−1}T和当前的模态特征Pi、Mi而获得的。1)Pi和Mi被馈送到用于信道缩减的两个不同的卷积层; 2)减少特征与先前的中间特征
P
i
−
1
T
和
P^{i−1}~T~和
Pi−1 T 和M^{i−1}T相加;3)所获得的特征进一步通过卷积层和两个全连通层,以生成低维特征向量Epi和Emi
其中C3表示核大小为3 × 3的卷积,采用非共享权重方式。最后,给定PAN图像的模态感知特征向量Ep1,Ep2,,,EpK和MS图像的Em1、Em2、、、EmK,我们引入互信息最小化来加强两个模态的互补信息学习,从而减少信息冗余。
在信息论中,互信息旨在测量通过观察一些其他随机变量Emi获得的关于随机变量Epi的信息量,反之亦然
其中H(.)表示熵,i ∈ [1,K],其中K为特征提取的级数,H(Emi),H(Epi)表示边缘熵,H(Epi,Emi)和H(Emi,Epi)是联合熵,H(Epi|Emi)和H(Emi|Epi)是条件熵。然后,对上述方程进行积分,我们可以得出
在此基础上,我们引入了Kullback-Leibler散度(KL)来计算熵
INN block.
通过互信息最小化,减少了模态特征的冗余度。其次,设计了一种有效的基于可逆神经网络的后融合模块。基本组件是前人所提出的耦合层,并堆叠以有效融合在细化模态特征之上,从而投射回预期MS图像。深入到耦合层,卷积模块由半实例归一化模块实现。
Optimization
如图4所示,总损失函数由两部分组成:一个用于通过L1损失重建地面实况MS图像,另一个用于减少两个模态之间的信息冗余,写为: