HyperNet: A deep network for hyperspectral, multispectral, and panchromatic image fusion
(HyperNet:一种用于高光谱、多光谱和全色图像融合的深度网络)
传统的方法主要是将高光谱图像(hyperspectral image (HSI))与高分辨率多光谱图像(multispectral image (MSI))融合以提高高光谱图像的空间分辨率。然而,由于MSI的空间分辨率仍然较低,因此HSI的空间分辨率的这种提高仍然有限。为了进一步提高HSI的空间分辨率,提出了一种融合HSI、MSI和全色图像(PAN)的深度网络 HyperNet,该网络在保留HSI光谱信息的同时,有效地将MSI和PAN的空间细节注入HSI。因此,我们基于统一的融合策略来设计HyperNet,以解决三种类型的源(即,HSI、MSI和PAN)。特别地,MSI和PAN的空间细节由多个专门设计的多尺度注意力增强模块提取,其中多尺度卷积用于自适应地从不同接收场提取特征,并且采用两种注意力机制分别增强特征沿着频谱和空间维度的表示能力。通过在一个特殊设计的密集细节插入块(dense-detail-insertion block)中的特征重用和交互能力,先前提取的特征随后根据密集连接层之间的单向特征传播被注入到HSI中。最后,通过将多尺度结构相似性指数与L1范数相结合,构造了一个高效的损失函数,该损失函数驱动HyperNet生成空间和光谱质量之间良好平衡的高质量结果。
介绍
高光谱成像是一种快速发展的技术,它可以同时获取同一场景下数百个连续光谱波段的高光谱图像。该技术在计算机视觉和遥感领域有着广泛的应用,如变化检测、目标识别和分割、环境监测和农业分析等。然而,由于光学传感器设计的物理约束,在该成像模态中在空间分辨率和光谱分辨率之间存在折衷。具体地,成像系统的输出携带大量光谱带但损害空间分辨率(即,HSI)或高空间分辨率但具有很少光谱带的图像,例如多光谱图像(MSI)或全色图像(PAN)。为了获得高分辨率的HSI,HSI融合技术将同一区域的HSI和MSI(或PAN)进行融合,从而引起了广泛的研究关注。
鉴于深度卷积神经网络(CNN)的优势,研究人员开始关注基于深度学习的HSI融合方法。大多数基于神经网络的方法论可以看作是具有双输入的系统。其中,HSI和MSI的融合(FHM)是常用的。例如,Zhang等人在CNN的基础上提出了一种可解释的FHM空间-谱重建网络。Xie等人为FHM任务设计了一种新颖的网络架构,称为MHF-net,它不仅包含清晰的可解释性,而且很好地嵌入了低分辨率影像的内在泛化机制。虽然FHM方法很好地保留了光谱信息,由于MSI的空间分辨率有限,HSI的空间分辨率没有得到很大提高(如图1(b)所示)。最近的一些研究专注于HSI和PAN(FHP)的融合,因为PAN可以提供比MSI相对更高的空间分辨率。然而,由于HSI和PAN在光谱和空间分辨率上的巨大差异,FHP方法中的融合问题一直是一个非常不适定的问题,因此存在显著的光谱失真。这种现象可以从图1(c)中的区域(用黄色椭圆标记)观察到,该区域的颜色与图1(e)中的参考图像的颜色明显不同。我们注意到,在许多应用中,例如遥感,MSI和PAN可以通过许多卫星同时获取(例如,IKONOS和Quickbird),PAN具有最高的空间分辨率。因此,我们创造性地提出了一种新的深度网络“HyperNet,”用于融合具有不同光谱和空间属性的HSI、MSI和PAN(FHMP),而不是像以前那样只融合HSI和MSI或PAN。所提出的超网的优点可以在图1(d)中观察到。
HyperNet的目标是生成具有精确光谱信息和清晰空间细节的高分辨率HSI。为了达到这个目标,我们首先利用多尺度注意力增强块(MAE块)来提取MSI和PAN中包含的丰富空间信息。具体地说,多尺度卷积被用于自适应地获取具有不同大小的感受野的变化的局部结构特征。同时,采用光谱和空间注意机制实现特征选择和增强,分别提高了特征在光谱和空间维度上的表现能力。其次,我们设计了一个密集细节插入块(DDIblock)来将先前提取的特征注入到HSI中。特别地,由于单向特征传播具有特征重用和交互的优点,因此我们在密集连接层之间应用单向特征传播来确保高效的注入过程。最后,将多尺度结构相似性指数(MS-SSIM)和L1范数引入到总损失函数中,驱动网络训练。
贡献
1)针对高空间分辨率的融合HSI,提出了HyperNet,这是一种针对FHMP的统一融合网络。据我们所知,这是第一个研究如何采用最先进的深度学习来有效融合三种类型的源(即HSI、MSI和PAN)。
2)我们的方法是一个端到端的架构,自动学习HSI、MSI和PAN之间的内部相关性。具体来说,分别设计了多个MAE模块和一个DDI模块。前者旨在从MSI和PAN中提取重要的结构信息,后者有效地实现了将获得的特征注入到HSI中。整个融合网络通过引入MS-SSIM和L1范数的损失函数,使融合结果具有准确的光谱信息和视觉上令人愉悦的纹理细节。
3)在模拟数据集和真实的数据集上进行了大量的实验,证明了超网在视觉效果和量化质量方面优于其他最先进的方法。
Related work
Pansharpening method
我们首先简要介绍了传统的全色锐化方法,因为一些HSI融合方法是直接从它们衍生出来的。全色锐化旨在融合一对高分辨率PAN和低分辨率MSI。传统的全色锐化方法可以分为四类:组件替换(CS)、多分辨率分析(MRA)、变分优化(VO)和深度学习(DL)方法。CS方法通常在转化的结构域中用PAN替换MSI的组分之一。对于MRA方法,PAN和MSI被分解,例如,使用小波或拉普拉斯金字塔,然后融合以提高融合图像的光谱质量。然而,这些方法遭受不同程度的频谱失真或空间伪影。近年来,VO方法得到了广泛的研究和迅速的发展,它通过构造一个假设的具有不同先验知识的观测模型,将融合问题看作是图像复原的优化问题。Ballester等人首先提出了一种称为P+XS的变分方法,Palsson等人使用全变分正则化作为先验来描述结构相似性,从而提高了空间质量。基于梯度稀疏表示,Tian等人提出了一种新的变分模型,该模型考虑了PAN和MSI在一定条件下的相似稀疏系数。一般而言,这些VO方法在复杂的参数设置和精确的先验条件方面存在困难,限制了融合性能。后来的DL方法在全色锐化中形成了一个新的分支。自从Masi等人提出了第一个用于全色锐化的卷积网络以来,最近提出了许多最先进的深度融合网络,如深度残差网络和生成对抗网络。
FHM method
现有的FHM方法可以分为四类:扩展了基于全色锐化、矩阵分解、张量表示和深度CNN的方法。通常,一些早期的FHM方法是基于全色锐化方法的扩展来实现的,例如CS和MRA方法。在Sun 等人提出的方法中,HSI被转化到一个合适的结构域中,其中一个转化的成分被相应的MSI取代。后一种用于FHM的MRA方法旨在将从MSI获得的高频空间细节注入HSI。例如,Selva等人通过提取和插入空间细节,将HSI的每个光谱带与合成MSI融合。此外,Xiao等人提出了一种细节提取网络,用于从MSI中提取各种空间特征,以注入空间信息。基于矩阵分解的方法主要包括低秩和稀疏表示方法。这些方法直接受益于特殊的观测模型,但往往是参数敏感和计算耗时时,求解一个复杂的优化模型迭代。基于张量表示的方法基于三维HSI和MSI可以自然地表示为张量的思想,其中核心张量用于探索每个维度的信息之间的额外相关性。然而,传感器的点扩展和光谱响应函数需要精确估计。针对CNN强大的非线性特征学习能力,研究了基于深度CNN的融合方法,进一步启发我们利用这一优势来解决本研究中的三源融合问题。
一些物理解释方法注重物理观测模型与深层网络的结合。在Xiao等人提出的方法中,为FHM任务引入了一个基于物理约束的GAN,该GAN具有一个生成器网络和三个鉴别器网络,并设计了特定的子网络来模拟未知的物理退化矩阵。Shen等人通过构建学习模型解决了融合问题,通过该模型展开优化算法构建了一个深层物理可解释框架。与传统的基于人工图像先验的FHM方法相比,提出了基于深度先验的方法,将学习到的深度先验与融合模型相结合,可以更有效、更准确地获取先验信息。Dian等人提出了一种基于深度先验启发的FHM方法DHSIS,该方法在构建的优化框架中通过深度残差网络直接学习图像先验。在Dian等人的“CNN-Fus”中,他们将经过良好训练的CNN嵌入到由融合后的HSI系数组成的先验模型中,然后将融合问题公式化。Shen等人将复杂的融合任务转化为序列优化问题,其中设计了用于先验学习的特定网络。为了更好地从有限的训练数据中提取空间和光谱特征,更好地适应真实的数据的融合,近年来出现了一些无监督融合网络。Qu等人提出了一种无监督稀疏Dirichlet-net,它包含两个耦合的自动编码器,以非监督的方式解决FHM任务。然而,由于两个自动编码器分别优化,HSI和MSI之间的一些内在相互作用不可避免地被忽略。通过利用图像的空间相关性和局部谱结构,Wang等人提出了Fusion Net,这是一种无监督卷积变分概率网络,由设计的谱生成网络、空间相关先验网络和空间-谱变分推理网络连接而成。
FHP method
该技术旨在通过融合HSI和PAN来合成高分辨率HSI。一方面,各种基于CS和基于MRA的方法都是从全色锐化中衍生出来的。基于CS的方法通过直接用PAN代替HSI的空间分量而快速且易于实现。例如,Licciardi等人利用非线性主成分代替HSI作为融合过程的输入,以提高HSI的空间分辨率。Qu等人引入了加权融合策略来融合HSI和PAN。与基于CS的方法不同,基于MRA的方法通常在多尺度分解之后将PAN的空间细节注入到HSI中,例如基于平滑滤波器的强度调制。CS方法总是提供丰富的空间细节,但有时会遭受频谱失真。虽然MRA方法可以减少频谱失真,但其空间质量并不令人满意。另一方面,有些方法最初是为FHP设计的。Lin和Zhang考虑到PAN的光谱覆盖范围与HSI的波长采集范围不匹配,将HSI和PAN融合。此外,一些研究者已经开始将CNN应用于FHP。例如,He等人提出了一种名为HyperPNN的融合框架,以提高HSI的空间分辨率。Zheng等人提出了一种新的网络,该网络利用深度高光谱先验和双注意残差网络来减少训练过程中的细节丢失。
FHMP method
尚未对FHMP方法进行充分研究。Yokoya等人首先提出了一种基于耦合非负矩阵分解(CNMF)的HSI、MSI和PAN融合方法; Bendoumi等人应用无约束最小二乘解混算法来解决融合问题。Arablouei等人使用前向观测和线性混合模型,将FHMP任务作为适当的最大似然估计问题解决。然而,这些方法中难以手工设计融合参数和不精确的先验知识限制了它们的融合性能。
方法
为了融合HSI、MSI和PAN,直观的策略遵循两步融合过程。我们首先融合MSI和PAN以生成高分辨率MSI(即,MSI和PAN的融合)。然后,我们基于HSI和所生成的高分辨率MSI来获得期望的高分辨率HSI(即,FHM)的。但是,这种融合策略需要引入伪中间变量(即,高分辨率MSI),其将统一的融合任务分成两个独立的阶段来实施。因此,在FHM方法中,即使MSI和PAN的融合中的小的空间或光谱失真也可能导致空间或光谱信息的显著损失。因此,很难在最终融合结果的空间和光谱质量之间实现良好的平衡。
为了解决上述问题,我们建议使用一步融合策略。我们将所需的高分辨率HSI表示为X。对于观测数据,P、M和H分别表示PAN、MSI和HSI。受Gram-Schmidt自适应(GSA)的启发,我们假设MSI和PAN的空间细节(高频信息)可以适当地注入到HSI中,得到以下关系:
其中↑H和↑M分别表示与P大小相同的上采样H和M。HM和HP分别表示用于从MSI和PAN提取空间细节的高频算子。fM和fP是MSI和PAN的空间细节如何注入HSI的学习网络。然后,我们可以构造基于Eq(1)的超网络。
Overview of the framework
HyperNet的网络结构如图2所示,由三个模块组成:提取、插入和重建模块。首先,我们使用MAE块来实现提取模块,MAE块可以被视为用于提取PAN和MSI的特征的高频算子HM和HP。为了提高特征提取的能力同时很好地保留频谱信息,通道和空间注意单元被顺序地嵌入到MAE块中。另外,由于级联和多尺度卷积在不同尺度下具有特征保持的优势,我们在上述提取过程中采用了级联和多尺度卷积。插入模块由DDI模块组成,它根据学习的关系(fM和fP)将提取的MSI和PAN的空间细节注入HSI。 DDI区块中包含空间和频谱特征流,注入关系基于具有密集连通的层进行评估,受益于其通用逼近能力和有效的特征传播。最后,在重构模块中通过Re-block生成最终的融合HSI。由于上述三个模块都在整个框架中实现,因此建议使用总损失函数来训练HyperNet,以生成在频谱和空间质量之间取得良好平衡的HSI。
Network architecture
MAE模块的结构如图3所示。我们首先沿着频谱维度将PAN和上采样MSI级联以形成输入(即,O(0))。为了自适应地提取不同尺度的特征,同时使用3× 3,5 × 5和7 × 7卷积核,并将得到的特征进行级联。然后,依次引入通道关注单元和空间关注单元,通过与获取的特征相乘,提高多尺度卷积核级联结果的表示能力。具体地说,我们用不同权重的有效特征对应注意图,其中一个通道注意图是通过沿着通道的池操作计算的。类似地,可以通过压缩输入特征图的空间维度来获得空间方式的注意力图。特别地,在两个注意单元的乘法运算之前,我们分别增加了一个卷积层和一个主动函数来优化注意图中的信道和空间权重。
DDI块旨在将从MSI和PAN提取的丰富空间信息注入到上采样的HSI中。如图4的左半部分所示,我们首先利用具有稠密连接层的两个流来保持空间和谱特征。在每个流中,我们使用三组卷积层和非线性激活函数ReLU来提取浅表示域和深表示域中的重要信息。同时,空间流中的特征被单向地插入到每个组中的谱流中,从而增强了从MSI和PAN到期望结果的空间细节的传播。
最后,Re-block的详细结构如图4右侧所示。显然,使用具有3 × 3核的两个卷积层从DDI块的输出直接重构融合的HSI。值得注意的是,除了MAE块中的最后一层注意单元之外,所有卷积层都使用ReLU作为激活函数,因为ReLU在梯度的反向传播中具有优势和非线性表示。
Loss function
通过在本文中结合空间注入和频谱保留的特定问题目标,我们相应地为HyperNet设计了如下的端到端损失函数:
其中L1可以看作是强度损失项,主要保证融合结果与参考图像的光谱相似性;基于融合结果和参考图像之间的空间结构的一致性约束引入后一损失项。λ是用来平衡两个损失项的参数。
为了光谱保留,在损失函数中使用L1损失,这很好地保留了图像的强度分布和某些边缘:
同时,在仅使用强度损失项的情况下,不可避免地会引入一些模糊的局部细节。为了解决这个问题,我们考虑多尺度结构相似性(MS-SSIM)损失直接关注两幅复杂结构图像之间的结构变化,在训练过程中很好地保持了高频区域的对比度和纹理细节,生成了光谱信息准确、结构纹理美观的融合图像。MS-SSIM损耗定义为