Detail-Injection-Model-Inspired Deep Fusion Network for Pansharpening
(细节注入模型启发的深度融合网络全色锐化算法)
全色锐化是一种图像融合方法,其目的是将低空间分辨率的多光谱(MS)图像与高空间分辨率的全色图像相结合以产生高空间分辨率的MS图像。最受欢迎和成功范例pansharpening框架被称为细节注入,虽然它不能充分利用复杂和非线性互补特性的图像。本文提出了一种基于细节注入模型的深度融合全色锐化网络(DIM-FuNet).
首先,通过将全色锐化处理为复杂且非线性的细节学习和注入问题,我们建立了具有三个细节保真度项的统一优化细节注入模型:1)依赖于频带的空间细节保真度项; 2)局部细节保真度项;以及3)复杂的细节合成项。其次,通过迭代梯度下降法优化模型,并将其展开为深度卷积神经网络。随后,展开网络具有三个分支,其中点方向卷积子网络和深度方向卷积子网络对应于前两个细节约束项,自适应加权重构模块具有融合子网络,用于聚合两个分支的细节并合成最终的复杂细节。最后,以端到端的方式训练深度展开网络。与传统深度融合网络不同,DIM-FuNet的体系结构设计以优化模型为指导,具有更好的可解释性。在降分辨率和全分辨率图像上的实验结果验证了DIM-FuNet的有效性,与现有的全色锐化方法相比,DIM-FuNet具有更好的性能。
介绍
近年来,遥感图像在军事侦察、环境监测、地质探测、深空探测等领域得到了广泛的应用。因此,如何获取高空间分辨率遥感影像的研究变得越来越重要。然而,由于光学遥感系统受到光学衍射、调制传递函数(MTF)、信噪比等成像效应的限制,很难同时获得高的空间和光谱分辨率。因此,研究人员提出了许多算法来融合高空间分辨率全色(PAN)图像和对应的低空间分辨率多光谱(LRMS)图像以获得高空间分辨率多光谱(HRMS)图像,这也被称为全色锐化。如今,全色锐化已经成为许多遥感任务提高其性能的预备步骤,例如作物制图和异常检测。
在遥感文献中,研究人员提出了许多全色锐化方法。其中,传统的代表性算法是基于细节注入框架的构件替换(CS)和多分辨率分析(MRA)。
顾名思义,基于CS的方法的基本思想是用PAN图像代替上采样LRMS图像中的强度分量以获得HRMS图像。亮度分量是从上采样的LRMS图像线性组合而成的,它代表了图像的空间信息部分,常用的方法包括亮度-色调-饱和度(IHS),主成分分析(PCA),Gram–Schmidt(GS)频谱锐化,依赖于频带的空间细节(BDSD)与局部参数估计,以及部分替换自适应分量替换(PRACS)。
与基于CS的方法不同,MRA方法将通过PAN图像的多分辨率分解获得的空间细节注入到上采样的LRMS图像中。可以通过不同的方法提取空间细节,拉普拉斯金字塔、小波变换和不可分离变换,它们衍生了许多代表性方法,例如广义拉普拉斯金字塔(GLP)、“à trous”小波变换(ATWT)和加性小波亮度比例(AWLP)。此外,在分解过程中考虑MTF可进一步提高性能,如MTF-GLP。基于CS和基于MRA的方法都可以归纳为一个细节注入框架,两者的区别在于细节提取的方式。
传统的基于细节注入的全色锐化方法由于易于实现和良好的频谱保持性,在基准测试和实际应用中仍然很流行。T. Ranchin等人提出了Amélioration de la Résolution Spatiale par Injection de Structures(ARSIS)的概念来总结此类方法的基本学术思想,即保留LRMS图像的全部内容,并通过空间滤波技术注入从PAN图像获得的空间信息。例如,在基于MRA的方法中,细节取决于注入系数和用于获得PAN图像的高频空间细节的等效滤波器。然而,这些方法很难通过线性小波滤波器来提取复杂的空间细节。
幸运的是,卷积神经网络以其出色的非线性映射学习能力弥补了这一缺陷。作为早期的首次尝试,Masi等人提出了一种具有三层的简单网络结构,称为全色锐化神经网络(PNN),其模仿了众所周知的单幅图像超分辨率CNN(SRCNN)。随后,许多研究人员在设计网络结构时参考了细节注入框架,即: 经由长跳跃连接将上采样的LRMS图像添加到最终输出,从而提高融合结果的光谱质量。例如,He等人设计了两个基于细节注入框架的全色锐化网络,即DiCNN1和DiCNN2。Yang等人提出了PanNet,其利用图像的高通部分作为网络输入。Deng等人受传统全色锐化框架的启发设计了FusionNet,其中PAN图像和上采样LRMS图像之间的直接差异被馈送到网络。这些细节注入框架启发的网络的结果在实验上显示出与诸如PNN的一般基于CNN的方法相比具有更好的频谱质量,PNN将全色锐化处理为简单的图像恢复问题。但其网络结构设计大多比较直观,与传统的基于细节注入的方法相比,更像是黑箱模型,缺乏可解释性。此外,为了避免对大量训练数据的需求,Qu等人提出了一种无监督方法,该方法基于多光谱(MS)图像的光谱特性,通过无监督自注意机制来解决全色锐化问题。因此,如何利用特定领域知识设计融合性能良好的可解释网络仍然是一项具有挑战性的工作。
为了缓解上述问题,研究人员尝试使用算法展开来设计用于全色锐化的可解释网络。Xie等人提出了一种用于MS和高光谱图像融合的深度展开网络,称为MHFNet,以提高可解释性,该网络在设计网络结构时利用了观测模型和图像先验。类似地,Xu等人构建了一种称为基于梯度投影的全色锐化神经网络(GPPNN)的模型驱动深度全色锐化方法,该方法也通过观察模型来公式化优化问题。然而,现有的基于深度展开的方法仍然直接使用网络来恢复HRMS图像,从而导致较差的光谱保持性。为此,借鉴细节注入框架的思想,对细节成分进行建模,并利用算法展开,设计了一种基于细节注入模型的深度融合网络DIM-FuNet,以增强图像的可解释性。首先,我们采用基于CS和基于MRA的不同细节提取方法,设计了一个具有三重细节保真度的目标优化模型。此后,通过将模型的迭代优化阶段展开为深度CNN来构建DIM-FuNet的主干。最后,提出了一种自适应加权重建模块(AWRM)以获得所需的HRMS图像。一方面,DIM-FuNet的架构设计以优化模型为指导,即:每个网络模块对应迭代算法的一个具体操作,使得网络中的隐变量具有更明确的物理意义,从而具有更好的可解释性。另一方面,我们将传统细节注入模型的优点融入到CNN中,使得网络能够恢复出更精细的空间细节和更好的频谱质量。与现有的全色锐化方法相比,本文提出的DIM-FuNet在三个开源数据集上的实验结果在视觉和定量上都具有竞争力。
贡献
1)我们提出的DIM-FuNet通过在目标函数中集成源自传统基于CS和基于MRA方法的细节提取和注入保真度项来桥接经典模型和深度神经网络,该目标函数可以通过迭代梯度下降来优化并可以展开为深度网络。
2)传统的基于细节注入的方法中两种不同的细节提取方式,即模型中的频带相关空间细节约束项和局部细节约束项,分别通过逐点卷积和逐深度卷积实现。同时,设计了融合子网络,从两个提取的细节中学习注入细节;这样,相应的权重和未知变换函数被网络代替,并且以端到端的方式从训练数据中联合学习。
3)为了获得理想的HRMS图像,我们设计了一种AWRM,它能充分利用中间特征,使网络训练过程中的梯度更新直接有效。
方法
Detail Injection Framework
作为广泛使用的全色锐化算法的一类,传统的基于CS的方法可以概括为
P ∈
R
H
×
W
R^{H×W}
RH×W表示PAN图像,IL ∈
R
H
×
W
R^{H×W}
RH×W是所谓的强度分量,通常定义为
其中wk是旨在测量LRMS和PAN信道之间的频谱重叠程度的第k个权重。基于压缩感知算法的核心区别在于注入系数和权值的估计方法。例如,BDSD通过考虑每个波段的不同强度分量来实现高级性能,其具有通用公式的扩展版本
与基于压缩感知算法的细节提取方法不同,基于磁共振成像的方法利用PAN及其低通空间模型来构造注射细节。即,HRMS图像被定义为
PL ∈
R
H
×
W
R^{H×W}
RH×W表示PAN图像的低通空间分辨率版本,通常通过简单的低通滤波器(例如:高斯和拉普拉斯)或复迭代分解方案(例如,小波和轮廓波)。因此,PL的计算可通过等效滤波器表示如下:
其中Flow是低通滤波器,* 表示2-D卷积运算。类似地,属于这类的不同方法的唯一特征在于用于获得图像PL和估计注入系数的算法。
Model Formulation
我们的模型来源于传统的细节注入框架。为了便于模型公式化,在下文中,PAN和MS图像都以张量格式而不是矩阵格式表示。因此,(1)和(4)可以组合成下面的扩展形式:
IL ∈
R
H
×
W
×
B
R^{H×W×B}
RH×W×B表示基于CS方法的强度分量;这里我们采用BDSD形式,它更通用。因此,(3)中IL的计算可以重写如下:
PAN图像的低通分量PL ∈
R
H
×
W
×
B
R^{H×W×B}
RH×W×B将由与MS图像的每个波段相对应的独立滤波器产生
因此,不同的提取方式对应的细节有以下两种:
ε表示相应的建模误差。同时,用非线性变换ψ(·; ·)代替了传统细节注入方法中的注入系数,其目的是合成两种提取的细节
通过(9)-(11),可以建立用于全色锐化的具有三重细节保真度项的统一优化细节注入模型如下:
参数α和β平衡每个约束项之间的折衷。显然,我们的模型是基于三个潜在变量的约束,即Dλ,DS和D,分别对应于波段相关的空间细节,局部细节和期望的注入细节。
Model Optimization
为了求解目标函数(12),使用梯度下降算法来迭代地更新三个目标变量。每个变量的梯度计算如下:
因此,第t次迭代阶段可以写为
其中参数η表示步长,上标表示迭代次数。值得注意的是,在我们提出的深度展开网络中,上述方程中的标量参数{α,β,η}将从训练数据中自动学习,这与传统算法不同。
Network Design
利用算法展开的工作,我们通过将上述算法的所有步骤转换为网络层来构建用于全色锐化的深度CNN,如图1所示。
第一,符号Conv(·;
C
i
n
C^{in}
Cin,
C
o
u
t
C^{out}
Cout)被引入作为单个卷积层,其输入和输出分别与Cin和Cout信道一起。在下文中,基本单位(basic unit (BU))Conv(·; cin,cmid,cout)表示级联的卷积层:
显然,IL的计算可以直接由逐点卷积(PWConv)层代替,其表示为
其中,B是光谱带的数量,这在前面已经提到。PWConv通过一组1 × 1卷积查看通道间相关性。如图3(a)所示,这里的过滤器具有特定的含义,即:每个滤波器表示(7)中的权重矩阵W的对应行向量。
同时,深度方向卷积(DWConv)层用于代替PL的计算,如图3(b)所示。
至于未知的转变ψ(·; ·),其目的是融合两个提取的细节,我们设计了一个融合子网络Netfusion,如图4(a)所示。
其中参数C表示隐藏特征图中的通道数。在第三节中,我们将讨论它对网络性能的影响。显然,融合子网络在特征域中将两个提取的细节结合起来,利用CNN学习复杂的非线性映射来逼近隐函数。类似地,偏导函数ψ’可替换为
通过(16)-(20),可以将(14)中的第t个梯度下降过程展开为一个深度网络模块,如图2所示。通过叠加上述模块,最终可以构建用于全色锐化的深度展开网络。
为了开始迭代学习过程,将如下初始化未知变量的值:
值得注意的是,在N次迭代之后存在AWRM,表示为
这种后处理操作显然有利于在通过自适应权重ω生成最终注入细节的同时充分利用中间特征。从另一个角度看,它在网络训练中的反向传播过程中的梯度更新更直接和有效。
通过最小化以下损失函数来训练整个网络:
f~DIM - FuNet~(·;Θ )表示提出的DIM-FuNet,由初始化模块、N个迭代阶段和重构模块组成,如图1所示。
具体地说,Θ表示网络中所有可学习的参数;除了卷积核之外,它还包括前面提到的四个标量参数α、β、η和ω。||·||F是Frobenius范数,K是训练对的数目。
在我们提出的DIM-FuNet中,迭代次数N的默认值是7,并且BU中每个卷积层的信道数被设置为64。这两个参数的设置详见第三节。此外,当遇到3 × 3和5 × 5卷积时,为了保持特征映射的大小,我们在输入的每一侧填充零。