Pansharpening via Super-Resolution Iterative Residual Network With a Cross-Scale Learning Strategy
(基于跨尺度学习策略的超分辨率迭代残差网络泛锐化)
全色锐化是利用高空间分辨率全色(HR PAN)图像恢复低空间分辨率多光谱(LR MS)图像的空间分辨率,生成融合图像和高空间分辨率多光谱(HR MS)图像。近年来,基于卷积神经网络(convolutional neural networks,CNNs)的全色锐化方法不断涌现,但大多数方法都存在一定的局限性,如简单的层叠卷积结构导致信息失真,以及监督学习策略带来的尺度相关问题等。为此,我们提出了一种基于跨尺度(CS)学习策略的超分辨率迭代残差(SRIR)网络方法。对于我们提出的SRIR,我们设计了一个基于亚像素卷积结构的上采样网络来代替传统的上采样预处理。采用迭代网络框架,设计了一种新的空间信息注入模块,不断地向网络注入空间和光谱特征,增强了信息的流动和传输。我们用引导滤波器产生近似HR MS,并通过SRIR映射近似HR MS和参考HR MS之间的残差信息,以提高融合图像的质量。对于CS,首先在退化尺度下训练网络,称为深度先验,然后设计一个更细尺度的无监督微调损失函数,对具有深度先验的网络参数进行微调,以克服尺度效应。实验表明:1)基于SRIR的全色锐化方法在降质尺度下能获得最佳的锐化效果;2)规模效应与网络深度呈负相关,即网络越深,对规模效应的鲁棒性越强;3)CS学习策略可以大幅度提高基于CNNs的全色锐化方法在全分辨率下的性能;以及4)我们的方法可以在全分辨率尺度上产生比所有其他传统和深度学习方法更好的结果。
介绍
为了保证信噪比(SNR),多光谱(MS)图像的空间分辨率不可避免地受到损害。相比之下,全色(PAN)图像具有显著更高的空间分辨率和SNR,尽管它缺乏光谱信息。因此,全色锐化技术应运而生,它综合了高分辨率(HR)PAN图像和相应的低分辨率(LR)MS图像的互补优势,以获得同时包含丰富空间和光谱信息的HR MS图像。全色锐化已在商业上应用于Bing地图和Google地球等软件中,用于可视化解释和土地覆盖监测、作物分类制图和异常变化检测的初步处理。
目前,一般有四类全色锐化技术:基于组件替换(CS)、多分辨率分析(MRA)和变分优化(VO)的方法以及深度学习(DL)方法。
基于CS和基于MRA的方法以快速、简单和易于采用而闻名。基于CS的方法将LR MS图像投影到变换域,并用该域的空间信息部分或全部替代HR PAN图像的空间信息。强度色调饱和度(IHS)和主成分分析(PCA)是原始的全色锐化算法,可以追溯到20世纪90年代早期。此后,基于CS的方法发展为两种类型。第一种类型,例如部分替换自适应CS(PRACS)和自适应GS(GSA),创建LR MS通道的像素值和HR PAN图像的像素值之间的关系的模型。另一种类型的方法是使用矩形滑动窗口来计算所涉及的像素的数目或者通过初步识别的图像块来保持全色锐化处理。这种类型的一个很好的示例是基于波段相关空间细节(BDSD)方法的一系列方法。
基于MRA的方法采用不同的分解算法,提取HR PAN图像的空间细节,然后将它们注入到上采样LR MS图像的每个波段中。一般分解方法有:曲线变换(CVT)、小波变换(ATWT)、非采样轮廓变换(NSCT)和广义拉普拉斯金字塔(GLP)等。这类方法通过简单的低通滤波器或更复杂的迭代方法来执行。然而,当执行高通细节注入时,融合图像中的空间失真可能由原始移位、振铃或混叠效应或轮廓和纹理的模糊引起。因此,有学者将采集传感器的信息引入分解方案中,形成了自适应分解技术,如一系列基于GLP依赖于利用MS传感器MTF的滤波器的方法(MTF-GLP)。许多学者从其他图像处理领域引入非线性方法,和一些学者设计了一个显著提高注入模型之间的关系通过分析现有图像和采集信号的大气的影响。此外,MRA方法的一个重要组成部分是MRA和CS方法组成的混合方法。大多数这些方法应用多分辨分解技术的转换域CS方法。
基于VO的方法基于传感器模型建立HR PAN图像、LR MS图像和HR MS图像之间的关系。然后将观测到的HR PAN图像和LR MS图像应用到所建立的模型中,估计HR MS图像。恢复理想HR MS图像中的约束优化问题通常通过稀疏表示、贝叶斯或变分方法来解决。大多数基于VO的方法或多或少地依赖于正则化参数。这些参数需要用户选择。这一关键问题在全色锐化领域仍然没有得到充分的研究,大多数关于它的文章只是报道了实验的设置。
基于DL的技术已经广泛应用于图像处理领域,并且最近在图像超分辨率(SR)方面引起了更多的关注。Huang等人于2015年首次提出了基于神经网络的全色锐化技术,目前该领域的研究发展迅速。基于DL的全色锐化可以大致分为三种类型:监督学习、半监督学习和无监督学习。
其中,基于DL的全色化多采用监督学习。根据Wald方案,模拟数据集(即:空间退化的原始HRPAN和LRMS图像)和相应的参考(即,LR MS图像)形成训练数据集。Yao等人提出了U-Net模型,以增加模型层数而不失真。Yuan等人提出了一种多尺度多深度卷积神经网络,用于提取不同尺度下的细节信息。Xiang等人提出了一种多尺度密集深度学习方法,Zheng等人介绍了一种14层深度残差卷积神经网络(DRCNN)。然而,有监督学习策略可能会引起一些尺度相关的问题,即由于训练集和测试集之间的尺度失配而导致模型性能损失较大。一些学者提出了一些上采样的网络结构。例如Zheng等人基于U-Net架构构建了上采样网络,Li等人采用了深拉普拉斯金字塔超分辨率网络(DDLPS),Xie等人应用了深SR网络,Larabi等人构建了多分支CNN结构进行上采样。同时,一些学者构造了一些特殊的网络结构来分别处理PAN图像和MS图像。例如,Cai和Huang提出了一种超分辨率引导的渐进卷积神经网络,以相同尺度的PAN和MS图像来引导不同尺度的模型,Zhang等人提出了一种端到端的双向金字塔网络(BP-Net),用于分别处理PAN和MS图像。这些方法表明,取代传统的双三次插值算法可以提高映射精度。
现阶段大多数学者采用简单的堆叠卷积结构,阻碍了信息的传输,影响了融合质量。一些学者通过构建光谱损失函数来训练网络,以增强光谱信息的流动。有学者构建了多通道、多尺度、多深度的卷积神经网络(CNNs)来提取多尺度空间信息;一些学者采取了一些预处理措施来增强空间信息。例如,采用对比度受限自适应直方图均衡化(CLAHE)来增强PAN图像,使用滤波器来提取高频信息(空间信息),以及应用引导滤波器(GF)来改善上采样MS图像的空间信息。这些方法表明,构造特殊结构可以在一定程度上提高映射精度。
基于Wald协议的监督学习全色化策略由于训练集和测试集之间的尺度失配而导致大的模型性能损失。因此,Scarpa等人提出了一种目标自适应学习策略,以提高退化尺度下测试集的网络映射能力,Vitale等人提出了一种细节保留跨尺度(CS)学习策略,以平衡退化和全分辨率尺度之间的网络性能。
然而,为了避免采用基于Wald协议的有监督学习全色锐化策略,一些学者选择了半监督或无监督学习全色锐化方法。
半监督方法一般采用生成式对抗网络(GANs)的结构。Liu等人首先将GAN应用于全色锐化任务,Ozcelik等人提出了通过GAN网络对PAN图像进行引导彩色化,Xie等人首先引入了3-D生成对抗网络。一些学者提出了一些无监督学习的锐化策略。例如,Qu等人提出了一种基于自我注意机制(SAM)的无监督方法。Luo等人提出了一种无监督CNN全色化模型,设计了一种迭代网络架构来提高网络的表示能力,并构造了一种新的无监督损失函数来优化网络。然而,他们的方法在某些精度指标上不能产生与采用监督学习策略的方法一样好的结果。
综上所述,有监督学习仍然存在如下一些局限性
1)大多数方法采用双三次插值作为上采样预处理,并将上采样后的LRMS图像作为网络的输入,导致输入信息不完整。
2)这些方法中的大多数将DL模型视为黑箱问题,并且平等地对待不同的特征。事实上,在简单的堆叠卷积结构中,信息传输是无效的,从而阻碍了网络的表示能力。
3)基于Wald协议的有监督学习方法忽略了不同尺度的映射关系相似但不相等。因此,有时可能会导致一些与规模相关的问题。
因此,在本文中,我们提出了一种带有压缩感知学习策略的全色锐化方法。
贡献
1)受随机共振领域的启发,本文引入子像素卷积层,构建了一个用于LR MS图像随机共振的子像素卷积网络(SPCNN),代替了上采样预处理,保证了网络输入信息的完整性。
2)基于迭代网络的结构,我们构造了一个迭代残差网络(IR-Net),其中我们通过分支残差网络(BR-Net)构造了一个新的空间信息注入模块,并生成了GF的近似HR MS。
3)提出了一种CS学习策略,即在退化尺度下训练网络,称为深度先验,然后提出更精细尺度的无监督微调损失函数对深度先验后的网络进行优化。这样就克服了规模效应。
方法
Super-Resolution Iterative Residual (SRIR) Network
如图1所示,本文提出的SRIR网络模型基于迭代网络结构,主要在以下几个方面有所变化:1)引入子像素卷积层构造SPCNN得到ISP-MS,取代传统的双三次插值上采样预处理;2)为了更好地提取空间信息,我们构造了一种新的空间信息注入模型,将IPAN与双三次插值上采样IBIC-MS之间的残差信息放入BR-Net中,得到空间残差信息的深层特征,然后加入IPAN;3)将IPAN空间细节信息通过GF注入到IBIC-MS和ISP-MS的融合图像中,形成近似HR MS(Iappro);4)通过SRIR映射Iappro与参考HR MS图像之间的残差,进一步提高融合图像的精度。值得注意的是,SRIR网络由图1中的SPCNN、IR-Net和BR-Net组成。
总体流程
1) Sub-Pixel Convolutional Network (SPCNN):SPCNN由SR领域的亚像素卷积层构成,取代了传统的上采样预处理,集成了网络,保证了网络输入的信息完整性。
a) Sub-pixel convolutional layer:SPCNN的核心是提出的亚像素卷积层结构,该结构最早用于单幅图像超分辨率重建(SISR)。为了使网络是轻量级的,我们截取的亚像素卷积结构并将其应用于LR MS图像的上采样。与双三次插值方法相比,该结构能更好地保留光谱和空间信息。与SISR中的其他方法相比,该方法还可以减少反卷积层结构等人为因素的影响。亚像素卷积层结构如图2所示。
我们可以看到,采用了两个卷积层和两个子像素卷积层。对输入的m波段H×W尺寸的特征图进行卷积得到4×m波段H ×W尺寸的特征图,再经过亚像素卷积层得到m波段2H × 2W尺寸的特征图。再次执行上述操作以获得m波段4H × 4W大小的上采样特征图。
对于由L层组成的网络,在第l层中,大小为nu ×h×w的输入ul和大小为nv×h×w的输出vl可以表示为
其中wl,bll∈{0<l ≤ L}分别为权值和偏差。wl是大小为nl×ml×ml的2-D卷积张量,其中nl是特征的数量,ml是层l处的滤波器大小。偏置bl是长度为n1的向量,其中n1 = C。为简单起见,我们定义
Φ
L
Φ^L
ΦL (wl,bl)层l可学的参数集。一些层可以将vl传递给激活函数,因此l层卷积层特征映射
f
l
f^l
fl为
Φ
l
Φ^l
Φlf是与SPCNN中的层l相关联的参数集合,
v
f
v^f
vfl是l层的卷积输出特征,而
u
f
u^f
ufl是l层的输入特征。层k中的亚像素卷积层特征图
f
k
f^k
fk为
式中
w
f
w^f
wfk是大小为nk ×
R
2
R^2
R2 C × mk×mk的三维卷积张量;τ是周期性混洗算子,将H × W × C
R
2
R^2
R2型张量重排为RH × RW × C型张量;
b
f
b^f
bfk是长度的向量,
u
f
u^f
ufk是输入特征;
v
f
v^f
vfk是卷积输出特征;
Φ
k
Φ^k
Φkf以及k,f是与层k相关联的参数集合。
b) Network structure:我们提出的SPCNN结构如图3所示。
SPCNN的输入为ILRMS,输出为上采样特征图ISP−MS。SPCNN包含9层结构和2种跳跃连接结构。在层4和层5之前连接跳跃结构。即
f
4
f^4
f4和
f
5
f^5
f5
将各层函数联系起来,得到SPCNN的整体函数
SPCNN中的主要hypercon参数集中在表I中。
2) Iterative Residual Network (IR-Net):本文采用基于迭代网络结构的IR-Net。利用BR-Net构造了一个新的空间信息注入模型,并利用GF生成近似HR MS(Iappro)。然后我们通过SRIR映射Iappro和参考HR MS之间的残差,以加快训练。
a) Spatial information injection module:该模块的主要作用是提取空间细节,然后将其注入IR-Net以保留空间细节。为了提取空间信息并提供有用的空间线索,我们构建BR-Net来提取IBIC-MS和IPAN之间的空间残差的深度特征,然后叠加IPAN以形成空间信息注入模块ISpace。图4示出了残留图像的示例。
I~BIC − MS和IPAN~之间的残差如下:
其中C是IBIC−MS中的条带数。Ires(i)是i波段的空间残差特征图,IPAN是PAN图像,IBIC−MS(i)是i波段的双三次插值图像。
BR-Net结构类似于SPCNN网络的前半部分的结构,如图5所示。主要的hypercon参数收集在表II中。
BR-Net的总体功能如下:
b) Network structure:ResNet的提出是为了解决更高层次的计算机视觉问题,如检测和图像分类。因此,直接在低水平视觉问题中使用ResNet架构,无论是全色锐化还是超分辨率,都可能是次优的。我们采用基于Luo等人提出的迭代融合框架的IR-Net。具体地,我们采用多级联操作(即,将光谱和空间信息连续注入网络),以映射Iappro和参考HR MS(Iref)之间的残差。IR-Net的结构如图6所示。
将空间信息注入模块ISpatial放入浅层特征提取层,得到空间特征ηSpatial,映射函数如下:
IR-Net可分为五个模块。第一模块,层1,可以由特征映射函数
Z
1
Z^1
Z1表示;第二模块,层2和3,可以由特征映射函数
Z
2
Z^2
Z2表示;第三模块,层4和5,可以由特征映射函数
Z
4
Z^4
Z4表示;第四模块,层6和7,可以由特征映射函数
Z
6
Z^6
Z6表示;第五模块(层8)可以由特征映射函数
Z
8
Z^8
Z8表示。从图6可以看出,在模块2、模块3、模块4之前和之后分别进行级联运算和逐像素相加运算。
因此,第一模块中的特征映射函数
Z
1
Z^1
Z1为:
模块2、3、4中的特征映射功能如下:
其中i ={2,4,6},ηSpatial是由浅特征提取层获得的空间特征;IBIC−MS是双三次插值图像;Hct表示覆盖操作;
Φ
i
Φ^i
ΦiZ包含与IR-Net中i模块相关的所有可学习参数;
Φ
i
Φ^i
Φiψ包含与IR-Net中第i层相关的可学习参数;
ψ
i
ψ^i
ψi是第i层特征映射函数。
因此,导出残差图像I’res−HRMS的总体功能如下:
3) Mapping Residual Images Based on the SRIR:为了加快训练过程和提高映射精度,我们通过GF得到近似HR MS(Iappro),然后将Iappro和参考图像HR MS之间的残差图像进行映射,最后将训练网络得到的残差图像叠加到Iappro上,得到最终的融合图像IFUS。
a) Approximate HR MS (Iappro) acquisition:Iappro是通过GF获得的,通过IPAN引导IBIC−MS和ISP−MS的融合图像。GF 是一种自适应权值滤波器,能够平滑图像并保持边缘,在融合任务中得到了广泛的应用。本文利用GF得到参考HR MS的近似图像Iappro,然后利用SRIR映射近似HR MS与参考HR MS之间的残差,以加快训练速度,提高映射精度。
IBIC−MS和ISP−MS的融合图像可表示为
输出图像Iappro被假设为局部窗口θj中的引导图像p的线性变换,如下:
其中θj是一个大小为(2r +1)×(2r + 1)的局部正方形窗口;p(k)是在k处的引导图像IPAN的像素值。a和b是当窗口的中心在j时该线性函数的不变系数。
为了求解系数a和b,我们将无约束图像恢复变换为最优化问题,最小化以下函数:
其中Ifus(k)是输入融合图像在k处的像素值,ε是确定模糊性的正则化参数。一般情况下,当窗口大小一定时,随着ε的增大,滤波效果更加明显。a和b如下:
b) Residual mapping:为了进一步提高融合的精度,我们利用网络SRIR来映射Iappro和Iref之间的残差,其可以表示为
c) Obtain the fused image:我们通过训练后的SRIR得到残差图像Ires−HRMS,然后将其与近似的HR MS图像Iappro相加得到最终的融合结果,如下:
CS Learning Strategy
在监督学习方法中,需要大量的输入和输出(标记的)样本来训练网络参数。在没有理想全色锐化图像作为参考的情况下,样本生成策略(即,全色锐化监督学习策略)。也就是说,基于Wald的协议,训练数据集被降级,并且原始LR MS数据被视为标签。但不同尺度的映射关系相似但不相等。因此,样本生成策略会引起一些尺度相关的问题。
为了克服全色监督学习策略的尺度效应,提出了一种包含深度先验和微调两部分的压缩感知学习策略。也就是说,基于样本生成策略,我们首先获得参数Φn,这意味着在降级的训练数据集上预训练网络。然后,初始参数,Φn,在全分辨率训练数据集上用25次迭代来细化以获得参数Φ。值得注意的是,本文中的优化器是Adam,学习速率的起始值设置为0.01,之后每五个时期的学习速率乘以0.1。
基于自然分辨率输入的全色锐化最终利用细化的参数来进行,Φ。这有助于在全分辨率范围内实现显著的性能提升。CS学习策略的顶层工作流程如图7所示。
在深度学习中,选择一个损失函数是很重要的,它可以实现期望的输出。在全色锐化领域,存在许多候选损失函数。不幸的是,其中有些相当复杂,有些耗时,有些甚至不稳定。这些候选可能不适合优化,因为它们对强度缩放不敏感,并且它们充满局部最小值,诱导高度复杂的目标,然后在训练期间引起陷阱。
因此,本文选择广义损失函数L1进行网络预训练,优化初始参数。根据QNR的谱分量(Dλ)和空间分量(DS),我们构造了损失函数进行微调,以获得更理想的结果,而不会陷入训练过程。
从通用图像质量指数(Q)导出的QNR通常用于全色锐化图像的质量评估。Q度量两个图像i和j的局部相关性、亮度和对比度。Q指数可以由如下公式表示:
i和j代表两个不同的图像。μk和σkk = i, j 分别表示图像k的平均值和标准偏差。(−1,1)问指数的动态范围。[−1,1]是Q指标的动态范围。此外,根据融合HR MS图像和原始LR MS图像的带间Q值定义光谱失真指数Dλ和空间失真指数DS,如下所示:
其中,C是融合图像HR MS或原始图像LR MS中的带的数目;
F
‘
c
F`^c
F‘cMS是融合HR MS图像的c通道;
I
c
I^c
IcMS是原始LR MS图像的c通道。
QNR实际上通过合并频谱和空间失真指数来测量融合图像的频谱和空间质量,频谱和空间失真指数可定义如下:
其中Dλ是光谱失真指数,Ds是空间失真指数。
[0,1]是QNR的取值范围,QNR越高,性能越好。因此,微调损耗函数定义如下:
其中QNR是无参考质量评价指标,LFine−tune是精细尺度下的无监督微调损失函数