MUSTFN: A spatiotemporal fusion method for multi-scale and multi-sensor remote sensing images based on a convolutional neural network
(MUSTFN:一种基于卷积神经网络的多尺度多传感器遥感影像时空融合方法)
(第一篇关于时空融合的!!!但是感觉缺少详细的流程图片,原论文确实也没有???对于这个流程图的理解,最好是已经有些基础的,应该也能看懂)
时空数据融合是提高多源遥感影像应用潜力的常用技术。然而,当图像所覆盖的区域经历快速的土地覆盖变化或图像具有显著的配准误差时,大多数现有方法在生成质量融合结果方面存在困难。虽然深度学习算法已经展示了其影像融合的能力,但在经历持续云层覆盖和无云影像观测有限的地区应用基于深度学习的融合方法仍具有挑战性。为了解决这些问题,提出了一种基于卷积神经网络(CNN)的多场景时空融合网络(Multi-scene Spatiotemporal Fusion Network (MUSTFN))算法。我们的方法使用多级特征来融合由多个传感器获取的不同分辨率的图像。此外,MUSTFN利用多尺度特征克服了不同图像间几何配准误差的影响。此外,提出了一种多约束损失函数,利用云污染图像的微调方法,提高了大区域图像融合的精度,同时解决了融合和间隙填充问题。
介绍
随着空间遥感技术的不断发展 ,更多的高时间分辨率的卫星图像应用领域的天气预报,变化检测和生态监测。高空间分辨率卫星数据在土地覆盖物制图中发挥着不可替代的作用、灾害调查和精准农业。然而,由于受云层的影响和传感器技术的限制,很难获得时间密集、空间分辨率高的遥感图像。时空融合技术可以解决这一问题并大大提高遥感数据在动态土地制图中的应用潜力、地表蒸散量估算,以及作物物候分析。
与用于缺失信息重建的传统插值算法相比,时空融合方法可以避免引入不确定性。特别是对于变化较大或缺失数据面积较大的区域,传统的基于相邻时间或邻近像素的插值算法无法准确预测遥感影像信息。而不是依靠单个传感器,时空融合算法结合来自多个传感器的数据,可以相对有效地修复缺失的数据在大面积和大变化。时空融合的目标是使用粗空间分辨率图像(粗图像(C2),MODIS),以获得预测日期的精细空间分辨率图像(精细图像(F2),例如:Landsat)基于不同日期和不同传感器获取的图像的空间、时间和光谱相关性。同时,许多时空融合方法还依赖于来自相邻日期(C1、C3、F1、F3)的附加图像。然而,大多数时空融合算法并没有获得令人满意的结果,在融合存在土地覆盖变化、配准误差和连续云覆盖的遥感影像时,其适用性受到限制。
许多传统的数据融合算法利用遥感图像之间的空间和时间相关性。第一种广泛使用的模型是以时空自适应反射融合模型(STARFM)为代表的基于权函数的时空融合算法。该方法在土地覆被类型不随时间变化的假设下,使用来自周围空间的相似像素引入了粗图像到精细图像的变化率。然而,STARFM仅在同质区域表现良好。为了提高混合像元多的异构场地的分割性能,在STARFM算法的基础上,引入变化率转换系数,改变相似像元的搜索方式,提出了增强型STARFM算法(ESTARFM)。同样,映射反射率变化的时空自适应算法(STAARCH)也可以改善融合结果,但这些方法无法从发生较大变化的区域捕获信息。为了处理快速变化的区域,灵活时空数据融合(FSDAF)方法利用解混原理获得预测Fine图像与附加日期Fine图像之间的残差。同时,FSDAF通过引入权重函数,提高了模型在土地覆被类型快速变化情况下的适用性。此外,多传感器多分辨率技术(MMT)是第一种基于非混合的方法,在此基础上,Fit-FC算法结合了模型拟合(Fit)、空间滤波(F)和残差补偿(C),以科普变化剧烈的场景,并限制解混过程对结果的影响。
但大多数传统的数据融合算法在处理大变化场景时仍有很大的改进空间。这些大的变化情景是指土地覆被类型的快速变化,例如从裸地到植被的过渡,这通常是一种非线性变化。然而,传统算法总是依赖于表面不变性或线性变化假设且无法捕捉非线性变化在复杂遥感影像中。另外,传统的融合算法大多忽略了多波段遥感图像之间的光谱相关性,往往采用单一波段对相应波段进行融合。最后,大多数传统方法需要为每个预测重建模型,这是耗时的。而基于学习的方法可以直接调用训练好的模型,这一优势是非常有效的。
为了从变化较大的区域获取信息,基于学习的方法将遥感图像的光谱相关性与时空融合模型的非线性表达能力相结合。机器学习算法(如随机森林和极限学习)可以将多个波段的特征组合起来,从而融合整个遥感影像。各种类型的卷积神经网络模型被应用于遥感领域,以增强模型的非线性表示能力。时空融合的深度学习方法刚刚出现,受到的关注相对较少,但与传统方法相比有显著改进。最基本的深度学习方法直接在粗图像和细图像之间建立非线性关系,忽略了遥感图像之间的时间相关性。为了充分利用遥感图像的时间、空间和光谱相关性,扩展超分辨率卷积神经网络(ESRCNN)引入邻近日期的遥感影像,增加空间信息量,提高时空融合结果的精度。类似地,基于生成式对抗网络(GAN)的深度学习模型也可以科普急剧变化的场景。最深刻的学习方法还只适用于小面积,很少可以扩展到大区域。我们所知,有高精度相对较少(相对平均绝对误差小于15%深度学习的方法已被用于大面积时空融合的遥感图像。此外,它们适用于较少类型的传感器,尤其不适用于存在几何配准误差的传感器。原因如下:第一,当训练数据完整时,大多数深度学习方法只能生成高质量的模型,而对于大面积多云区域,由于内部(例如,SLC关闭)或外部(例如,云覆盖)因素。此外,短期合成图像可能还有大量的信息缺失。这个缺失的信息对训练数据的数量和质量产生影响,降低传统的深度学习方法的准确性。第二,来自多源传感器的图像分辨率不同,配准的准确性,和观察角度;特别是,降低配准精度可能会导致模糊图像。因此,深度学习时空融合方法的适用性不同的传感器需要作进一步的探讨。
幸运的是,深度学习发展带来的新技术可能会进一步增强时空融合的应用前景。最近,许多研究已经表明,分层CNNs可以有效地提取图像的空间特征,其中从浅到深的语义特征可能有利于多场景的时空融合和模型迁移。同时,研究发现,不同大小的土地覆盖类型的图像重建需要不同大小的特征图,不同大小的特征图中包含的周围像素信息有可能避免传感器配准误差对融合结果的影响。此外,作为一种新的策略,微调方法通过用新数据继续训练来提高模型精度。在此之前,填充和融合是重建遥感数据的两种独立策略。由于填充和融合方法受辅助数据或云量的不同时间间隔的影响,必须分别选择填充或融合方法。例如,作为一种新的策略,微调方法通过用新数据继续训练来提高模型精度。在此之前,填充和融合是重建遥感数据的两种独立策略。由于填充和融合方法受辅助数据或云量的不同时间间隔的影响,必须分别选择填充或融合方法。例如,当时间间隔很大时,融合方法通常不用于解决间隙填充问题,因为它们的准确性差。使用这种微调方法,用云污染数据训练时空融合模型以提高模型精度,有望同时解决融合和间隙填充问题,尽管难以使用具有缺失信息的图像来训练模型。最后,根据不同任务设置不同损失函数的策略大大增强了深度学习方法在遥感中的应用潜力,为进一步提高时空融合精度提供了思路。将这些新兴的技术加以改进,应用于遥感影像的时空融合,是非常有价值的,也是我们研究的重点。
在实际应用中,由于扫描线校正器故障和云的影响,很多遥感图像往往会丢失一部分地表信息,但剩余的图像仍然包含一些相对完整的数据,能够提供地表反射率变化的信息。因此,本研究主要针对信息不完全的不同遥感影像,提出一种新的时空融合方法,并达到以下目的:(1)利用深度学习方法的特点,提高快速变化场景下的融合精度;(2)提出了一种适用于不同传感器的融合方法,尤其适用于存在几何配准误差的传感器;(3)解决了大面积云污染遥感影像的填隙问题。
方法
Network architecture
MUSTFN(Multi-scene Spatiotemal Fusion Network)提取多层次、多尺度的特征。多层次特征包括从浅到深的三个层次,浅层次特征保留了空间细节,而深层次特征包含了背景信息,用于融合复杂场景和不同分辨率图像。多尺度特征权重减少周围像素图像配准误差的影响。之后,不同深度和特征融合使用不同的特征融合方法。MUSTFN的整体结构如图1所示,图1的详细结构见补充资料图S1。
Multi-level and multi-scale feature extraction blocks
MUSTFN使用三步特征提取方法生成浅特征和深特征(f1、g1和h1,图1)。深层特征包含更多的语义信息,可以提高模型的表达能力,而浅层信息保留了更多的细节,有利于图像恢复。同时,多级网络可以有效地提取图像的空间特征。具体结构如下:首先,对初始的粗分辨率和高分辨率输入图像分别进行一次和两次卷积,以保持高分辨率图像的空间信息。除非另有规定,卷积后是批归一化(BN)和校正线性单元(ReLU)激活函数。然后,对整合后的输入特征使用两个普通卷积(Conv)和一个群卷积(GConv,具体结构如图S2所示)进行初始特征提取。不同的卷积用于初步特征提取,并保持原始粗分辨率和精细分辨率特征的相对独立性,这有助于保留精细图像中的详细信息。然后,将处理后的特征与输入特征通过跳跃连接融合形成f1。类似于该过程,f1继续加深并生成特征g1和h1。与获得f1的主要区别在于,我们使用扩张卷积(dilated convolution (DConv))来深化网络以用于语义信息提取并提高效率。
在该网络中,我们在g1和h1上构造两个相似的特征金字塔结构,以进一步提取不同尺度的特征。如图1所示,我们使用三种不同的自适应平均池(adaptive average pooling (AAPool))来生成基于g1的不同大小的特征图,这些特征图被重采样并堆叠在一起形成f2。特征图的大小随着网络的加深而减小,并且继续使用平均池减少了图像信息量,因此对于更深的h1,我们使用金字塔状的特征提取结构。也就是说,使用具有不同膨胀率的不同膨胀卷积来生成三个不同的尺度特征,并且这些特征也连接在一起形成f3。通过多尺度和多层次的特征提取块,我们最终获得三个不同的特征f1、f2和f3。
Feature fusion module
如图1和图S1所示,MUSTFN采用通道叠加(Concat)的方法融合f1、f2和f3。将融合后的特征分为两个分支,其中一个分支之后是卷积、池化和激活函数,以形成特征向量。然后,将该特征向量与另一分支的每个通道相乘,以给予不同的权值。这种为不同通道分配权重的策略构成了通道注意机制单元(图S1(e))。经过注意机制后,对特征进行三次卷积,以匹配目标遥感图像的波段。在模型的最后,应用S形激活函数将模型输出映射到0和1之间的遥感图像反射率。综上所述,本文将多层次、多尺度特征进行了融合,不同层次、不同类型的特征不仅有利于不同场景、不同传感器的图像融合,而且提高了模型的泛化能力。
Loss function
MUSTFN具有多约束损失函数。首先,该模型使用多波段自适应加权均方损失函数,以避免过度优化较长波长波段而忽略较短波长波段。这是因为长波段具有较大的值并且在损失函数中占据较高的权重。在此基础上,分别利用植被指数和结构相似性指数的损失函数来提高预测图像和标记图像的相似性。将上述三个损失函数组合在一起形成具有三个约束的损失函数。最后,MUSTFN采用在损失函数中加入掩码系数的策略,即在损失函数中加入另一个约束条件,控制缺失数据不参与模型训练。因此,该模型可以使用云污染的数据进行训练,而不受云的影响。
Multi-constrained loss function with band adaptive weights
多频段自适应加权均方损失函数分别计算各频段的损失值并进行平衡,最后将平衡后的各频段损失值求和。具体计算如下:
植被在遥感图像中占很大比例,其变化在短时间内比其他土地覆盖类型更快。因此,在损失函数中,我们使用植被指数(L2)来提高整体融合效果。此外,作为一个通用的框架,MUSTFN可以灵活使用损失函数中的其他指标,如归一化差值累积指数(NDBI)。
L1和L2是基于像素级来比较标签和预测结果的相似性,而结构相似性指标可以在样本级度量这种相似性,我们直接取结构相似性指标的反面,加入一个平衡因子作为第三约束,从不同的层面对预测结果进行优化:
最后,将上述损失函数组合以形成MUSTFN的损失函数,Eq.(4),三个损失函数具有6:1:0.1的权重系数,其中6意味着对于L1的每个频带,权重为1。
Loss function with mask coefficients
基于Eq.(4),标签和预测像素乘以掩模系数。同时,输入数据中的空值被屏蔽掉,使得即使在训练和标记数据中存在空值时也易于训练或微调模型。最后,Eq.(4)可以重写为Eq.(5)。
Evaluation of fusion results
Evaluation metrics
复现的时候再细看。