[CR]厚云填补_M3R-CR Dataset and Align-CR

Multimodal and Multiresolution Data Fusion for High-Resolution Cloud Removal: A Novel Baseline and Benchmark

Abstract

去云(Cloud Removal)是遥感领域的一个重要且具有挑战性的问题，近年来在这一领域取得了显著进展。两个主要问题仍然阻碍着CR的发展：

现有数据集的高分辨率图像不可用
对生成结构的语义意义缺乏评估

本文中介绍了M3R-CR，一个多模态和多分辨率数据融合的高分辨率CR基准数据集。M3R-CR具有全球采样的高分辨率光学观测，与雷达测量和像素级土地覆盖注释相匹配。

多分辨率特性所导致的对中误差，以及由于固有成像机制差异等因素导致的高分辨率图像更明显的不对中问题。现有的基于多模态数据融合的方法假设图像对在像素级上精确对齐，因此不适用于该问题。

文中提出了一种新的基线，命名为Align-CR，在重建过程中逐渐扭曲和融合多模态和多分辨率数据的特征，有效缓解了与不对准相关的担忧。

在实验中，通过使用图像重建(Image Reconstruction，IR)指标分析视觉愉悦纹理的质量来评估CR的性能，并使用一个完整的语义分割任务进一步分析语义有意义结构的生成。

1 Introduction

大气中的雾霾和云层影响了电磁信号的传输，导致地表信息缺乏。去云旨在重建被云污染的区域，以抵消云造成的质量退化问题。近年提出的数据集有RICR-II和SEN12MS-CR，这些数据集大多基于Landsat-8或Sentinel-2图像建立。

随着新一代卫星光学载荷空间分辨率的提高，在相对较低空间分辨率的数据集上开发的CR技术是否且在多大程度上可以推广到高分辨率数据集仍是问题。高分辨率CR数据集的缺乏严重限制了CR算法的发展，从而无法恢复高分辨率遥感图像清晰边缘和丰富的纹理细节。

现有工作几乎完全依赖于峰值信噪比(Peak Signal-to-noise Ratio)和结构相似指数(Structural Similarity Index Measure)等指标来评估重建图像的质量，这些指标可以提供关于重建图像视觉质量的定量信息，但是无法确定在语义分析中表现良好，需要根据生成语义上有意义的结构来评估。

在本文中介绍的数据集M3R-CR，由来自Planet卫星图像的成对云和相应的无云光学图像块组成，空间分辨率为3m，解决了目前高分辨率CR数据集的不足。此外从WorldCover产品中收集相应的像素级土地覆盖注释，通过一个完善的遥感任务来验证CR方法在生成全球分布和语义上有意义的结构方面的有效性。

由于表面信息的丢失，CR是一个高度不适定的问题。已有研究表明，利用合成孔径雷达(SAR)数据可以减少不适定性，因为SAR数据具有穿透云层的特性，并且固有地反映了地物的几何特征。在这些研究中，分辨率与光学数据相当的SAR数据，或下采样的高分辨率SAR数据，通常被用作CR的补充数据源。然而，对行星数据的补偿则更加复杂，因为获取分辨率与行星数据相似的高分辨率SAR数据，如TerraSAR-X和cosmos - skymed卫星数据，通常是负担不起的，特别是在全球范围内。然而，有一个很有希望的替代方案：欧洲航天局免费提供的全球Sentinel-1 SAR数据，尽管分辨率较低，但可以纳入M3R-CR数据集，以提高CR性能。与SEN12MS-CR等现有CR数据集相比，M3R-CR数据集有助于理解一个更实际，但更复杂的问题：基于多模态和多分辨率数据融合的CR (MMRF-CR)，其中由于分辨率差异导致的对准不准确，以及由于视场不匹配和视差等因素导致的高分辨率图像更明显的不对准问题，必须加以考虑。

为了解决基于多模态和多分辨率数据融合的CR问题MMRF-CR，提出了一种新的方法Align-CR，该方法将低分辨率SAR图像引导从云图中重建高分辨率无云图像。Align-CR使用可变形卷积(DConv)逐步从多模态和多分辨率数据中细化特征映射的对其方式，补偿其不对齐，从而增强融合过程。广泛评估表明Align-CR在绝大多数基准测试中都达到了最佳性能。

2 Related Work

2.1 Datasets for CR

M3R-CR数据集旨在通过发布多云和无云的PlanetScope数据，结合Sentinel-1的SAR数据和WorldCover陆地覆地图，推进高分辨率图像的去云任务。Sentinel-1的SAR数据可以支持去云的多模态融合，而WorldCover土地覆盖产品可以支持分离不同土地覆盖类型的性能并评估恢复的语义信息的质量。

然而，去云是一个像素级的重建任务。因此，图像级分类任务不能充分反映预测的无云图像的质量，因为即使图像部分遮挡，也可以推断出正确的类别。在M3R-CR数据集中，提供了一个像素级的分类任务，即语义分割，这更适合于评估去云方法在详细语义信息恢复方面的能力。

2.2 Algorithms for CR

光学遥感影像的去云是一个长期存在的研究问题。早期大多使用多云和非多云区域之间的空间相关性或频率差。

当前基于深度学习的方法有可能解决传统去云方法中出现的许多问题。

随着云层变厚，使用辅助图像作为参考数据获取包含被云遮档的地面信息十分重要。常用的方法是利用多时相图像来解决问题，通过整合不同时间获取的无云对应图像来估计缺失信息。但是这些方法在云层频繁覆盖的区域可能不适用。

一系列研究探索了利用SAR数据作为光学图像去云的辅助数据的潜力。SAR数据可以穿透云层获取云下地面信息。然而这些方法是在空间分辨率相对较低的数据上发展起来的。高分辨率图像中的去云问题在很大程度上仍未得到充分研究。

3 Data

3.2 Properties of M3R-CR

填补高分辨率数据集的空白
集成多模态多分辨率数据
纳入土地覆盖信息

4 Methodology

4.1 Problem Statement

对于一副浑浊影像Y，CR的任务是重建一幅清晰的图像F，显示出完整的地面场景信息内容，以便可靠地进行后续分析。基本策略是在没有附加信息的情况下处理单幅图像中的云污染，即单幅图像去云问题：

$F=CR(Y)$

这是一个高度不适定问题，通常在假定云污染区域与图像其余部分具有相似的光谱/几何特征的情况下解决。然而，对于具有高频纹理或不同土地覆盖类型的区域，重建性能无法保证。许多研究采用可穿透云且固有地反映地物几何形状的SAR图像作为先验假设，以减少不适定行。因此，引入了基于多模态数据融合的CR(MMF-CR)问题。将浑浊图像和相应的SAR图像S还原为清晰图像：

$F=MMF\, CR(Y_{\Omega },S_{\Omega })$

其中， $\Omega$ 表示云图与相应的SAR图共享相同的空间域。SAR图像指导MMF-CR方法从像素对像素对齐的云和SAR图像恢复无云图像。

在M3R-CR数据集中，Planet卫星捕获的地理参考云图和Sentinel-1卫星捕获的SAR图像不符合像素对像素的假设。这种缺乏一致性主要源于两个因素：

Sentinel-1和Planet图像之间的分辨率差异，出现对不准问题，即使Sentinel-1的图像被上采样以匹配行星图像的分辨率，上采样的过程也引入了导致对不准的不确定性。
由于成像机制和其他因素的固有差异而引起的对不准的问题在高分辨率图像中加剧。

$F=MMRF\, CR(Y_{\Omega _{Y}},S_{\Omega_{S} }\mid M)$

其中， $\Omega _{Y}$ 和 $\Omega _{S}$ 分别表示云图和SAR图的空间域， $M:\Omega _{S}\rightarrow \Omega _{Y}$ 表示像素级对应映射算子。为了解决MMRF-CR的问题，需要在去云过程中对云图和SAR图像进行精确对齐。

4.2 Align-CR Network

首先使用上采样算子将SAR图像映射到与光学图像相同的分辨率。然后将浑浊光学图像和上采样SAR图像分别通过各自的特征提取(Feature Extraction，FE)模块，提取模态特定特征。然后将特征馈送到D AlignFuse块中，获取信息全面的知识特征。AlignFuse块中，获取信息全面的知识特征。Align Fuse块在特征空间中依次进行对齐和融合，最后，将所有AlignFuse块的输出连接并馈送到图像重建(Image Reconstruction，IR)块来恢复高质量的无云图像。

Align-CR采用双流架构，利用辅助SAR图像补偿多云区域的确实信息，Align-CR不是直接从零开始生成完整的无云图像，而是专注于学习残差信息，即由于云的存在而导致的缺失或扭曲的特征。这是通过在最终输出之前对原始浑浊图像加入一个较长的跳跃连接相加来实现的，经验研究表明这种方法提高了网络的收敛性，增强了最终重建图像的质量。

由于SAR图像具有较低的分辨率，因此首先采用上采样算子将其映射到与光学图像相同的分辨率，便于生成具有一致分辨率的特征图供后续处理。即使两个图像都达到了相同的分辨率，前面提到的非严格对齐问题仍然存在。随后，将浑浊光学图像和上采样SAR图像分别通过各自的特征提取模块提取模态特征 $F^{0}_{opt}$ 和 $F^{0}_{sar}$ ，然后将 $F^{0}_{opt}$ 和 $F^{0}_{sar}$ 馈送到D AlignFuse模块中，以获取对场景的整体理解的知识特征。AlignFuse块在特征空间中依次进行对齐和融合。

式子中 $H_{Align}(\cdot )$ 和 $H_{fuse}(\cdot )$ 分别表示对齐块和融合块的功能。对齐块扭曲SAR特征以匹配光学特征的布局，在光学和SAR模式中对相应的地理特征进行空间对齐。融合快以交互方式从两种模态提炼特征映射。在对齐的特征映射之间动态传递互补信息，实现相互增强。最后对所有中间特征 $\left \{ F^{i}_{opt} \right \}^{D}_{i=1}$ 进行聚合，重构出高质量的无云图像。

Alignment Block

理想状态下，MMRF-CR任务可以被认为是一个两阶段任务，首先对准多模态、多分辨率数据，然后重建清晰的图像。然而，明确的像素对像素对齐以确保SAR图像和云图中的相同像素反射相同的地面目标是非常难以实现的。一方面，高分辨率光学图像中的锐利边缘无法与低分辨率SAR图像中的模糊边缘精确对齐。另一方面，由于光学传感器和SAR传感器成像机制的内在差异，几何畸变等引起的不对准问题很难解决。此外，多云图像中的遮挡使像素对像素的对齐复杂化。因此，作者隐式地参考了无云红外的对其过程。在本实验中，使用DConv将SAR特征与光学特征对齐。给定要对齐的两个特征作为输入，即 $F^{i}_{opt}$ 和 $F^{i}_{sar}$ ， $i=0,1,...,D-1$ ，利用偏移量预测模块预测偏移量是解决特征错位的关键。

其中， $H_{offset}$ 表示偏移量预测模块的函数，该模块可以通过一般卷积层实现。利用预测的偏移量，利用DConv将SAR特征翘曲为光学特征。

具体来说，在对其过程中采用了金字塔、级联和可变形卷积(PCD)。以金字塔结构进行对齐，即首先将较低尺度的特征与粗估计对齐，然后将对其的特征和学习到的偏移量传播到较高尺度以细化估计。将其嵌入到网络中，可以增强网络对转换建模的能力。

Fusion Block

然后将对齐后的特征，即 $F^{i}_{opt}$ 和 $F^{i}_{sar}$ 送入融合块中进行互补信息的传递。与之前的工作相似，从两个方面利用SAR信息：

全局融合，指导所有局部光学窗口之间的全局相互作用
局部融合，传递多云区域对应的SAR特征，弥补缺失信息

具体来说，每个融合块包含一个适应的SAR引导全局上下文交互块(SAR-guided Global Context Interaction，SGCI)，然后是一个基于SAR的局部特征补偿块(SAR

-based Local Feature Compensation，SLFC)。为了降低SGCI的复杂性，不再在密连层的每个卷积层之后添加Swin Transformer层，而是在残差密块(Residual Dense Block，RDB)的局部特征融合中，在卷积层之后添加Swin Transformer进行跨窗口特征交互。

Loss Function

通过最小化网络的输出 $y$ 与几乎接近输入多云图像的无云图像 $\hat{y}$ 之间的差来训练Align-CR网络。虽然M3R-CR数据集通过较短的数据采集滞后时间，尽可能避免了在云和无云图像采集之间可能出现的地表变化，但是也存在一些不可避免的麻烦。在本实验中，使用能够更好地处理离群值地Charbonnier loss进行训练，并对多云区域施加了额外的约束。

其中 $\bigodot$ 表示Hadamard积算子， $\omega$ 表示浑浊区域的额外权重，M表示浑浊掩膜， $\lambda$ 和 $\alpha$ 是常数。

5 Evaluations

5.1 Experimental Settings

Preprocessing

将数据输入网络之前，采用值裁剪来消除少量异常像素，并采用数据缩放来提高网络稳定性。将PlanetScope数据的所有波段的值裁剪为[0,10000]，并将所有波段的值除以10000。将Sentinel-1数据的VV极化和VH极化分别裁剪为[-25,0]和[-32.5,0]值，并将其重新缩放到[0,1]范围。

Implementation

Align-CR网络使用PyTorch框架实现，训练过程中，batch size为12，将样本随机裁剪为[160x160]的小块。使用Adam优化器，并将训练迭代的最大epoch设置为30.整个网络的学习率设置为 $10^{-4}$ ，除了对齐块的学习率设置为 $10^{-5}$ 。在前10个epoch之后，学习率每5个epoch衰减50%。对于网络架构，上采样算子采用最近邻插值法，AlignFuse模块数量D设置为6。对于损失函数， $\omega$ 、 $\lambda$ 和 $\alpha$ 分别设置为5、 $10^{-3}$ 和0.45。

Baselines

将所提出的方法与M3R-CR数据集上的五种基线方法进行比较：

单幅图像CR方法

McGAN
SpA GAN

基于多模态数据融合的MMF-CR方法

SAR-Opt-cGAN
DSen2-CR
GLF-CR。

由于现有的多模态数据融合去云方法要求输入的SAR图像与输入的光学图像具有相同的空间分辨率，因此为了使这些算法正常工作，必须对M3R-CR数据集中的SAR图像进行上采样。所有的多模态数据融合去云方法的SAR上采样方法都使用最近邻插值上采样。此外，为了确定包含辅助低分辨率SAR图像的好处，在不使用SAR图像的情况下训练Align-CR网络，表示为w/o SAR。为了验证Align-CR在整合多模态和多分辨率信息方面的优势，通过去除AlignFuse块中的对齐块(表示为w/o Align)来训练Align-CR网络。

5.2 Evaluation of Visual Recovery Quality

为了评估重建图像在生成视觉愉悦纹理方面的质量，首先报告了平均绝对误差(Mean Absolute Error，MAE)和峰值信噪比(Peak Signal-to-Noise Ratio，PSNR)作为评估重建误差的定量指标。此外利用光谱角映射器(Spectral Angle Mapper，SAM)和结构相似性指数(Structural SImilarity Index，SSIM)从光谱和结构相似性的角度进一步评估重建图像的质量，这更接近于人类的视觉感知。利用土地覆盖注释的优势，通过逐像素的平均绝对误差MAE和光谱角映射器SAM指标来区分去云方法在不同土地覆盖类型上的性能，如表所示，提出的Align-CR方法在所有评估指标上都优于选定的最先进的CR方法，证明了其在解决基于多模态多分辨率的去云问题方面的优势。

创建实际数据集时候需要考虑全局分布点。

在图中，选择8个场景对重建图像进行定性分析。Align-CR方法可以处理各种类型的云，以更多的细节和更少的伪影像恢复图像。

此外，比较不同土地覆盖类型结果之后，发现在具有高度复杂几何结构的城市土地具有边界和结构模糊的明亮像元簇的特征，难以根据光学影像的光谱和纹理特征重建相应像元。

在水面上的结果在光谱角映射器SAM上表现不佳，但是在平均绝对误差MAE上表现相对较好。表明了在水面上保持光谱保真度的挑战。

分析每个组件有效性，得出以下结论：

在所有类型的土地覆盖上，纳入SAR图像的方法的性能优于不使用SAR的方法，突出了在去云任务中利用SAR图像的优势。
由于缺乏地面信息，不使用SAR图像情况下训练Align-CR模型，在云覆盖区域往往会产生不需要的伪影。而Align-CR利用了SAR图像中嵌入的几何信息，可以重建地物。
当去除对准块时，低分辨率SAR信息的增益会降低。结果表明Align-CR方法在集成多模态和多分辨率信息方面具有优势。
所有方法的性能都随着云覆盖的百分比增加而下降。利用SAR图像的方法性能下降速度较慢，一定程度上SAR图像的利用可以缓解这种下降。

5.3 Evaluation of Semantic Recovery Quality

语义信息对未来的分析应用至关重要，进一步评估生成的语义上有意义的结构的能力。使用一个完善的土地覆盖语义分割模型来评估恢复的语义信息的质量。使用与去云实验相同的数据分割方法，使用无云图像和相关的土地覆盖标注训练了一个土地覆盖语义分割模型，该模型基于DeepLabV3+，以ResNet-50为骨干网络。

分别使用无云图像、多云图像和基线模型预测的无云图像作为输入，评估了训练后的土地覆盖语义分割模型在预测每个像素的正确类别方面的性能。理想状况下，以预测图像作为输入的结果应与无云图像作为输入的结果尽可能一致，即越接近无云图像为输入的结果，相应的去云方法在语义恢复方面的表现越好。

表中报告了不同云层覆盖水平下的平均交并比(mIoU)和像素精度(PA)。

在图中展示了使用无云图像作为输入获得的结果与使用预测无云图像或多云图像作为输入获得的结果之间的差异。显然云的存在会使语义分析恶化，且越来越严重。

视觉恢复质量的度量指标不能充分反映去云方法在语义恢复方面的性能。

图7将土地覆盖制图结果可视化，便于对比。使用无云图像作为输入的土地覆盖制图结果与WorldCover的土地覆盖制图的一致性最高。当图像受到云层干扰时，相应的土地覆盖制图结果受到显著的负面影像。使用Align-CR方法重建的图像，提高了最终图像的整体视觉质量。利用重建图像作为预测地表覆盖图的输入，可以有效地缓解云干扰带来的性能下降问题，显著提高制图结果精度。

6 Discussion

6.1 Semantic Considerations in CR Beyond Visual Evaluation

由于随去云数据集提供的逐像素语义注释的可用性有限，大多数现有研究在量化去云方法的有效性时，仅依赖于评估两幅图像之间的视觉相似性的指标。为了提高视觉指标的性能，通常使用基于这些指标构建的损失函数来指导去云模型的训练。当前的视觉度量不能充分评估恢复的语义信息的质量。因此开发能够有效指导语义信息恢复的损失函数至关重要。未来的研究可以关注去云与下游任务之间的耦合，并利用这种关系设计一个平衡语义上下文和图像细节的损失函数，从而为重建过程提供更有意义和实用的指导。

6.2 NDVI-Based Evaluation

通过从恢复图像中提取归一化植被指数NDVI值与从无云图像中提取的NDVI值进行对比，能够评估这些方法在恢复图像中保留独特土地覆盖特征的能力。本研究中，利用均方根误差(Root Mean Square Error，RMSE)来量化从恢复图像中提取的NDVI与从无云图像中提取的NDVI值之间的差异。此外，以无云NDVI值得到的作物分类结果为参考，采用mIoU来评估基于去云NDVI值得分类精度。Align-CR方法在均方根误差RMSE和mIoU指标方面始终优于所有云覆盖级别的对手。值得注意的是，均方根误差RMSE的趋势与云覆盖水平的关系类似于观测到的光谱角映射器SAM。这种并行性的产生是因为NDVI是基于重建图像的光谱相关性计算的，这与光谱角映射器SAM非常接近。至于mIoU，它更倾向于对场景的语义理解，提供与上述视觉质量指标不同的视角。