[CR]厚云填补_Diffusion Enhancement for CR

Diffusion Enhancement for Cloud Removal in Ultra-Resolution Remote Sensing Imagery

Abstract

云层的存在严重影响了光学遥感图像的质量和有效性。然而，现有的基于深度学习(DL)的云移除(CR)技术，通常以保真度驱动的损失作为约束，例如L1或L2损失，往往产生平滑的结果，往往无法重建视觉上令人愉悦的结果，并导致语义损失。为了应对这一挑战，这项工作建议在数据和方法方面进行增强。在数据端，建立了一个空间分辨率为0.5 m的超分辨率基准CUHK cloud removal (CUHK- CR)。这个基准包含了丰富的细节纹理和不同的云覆盖，作为设计和评估CR模型的坚实基础。从方法学的角度，介绍了一种新的基于扩散的CR框架——扩散增强(diffusion enhancement, DE)。该框架旨在逐步恢复纹理细节，利用提供图像基本结构的参考视觉先验来提高推理精度。此外，开发了一种权重分配(WA)网络来动态调整特征融合的权重，从而进一步提高了性能，特别是在超分辨率图像生成的背景下。此外，采用了从粗到精的训练策略，有效加快了训练收敛速度，同时降低了处理超分辨率图像所需的计算复杂度。在新建立的CUHK-CR和现有数据集(如RICE)上进行的大量实验证实，所提出的DE框架在感知质量和信号保真度方面优于现有的基于dl的方法。

1 Introduction

遥感图像在变化检测、语义分割、目标检测等多种应用中发挥着至关重要的作用。然而，卫星传感器的成像能力，其特点是其超远程性质，使它们容易退化，导致捕获的图像质量失真。造成这种退化的一个重要因素是云层的存在。云层显著降低了图像的能见度和饱和度，破坏了遥感影像图像的有效性，特别是在光学领域。这种由云引起的退化妨碍了图像的清晰度和细节，影响了它们的实际用途。因此，迫切需要开发旨在增强被云层遮挡的地表信息的恢复方法，从而提高遥感图像的有效性。

传统的去云方法可以大致分为两大类，即多光谱技术和多时间技术。更具体地说，多光谱方法主要依靠波长相关的吸收和反射变化来恢复雾霾和薄卷云造成的模糊景观。然而，在涉及厚厚的和薄膜云的情况下，完全阻挡光信号，多光谱方法的有效性可能会因缺乏补充信息而受到损害。而多时相方法则从不同时间点捕获的参考图像中整合晴空条件。虽然从多时相方法得到的结果通常更可靠，因为它们来自实际的无云观测，但景观的快速变化显著影响了重建图像的准确性。

近年来，基于深度学习(DL)的方法因其产生高质量、无云结果的非凡能力而受到广泛欢迎。深度学习领域内的这些方法可以进一步分为基于CNN的模型、基于生成式对抗网络(GAN)的模型和基于扩散的模型。更具体地说，基于CNN的模型是将有云的图像输入到网络中，并根据输出和相应的无云图像计算的损失函数更新参数。沿着同一方向，Meraner等人引入了一种深度残差神经网络，旨在重建下埋地表结构的光学表示。值得注意的是，将SAR图像纳入去云过程，以提供有关云下表面特征的额外信息。此外，Ma等人利用两步卷积网络从云中提取透明度信息并确定其位置。然而，基于CNN的模型的特征表示能力有限，导致对纹理细节信息的预测精度较低。由于云通常遮蔽了图像的很大一部分，因此对多云区域内细节纹理的较差预测直接导致生成的去云图像的感知质量下降。

为了解决这一限制，基于gan的模型采用独特的训练策略来增强模型的详细预测能力，该策略包括两个关键组件，即生成器和鉴别器。生成器创建去除云的图像，而鉴别器评估生成的图像是否符合所需的质量标准，并通过额外的GAN损失函数为更新生成器的参数提供梯度。例如，Cloud-GAN通过在循环结构中学习多云图像与其对应的无云图像之间的特征表示的双向映射，来保存颜色组成和纹理。然而，基于GAN的模型面临着持续的挑战，如模型崩溃、不稳定的训练动态和梯度消失，所有这些都会对其在各种应用中的性能产生不利影响。此外，基于GAN的去云模型在一定程度上继续依赖于像素级损失函数，限制了它们准确预测复杂纹理的能力。

最近，生成模型的一个新分支，即扩散模型，被引入到计算机视觉任务中。与基于GAN的模型相比，这些模型在各种低级任务(包括超分辨率、去模糊、图像修复)中生成详细纹理方面表现出了卓越的性能。将扩散模型的渐进学习和细化特征最优地整合到生成过程中，有望为去云中更先进、更有效的方法铺平道路。扩散模型旨在学习无云图像在多云图像条件下的数据分布，而不是学习从多云图像到无云图像的变化，这提高了其在精细纹理生成方面的灵活性。与基于GAN的模型相比，扩散模型由于其特定的训练策略，在预测详细信息方面表现出更显著的能力。然而，值得注意的是，纯扩散模型对去云的结果往往是不准确的，有不希望的假纹理和错位。因此，目前扩散模型在去云中的应用主要集中在特征提取上，限制了它们在这种情况下逐步学习和改进的固有能力。

在本研究中，基于扩散架构提出了一种新的去云任务扩散增强网络，旨在利用扩散模型的固有优势来提高图像质量。与现有的基于扩散的方法仅依赖于逐步细化来重建细粒度纹理细节形成鲜明对比的是，这项工作提出了集成参考视觉先验的方法。这样可以有效地将来自参考视觉先验的全局视觉信息整合到逐步扩散过程中，降低训练难度，从而提高推理精度。此外，引入了加权分配(WA)网络，优化了参考视觉先验图像与扩散模型得到的中间去噪图像的动态融合。为了加速扩散模型的收敛，我们进一步提出了一种由粗到精的训练策略。更具体地说，在使用更大的补丁进行微调之前，网络首先在较小的补丁上进行训练。最后，利用近年来高质量、高分辨率的卫星观测数据，建立了包含清晰的景观位置空间纹理信息和景观内在特征的超分辨率基准，用于去云算法设计和性能评价。

综上所述，本工作的主要贡献总结如下：

本文提出了一种新的云覆盖下地表恢复网络DE。该网络将全局视觉信息与渐进式扩散恢复相结合，增强了数据分布的捕获能力。结果表明，该方法在推理过程中利用参考视觉先验来预测详细信息。
设计了一种自适应加权系数计算网络，用于融合参考视觉先验图像和来自扩散模型的中间去噪图像。因此，参考视觉先验细化在初始阶段主要有助于粗粒度的内容重建，而扩散模型则在后续阶段将重点放在整合丰富的细节上。此外，采用从粗到精的训练策略，在稳定训练的同时加快DE网络的收敛速度。
最后，建立了一个名为CUHK-CR的超分辨率基准，以评估不同类型云覆盖下的去云方法。我们的基准包括668张薄云图像和559张具有多光谱信息的厚云图像。据我们所知，我们的基准代表所有现有CR数据集中空间分辨率最高的CR数据集，即0.5 m。

2 相关工作

2.1 传统的端到端去云方法

端到端去云模型，包括基于CNN的模型和基于GAN的模型，是专门设计以多云图像为输入，在推理过程中直接生成去云图像的模型。这些模型在快速产生推理结果方面表现出色，主要集中在识别多云图像和相应的无云图像之间的差异。CVAE使用概率图形模型深入研究了图像退化过程，而SpAGAN通过采用局部到全局的空间注意方法来检测和突出云区域，模拟了人类的视觉机制。此外，AMGAN-CR使用由注意图引导的关注残差网络去除云。尽管有这些优点，这些端到端模型的视觉结果总是用相邻的颜色替换云，缺乏预测被云遮挡的底层纹理的能力。这一限制对这些去云方法的有效性产生了不利影响，特别是在云覆盖密集的情况下。

2.2 扩散架构和先验指导

近年来，扩散模型因其在高分辨率图像生成能力的提高而受到广泛关注。该模型从一个潜在变量 $x_{T}$ 逐渐生成最终结果，记为 $x_{0}$ ，其中T表示参数化马尔可夫链的扩散步数。扩散模型包括正向过程和反向过程两个关键部分。更具体地说，前向过程通过利用马尔可夫链的参数，逐步将数据分布 $x_{0}$ 转换为潜在变量分布 $x_{T}$ 。相反，反向过程旨在将潜在变量分布 $x_{T}$ 还原到原始数据分布 $x_{0}$ ，恢复初始数据，并提供对底层数据分布的全面理解。

与之前讨论的端到端方法相比，扩散模型提供了更高层次的详细信息，有利于恢复云覆盖下的景观。然而，传统的扩散模型往往会产生不可靠的假纹理和不对准，因为它试图利用来自云图的有限数据提供更详细的纹理信息。由于缺乏有效的解决方案，目前基于扩散模型的方法，如DDPM-CR主要使用扩散模型作为特征提取器，这忽略了利用扩散模型在逐步学习和细化方面的固有优势的潜力。或者，也有一些开创性的尝试，采用预先指导来指导和规范生成的结果。为了充分利用扩散模型在增量学习和迭代改进方面的潜力，同时最大限度地减少虚假纹理的产生，我们的DE精心设计了与参考视觉先验相结合的扩散过程。

2.3 去云数据集

表1 现有去云数据集与CUHK-CR数据集的比较

表1列出了几个最具代表性的现有光学CR图像数据集，如表1所示，所有数据集都有一个共同的缺点，即空间分辨率较低，约为10-30米。这种限制极大地损害了它们所能提供的空间细节水平。此外，尽管卫星图像分析需要多光谱信息，但T-Cloud和RICE等数据集只包含RGB波段。此外，最大限度地减少“获得的时间间隙”是有利的，因为在拍摄浑浊图像的时间实例与其对应的清晰图像之间可能会发生明显的景观变化。然而，像WHU Cloud Dataset这样的流行数据集具有很大的“获得时间差距”，这在实践中可能是一个值得关注的问题。最后，表1中列出的所有数据集都是由开源卫星如Landsat 8和Sentinel-2生成的。在CR算法设计和性能评估中，需要更多具有不同传感器特性的卫星数据集。

3 提出的CUHK-CR数据集

3.1 CUHK-CR

在遥感影像分辨率不断提高的推动下，建立了一个新的超高分辨率基准，CUHK-CR。该数据集的特点是具有0.5m的超高空间分辨率和4个多光谱波段，数据采集周期限制在17天。这样的超高空间分辨率基准可以方便地训练和评估各种专门为超高分辨率图像设计的去云方法。因此，该基准可以缓解训练过程中获得的低分辨率图像与真实世界中获得的高分辨率图像之间的差距，这在第5节中对良好的去云性能尤为重要。此外，该基准包括两个子集，一个是薄云子集，即CUHK-CR1，另一个是厚云子集，即CUHK-CR2，便于在不同的云覆盖下进行训练和评估。更具体地说，薄云子集包括668张图像，而厚云子集包括559张图像。为了方便起见，这些图像被裁剪成更小的片段，并直接与深度学习模型兼容。除非另有说明，续集中的训练集与测试集的比例为8:2，在薄子集和厚子集中分别有534张和448张图像用于训练，134张和111张图像用于测试。最后，值得指出的是，我们的数据集是基于新的商业卫星吉林一号，而不是像Landsat 8和Sentinel-2这样经常使用的卫星。吉林一号卫星传感器提供的独特图像背景有助于我们数据集的独特性。

3.2 数据收集

表2 吉林-1KF01B传感器波段

表3 CUHK-CR数据集研究设定汇总

吉林一号卫星星座是长光卫星技术有限公司的核心项目。该星座由138颗高性能光学遥感卫星组成，覆盖高分辨率、大宽度、视频和多光谱信息。我们的数据集是由一颗名为吉林-1KF01B的卫星收集的，该卫星配备了0.5 m分辨率的推扫相机。“吉林- 1KF01B”卫星于2021年发射，采用先进技术，每天可获取超过200万平方公里的高清图像，宽度超过150公里。如表二所示，推扫相机覆盖红(R)、绿(G)、蓝(B)、近红外四个光谱波段，以及高分辨率全色波段。利用多光谱和全色图像的互补信息进行锐化，提高了2 ~ 0.5 m波段的空间分辨率。经过数据处理，我们获得了蓝、绿、红、近红外四个波段的高分辨率卫星图像。这些图像被输入到模型中，以生成相同大小的去除云的图像。光学RGB波段能够反映符合人类感知的地表颜色特征。除光学波段外，近红外波段较少受到薄云的干扰，从而增强了对精确云畸变层的提取，从而能够更准确地重建可见光波段的背景信号。因此，多光谱数据在近红外波段的辅助下增强了去云。表3给出了云图及其对应的无云图的位置、大小、覆盖范围和获取时间。卫星图像的位置选择从中国北部到南部，获取时间的差距限制在17天。

3.3 数据分析

图1 通过Cloud-Net检测器计算的CUHK- CR1训练和测试数据集不同云覆盖概率CCPs上的图像分布。云层覆盖的平均概率为50.7%。

图2 通过Cloud-Net检测器计算的CUHK- CR2训练和测试数据集不同云覆盖概率CCPs上的图像分布。云层覆盖的平均概率为42.5%。

为了分析CUHK-CR数据集中的云覆盖统计数据，我们在两个不同的集合上计算了广泛使用的云覆盖概率(CCP)。我们在图1和图2中可视化了不同CCP值的图像计数分布。

对于每张光学图像，使用Cloud-Net检测器生成像素值为0或1的二进制掩模，其中0和1分别表示多云和无云的地方。值得注意的是，探测器无法区分薄云层和厚云层。它只是在像素级检测云层的存在。薄云通常覆盖更广泛的区域，而厚云占据图像的较小部分，包括用于预测背景地面的更丰富的参考信息。我们通过目视观察去除那些景观完全被浓密云层遮蔽的图像。因此，薄云组的平均云覆盖概率CCP值高于厚云组。值得注意的是，CCP介于0至0.1之间的图像在CUHK- CR2中所占比例最大。

4 对于去云的扩散增强Diffusion Enhancement

4.1 框架

与DDPM去噪扩散模型类似，本文提出的扩散增强DE网络分为以下两个过程：

前向过程Forward Process

它将初始数据分布 $q(x_{0})$ 转化为潜在变量分布 $q(x_{T})$ ，其中T表示时间步长总数。这个变换遵循一个固定的马尔可夫链，可以建模为:

其中， $N$ 代表高斯分布， $\left \{ \beta _{1},...,\beta _{T} \right \}\in (1,0)$ 代表一组超参数， $I$ 代表单位矩阵。

通过利用公式(1)，可以得到：

因此，前向过程可以表示为：

其中 $\alpha _{t}=1-\beta _{t}$ ， $\bar{\alpha }_{t}=\prod_{s=1}^{t}\alpha _{s}$ 。

随后可以将 $x_{t}$ 表示为：

其中 $\epsilon \sim N(0,I)$ 是标准高斯噪声。

反向过程Reverse Process

通过一个以 $\theta$ 为参数化的网络，将潜在变量分布 $P_{\theta }(x_{T})$ 变换回数据分布 $P_{\theta }(x_{0})$ 。反向过程被定义为具有从高斯分布开始的学习高斯过度的马尔科夫链。

其中，

其中 $\mu _{\theta }(x_{t},t)$ 和 $\sigma _{\theta }(x_{t},t)$ 为第 t 步高斯分布的均值和方差。

在训练过程中，建议最小化添加到干净图像中的随机噪声 $\epsilon$ 与由 $x_{t},t$ 和有云图像 y 作为输入预测的噪声 $\hat{\epsilon }_{\theta }(x_{t},t,y)$ 之间的均方误差MSE损失。由于Diffusion Enhancement网络基于有云图像预测噪声信息，因此将其命名为条件噪声预测器(Conditional Noise Predictor，CNP)。综上所述，所采用的损失函数为：

4.2 参考视觉先验整合

图3 (a)扩散分支执行扩散步骤，逐步去除噪声，能够恢复细粒度纹理。(b)加权分支将参考分支和扩散分支的结果与结果 $x_{0,t}$ 进行动态融合，同时捕捉到优秀的全局估计和精细细节的优点。(c)参考分支根据云图y生成去云图像，提供大量的全局背景。最终， $x_{0,t}$ 和 $x_{t}$ 被用于生成 $x_{t-1}$ 。

受Fei等人和Zhou等人的启发，所提出的DE网络结合了参考视觉先验，包括一个加权分支和一个参考分支，以指导推理过程获得精细结果，如图3所示。参考视觉先验旨在提供全局图像结构，从而减少由纯扩散模型生成的不需要的假纹理的产生。我们概述了DE方法背后的实现过程和动机。

对于反向过程的第 t 步，根据 $x_{t}$ 和 $x_{0,t}$ 计算 $x_{t-1}$ 。其中 $x_{t}$ 和 $x_{0,t}$ 分别为时间步长 t 的噪声图像和扩散模型中间阶段计算得到的清晰图像。对于 $x_{0,t}$ 的计算，我们首先根据状态 $x_{t}$ 、时间步长 t 和有云图像 y 来预测噪声 $\epsilon _{t}$ ：

之后，作为(4)的反向过程，基于预测噪声 $\epsilon _{t}$ 和噪声图像 $x_{t}$ ，在当前步骤 t 中得到 $x_{0,\epsilon ,t}$ ：

对于纯扩散模型， $x_{0,t}=x_{0,\epsilon ,t}$ 。在我们的方法中，利用参考视觉来细化 $x_{0,\epsilon ,t}$ ，获得改进的 $x_{0,t}$ 。改进的 $x_{0,t}$ 更接近真实的无云图像，产生更好的最终结果。具体地说，首先利用参考模型表示为E来产生去云的输出，表示为 $x_{0,E}$ ：

参考模型生成的输出 $x_{0,E}$ 是图像的主要结构基础，而扩散模型预测的 $x_{0,\epsilon ,t}$ 则引入了丰富的细节和纹理。这一细化过程的综合公式如下：

其中 $\Gamma$ 表示为融合函数。

在实践中，利用两个预测的像素线性组合：

其中 $\bigodot$ 表示逐元素的乘法， $1$ 表示全为1的矩阵， $W\in \mathbb{R}^{C\times H\times W}$ 表示为像素的融合比。

最后根据扩散模型的后验分布，可以根据公式(6)中分布的 $x_{t}$ 和细化后的 $x_{0,t}$ ，以平均值 $\mu _{\theta }(x_{t},t)$ 和方差 $\sigma _{\theta }(x_{t},t)$ 对 $x_{t-1}\sim p_{\theta }(x_{t-1}\mid x_{t})$ 进行抽样sample：

其中 $\bar{\beta}_{t}=(1-\bar{\alpha }_{t-1}/1-\bar{\alpha }_{t})\beta _{t}$ 。

结合公式(6)、(13)、(14)可得到 $x_{t-1}$ 的公式为：

图4 从去噪时间步长 T 到 0 的 $x_{0,t}$ 的样式。第一行和第二行分别表示基础扩散模型和我们的DE的结果。左侧为参考模型生成的地面真值和去云图像。

在图4中，给出了一个从时间步长 T 到 1 的 $x_{0,t}$ 的例子，展示了整合参考视觉先验的影响。如图4的起始线所示，扩散模型以(7)所示的损失函数为指导，主要集中于学习整个图像集的分布，而不是精细的像素级信息。这种方法激发了它生成多种纹理信息的能力。然而，由于在像素级缺乏直接的结构约束，生成的纹理往往缺乏真实性，无法准确地与实际场景对齐。值得注意的是，湖泊轮廓和背景纹理等特征的差异很明显，与地面真实情况不一致。

另一方面，根据图4所示参考模型的结果，端到端实现的参考模型在训练过程中主要依靠保真度驱动的损失函数来最小化无云图像和无云图像之间的像素差异。因此，他们可以快速重建准确的底层结构的云去除图像在一个步骤。这种特性使得它们对纹理信息有限的低分辨率数据集有效。然而，当处理具有更丰富纹理的高分辨率场景时，参考模型难以捕获和复制那些细粒度的细节。因此，真实地恢复云层下复杂的景观是一项挑战。

考虑到这些优点和缺点，我们的扩散增强DE在扩散模型之前引入了参考视觉。我们利用参考模型生成的近似去云图像(表示为 $x_{0,E}$ )来引导去噪过程。参考模型预测的 $x_{0,E}$ 建立了基本的图像结构，而扩散模型生成的 $x_{0,\epsilon ,t}$ 引入了细节和纹理。因此，参考模型产生的精确结构有助于减轻扩散模型产生的虚假细节，而扩散模型提供了额外的纹理信息，以增强去除云的图像重建，特别是对于高分辨率场景。如图4第二行所示，我们的扩散增强DE通过参考视觉先验有效地解决了纯扩散模型和参考模型的局限性。

4.3 扩散步骤之间的动态融合

图5 权重分配WA的架构。WA学习根据图像特征和噪声强度动态确定加权矩阵W。

使用了一个权重分配Weight allocation，WA网络，该网络经过训练，在整个渐进扩散过程步骤中动态平衡扩散模型和参考模型结果的融合。如图5所示，权重分配WA的输入由 $x_{t}$ , y和 $x_{0,E}$ 的串接组成，时间步长 t 引导网络跨越所有层。WA的UNet架构受到了CNP的启发。因此，训练目标使WA能够根据时间步长 t 的噪声强度和 $x_{t}$ , y和 $x_{0,E}$ 的图像特征动态确定融合权重W，从而实现时空适应。

如图4的第一行所示，扩散模型产生的图像 $x_{0,\epsilon ,t}$ 最初包含大量的噪声。随着时间步长趋近于1，图像中的噪声逐渐减小。与 $x_{0,\epsilon ,t}$ 相比， $x_{0,E}$ 更接近真实值，尤其是在前几个时间步。为了获得高质量的 $x_{0,t}$ ，根据公式(12)，融合比W应进行时间适应，首先达到较高的值，便于基于参考模型建立精确的图像结构，然后随着 t 的减小逐渐减小，以增强基于扩散模型的各种纹理生成。此外，尽管参考模型的图像结构 $x_{0,E}$ 大致准确，但仍可能存在较小的误差。未被完全去除的 $x_{0,\epsilon ,t}$ 的图像噪声是随机分布在整个图像上的。因此，融合比率W对于在空间域自适应以检测来自扩散模型和参考模型结果的噪声和误差也是至关重要的。

为了解决这些问题，我们基于时间步长 t 和图像恢复结果，从权重分配WA网络中获得融合比W。这使得WA能够为每个时间步长 t 和每个像素生成特定的融合比W，从而为细化过程提供详细的像素级权重信息。此外，为了防止 $x_{0,t}$ 过度依赖于W值较低的 $x_{0,\epsilon ,t}$ ，从而导致无导向的生成结果，我们引入了一个限制因子 η 来限制推理过程中 W 从 η 到 1 的范围，以确保从参考模型到最终结果的约束。综上所述，权重分配WA网络鼓励扩散模型基于参考模型提供的图像结构，专注于生成更详细的纹理信息。此外，它还有助于识别和纠正源自参考模型的错误。

4.4 粗糙到精细的训练与推理

为了在训练阶段加快DE的收敛速度，我们实施了一种从粗到精的训练策略。最初，图像被调整为原始尺寸的1/4，并通过单一扩散模型进行处理。在整个过程中，所使用的损失函数如公式(7)所示。微调过程发生在扩散模型在这个小尺度上接近收敛之后。

一旦网络在较小的图像上收敛，我们引入并训练全尺寸图像的权重分配WA网络，利用从良好收敛的扩散网络中获得的知识。权重分配网络WA基于在降尺度图像上训练的锁定扩散模型实现初始收敛，为后续扩散模型和权重分配WA网络的联合训练奠定基础。在这种情况下，扩散增强网络DE对应的损失函数定义为：

式中 $\tilde{x}_{0}$ 表示为真实无云图像， $(\cdot )_{sg}$ 表示停止梯度。只有W的梯度被计算，而 $x_{0,\epsilon ,t}$ 被禁用。

最后，使用全尺寸图像对噪声条件预测器conditional noise predictor，CNP和WA进行联合训练。本次联合训练的损失函数定义为：

其中λ为权重比例系数，用于平衡损失函数两部分之间的值差。

值得注意的是，由于已知扩散模型的训练过程非常不稳定，在公式(16)和公式(17)的第二段中， $x_{0,\epsilon ,t}$ 的梯度保持未激活状态，以防止对噪声条件预测器CNP产生任何不利影响。对于较大的图像，噪声条件预测器CNP始终保持其原始的训练策略，而权重分配WA则根据预测器CNP的训练结果调整其方法。

在整个推理过程中，在每一步，扩散模型预测噪声 $\epsilon _{t}$ 并使用式(9)计算 $x_{0,\epsilon ,t}$ 。随后，参考模型生成其去云输出 $x_{0,E}$ ，然后由权重分配WA利用它来确定融合比。 $x_{0,t}$ 是通过基于权重分配WA产生的W的 $x_{0,E}$ 和 $x_{0,\epsilon ,t}$ 的预测的像素线性组合来计算的。最终生成 $x_{t-1}$ ，并在t = 1时结束去噪周期。

5 实验

5.1 数据集和指标

为了评估我们提出的方法的效率，我们使用两个数据集：RICE和新引入的CUHK-CR数据集进行验证。RICE数据集在RGB通道中包含500张薄云层图像和736张厚云层图像，大小为512 × 512像素。训练集和测试集按8:2的比例随机划分。

我们采用三种广泛认可的指标来定量评估CR性能：峰值信噪比(PSNR)、结构相似性(SSIM)和学习感知图像斑块相似性(LPIPS)。PSNR通过在像素级将生成的图像与地面真实值进行比较来评估生成的图像。SSIM主要评估结构差异，而LPIPS更接近人类感知。

5.2 实现细节

表4 CNP与WA网络的设定细节。

我们的扩散增强网络DE是基于引导扩散。噪声条件预测器CNP和权重分配WA网络的U-Net超参数与表4。

在扩散增强DE中，噪声条件预测器CNP和权重分配WA分别使用L2和L1损失进行训练，学习率一致为 $10^{-5}$ 。我们保持一个权重比例系数λ，设为1。为了提高推理效率，我们实现了50步的DDIM，并将极限因子 η 设置为0.3，这意味着W的值被限制在0.3 - 1的范围内。所有用于训练和测试的图像都被标准化到256 × 256像素的尺寸。最初，噪声条件预测器CNP是通过测量64 × 64像素的较小图像来训练的，使用64个批处理大小。当训练数据集转换为标准大小的256 × 256像素图像时，批大小调整为16。对于我们的CUHK-CR数据集，我们使用四波段多光谱图像进行模型训练和测试。所有实验都是使用PyTorch在配备24 GB RAM的单个NVIDIA GeForce RTX 4090 GPU上执行的。

5.3 性能比较

我们对我们的DE和几个最先进的CR网络进行了全面的比较，包括两个基于CNN的模型，即MemoryNet、CVAE，以及三个基于GAN的模型，即SpAGAN、AMGAN-CR和MSDA-CR。我们选择了两种类型的参考模型，MSDA-CR和MemoryNet来训练和评估我们的DE。为了区分在这些模型上训练的DE变体，我们分别将它们标记为DE- MSDA和DE-MemoryNet。为了确保公平的评估，所有这些方法都使用我们的训练和测试数据集进行了彻底优化，以达到最佳性能。

表5 RICE1和RICE2数据集上的定量实验结果。↑、↓分别代表越高越好，越低越好。

表6 CUHK-CR1和CUHK-CR2数据集上的定量实验结果。↑、↓分别代表越高越好，越低越好。

这些实验在RICE和CUHK-CR数据集上的定量结果分别列于表V和表VI。由于薄云的视觉差异不容易辨别，我们选择仅在图6和图7中显示厚云数据集的视觉比较。

图6 RICE的视觉对比。(a)标签。(b)云图。(c) SpAGAN。(d) AMGAN-CR。(e) CVAE。(f) MemoryNet。(g) DE-MemoryNet。(h) MSDA-CR。(i) DE-MSDA。

图7 CUHK-CR的视觉比较。第一行和第二行分别表示RGB图像和近红外图像。(a)标签。(b)云图。(c) SpAGAN。(d) AMGAN-CR。(e) CVAE。(f) MemoryNet。(g) DE-MemoryNet。(h) MSDA-CR。(i) DE-MSDA。

(1)RICE：

如表5所示，与相应的参考模型相比，我们的方法有了实质性的改进。值得注意的是，我们的DE-MSDA和DE-MemoryNet在这些端到端模型中实现了卓越的性能。对于在两个RICE数据集上都取得最佳效果的MSDA-CR，我们的DE-MSDA在RICE1和RICE2上的PSNR和LPIPS分别提高了0.8 dB、0.001、0.4 dB和0.01。PSNR和LPIPS的这些提高表明，我们的结果不仅实现了准确的景观预测，而且与人类感知一致。我们基于扩散的方法显著增强了精细纹理的生成，在相应参考视觉先验提供的框架内与地面真实度紧密匹配。LPIPS的增强在RICE2的环境中尤为明显，因为密集的云层对无云图像重建提出了严峻的挑战。这种场景需要更高的能力来生成复杂的、视觉上真实的纹理细节，因为云层掩盖了大量模糊的纹理。因此，在这种情况下，模型预测和生成纹理的能力得到了强调。尽管端到端模型(如MemoryNet和MSDA-CR)也获得了不错的结果，但我们的DE可以在此基础上进行额外的改进。

可视化结果如图6所示。SpAGAN和AMGAN-CR在图像样式和颜色方面存在明显的缺陷。尽管MSDA-CR和MemoryNet取得了较好的结果，但仍然存在一些误差，包括残余噪声和云覆盖。此外，这些模型对纹理信息的预测相对较少。相比之下，我们的DE能够纠错和准确的详细预测。例如，与MemoryNet和MSDA-CR相比，我们的DE-MSDA和DE-MemoryNet在第二张图像中展示了增强的湖泊轮廓重建。

(2)CUHK-CR：

与RICE相比，我们的CUHK-CR数据集的恢复结果通常不太令人满意。端到端模型在RICE数据集中的最高PSNR超过30 dB，而在CUHK-CR1和CUHK-CR2数据集中的最高PSNR分别降至26和24 dB。结果表明，我们的超分辨率数据集面临着更大的挑战。尽管难度增加，我们的DE-MSDA仍然取得了优异的结果，在CUHK-CR1和CUHK-CR2中实现了近0.3 dB的PSNR改善。在CUHK-CR数据集上，某些模型(如SpAGAN和AMGAN-CR)在面对这种超分辨率图像时，其局限性变得更加明显，强调了它们在RS领域的高分辨率CR任务中的不适用性。它们在去除云方面的效果有限，与云图像相比改善不到1 dB。

图7提供了CUHK-CR的视觉结果。SpAGAN和AMGAN-CR在这样高分辨率的CR任务中遇到了困难，尤其是在有厚厚的云层的情况下。在CVAE和MemoryNet的例子中，尽管有一个合理的轮廓，但它与严重的颜色偏差作斗争。与相应的参考模型相比，我们的DE主要引入了细微的纹理变化和正确的颜色。例如，DE-MSDA输出的屋顶颜色比MSDA-CR更接近地面真实。此外，我们增强后的DE-MemoryNet的结果更加清晰和准确，相比之下，MemoryNet的输出相当模糊，特别是在被浓密云层遮挡的区域。

5.4 权重分配WA网络分析

空间适应

图8 示例给出了W的注意力热图，当值接近1时，它对 $x_{0}$ 的依赖变得更加明显。相反，当它接近0时，它对 $x_{0,\epsilon ,t}$ 的依赖性更强。(a)标签。(b) $x_{0,\epsilon ,t}$ 。(c) $x_{0,E}$ 。(d) W的热图。

在图8中，我们展示了一个描述WA行为的注意热图示例。值得注意的是，参考模型没有完全去除云层，正如红色框中突出显示的区域所示。如图8(d)所示，我们的WA通过减少分配给该特定区域的权重来努力解决这一差异。移动到 $x_{0,\epsilon ,t}$ 域，我们观察到一些区域仍然保留了未消除的残余噪声。因此，在这些具有挑战性的区域，W的值明显更高，表示对噪声分布进行了轻微的调整。这种注意力热图作为一种引人注目的视觉表现，展示了人工智能在空间域中动态微调参考视觉先验强度的能力。结果表明，基于对 $x_{0,E}$ 和 $x_{0,\epsilon ,t}$ 质量的评估，这种微调过程可以产生更优的 $x_{0,t}$ 。精炼后的 $x_{0,E}$ 更接近地面真实值，从而导致更好的最终除云结果。

时间适应

图9 参考模型MSDA-CR在RICE2上各时间步WA生成的平均值W。

W的平均值在每个时间步长的变化如图9所示。初期W的平均值较高，随着时间步长的减小逐渐减小，后期接近于0。这一趋势表明，一开始， $x_{0,t}$ 主要依赖于 $x_{0,E}$ 提供的指导，而随着时间步长接近0， $x_{0,\epsilon ,t}$ 的影响变得更加突出。

W均值的波动揭示了一个潜在的假设，即参考视觉先验在前几个去噪步骤中为x0,t的整体结构奠定了基础，概述了图像的可能形状。随后，扩散架构介入，通过引入额外的纹理信息进行微调，并根据引导修正误差。这种W均值的动态变化强调了参考视觉先验和扩散架构之间的协作关系，从而导致重建性能的飞跃。

参数分析

图10 极限因子η调整示意图。红框表示W的限定取值范围。

图11 W上不同极限因子η的RICE的实验比较。

深入研究了极限因子η对W的影响，η调整的示意图如图10所示。这意味着W中的每个值都被限制在η-1的范围内。在训练过程中，我们将η设为0，从而有效地允许W在没有任何约束的情况下在0到1之间变化。WA网络灵活地学习 $x_{0,\epsilon ,t}$ 和 $x_{0,E}$ 之间的平衡。在推理过程中，当W， $x_{0,t}$ 的值较低时，t就会完全依赖于 $x_{0,\epsilon ,t}$ 。在这种情况下， $x_{0,t}$ 可能包含大量来自 $x_{0,\epsilon ,t}$ 的不准确信息。为了解决这个问题，我们将限制因子η设置为大于0的值，以限制W的取值范围。理论上，η用于控制基于参考视觉先验细化的 $x_{0,\epsilon ,t}$ 可以施加的最大影响。我们对各种η值(包括{0.1,0.3,0.5,0.7,0.9})的评估揭示了有趣的见解。我们注意到，当η设置为0.1时，我们的DE达到最高的PSNR，而当η设置为0.3时，SSIM达到最大值，如图11所示。综上所述，当η值设置为0.3时，我们的DE似乎产生了最有利的结果，实现了结构细节和全局轮廓保存之间的性能平衡。这种优化的η值确保了 $x_{0,E}$ 和 $x_{0,\epsilon ,t}$ 都有效地促进了去云图像的生成过程。

5.5 高分辨率和低分辨率数据集之间的差距

我们进行了额外的实验来证明数据分辨率的差异对模型性能的显著影响。从本质上讲，用低分辨率图像训练的模型在高分辨率数据集上测试时产生的结果不太理想。这强调了超分辨率去云数据集的必要性。

表7 不同分辨率图像的记忆网络训练结果。训练和测试表示用于训练和测试的图像的空间分辨率。

我们的方法首先用相同大小的不同分辨率的图像训练模型，然后评估其在高分辨率集上的性能。具体来说，我们将512 × 512的图像从0.5 m调整到不同的空间分辨率，例如{1m,2m}，并将它们全部裁剪为128 × 128来训练模型。在训练阶段之后，我们从原始图像和调整大小的图像中使用相应的裁剪尺寸128 × 128，空间分辨率分别为0.5m和1 m，以评估分辨率对最终CR结果的影响。
如表7所示，随着训练图像分辨率的降低，所有指标都显示出退化。在0.5 m测试集上比较1m和2 m训练空间分辨率的性能时，我们观察到PSNR下降了1.2 dB, SSIM下降了0.06,LPIPS下降0.008。这些实验结果强调了我们努力构建超分辨率CUHK-CR数据集的重要性。

5.6 消融实验

表8 MSDA-CR对RICE的纵向消融实验

表8显示了一项消融研究的结果，该研究探讨了从粗到精的训练策略、权重分配WA和参考视觉先验的影响。结果按照训练步骤的顺序呈现，所有结果都使用包含大小为256 × 256的图像的相同测试集进行评估。No.1为单纯使用64 × 64的小图像训练扩散模型的结果，No.2为基于No.1的预训练模型，在WA上使用规则尺寸的256 × 256图像进一步训练扩散模型的结果。No.3是最终结果，其中基于No.2的权重，WA和扩散模型与规则尺寸的图像共同微调。与No. 1和No. 2相比，WA和参考视觉先验细化的结果在PSNR、SSIM和LPIPS方面分别提高了近2.1 dB、0.034和0.005。常规大小图像上的微调过程对PSNR和LPIPS的影响较小，但对SSIM的贡献更大，提高了0.005。这些实验结果强调了粗精训练策略、WA和参考视觉先验在训练顺序中的优势作用。

表9 MSDA-CR对水稻的横向消融研究。

在前一段中，我们说明了通过三个阶段的实验过程所取得的改进。在这里，我们通过在没有参考视觉先验、粗到精训练策略和表9中的WA的情况下呈现结果进行横向比较。在第一行中，结果是指在正常大小的图像上训练的纯扩散模型，并且在没有参考视觉先验的情况下进行评估。在第二行，参考视觉先验被纳入纯扩散模型。第三行介绍了从粗到精的训练策略。第四行显示了仅用正常大小的图像训练的WA模型的结果，不包括粗到细的训练策略。所有具有参考视觉先验但没有WA的实验都将WA替换为固定参数0.5的简单线性组合。换句话说，在任意时间步长， $x_{0,t}$ 和 $x_{0,E}$ 各占 $x_{0,t}$ 的一半。如表九所示，比较第一行和第二行，合并参考视觉先验导致PSNR、SSIM和LPIPS分别提高约0.6 dB、0.015和0.002。此外，第二行与第三行、第四行与第五行结果的相似性表明，粗精训练策略在不损失精度的情况下有效地降低了计算成本。最后，当比较第三行和第五行时，WA的增加导致PSNR提高了近0.4 dB。这种横向比较客观地突出了参考视觉先验、WA和从粗到精训练策略的优势。

5.7 计算复杂度分析

表10 比较方法的计算复杂度。

我们在模型复杂性、内存使用、参数计数和处理速度方面对模型之间的计算复杂性进行了全面的比较。具体细节见表X。结果表明，我们的模型在不显著增加计算复杂度的情况下取得了较好的结果。

6 结论

本文介绍了DE方法用于去云图像的重建。DE在参考视觉先验的基础指导下引入扩散体系结构，旨在捕捉渐进扩散过程和端到端网络的优点，以实现细粒度的详细重建和优秀的全局上下文建模。为了自适应地融合来自两个分支的信息，训练了一个基于它们在整个去噪步骤中的输出进行平衡的WA网络。此外，采用了从粗到精的训练策略来加速收敛，同时在有限的迭代次数内获得更好的结果。最后，我们引入了一个超分辨率基准，该基准为训练和评估CR模型的性能提供了一个定义良好的空间景观纹理的新基础。我们在RICE和我们的CUHK-CR数据集上的实验结果表明了它的优越性能。在未来的工作中，各种条件，如多云图像的特征图和语义信息，可以替代多云图像，为构建更有效的扩散模型提供改进的指导。