[CR]厚云填补_GridDehazeNet+

news2024/11/25 18:32:41

GridDehazeNet+: An Enhanced Multi-Scale Network With Intra-Task Knowledge Transfer for Single Image Dehazing


Abstract

        雾霾等恶劣天气条件会降低自动驾驶和智能交通系统的性能。作为一种潜在的补救措施,我们提出了一种增强的多尺度网络,称为GridDehazeNet+,用于单幅图像去雾。提出的除雾方法不依赖于大气散射模型(ASM),并解释了为什么不一定执行该模型提供的降维。

        GridDehazeNet+由预处理、主干和后处理三个模块组成。

        与手工选择的预处理方法产生的衍生输入相比,可训练的预处理模块可以生成具有更好多样性和更相关特征的学习输入。

        骨干模块实现了多尺度估计,主要有两个方面的改进:

  • 通过不同尺度的密集连接有效缓解瓶颈问题的新颖网格结构;
  • 空间通道注意块,通过整合去雾相关特征促进自适应融合。

        后处理模块有助于减少最终输出中的伪影。

        由于域移位,在合成数据上训练的模型不能很好地泛化到实际数据上。为了解决这个问题,我们塑造了合成数据的分布,以匹配真实数据的分布,并使用生成的翻译数据来微调我们的网络。我们还提出了一种新的任务内知识转移机制,该机制可以记忆和利用合成的领域知识来辅助翻译数据的学习过程。实验结果表明,该方法在多个合成雾霾数据集上的性能优于现有方法,并在经过微调后的真实雾霾图像上取得了较好的效果。

1  Introduction

        自动驾驶系统利用摄像头和传感器作为观察世界的眼睛。然而,在恶劣的天气条件下,自动驾驶系统的能见度会受到极大影响,从而导致系统控制的额外困难。由于雾霾是自动驾驶系统必须应对的主要不利因素之一,我们在本文中尝试解决图像去雾问题。通过从模糊图像中恢复清晰的图像,去雾有助于缓解各种下游视觉任务的性能下降,例如实例分割、目标检测和目标跟踪,这些任务通常需要清晰的图像作为输入。

        作为图像恢复的典型例子,除雾问题可以使用各种技术来解决,这些技术在本质上是通用的。此外,在图像去雾中遇到的许多误解和困难也体现在其他恢复问题上。因此,在更广泛的背景下审查有关问题是有益的,下面着重说明其中四个问题:

  1. 物理模型的作用:许多数据驱动的恢复方法需要合成数据进行训练。为了产生这样的数据,需要有一个相关图像退化过程的物理模型。一个自然的问题是,图像恢复算法本身的设计是否应该依赖于这个物理模型。显然,依赖于模型的算法在真实图像上由于模型不匹配会造成固有的性能损失。然而,人们通常想当然地认为,这种算法在使用相同物理模型生成的合成图像上必须具有优势。
  2. 预处理方法的选择:为了便于后续操作,预处理在图像预处理中被广泛使用。它还可以用来生成给定图像的几个变体,提供某种形式的多样性,可以通过适当的融合来利用。然而,预处理方法通常是基于启发式选择的,因此不一定最适合所考虑的问题。
  3. 多尺度估计的瓶颈:图像恢复需要对扭曲图像与原始清晰图像之间的统计关系有明确/隐含的了解。捕获这种关系所需的统计模型通常有大量的参数,与现有的训练数据相当,甚至更多。因此,根据训练数据直接估计这些参数往往是不可靠的。多尺度估计通过:i)用低维统计模型近似高维统计模型,ii)基于训练数据估计低维模型的参数,iii)参数化估计的低维模型的邻域,执行精细估计,并在需要时重复此过程来解决此问题。很明显,一个尺度上的估计精度会影响下一个尺度上的估计精度。由于多尺度估计通常以连续的方式进行,其性能往往受到一定瓶颈的限制。
  4. 领域移位的影响:监督学习在图像恢复中的有效性已经得到了广泛的观察。然而,建立一个大规模的真实图像数据集是非常昂贵的,有时甚至是不可能的。因此,在实践中,通常使用合成数据进行网络训练。然而,由于领域移位,不能保证在合成数据上训练的网络能够很好地泛化到真实数据。

        目前的工作可以看作是我们试图解决上述图像恢复中的一般问题的产物。其主要贡献可概括如下: 

  1. 提出的GridDehazeNet+(缩写为GDN+)不依赖于ASM进行雾霾去除,但即使在合成图像上也能够优于现有的依赖模型的去雾方法。我们还通过实验证明,由于引入了不期望的局部最小值,ASM提供的降维不一定有利于网络学习。
  2. 与手工选择的预处理方法相比,GDN+中的预处理模块是完全可训练的,因此可以提供更灵活和针对性的图像增强。
  3. 在密集连接的网格网络上实现基于注意力的多尺度估计,实现了不同尺度间高效的信息交换,缓解了瓶颈问题。
  4. 为了应对域转移,通过塑造合成数据的分布以匹配现实世界的模糊图像,生成某些翻译数据,以微调我们的网络。此外,提出了一种新的任务内知识转移(ITKT)机制来帮助翻译数据的微调过程。

        图1  URHI数据集真实雾霾图像去雾结果:(a)真实雾霾图像,(b)基于DADN的去雾结果,(c)基于ACER-Net的去雾结果,(d)我们的去雾结果。GDN+在去除雾霾和增强颜色对比度方面达到了最佳的视觉效果。 

        受益于整体设计,本文提出的GDN+在几个合成雾霾数据集上优于最先进的SOTA方法,并且经过微调后在真实雾霾图像上取得了优异的性能。如图1所示,我们的方法为来自URHI数据集的真实模糊图像提供了最具视觉吸引力的去雾结果。 

2  Related Work 

        早期的图像去雾工作要么需要在不同条件下拍摄同一场景的多幅图像,要么需要从其他来源获取侧面信息。近年来,人们对无侧信息的单幅图像去雾越来越感兴趣,这相当具有挑战性。为了将我们的工作置于适当的背景下,我们回顾了现有的基于先验和基于学习的单幅图像去雾方法,以及知识蒸馏和转移的最新发展。 

2.1  基于先验的单幅图像去雾

        大气散射模型(ASM)提供了霾效应的简单近似。具体地说,它假设 

式子中,I_{c}(x) 为朦胧图像中像素x的第c个颜色通道的强度,J_{c}(x)为清晰图像中像素数x的第c个颜色通道的强度,t(x)为投射图,A为全球大气光照强度。

        单幅图像去雾的传统策略是基于某些假设或先验估计透射图t(x)和全球大气光强度A(或其变体)。然后,对Eq.(1)进行反求,得到去噪后的图像。这方面的代表性研究包括。具体而言,有人提出了一种局部对比度最大化的去雾方法,其动机是观察到清晰的图像相对于朦胧的图像往往具有更高的对比度。有研究在假定透射图与表面遮阳局部不相关的情况下,通过反照率分析实现了雾霾去除。有文献提出了暗通道先验(Dark Channel Prior, DCP),它主张非雾霾斑块中的像素至少在一个颜色通道中具有低强度。有研究提出了一种机器学习方法,该方法利用随机森林回归器利用四个与雾霾相关的特征。有研究提出了一种有利于模糊图像场景深度建模的颜色衰减先验。尽管这些方法取得了不同程度的成功,但它们的性能受到所采用的假设/先验相对于目标场景的准确性的固有限制。

2.2  基于学习的单幅图像去雾

        随着深度学习技术的进步和大型合成数据集的可用性,近年来数据驱动的图像去雾方法越来越受欢迎。这些方法在很大程度上遵循上述传统策略,但减少了对手工制作先验的依赖。例如,采用多尺度CNN (MSCNN)首先预测整体传播图,并对其进行局部细化。有研究提出了一种三层卷积神经网络(Convolutional Neural Network, CNN),命名为DehazeNet,从给定的模糊图像中直接估计传输图。有研究将ASM嵌入到一个神经网络中,用于联合学习透射图、大气光强和除雾结果。也有探索了在特征空间(而不是像素空间)中的物理模型进行图像去雾。 

        AOD-Net代表了对传统策略的背离。具体而言,引入了公式(1)的重新表述,以绕过对透射图和大气光强的估计。仔细观察发现,这种重新表述实际上使ASM完全多余(尽管没有认识到这一点)。有研究提出的门控制融合网络(GFN)更进一步,在其设计中明确放弃了ASM,并利用几种手工选择的预处理方法(即白平衡、对比度增强和伽马校正)来改善去雾效果。最近的作品大多遵循这种模型不可知的设计原则,用各种技术处理图像去雾。将图像去雾视为图像到图像的转换,构建了一种基于生成对抗网络(GAN)的增强Pix2pix去雾网络(EPDN),该网络不依赖于任何物理模型。有文献利用注意机制,提出了一种能够灵活调节不同类型信息的特征融合注意网络。通过利用增强策略,提出了一种增强解码器,可以逐步恢复无雾图像。有文献将模糊图像和清晰图像分别作为负样本和正样本共同训练本文提出的AECRNet,所采用的对比正则化可以应用于其他去雾方法,进一步提高其性能。

        虽然有越来越多的证据表明,即使只考虑合成数据(使用物理模型产生),与模型无关的图像去雾方法也能够优于依赖模型的方法,但这一令人困惑的现象背后的原因仍不清楚。在本文中,我们试图通过提供一个可能的解释和一些支持实验来揭开面纱。

        此外,由于领域转移,在合成数据上训练的基于学习的方法往往不能很好地泛化到真实数据。为了减轻域移位带来的不利影响,提出了一种混合方法,即以监督的方式在合成数据上训练CNN,并以无监督的方式在真实数据上训练CNN。为了支持无监督学习,使用物理先验(即暗通道损失和总变异损失)。有文献遵循这一思路,提出了一个有原则的合成到真实去雾框架,对合成数据训练的模型进行微调,以提高对真实数据的泛化性能。然而,在训练中涉及真实数据并不能完全解决领域转移问题。有文献采用CycleGAN,提出了一种域自适应去雾网络(Domain Adaptation dehaze Network, DADN),用于处理合成域与真实域之间的差异。

        鉴于物理先验指导下的无监督微调可能会产生明显的伪影,本文提出的GDN+利用翻译数据的监督微调来提高对真实数据的去雾性能。

2.3  知识蒸馏与迁移

        知识蒸馏的一个流行应用是网络压缩,其中从大网络(即教师网络)学习到的逻辑被转移到小网络(即学生网络)。与教师网络相比,学生网络更容易部署,但代价可能是潜在的性能下降。文献提出可以利用教师网络的中间表征进一步改进学生网络的训练过程。近年来,知识蒸馏被证明不仅可以用于网络压缩,还可以用于各种计算机视觉任务,包括目标检测、语义分割、图像合成、风格迁移等。知识蒸馏在首次应用于单个图像去雾时,其中教师和学生网络共享相同的架构,但分别负责图像重建和图像去雾任务。相比之下,对于中提出的知识蒸馏除雾网络(Knowledge Distilling dehaze Network, KDDN),教师和学生网络的架构是根据指定的任务定制的;此外,通过提取多个特征而不是单一的中间特征来提高知识转移的有效性。

        知识迁移是在异构任务之间进行的,我们使用教师和学生网络进行任务内知识迁移ITKT,这些网络处理相同的任务(即去雾),但采用不同的数据作为输入。直观地说,合成领域知识产生了对翻译数据的有用见解,其中雾霾效应不允许简单的数学表征。因此,从教师网络中提取的中间特征特征可以极大地有利于学生网络的学习过程,使其能够对真实世界的模糊图像提供满意的去雾效果。

3  Method

3.1  总览

        在这里,我们重点介绍拟议的GDN+的以下方面。 

不依赖大气散射模型

        图2  关于使用ASM进行图像去雾的潜在不利影响。为了便于说明,我们将重点放在单个像素的两个颜色通道上,并用t1和t2表示各自的传输图(a)损失面作为t1和t2的函数。可以看出,在满足t1 = t2的点(见绿点)处达到了全局最小值,这与ASM一致。以黑点为起点,可以很容易地使用梯度下降(见黄色路径)找到这个全局最小值。但是,基于ASM沿t1 = t2方向(见红色路径)的受限搜索会卡在紫色圆点表示的点上(见图2 (b))。注意,这个点在受限空间中是局部最小值,而不是在原始空间中,仅仅因为采用了ASM,它就成为了一个障碍。 

        尽管与模型无关的单幅图像去雾方法越来越流行,但就合成图像的去雾性能而言,没有令人信服的理由说明为什么忽略大气散射模型有任何优势。提出的论点是,从模糊图像估计t (x)是一个不适定问题。然而,这是令人困惑的,因为估计t(x)(与颜色通道无关)可能比估计J_{c}(x), c = 1,2,3更容易。在图2中,我们提供了一个可能的解释,为什么如果盲目地使用t(x)与颜色通道无关的约束来缩小搜索空间可能会有问题,以及为什么在搜索最优t(x)时放松这个约束可能会有潜在的好处。然而,有了这种放松,ASM在估计过程中没有提供降维。更根本的是,我们知道CNN的损失面通常表现良好,局部最小值通常几乎与全局最小值一样好。另一方面,通过将ASM整合到CNN中,人们基本上引入了一个非线性组件,该组件本质上与网络的其余部分是异构的,这可能会产生不希望看到的损失面。

可训练预处理模块

        预处理模块通过生成给定模糊图像的多个变体,每个变体突出该图像的不同方面,使相关特征信息更明显地暴露出来,有效地将单幅图像去雾问题转化为多幅图像去雾问题。与现有文献中手工选择的预处理方法相比,本文提出的预处理模块是完全可训练的,这符合近年来图像去雾研究的发展所显示的数据驱动方法相对于基于先验的方法的普遍偏好。请注意,手工选择的处理方法通常旨在增强视觉上可识别的某些具体特征。然而,排除抽象特性是不合理的。实际上,可能存在比图像域更适合后续操作的抽象变换域。可训练的预处理模块可以自由地识别变换域,在变换域上可以利用更多的多样性增益。

增强型多尺度估计

        这里“增强型”一词的含义是双重的。首先,受有研究的启发,我们使用一种新的网格结构来增强传统的多尺度网络。这种网格结构相对于图像恢复中广泛使用的编码器-解码器结构和传统的多尺度结构具有明显的优势。特别是,编码器-解码器结构或传统的多尺度结构中的信息流往往由于分层结构而受到瓶颈效应的影响,而网格结构通过使用上采样/下采样块在不同尺度上的密集连接来规避这一问题。其次,我们使用空间通道注意块(SCABs)进一步增强网络,SCABs放置在特征交换和聚合的交界处。这些SCAB使网络能够更好地利用预处理模块和与除雾任务最相关的信息所产生的多样性。 

任务内知识转移(Intra-Task Knowledge Transfer)

        ITKT是指利用在一个数据集上从某一任务中获得的知识,在另一个数据集上促进同一任务的学习过程。在当前的语境下,可以观察到合成领域知识有利于处理翻译数据。与直接根据翻译数据对网络进行微调不同,我们采用师生结构来记忆和利用合成的领域知识。据我们所知,这是第一个利用ITKT来提高现实世界朦胧图像的去雾性能的工作。

        与前期工作GDN相比,GDN+在两个方面进行了改进。首先,GDN只采用通道关注,学习到的权重独立于目标特征。相比之下,GDN+采用封装在SCAB中的自注意机制,来生成特征自适应权值。其次,GDN在真实的模糊图像上往往会出现明显的性能下降,这可能是由于训练中的合成数据和测试中的真实数据之间的域转移。为了解决这个问题,我们塑造了合成数据的分布,以匹配真实数据的分布,并使用生成的翻译数据来微调网络。为了记忆和利用合成的领域知识,我们提出了一种ITKT机制来辅助翻译数据的学习过程。此外,与有文献相比,本文进行了更全面的绩效评估。具体来说,我们测试了更多的基准,与SOTA进行了全面的比较,执行了任务驱动的评估,进行了彻底的消融研究,并展示了我们方法的失败案例。 

3.2  网络架构

        图3  提出的GridDehazeNet+ (GDN+)架构。这里Conv@KnSm表示步幅为m的n × n卷积。 

        GDN+由三个模块组成,即预处理模块、骨干模块和后处理模块。图3显示了所提网络的整体架构。 

        预处理模块由步长为1的3 × 3卷积(表示为Conv@K3S1)和残差密集块(Residual Dense Block, RDB)组成。它从给定的模糊图像中生成16个特征映射,这些特征映射将被称为学习输入。

        图4  图3中的虚线框示意图。这里Conv(DeConv)@KnSm表示步长为m的n × n卷积(deconvolution)。 

        主干模块是GridNet的改进版本,最初提出用于语义分割。它基于学习到的输入执行增强的多尺度估计。我们选择三行六列的网格结构。每一行对应一个不同的比例尺,由五个RDB组成,特征映射的数量不变。每一列都可以看作是通过上行采样块(UBs)或下行采样块(DB)连接不同尺度的桥梁。在每个UB (DB)中,特征映射的大小增加(减少)2倍,而特征映射的通道数减少(增加)2倍。在这里,上采样/下采样是使用卷积实现的,而不是传统的方法,如双线性或双三次插值。图4在图3的虚线框中提供了RDB、UB和DB的详细说明。每个RDB由五个卷积组成:前四个卷积用于增加特征映射的数量,最后一个卷积用于融合这些特征映射。然后通过通道加法将输出与该RDB的输入结合起来。根据有关研究,RDB的增长率设为16。UB和DB在结构上是相同的,只是它们分别使用Convolution (Conv)和DeConvolution (DeConv))来调整feature map的大小。在GDN+中,除了预处理模块中的第一个卷积和每个RDB中的1 × 1卷积外,其他所有卷积都由ReLU激活。为了在输出大小和计算复杂度之间取得平衡,我们将三种不同尺度的特征映射的数量分别设置为16、32和64。

        由于直接从主干模块的输出构建的去雾图像容易包含伪影,我们引入了后处理模块来进一步提高质量。后处理模块与预处理模块的结构是对称的。

        值得注意的是,GDN+将一些现有网络作为特例纳入其中。例如,图3中的红色路径表示通过修剪GDN+可以获得的编码器-解码器网络。又如,从GDN+中去掉交换分支(即主干模块中间的四列),形成传统的多尺度网络。

3.3  空间通道注意块特征融合 

        由于现实世界中雾霾的出现通常是不均匀的,并且不同的学习特征通道对除雾过程的重要性可能不同,因此我们将某些明智构建的SCAB嵌入到网络中以实现自适应特征融合。SCAB采用空间关注和通道关注,分别由空间注意块(spatial Attention Block, SAB)和通道注意块(Channel Attention Block, CAB)实现,分别用于处理图像不同位置的不同雾霾效果,通道注意块(Channel Attention Block, CAB)实现对特征图的重要性感知利用。SAB沿着通道轴应用平均和最大池化来聚合不同特征图上的局部信息,并将两个池化的结果连接并馈送到卷积中以生成空间注意图。相反,CAB沿着空间轴应用平均池化和最大池化;通过共享多层感知器对特征池进行调整,该感知器探索通道间的关系以巩固重要信息;然后将调整后的版本加在一起,并通过Sigmoid函数产生频道注意系数。最后,空间注意图和通道注意系数作用于相应的输入特征以实现自适应。 

        图5  空间通道注意障碍(SCAB)的图示。 

        如图5所示,每个SCAB块由两个CAB和一个SAB组成。来自水平和垂直流的特征首先由两个不同的CAB容纳,通过通道注意力来加强相关特征。两个CAB的输出被加在一起,然后馈入一个SAB进行空间适应。设F^{h}_{i,j}F^{v}_{i,j}分别表示骨干模块中融合位置(i,j)的水平流和垂直流特征,其中 i = 0,1,2,j = 0,1,...,5。设f^{h}_{i,j}(F\mid \Theta ^{h}_{i,j})f^{v}_{i,j}(F\mid \Theta ^{h}_{i,j})分别表示融合位置(i,j)的水平流和垂直流的CAB操作,其中f表示任意输入特征,\Theta ^{h}_{i,j}\Theta ^{v}_{i,j}为可训练权值。同理,令g_{i,j}(F\mid \Phi _{i,j})表示融合位置(i,j)的SAB操作,其中 i , j 为可训练权值。建议的SCAB可以表示为:

        式中\widetilde{F}_{i,j}为SCAB的输出特征。注意,SCAB赋予GDN+自适应融合不同尺度特征的能力。值得注意的是,我们实验结果表明,使用具有少量可训练权重的SCAB足以显著提高整体性能。 

3.4  任务内知识转移

         图6  建议机制任务内知识转移ITKI的流程图。

        我们使用CycleGAN将基于ASM的合成数据转换为更逼真的翻译数据,这些数据可以被视为来自现实世界朦胧图像分布的样本。由于翻译数据捕捉到的真实雾霾效应不允许简单的数学表征,因此翻译数据的学习过程比合成数据的学习过程更加困难。因此,为了记忆和利用合成领域知识,我们提出了一种ITKT机制来降低翻译数据的微调难度。所提出的ITKT机制的总体流程图如图6所示。教师GDN+在合成数据上进行预训练,并利用其学习到的权值初始化学生GDN+。在调优过程中,教师GDN+负责记忆并向学生GDN+提供合成的领域知识,因此其权重是固定的。学生GDN+具备了这些知识,以监督的方式对翻译数据进行微调,以提高对真实朦胧图像的去雾性能。请注意,教师和学生网络可以自由地采用他们自己的体系结构,只要合成的领域知识被正确地转移。

        图7 转移前(第一行)和转移后(第二行)雾霾效果的可视化。 

        从图6和图7可以看出,合成图像的雾霾效果与翻译图像的雾霾效果有明显的不同,这是一个明显的域漂移指标。得益于ITKT,在真实朦胧图像上的性能下降得到了显著缓解。在第V-H节中,我们还通过直接调整翻译数据上的GDN+来评估ITKT的有效性。我们的实验结果表明,由于这种变化,除雾性能下降。 

3.5  损失函数

        总共使用了三种不同的损失函数来训练所提出的网络:

  1. 保真度损失(Fidelity Loss,LF)
  2. 感知损失(Perceptual Loss,LP)
  3. 任务内知识转移损失(Intra-Task Knowledge Transfer Loss,LKT)

        它们的定义和基本原理详述如下。 

保真度损失Fidelity Loss

        常用的保真度损失包括L_{1}和MSE。MSE损失对异常值非常敏感,常用的保真度损失包括L_{1}和MSE。MSE损失对异常值非常敏感,因此可能遭受梯度爆炸。虽然L_{1}损耗没有这个问题,但它在零处不可微。平滑L_{1}损耗可以看作是这两种损耗的综合,从而继承了它们的优点,避免了它们的缺点。因此,我们使用它作为保真度损失来定量测量去雾图像与真实图像之间的差异。

        令\hat{J}_{c}(x)表示去噪图像中像素x的第c个颜色通道的强度,N表示一个通道中的总像素数。我们的保真度损失可以表示为:

感知损失Perceptual Loss

        作为像素级保真度损失的补充,感知损失利用从预训练的深度神经网络中提取的多尺度特征来量化去雾图像与真实图像之间的整体感知差异。在这项工作中,我们使用在ImageNet上预训练的VGG16作为我们的损失网络,并从前三个阶段(即Conv1-2, Conv2-2和Conv3-3)的每个阶段的最后一层提取特征。感知损失可以定义为:

        式中,\phi _{l}(\hat{J})\phi _{l}(J), l = 1,2,3,表示与去雾图像\hat{J}和Ground truthJ相关联的上述三个VGG16特征映射,C_{l},H_{l},W_{l}表示\phi _{l}(\hat{J})\phi _{l}(J)的维数。

任务内知识转移损失Intra-Task Knowledge Transfer Loss

        为了有效地转移合成领域知识,我们设计了一个ITKT损失,通过减少L_{1}距离来引导来自学生网络的特征模仿来自教师网络的特征。选取基于SCAB融合的骨干模块第一尺度的三个中间特征。根据我们的实验,这种选择在考虑的候选中诱导出最佳的除雾效果。我们用\tilde{F}_{0,3}\tilde{F}_{0,4}\tilde{F}_{0,5}来表示这些特征,并使用上标 t 和 s 来表示它们是来自教师网络还是学生网络。我们的ITKT损失可以表示为 :

总损耗Overall Loss

        我们GDN+的总损耗LS是保真度损耗L_{F}、感知损耗L_{P}和ITKT损耗L_{KL}的线性组合,可以表示为:

        其中\lambda _{P}\lambda _{KL}用于平衡损耗分量。根据我们的实验,它们分别设置为0.04和0.01。 

3.6  训练数据集

        RESIDE是一个大规模数据集,它包含一个室内训练集(ITS)、一个室外训练集(OTS)、一个合成对象测试集(SOTS)、一组未注释的真实朦胧图像(URHI)和一个真实任务驱动测试集(RTTS)。通过正确选择散射系数β和大气光强A,在ASM的基础上从清晰的图像中生成ITS和OTS。在DADN之后,我们使用完全相同的数据集,由6000张图像组成,其中3000张来自ITS, 3000张来自OTS来训练我们的GDN+。由于不同的除雾方法最初可能采用不同的训练数据集(例如,AOD-Net使用27,256张合成雾霾图像进行训练,而ACERNet使用ITS进行训练,只有13,990张图像),为了公平比较,我们在上述数据集上费力地按照各自的训练策略对所有考虑的方法进行重新训练。 

        表1  合成图像和翻译图像到真实世界模糊图像的统计距离,在Kunllback-Leibler散度方面

        为了对GDN+进行微调,我们从RTTS中选择了1000幅真实的朦胧图像,并利用CycleGAN将6000幅合成图像转换为与真实朦胧图像分布相匹配的翻译图像。请注意,这6000个翻译后的图像不应被视为额外引入的数据,因为它们是由训练数据本身生成的。图7显示了平移前后的雾霾效果。此外,我们采用Kullback-Leibler散度(KLD)来测量翻译的和真实世界的模糊图像(表示为Tran↔Real)之间的统计距离,以及合成的和真实世界的图像(表示为Syn↔Real)之间的统计距离,其中真实世界的模糊图像来自URHI。相应的结果如表1。由于KLD值越低,表示两种分布之间的相似性越高,因此很明显,经过这种转换后,合成图像的分布已经被塑造得更接近真实朦胧图像的分布,从而使外观更加逼真。

6  结论

        我们提出了一种增强的多尺度网络,并证明了它在单幅图像去雾中的竞争性能。这个网络的设计涉及到几个想法。我们采用密集连接的网格结构,方便不同尺度的信息交换。基于自关注的思想构建了一种新的SCAB,将其放置在网格结构的连接处,以实现自适应特征融合。通过将合成数据转换为与真实朦胧图像分布匹配的转换数据,解决了域移位问题。我们进一步提出了一种新的ITKT机制,利用合成领域知识来辅助翻译数据的学习过程。 

        由于其构建组件的通用性,所提出的网络有望适用于广泛的图像恢复问题。研究这样的应用是一项非常值得做的努力。

        我们的工作也揭示了一些关于在图像去雾中使用ASM的令人困惑的现象,并建议需要重新思考物理模型在图像恢复算法设计中的作用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1986019.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

鸿蒙(API 12 Beta2版)媒体开发【使用AudioRenderer开发音频播放功能】

音频播放开发概述 如何选择音频播放开发方式 系统提供了多样化的API,来帮助开发者完成音频播放的开发,不同的API适用于不同音频数据格式、音频资源来源、音频使用场景,甚至是不同开发语言。因此,选择合适的音频播放API&#xff…

conda pack迁移环境

文章目录 下载conda pack打包已有环境还原环境 因为有的服务器没有网络,如果想要安装自己的虚拟环境,就需要在有网络的服务器安装好环境后迁移到没有网络的服务器。conda-pack是一个命令行工具,用于打包 conda 环境,pip inatall和…

【Python实战】完美实现 WPS 会员功能,自动化处理 PDF 文档(建议收藏)

数字化办公已成常态,文档管理和处理是很多小伙伴的日常工作。 PDF(Portable Document Format)文档因其跨平台兼容性和格式固定性而备受青睐。 然而,对于非WPS会员用户而言,一些高级功能如批量处理、格式转换、添加水…

【SpringMVC】详细介绍SpringMVC的执行流程

目录 1. 概念 2.SpringMVC工作原理 3. springMVC的简单使用 1.在pom.xml中导入相关依赖 2.在web.xml中配置dispatcherServlet 3.创建springMVC.xml核心配置文件 1. 概念 什么是MVC? MVC是下面三个组件的简写,模型(Model)、视图…

mathtype7永久激活密钥咋子哪里获取?2024最新破解版下载附安装教程

在数字化时代,我们每天都与文字和符号打交道。无论是撰写论文、准备报告还是编写程序,数学公式的输入都是不可或缺的一环。但你有没有遇到过这样的困扰:在Word文档中编辑复杂的数学公式时,操作繁琐且不直观? 别担心&a…

鸿蒙图形开发【3D引擎接口示例】

介绍 本实例主要介绍3D引擎提供的接口功能。提供了ohos.graphics.scene中接口的功能演示。 3D引擎渲染的画面会被显示在Component3D这一控件中。点击按钮触发不同的功能,用户可以观察渲染画面的改变。 效果预览 使用说明 在主界面,可以点击按钮进入不…

【书生大模型实战营第三期】基础岛 第1关 书生大模型全链路开源体系

欢迎大家参与第三期书生大模型实战营!!! 1. 书生浦语开源历程 从23年7月开始,直到今年7月,书生浦语先后开源了 InternLM、InternLM2 核性能更好的 InternLM2.5。 2. InternLM2.5 的优势 其中,最新的 Intern…

计算机语言-CSP初赛知识点整理

历年真题 [2020-CSP-J-第2题] 编译器的主要功能( ) A. 将源程序翻译成机器指令代码 B. 将源程序重新组合 C. 将低级语言翻译成高级语言 D. 将一种高级语言翻译成另一种高级语言 [2021-CSP-J-第1题] 以下不属于面向对象程序设计语言的是()。 A. C B. Pyt…

【读点论文】场景图像中文本检测和识别关键技术研究-博士学位论文

文本是人类获取信息及社会交流的重要手段,从图像准确读取文本对人类的生产生活至关重要。现有方法通常将文本读取细分为文本检测、文本识别、端到端文本识别三个子任务。其中文本检测的目的是定位出图像中文本的位置,文本识别旨在识别出文本区域的字符序…

高仲富:49岁搞AI,白天种菜卖菜,晚上学数学搞程序

这是《开发者说》的第13期,本期我们邀请的开发者是高仲富,曾是一位数学老师,自学成为一名程序员,在北京漂过,后逃回了成都,一边与病魔抗争,一边写代码,一写就是15年,制作…

Electron 集成SQlite FTS5 实现百万级数据的倒排索引

背景 在产品迭代时,个人版产品已经将联系人和消息实时备份到本地,而消息的备份的目的仍然是为了快速查询对自己有用的上下文,并能快速定位到这些用户以及这些有用的信息。另外包括未来喂给 chatgpt-4o 的数据也是需要调用搜索获取的&#xff…

39. 647. 回文子串,516.最长回文子序列, 动态规划总结

确定dp数组以及下标的含义。如果大家做了很多这种子序列相关的题目,在定义dp数组的时候 很自然就会想题目求什么,我们就如何定义dp数组。绝大多数题目确实是这样,不过本题如果我们定义,dp[i] 为 下标i结尾的字符串有 dp[i]个回文串…

Weblogic 漏洞(详细)

一.weblogic弱口令 访问一下默认用户名:weblogic 密码: Oracle123 然后点击安装 然后再点击上传文件 将jsp木马打包,改为war上传一直下一步,最后点完成 然后使用工具连接 二.CVE-2017-3506 使用工具检测,存在漏洞 …

【C++】模拟实现stack

🦄个人主页:修修修也 🎏所属专栏:实战项目集 ⚙️操作环境:Visual Studio 2022 ​ 目录 一.了解项目功能 📌了解stack官方标准 📌了解模拟实现stack 二.逐步实现项目功能模块及其逻辑详解 📌实现stack成员变量 &…

[pdf]240道《软件方法》强化自测题业务建模需求分析共201页(202408更新)

链接: http://www.umlchina.com/url/quizad.html 如果需要提取码:umlc 文件夹中的“潘加宇《软件方法》强化自测题业务建模需求分析共240题.pdf”

【MATLAB第107期】基于MATLAB的Morris全局敏感性分析模型(无目标函数)

【MATLAB第107期】基于MATLAB的Morris全局敏感性分析模型(无目标函数) 一、原理介绍 1.基本原理: Morris方法采用概率均匀抽样的方式估计每个模型输入因子在输出结果中的重要性,通过比较系统在不同输入参数值上的输出结果变化来…

智观察 | 行业赛道里的AI大模型

‍ “AI改变世界”被炒得热火朝天,结果就换来AI聊天? 实际上,在日常娱乐之下,AI正在暗暗“憋大招”,深入各行各业,发挥更专业的作用。 自动驾驶 最近“萝卜快跑”霸榜热搜长达一周,让无人驾…

ECMAScript 6 入门 学习 日志笔记 2024/8/6 13:59

就读书籍: ECMAScript 6 入门 作者:阮一峰https://www.ruanyifeng.com/ 个人理解笔记 { } 块级 函数不能先用后声明 Let 优先函数表达 不可重复声明同一变量 { letfunction (){ } } 不谈其他,只要在{ } 中即可 ,简单暴力理解 const 和 let 类似 …

语言模型-神经网络模型(二)

神经网络模型语言模型 神经网络模型神经网络的分类神经网络模型和Ngram对比应用一-话者分离对比优劣 应用二-数字归一化应用三-文本打标 神经网络模型 释义: 与ngram模型相似使用,前n个词预测下一个词,输出在字表上的概率分布;过…