Robust Image Denoising through Adversarial Frequency Mixup

news2024/11/22 19:50:42

基于对抗性混频的鲁棒图像去噪

在这里插入图片描述

论文链接:https://openaccess.thecvf.com/CVPR2024/Ryou_Robust_Image_Denoising_through_Adversarial_Frequency_Mixup

项目链接:https://github.com/dhryougit/AFM

Abstract

基于深度神经网络的图像去噪方法经常与训练数据中存在的特定噪声分布的过拟合作对抗。这一挑战存在于现有的现实世界去噪网络中,这些网络使用有限的真实噪声分布谱进行训练,因此对分布外的真实噪声类型表现出较差的鲁棒性。为了缓解这个问题,我们开发了一种新的训练框架,称为对抗性混频(AFM)。AFM利用频域的混合产生具有独特和具有挑战性的噪声特征的噪声图像,同时保留真实世界噪声的属性。随后,将这些噪声图像纳入训练pipeline中,增强去噪网络对噪声分布变化的鲁棒性。在广泛的真实噪声基准上进行的大量实验和分析表明,使用我们提出的框架训练的去噪网络在对看不见的噪声分布的鲁棒性方面表现出显着的改进。

1. Introduction

基于深度神经网络的图像去噪[5,6,22,26 - 28,30,31]由于问题表述的简单性和新数据集的构建,取得了前所未有的成功。传统上,去噪网络使用合成噪声模型进行训练,例如高斯或泊松噪声,这些模型被人为地添加到图像中以用于训练和评估目的。然而,现实世界的噪声受图像信号处理(ISP)pipeline中的各种因素(如去马赛克和伽马校正)的影响,表现出明显的信号依赖性,并且通常遵循与合成对应物不同的分布。当将去噪模型应用于真实的噪声图像时,合成噪声和真实噪声分布之间的差异提出了重要的泛化问题。

虽然人们一直致力于在现实世界中创建具有干净和噪声图像对的数据集,但收集这些数据集是一项重大挑战。因此,各种自监督方法[10,12,18]已经成为图像去噪的有前途的解决方案,旨在减少对成对的无噪声图像数据集的依赖。然而,与监督学习方法相比,这些方法在性能上往往不足。因此,在实际场景中,对真实噪声数据集的监督仍然是有利的。

然而,在真实噪声数据集上进行监督训练的图像去噪器有其自身的缺陷。最值得注意的是,我们观察到,即使是最先进的去噪器也难以泛化到噪声分布的变化,这些变化是由不同的相机传感器类型、拍摄环境和ISP过程等因素引起的。我们在图1中说明了这种现象,并在图2中提供了频率分析。虽然缺乏真实的噪声泛化对去噪模型的广泛使用产生了不利影响,但在图像去噪研究领域,这是一个相对未被探索的问题。

在这里插入图片描述

在这里插入图片描述

在这项工作中,我们提出了对抗混频(AFM),这是一种模型不可知的训练框架,可以提高去噪网络对实际噪声分布变化的泛化能力。为此,AFM构建了具有独特且难以去噪的噪声的图像,同时保持了真实世界噪声的特性。然后,通过将这些噪声图像整合到训练pipeline中,去噪网络对实际噪声分布的变化具有鲁棒性。更具体地说,AFM的工作原理是根据频域的混合掩码将有噪声和去噪的图像混合在一起。这个混合掩码是由一个单独的轻量级神经网络生成的,它产生了我们方法的两个变体:AFM-E和AFM-B。AFM-E以元素方式生成混频掩码,而AFM-B通过为每个频带分配一个混频值来生成掩码。此外,AFM使用对抗性损失进行训练,并可以生成对抗性混合掩码。

总体而言,我们的贡献总结如下:

  • 我们提出了AFM,这是一种模型不可知的训练框架,通过在频域中的对抗性混合生成新的噪声图像,提高了去噪网络对现实世界分布外噪声图像的泛化和鲁棒性。
  • 我们设计了两个对抗性掩码生成网络,AFM-E和AFM-B。AFM-E以元素方式生成混合掩码,而AFM-B为单个波段生成混合掩码。
  • 我们在多个真实世界的分布外图像去噪基准上证明了AFM的有效性。我们的方法在各种去噪架构甚至最先进的去噪模型上始终优于普通训练。

2. Related Works

本节回顾了现有的基于有监督和无监督的深度神经网络的图像去噪模型,并讨论了最近在鲁棒图像去噪方面的努力。

2.1. 有监督图像去噪

近年来,有监督图像去噪领域取得了重大进展,其中有噪声和干净的图像配对可用于训练。最初的突破主要是由基于CNN的模型推动的,其中去噪卷积神经网络(Denoising Convolutional Neural Network, DnCNN)[30]为该领域的进一步创新奠定了基础。在此基础上,基于U-Net的架构[4,5,26,27]已经成为突出的模型,利用跳过连接来有效地结合局部和全局上下文信息。此外,基于Transformer的模型的引入[22,28]标志着去噪策略的范式转变。配备了注意力机制,基于Transformer的模型擅长识别复杂的依赖关系,有效地减少了过程中的噪声失真。这些模型在降低噪声方面显示出卓越的技能,大大减轻了它们使用成对数据集训练的特定噪声分布的影响。然而,他们在有效管理与他们所训练的噪声分布不同的噪声分布方面遇到了挑战,这对他们在现实场景中的应用构成了障碍。

2.2. 自监督图像去噪

从现实世界中收集干净和有噪声的对数据是成本很高的。为了缓解这些问题,人们积极研究探索无监督和自监督学习技术,如N2N[12]、N2S[2]、N2V[10]和R2R[18]。这些方法证明了使用仅包含噪声对或单个噪声图像的数据集训练去噪网络的可行性,而不需要干净的噪声对数据集。此外,DIP[21]、Self2Self[19]和Neighbor2Neighbor[7]引入了新的方法来训练去噪网络,即使在没有训练数据的情况下,也可以使用单个带噪声的图像来产生干净的对应图像。然而,由于网络需要对每个不同的图像进行重新训练,因此这些方法的效率低下且耗费大量时间。重要的是,与监督方法相比,它们的性能往往不足。

2.3. 去噪泛化

现有的去噪模型存在泛化问题,对训练噪声分布存在过拟合问题。只有少数作品解决了这一挑战[3,15]。Mohan等[15]观察到噪声过拟合是由偏置项引起的,并从网络中去除所有的偏置。然而,这种方法的目的是增强在不同程度的噪声中的鲁棒性,而不是噪声类型。Chen等人[3]在训练过程中引入输入像素和注意特征掩码,专注于重建干净的图像本身,而不是去噪,但其在真实噪声上的表现仍然不足。

3. Methods

我们的目标是训练一个去噪网络,在各种看不见的真实噪声的例子中表现出强大的泛化性能。为了实现这一目标,我们提出了对抗混频(AFM),这是一种基于具有真实噪声分布的频域增强图像的新型训练框架。

3.1. 背景

去噪网络的目的是生成干净的图像,而不考虑输入图像上的噪声模式。这种步骤表述为:
D θ ( x + n ) = x , (1) \mathcal{D}_\theta(\boldsymbol{x}+\boldsymbol{n})=\boldsymbol{x}, \tag{1} Dθ(x+n)=x,(1)
式中, D θ \mathcal{D}_θ Dθ表示用 θ θ θ参数化的去噪网络, ( x , n ) (x, n) (x,n)表示干净图像及其噪声的一对。

对于监督学习,一种流行的方法是使用真实的噪声数据集(如SIDD[1])训练去噪模型,该数据集由干净图像 ( x ) (x) (x)和噪声图像 ( x + n ) (x + n) (x+n)对组成。问题的目标是通过最小化以下损失来优化模型参数 θ θ θ
L = ∥ D θ ( x + n ) − x ∥ . (2) \mathcal{L}=\|\mathcal{D}_\theta(\boldsymbol{x}+\boldsymbol{n})-\boldsymbol{x}\|. \tag{2} L=Dθ(x+n)x∥.(2)
然而,传统的方法容易学习干净图像和噪声图像之间的固定映射,这往往导致较差的泛化。在实际场景中,由于相机传感器和图像信号处理(ISP)pipeline的不同特性,存在很大范围的噪声变化。因此,真实的噪声去噪模型必须能够推广到这种噪声分布的变化。

3.2. 对抗性混频

图3(a)说明了所提出的AFM方法的概述,该方法旨在提高对看不见的真实噪声图像的泛化。给定一个带噪声的输入图像 I ∈ R C × H × W I∈\mathbb{R}^{C×H×W} IRC×H×W,我们首先使用去噪网络 D θ \mathcal{D}_θ Dθ预测去噪图像 I I I,该网络由公式(3)给出:
I ^ = D θ ( I ) . (3) \hat{I}=\mathcal{D}_\theta(I). \tag{3} I^=Dθ(I).(3)
在这里插入图片描述

然后,我们将原始输入 I I I与频域预测 I ^ \hat{I} I^混合如下:
I h a r d = F − 1 ( F ( I ) ⊙ m + F ( I ^ ) ⊙ ( 1 − m ) ) , (4) I_{\mathrm{hard}}=\mathcal{F}^{-1}\left(\mathcal{F}(I)\odot\boldsymbol{m}+\mathcal{F}(\hat{I})\odot(\mathbf{1}-\boldsymbol{m})\right), \tag{4} Ihard=F1(F(I)m+F(I^)(1m)),(4)
其中 F \mathcal{F} F是快速傅里叶变换(FFT), ⊙ \odot 是元素乘法算子, m ∈ [ 0 , 1 ] 1 × H × W m∈[0,1]^{1×H×W} m[0,1]1×H×W是频域中的任意掩码, I h a r d I_{hard} Ihard是得到的混合图像。由于掩码 m m m以[0,1]为界,公式(4)的右侧表示频域中 I I I I ^ \hat{I} I^之间的元素插值。给定 I I I I ^ \hat{I} I^,这里的目标是生成带有一些噪声的新图像,其特征是与原始噪声图像的分布不同,同时也类似于现实场景中遇到的噪声。我们在公式(4)中的设计选择—特别是频率混频的使用—直接受到这个目标的启发。

I I I I ^ \hat{I} I^上的傅里叶变换将每个图像映射到频域,与空间域相比,在频域操作图像的噪声分布相对容易。图2显示了支持这一主张的直观可视化,其中噪声和干净信号的区域在频域中可以清晰区分。此外,频率分量的变化对图像起全局作用,从而最大限度地降低了对底层图像内容进行不必要操作的风险。从本质上讲,结果 I h a r d I_{hard} Ihard停留在真实噪声图像的流形中,因为它是 I I I I ^ \hat{I} I^的插值。因此,混频可以防止构造带有任意和人为噪声的合成图像。

通过推导出公式(4)的简化表达式,我们对混合操作有了更直观的理解:
I h a r d = F − 1 ( F ( I ^ ) + m ⊙ ( F ( I ) − F ( I ^ ) ) ) = I ^ + F − 1 ( m ⊙ F ( I − I ^ ) ) = I ^ + F − 1 ( m ) ∗ F − 1 ( F ( n ^ ) ) = I ^ + F − 1 ( m ) ∗ n ^ = I ^ + h ∗ n ^ , (5) \begin{aligned} I_{\mathrm{hard}}& =\mathcal{F}^{-1}\left(\mathcal{F}(\hat{I})+\boldsymbol{m}\odot(\mathcal{F}(I)-\mathcal{F}(\hat{I}))\right) \\ &=\hat{I}+\mathcal{F}^{-1}\left(\boldsymbol{m}\odot\mathcal{F}(I-\hat{I})\right) \\ &=\hat{I}+\mathcal{F}^{-1}(\boldsymbol{m})*\mathcal{F}^{-1}\left(\mathcal{F}(\hat{\boldsymbol{n}})\right) \\ &=\hat{I}+\mathcal{F}^{-1}(\boldsymbol{m})*\hat{\boldsymbol{n}} \\ &=\hat{I}+h*\hat{\boldsymbol{n}}, \end{aligned} \tag{5} Ihard=F1(F(I^)+m(F(I)F(I^)))=I^+F1(mF(II^))=I^+F1(m)F1(F(n^))=I^+F1(m)n^=I^+hn^,(5)
其中 h h h表示滤波器, ∗ * 表示卷积算子, n ^ = I − I ^ \hat{n} = I - \hat{I} n^=II^表示预测噪声。本质上,混频并不是随机改变图像,而是根据 h h h变换噪声分量 n ^ \hat{n} n^ h h h由掩码 m m m​的傅里叶反变换定义。

剩下的是选择 m m m,或者更具体地说,如何为混频创建适当的掩码。正如将在3.3节中更详细地讨论的那样,我们选择 m m m的对抗性设计,这导致去噪网络认为是hard(因此称为 I h a r d I_{hard} Ihard)的真实噪声图像。然后,我们可以将 I h a r d I_{hard} Ihard纳入到训练pipeline中,以提高去噪网络在现实世界中的泛化程度。
I ~ = F − 1 ( F ( I 1 ) ⊙ m + F ( I 2 ) ⊙ ( 1 − m ) ) , = F − 1 ( F ( I 2 ) + m ⊙ ( F ( I 1 ) − F ( I 2 ) ) ) = I 2 + F − 1 ( m ⊙ F ( I 1 − I 2 ) ) = I 2 + F − 1 ( m ) ∗ ( I 1 − I 2 ) = I 2 + h ∗ ( I 1 − I 2 ) = I 2 + h ∗ Δ I 1 , 2 , (S.1) \begin{aligned} \tilde{I}& =\mathcal{F}^{-1}\left(\mathcal{F}(I_1)\odot\boldsymbol{m}+\mathcal{F}(I_2)\odot(\mathbf{1}-\boldsymbol{m})\right), \\ &=\mathcal{F}^{-1}\left(\mathcal{F}(I_2)+\boldsymbol{m}\odot(\mathcal{F}(I_1)-\mathcal{F}(I_2))\right) \\ &=I_2+\mathcal{F}^{-1}\left(\boldsymbol{m}\odot\mathcal{F}(I_1-I_2)\right) \\ &=I_2+\mathcal{F}^{-1}(\boldsymbol{m})*(I_1-I_2) \\ &=I_2+\boldsymbol{h}*(I_1-I_2) \\ &=I_2+\boldsymbol{h}*\Delta I_{1,2}, \end{aligned} \tag{S.1} I~=F1(F(I1)m+F(I2)(1m)),=F1(F(I2)+m(F(I1)F(I2)))=I2+F1(mF(I1I2))=I2+F1(m)(I1I2)=I2+h(I1I2)=I2+hΔI1,2,(S.1)

3.3. 掩码设计

掩码 m m m是对抗性地生成的,使得 I h a r d I_{hard} Ihard的去噪输出 D θ ( I h a r d ) \mathcal{D}_θ(I_{hard}) Dθ(Ihard)与ground truth I g t I_{gt} Igt之间的差值最大化。如图3(b)所示,这是通过掩码生成网络 G ϕ G_ϕ Gϕ完成的,该网络可以由AFM-E或AFM-B实现。

无论实现选择如何,m表示为:
m = G ϕ ( [ I , I ^ , ∣ F ( I ) ∣ , ∣ F ( I ^ ) ∣ ] ) , (6) \boldsymbol{m}=G_\phi\left(\left[I,\hat{I},|\mathcal{F}(I)|,|\mathcal{F}(\hat{I})|\right]\right), \tag{6} m=Gϕ([I,I^,F(I),F(I^)]),(6)
式中 ∣ F ( I ) ∣ \left|\mathcal{F}(I)\right| F(I) ∣ F ( I ^ ) ∣ \left|\mathcal{F}(\hat{I})\right| F(I^) 分别是 I I I I ^ \hat{I} I^的频率幅度, [ ⋅ , ⋅ ] [\cdot,\cdot] [,]是沿通道维度的级联运算符。给定掩码 m m m,我们根据公式(4)构造 I h a r d I_{\mathrm{hard}} Ihard。此外,为了稳定 G ϕ G_\phi Gϕ的训练,我们还使用相反的掩码 1 − m 1 - m 1m构造 I e a s y I_\mathrm{easy} Ieasy
I easy = F − 1 ( F ( I ) ⊙ ( 1 − m ) + F ( I ^ ) ⊙ m ) . (7) I_{\text{easy}}=\mathcal{F}^{-1}\begin{pmatrix}\mathcal{F}(I)\odot(\mathbf{1}-\boldsymbol{m})+\mathcal{F}(\hat{I})\odot\boldsymbol{m}\end{pmatrix}. \tag{7} Ieasy=F1(F(I)(1m)+F(I^)m).(7)
我们制定了以下损失函数,使 I h a r d I_\mathrm{hard} Ihard对抗并训练掩码生成网络 G ϕ G_\phi Gϕ
L A F M = P S N R ( I ^ h a r d , I g t ) − γ P S N R ( I ^ e a s y , I g t ) , (8) \mathcal{L}_{\mathrm{AFM}}=\mathrm{PSNR}(\hat{I}_{\mathrm{hard}},I_{\mathrm{gt}})-\gamma\mathrm{PSNR}(\hat{I}_{\mathrm{easy}},I_{\mathrm{gt}}), \tag{8} LAFM=PSNR(I^hard,Igt)γPSNR(I^easy,Igt),(8)
其中, I ^ h a r d = D θ ( I h a r d ) , I ^ e a s y = D θ ( I e a s y ) \hat{I}_{\mathrm{hard}}=\mathcal{D}_{\theta}(I_{\mathrm{hard}}),\hat{I}_{\mathrm{easy}}=\mathcal{D}_{\theta}(I_{\mathrm{easy}}) I^hard=Dθ(Ihard),I^easy=Dθ(Ieasy) γ γ γ是平衡这两项的超参数。第一项满足我们的主要目的:通过最小化 I ^ h a r d \hat{I}_{\mathrm{hard}} I^hard I g t I_\mathrm{gt} Igt之间的峰值信噪比(PSNR)来生成对抗情况 I h a r d I_\mathrm{hard} Ihard。第二项的目的是最大化 I ^ ~ e a s y \tilde{\hat{I}}_{\mathrm{easy}} I^~easy I g t I_\mathrm{gt} Igt之间的PSNR,因为 I e a s y I_\mathrm{easy} Ieasy I h a r d I_\mathrm{hard} Ihard的补项,应该作为去噪网络相对容易的输入来生成。虽然在公式(8)中,训练一个对抗性的 G ϕ G_\phi Gϕ并不是严格必要的,但我们从经验上发现,它有助于防止生成不重要的的掩码。

3.3.1 AFM-E:逐元素掩码生成

AFM-E通过像素分割来构造与输入图像大小相同的掩码。因此,每个元素在 F ( I ) \mathcal{F}(I) F(I) F ( I ^ ) \mathcal{F}(\hat{I}) F(I^)中,可以用不同的混合比例混合。如图4(a)所示,合并后的输入通过基于UNet的具有跳跃连接的编码器-解码器架构[20]。关于架构的更多细节可以在附录中找到。

在这里插入图片描述

3.3.2 AFM-B:逐频带掩码生成

虽然AFM-E是生成混合掩码的有效方法,但我们观察到AFM-E生成的掩码自然表现出一定程度的旋转不稳定性,即对应于相同频率的掩码元素具有相似的混合值。因此,我们引入了一种简化但功能强大的替代方案:逐频带掩码生成。如图4(b)所示,该网络使用几个卷积和全连接层构建,这产生了一组N个混合值。所得到的掩码由沿极轴均匀分布的N个圆形带组成。一个频带区域内的所有元素对应于网络产生的混频值。

3.4. 训练过程

在算法1中详细介绍的训练过程中,我们同时训练去噪网络和AFM网络。

在这里插入图片描述

在每次迭代中,我们采用两步方法。在第一步中,我们保持掩码生成网络不变,更新去噪网络,损失如下:
L D = − P S N R ( I ^ , I g t ) − λ P S N R ( I ^ h a r d , I g t ) = L r e c + λ L h a r d , (9) \begin{aligned} \mathcal{L}_{\mathrm{D}}& =-\mathrm{PSNR}(\hat{I},I_{\mathrm{gt}})-\lambda\mathrm{PSNR}(\hat{I}_{\mathrm{hard}},I_{\mathrm{gt}}) \\ &=\mathcal{L}_{\mathrm{rec}}+\lambda\mathcal{L}_{\mathrm{hard}}, \end{aligned} \tag{9} LD=PSNR(I^,Igt)λPSNR(I^hard,Igt)=Lrec+λLhard,(9)
其中 λ λ λ是一个超参数。在第二步中,我们保持去噪网络固定,并使用公式(8)中定义的对抗损失函数更新AFM模块。

值得注意的是,我们的AFM框架只影响训练过程。在推理中,我们简单地省略AFM模块,并使用去噪网络进行预测,而不需要任何额外的内存或计算成本。

4. Experiments

我们将我们的框架AFM应用于各种图像去噪架构,并在多个分布外(OOD)基准上进行评估。我们的结果表明,无论结构如何,AFM都显著提高了图像去噪网络的OOD泛化(表1),甚至在OOD泛化方面优于最先进的去噪网络(表2)。最后,我们给出了一些定性结果。

4.1. 实验设置

数据集 在所有实验中,我们只在Smartphone Image Denoising Dataset (SIDD)(SIDD) Medium[1]数据集上训练去噪网络。我们在SIDD验证集上测量了分布(ID)性能,并在五个真实噪声基准上评估了分布外(OOD)性能,以确保在各种数据域上进行鲁棒的评估。五个OOD基准包括Poly[23]、CC[16]、HighISO[24]、iPhone[9]和Huawei[9]。Poly、CC和HighISO的图片大小为512×512, iPhone和Huawei的图片大小为1024×1024。

训练细节 我们训练所有模型进行200K次迭代,批大小为32,训练patch大小为256×256。对于去噪网络和掩码生成网络,我们使用AdamW[13]优化器,初始学习率为10−3,在余弦退火计划后降低到10−6。最后,我们设 λ = 0.8 λ = 0.8 λ=0.8 γ = 0.3 γ = 0.3 γ=0.3

4.2. 结果

在表1中,我们比较了使用和不使用所提出框架的现有去噪架构的ID和OOD性能。我们在四种不同的架构上进行了测试,包括DnCNN[30]、CBDNet[6]、NAFNet[5]和MPRNet[27]。结果表明,结合AFM可以在几乎所有OOD基准和架构中持续提高性能,同时保持ID性能的竞争力。例如,集成AFM后,在DnCNN、CBDNet、MPRNet和NAFNet上,OOD的平均PSNR分别提高了+0.75 dB、+0.33 dB、+0.54 dB和+1.00 dB。这表明AFM可以应用于各种去噪网络,以提高网络的泛化性和对未知噪声分布的鲁棒性。

在这里插入图片描述

我们还与最先进的(SOTA)监督去噪网络(如MIRNetv2[26]、Uformer[22]和Restormer[28])进行了比较,并将结果显示在表2中。我们使用官方发布的权重评估所有SOTA网络,并将这些网络与使用AFMB框架训练的DnCNN架构进行比较。值得注意的是,尽管在推理时需要更少的内存和计算,但具有AFM-B的DnCNN在PSNR方面至少优于所有SOTA模型+0.39 dB (Restormer),在SSIM方面优于所有SOTA模型+0.009 (MIRNet-v2)。

在这里插入图片描述

我们还比较了其他基于SOTA数据集的自监督方法的去噪性能。如表2所示,使用SIDD数据集的基于数据集的自监督方法训练的模型在分布内和分布外的情况下都表现不佳,而我们的方法在这两种情况下都表现出色。

定性结果 图5显示了用AFM-B训练的DnCNN在两个OOD基准样本上的去噪输出:CC和HighISO。为了比较,我们还可视化了其他去噪网络的输出,这些网络没有经过AFM的训练。这些定性比较清楚地表明,与未经AFM训练的模型相比,使用AFM训练的模型产生更清晰的输出。

在这里插入图片描述

5. Analysis and Discussions

分析了AFM与其他泛化方法的有效性,并进行了讨论。

5.1. 与泛化技术的比较

我们将AFM框架与其他一些旨在提高泛化的技术进行了比较。我们简要总结每种技术:

  • Dropout[8]在网络的最后一个卷积层之前沿着通道维度随机丢弃特征。
  • 输入掩码(Input mask)[3]在空间维度上随机掩码第一个卷积层之后的特征。
  • CutMix[25]是一种常见的数据增强方案,通过在训练数据集中剪切和粘贴来自不同图像的补丁来创建新的数据样本。
  • 对抗性训练(Adversarial training) 首先使用PGD攻击在输入图像中产生对抗性扰动[14],然后训练网络去噪对抗性扰动。
  • 随机混频(Random frequency mixup) 与AFM-B相同,除了每个频带的混合值是从均匀分布中采样。
  • ASM-E(Adversarial Spatial Mixup) 与AFM-E相同,除了混是在空间域而不是频域进行的。

我们用上面提到的每一种技术训练一个DnCNN网络,并在表3中给出了ID和平均OOD结果。我们首先观察到Dropout和Input mask并不能提高泛化性能,这可以通过平均OOD性能的下降来证明。此外,我们注意到CutMix表现出较小的增益,并且优于AFM-E和AFM-B,它们在OOD性能方面表现出显着改善。

在这里插入图片描述

在Adversarial training的结果中有一个有趣的观察。尽管与我们的AFM框架有一些相似之处,但我们发现使用PGD攻击的朴素对抗性训练未能提高对OOD图像的鲁棒性(-0.63 dB)。我们假设,差异在于噪声是如何产生的;虽然PGD攻击会产生合成的对抗噪声,但我们的AFM旨在产生逼真的对抗噪声。这意味着保持真实属性的噪声增强在提高泛化性能方面起着至关重要的作用。此外,Random frequency mixup导致OOD性能的适度改善(+0.36 dB),但不如AFM-E (+0.70 dB)或AFM-B (+0.75 dB),这突出了AFM模块中对抗性掩码生成网络的重要性。最后,ASM-E不能提高泛化性能,这加强了在频域使用混合的理由。

5.2. 讨论

频率分析 图6可视化了对抗掩码 m \boldsymbol{m} m的示例,以及来自训练数据集的相应图像 I h a r d I_{\mathrm{hard}} Ihard I ^ h a r d \hat{I}_{\mathrm{hard}} I^hard, 和 I ^ \hat{I} I^, 的频率值。由于输入是分布内样本,去噪后的图像 I ^ \hat{I} I^显示干净的频率。然而,去噪网络 I h a r d I_\mathrm{hard} Ihard很难去噪;事实上,图6中的 ∣ F ( I ^ h a r d ) ∣ | \mathcal{F} ( \hat{I} _{\mathrm{hard}}) | F(I^hard)与图2中的输出频率非常相似,这是从一个OOD数据集中采样的。这意味着我们的AFM模块构建了与OOD图像共享许多特征的训练图像。

在这里插入图片描述

图像去噪的泛化 表2中的结果揭示了即使在性能最好的去噪网络(如Restormer)中,也缺乏对看不见的真实噪声分布的泛化。这引起了一个重大关切;尽管泛化是广泛使用图像去噪网络的必要条件,但对不同实噪声分布的泛化常常被忽视。因此,我们希望我们的工作能够启发未来的图像去噪研究,以探索这个方向,而不是仅仅专注于提高分布性能。

6. Conclusion

我们提出了对抗性混频(AFM),这是一种新的图像去噪网络训练框架,有助于更好的泛化和鲁棒性,以适应各种现实世界的噪声分布。通过利用频域中的对抗性混合,AFM模块生成新的噪声图像,这些图像保留了现实世界中遇到的噪声特性。然后,将这些图像整合到训练数据集中,学习具有分布外鲁棒性的改进图像去噪网络。值得注意的是,与使用传统监督训练方法训练的图像去噪器相比,使用AFM框架训练的图像去噪器表现出明显优越的泛化能力。最后,我们发现图像去噪网络缺乏鲁棒性是一个重要但经常被忽视的研究领域,并希望未来的工作将积极地朝着这个方向发展。

Appendix

https://openaccess.thecvf.com/content/CVPR2024/supplemental/Ryou_Robust_Image_Denoising_CVPR_2024_supplemental

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2128129.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

哈希表的底层实现(1)---C++版

目录 哈希表的基本原理 哈希表的优点 哈希表的缺点 应用场景 闭散列法 开散列法 开放定值法Open Addressing——线性探测的模拟实现 超大重点部分评析 链地址法Separate Chaining——哈希桶的模拟实现 哈希表(Hash Table)是一种数据结构&#x…

STM32G070 CubeMX配置多通道/单通道ADC+DMA流程 LL库

基础配置不再赘述,时钟这些根据硬件来配置 多通道ADCDMA配置图: 程序配置: 调试查看内存数据,硬件上将PA1接到GND,PA2接到3V3 采集的数据会循环覆盖内存 问题:代码里先初始化ADC_IN1,再初…

Spring扩展点系列-ApplicationContextAwareProcessor

文章目录 简介源码分析示例代码示例一:扩展点的执行顺序运行示例一 示例二:获取配置文件值配置文件application.properties内容定义工具类ConfigUtilcontroller测试调用运行示例二 示例三:实现ResourceLoaderAware读取文件ExtendResourceLoad…

CleanClip - 「CleanClip」是一款专为 Mac 设计的桌面剪贴板工具

官方介绍 欢迎使用 CleanClip —— Mac 上最简洁高效的剪贴板管理工具。CleanClip 专为追求简约操作体验的用户设计,它帮助用户记录系统剪贴板上的内容,并提供强大的分类管理能力,帮助你整理复制的内容,提高办公效率。 智能简洁&…

MAVEN如何导入项目

工作中经常需要导入他人的项目,那么如何导入呢? 1, 选择Maven面板,点 2,选中对应项目的pom.xml,双击即可 3,如果没有maven面板,可以选择view->Appearnce->Tool Window Bars…

HTML5元素定位

1.元素定位 为了实现网页整体布局,我们先要知道,一个元素,是如何定位到页面上的某个位置的,这就是元素定位。 元素定位有四种,可以使用position样式来设置元素定位,所以此属性值有四种: stat…

MybatisPlus新增数据时怎么返回新增数据的id

问:MybatisPlus新增数据时怎么返回新增数据的id?答:当插入操作执行后,MyBatis Plus会自动获取生成的ID并将其设置到传入的实体类对象的id属性中。当然,这需要你的表字段ID是自增的 实体类代码 public class Sites {p…

东风德纳携手纷享销客打造汽车零部件行业营销数智化新标杆

为进一步提升数字化经营管理水平,加速数字化转型,推进“品牌向上”战略落实落地,9月2日,东风德纳车桥有限公司召开CRM项目启动会,携手纷享销客,打造汽车零部件行业营销数智化标杆工程。东风德纳车桥总经理陆…

高效Flutter应用开发:GetX状态管理实战技巧

探索GetX状态管理的使用 前言 在之前的文章中,我们详细介绍了 Flutter 应用中的状态管理,setState、Provider库以及Bloc的使用。 本篇我们继续介绍另一个实现状态管理的方式:GetX。 一、GetX状态管理 基础介绍 GetX 是一个在 Flutter 中…

【原创】【总结】【C++类的设计要点】一道十分典型的含继承与虚函数的类设计题

设计类时的要点 1构造函数与析构函数:先在public中写上构造函数与析构函数 2成员函数:根据题目要求在public中声明成员函数;成员函数的实现在类内类外均可,注意若在类外实现时用::符号表明是哪个类的函数 3数据成员:关…

STM32L051K8U6-HAL-串口中断控制灯闪烁速度

HAL三步法: 1、配置下载线 2、配置晶振 3、配置时钟 4、 配置灯引脚属性为输出模式。并设置标签为LED 5、配置串口1 串口常用函数说明: 需要实现的伪代码: 示例:链接:https://pan.baidu.com/s/1u6FamKgZhvcEsFAdgGeaw…

Realsense D455 imu 数据不输出?

现象 realsense_viewer 可以可视化查看imu数据, 但是realsense-ros 查看/camera/accel/sample和/camera/gyro/sample没有数据输出 背景 realsense_viewer 安装: sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-key F6E65AC044F831AC80A06380C8B3A55A6F3EFCDE…

移动通信为啥要用双极化天线?

❝本文简单介绍下移动通信为啥要用双极化天线及其简单概述。 移动通信为啥要用双极化天线? - RFASK射频问问❝本文简单介绍下移动通信为啥要用双极化天线及其简单概述。什么是极化?电磁波的极化通常是用其电场矢量的空间指向来描述:在空间某…

Leetcode 字母异位词分组

这道题目的意思就是:把包含字母字符相同的单词分到同一组。 算法思路: 使用哈希表来解决。 首先将每个字符串进行排序,将排序之后的字符串作为 key,然后将用 key 所对应的异位词组 作为value。然后我们使用 std::pair 来遍历 键…

Vue的学习(三)

目录 一、for循环中key的作用 1‌.提高性能‌: ‌2.优化用户体验‌: ‌3.辅助Vue进行列表渲染‌: 4‌.方便可复用组件的使用‌: 二、methods及computed及wacth的区别 三、过滤器 1.Vue 2 过滤器简介 定义过滤器 使用过滤…

八、适配器模式

适配器模式(Adapter Pattern)是一种结构型设计模式,它允许不兼容的接口之间进行合作。适配器模式通过创建一个适配器类来转换一个接口的接口,使得原本由于接口不兼容无法一起工作的类可以一起工作。 主要组成部分: 目标…

CUDA-中值滤波算法

作者:翟天保Steven 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处 实现原理 中值滤波是一种常用的图像处理方法,特别适用于去除图像中的脉冲噪声(如椒盐噪声)。…

基于IOT的供电房监控系统(实物)

aliyun_mqtt.cpp 本次设计利用ESP8266作为系统主控,利用超声波检测门的状态,利用DHT11检测环境温湿度、烟雾传感器检测空气中的气体浓度,利用火焰报警器模块检测火焰状态,使用OLED进行可视化显示,系统显示传感器数据&a…

同相放大器电路设计

1 简介 同相放大电路输入阻抗为运放的极高输入阻抗(GΩ级),因此可处理高阻抗输入源信号。同相放大器的共模电压等于输入信号。 2 设计目标 2.1 输入 2.2 输出 2.3 频率 2.4 电源 3 电路设计 根据设计目标,最终设计的电路结构…

python-确定进制

题目描述 6 942 对于十进制来说是错误的,但是对于 13 进制来说是正确的。即 6(13)​ 9(13)​42(13)​,而 42(13)​4 13^12 13^054(10)​。 你的任务是写一段程序读入三个整数 p,q 和 r,然后确定一个进制 B(2≤B≤16) 使得 p qr 。如果 B 有…