扩散模型:Diffusion models as plug-and-play priors作为即插即用先验的扩散模型

news2024/12/23 13:52:52

扩散模型:Diffusion models as plug-and-play priors作为即插即用先验的扩散模型

  • 0.摘要
  • 1.概述
  • 2.方法
    • 2.1.问题设置
    • 2.2.将去噪扩散概率模型作为先验
  • 3.实验:图像生成
    • 3.1.MNIST的简单说明
    • 3.2.使用现成组件条件生成脸部图像
  • 4.实验:语义分割
  • 附录B:实验细节和扩展
    • B.1:MNIST
    • B.2:FFHQ
    • B.3:土地覆盖
  • 参考文献

论文下载
开源代码

0.摘要

我们考虑在一个由先验p(x)和辅助可微约束c(x,y)组成的模型中推断高维数据的问题。在本文中,先验是一个独立训练的去噪扩散生成模型。辅助约束预计具有可微形式,但可以来自不同的来源。这种推断的可能性将扩散模型转化为即插即用模型,从而允许在适应模型的领域和任务(如条件生成或图像分割)方面的一系列潜在应用。扩散模型的结构允许我们通过在每个步骤中富含不同数量噪声的固定去噪网络迭代微分来执行近似推断。考虑到x的许多噪声版本,对其适应度的评估是一种新的搜索机制,可能会导致解决组合优化问题的新算法。

1.概述

深度生成模型,如去噪扩散概率模型[DDPMs;39,13]可以捕捉高维连续数据地图p(x)上非常复杂的分布细节[30,7,1,38,43,15]。DDPM的巨大有效深度,有时在生成过程中有成千上万的深度网络评估,这明显限制了它们在分层生成模型中作为现成模块的使用,其中模型可以混合,一个模型可以作为另一个条件模型的先验。在本文中,我们证明了在图像数据上训练的DDPM可以直接用作包含其他可微约束的系统的先验
在我们的主要问题设置中,我们假设我们在高维数据上有一个先验
p(x)
,我们希望在一个模型中执行推理,该模型包含这个先验和一个约束(x,y)以及给定的一些附加信息。也就是说,我们要找到后验分布p(x|y)∝p(x)c(x,y)的近似。在本文中, p ( x = x 0 , h = x T , … , x 1 ) p(x=x_0,h={x_T,…,x_1}) p(x=x0,h=xT,,x1)以在xT,…,x0独立训练的DDPM的形式提供(§2.2),使DDPM成为“即插即用”先验。
尽管最近社区对DDPM的兴趣促进了训练算法和快速生成计划的进展[30,37,45],但它们作为即插即用模块使用的可能性还没有被探索。此外,与即插即用模型的现有工作(从[29]开始)不同,我们提出的算法不需要对模型组件或推理网络进行传统的训练或微调。
即插即用先验的一个明显应用是条件图像生成(§3.1,§3.2)。例如,在MNIST数字图像上训练的去噪扩散模型可能定义p(x),而约束c(x,y)可能是现有分类器下数字分类的概率。然而,通过改变x的语义,我们也可以将这种模型用于神经网络难以适应领域的推理任务,例如图像分割:c(x,y)约束分割x以匹配外观或弱标签(§4)。最后,我们描述了一种使用DDPM先验解决组合搜索问题的连续松弛的途径,方法是将y作为具有x中确定性编码的组合结构的潜在变量(§5)。

2.方法

2.1.问题设置

回想一下,我们想找到**后验分布p(x|y)∝p(x)c(x,y)**的近似,其中p(x)是一个固定的先验分布。固定y并引入近似变分后验q(x),自由能量:
在这里插入图片描述
当q(x)最接近真实的后验、KL(q(x)||p(x|y))最小时 自由能最小。当q(x)和用于拟合它的学习算法具有足够的表达能力来捕获真后验时,这种最小化产生精确的后验p(x|y)。否则,q将捕捉到“模式寻找”近似真正的后验[27];特别地,如果q(y)是狄拉克函数,在p(x|y)模式下集中。当先验涉及潜变量(即p(x) =∫hp(x|h)p(h)dh)时,自由能为
在这里插入图片描述
我们特别感兴趣的是,当为DDPM(§2.2)时,对于任何可微集,F对近似匹配的后验q(x)求极小化的一般过程。
在[43]中也研究了相同结构的自由能,其中潜伏空间上的DDPM p(z)被杂交为解码器p(x|z)的双亲,并使用一个附加的推理模型q(z|x)与这两个模型联合训练。另一方面,我们的目标是使用独立训练的组件,这些组件直接在像素空间中操作,例如,在人脸图像上训练的现成的扩散模型p(x)和现成的人脸分类器p(y|x),而不需要联合训练或调整它们(§3.2)。

2.2.将去噪扩散概率模型作为先验

去噪扩散概率模型(DDPMs)[39,13]通过反转(高斯)噪声过程生成样本x0。DDPM是深度有向随机网络:
在这里插入图片描述
μθ和Σθ是具有学习参数的神经网络(通常,如本文中所述,Σθ固定为依赖于t的标量对角矩阵)。该模型从单位高斯矩阵的样本开始,根据噪声时间表,在每步增加一个小高斯变换信号的非线性网络μθ(xt,t)对样本进行变换。经过T步,得到采样x=x0
一般情况下,使用这样的模型作为x的先验将需要对潜在变量h=(xT,…,x1)进行棘手的积分
在这里插入图片描述
然而,训练DDPM的前提是,假定后验q(xt|xt−1)是一个简单的扩散过程,根据预定义的调度βt依次添加高斯噪声:
在这里插入图片描述
因此,如果p(x)是在DDPM下x的可能性(5),那么在(2)的第一个期望中,我们应该使用 q ( h = x T , … , x 1 ∣ x 0 = x ) = ∏ t = 1 T q ( x T ∣ x T − 1 ) q(h={x_T,…,x_1}|x_0=x) = \prod ^T_{t=1}q(x_T | x_{T−1}) q(h=xTx1x0=x)=t=1Tq(xTxT1)。x=x0的后验最简单的近似是一个点估计:
在这里插入图片描述
δ表示狄拉克函数。因此,我们可以使用前向噪声过程在任意时间步长采样
在这里插入图片描述
其中αt= 1−βt. αt= ∏ i = 1 t α t \prod ^t_{i=1}α_t i=1tαt。类似于[13],我们也可以提取一个条件高斯 q ( x t − 1 ∣ x t , η ) q(x_{t−1}|x_t,η) q(xt1xt,η),并将(2)中的第一个期望表示为
在这里插入图片描述
重新参数化后[13]:
在这里插入图片描述
阶段噪声重构θ(xt,t)是模型期望μθ(xt,t)的线性变换:
在这里插入图片描述
权重wt(β)通常是噪声调度的函数,但在大多数预训练的扩散模型中,它被设置为1。因此,(2)中的自由能减少为
在这里插入图片描述
第一项是通常用来学习扩散模型参数θ的代价。对于在已训练好的模型θ下的性能,我们通过在表中对η抽样来使η最小
如果对后验q(x)使用高斯近似,则可以采用类似的推导(见§A)。这样的近似不仅允许建模后验模式,而且允许建模其附近的不确定性
在这里插入图片描述

我们将点估计q(x)的算法总结为算法1。这个算法的变体是可能的。根据我们初始化η的良好模式的接近程度,这个优化可能只涉及到求和显性t≤tmax≤T;不同的时间步进度表可以考虑取决于所需的多样性在估计的x。注意,优化是随机的,每次运行它都可以产生不同的x点估计,它们都可能在扩散先验下,并尽可能满足约束
我们观察到,在图像生成应用中,同时优化所有参数使得引导样本向模态方向发展变得困难;因此,我们从高到低的值退火。直观地说,最初的几次梯度下降迭代应该粗略地探索搜索空间,而随后的迭代逐渐降低温度,稳定地达到p(x|y)附近的局部最大值。为§3,4,5中演示的任务设计的退火计划的例子在附录中给出
另一个有趣的情况是当x通过一个潜变量参数化时(这可以被看作是一个硬的,不可微的约束的情况:如果x是y的确定性函数,x=f(y),那么c(x,y)在相应的流形上得到支持)。然后算法1中的过程可以针对y进行梯度下降步骤
在这里插入图片描述
而不是步骤4和5。(对于潜在表征的某些语义,人们可能希望通过在潜在y上的已知先验的f,使得x的先验向前推理。在这种情况下,(13)必须用雅可比矩阵法提来加权。

3.实验:图像生成

3.1.MNIST的简单说明

在这里插入图片描述
我们首先探讨了从MNIST上的无条件扩散模型生成条件样本的想法。我们在MNIST数字上训练[7]的DDPM模型,并使用不同的**约束集c(x,y)**进行实验,以生成具有特定属性的样本。图1中的示例显示了生成的样本。对于(a)中的数字,我们将约束log©设置为“薄”数字的非标准化分数,计算为平均图像强度的负值,而在(b)中,我们将其反转并生成具有高平均强度的“厚”数字。类似地,在(c)和(d)中,我们通过计算数字的两个折叠(垂直/水平)之间的L2距离,手工制作了一个分别惩罚垂直和水平对称性的核,这导致产生倾斜的非对称样本
我们还展示了辅助约束(x,y)如何通过不同的独立训练网络来建模。图1(e)中的数字是通过使用分类网络约束DDPM生成的,该分类网络被单独训练以区分数字类别y=3和所有其他数字。在这种情况下,辅助约束是推断数字的可能性,因为它是由分类器估计的。最后,对于(f),我们将水平对称性和数字分类器约束相乘,促进推理过程以生成完全居中和对称的数字。模型训练和推理的详细信息见附录(§B.1)

3.2.使用现成组件条件生成脸部图像

我们考虑使用预训练的DDPM先验和学习约束生成自然图像。我们利用[3]中的FFHQ-256[19]上预训练的DDPM网络和CelebA[25]上预训练的ResNet-18 face属性分类器。属性分类器计算在给定图像x中出现各种面部特征的可能性,因为它们是由CelebA数据集定义的。这样的特征有:无胡子、微笑、金发和男性。为了从无条件DDPM网络中生成条件样本,我们选择了这些样本中的一个子集,并使用分类器预测似然度作为我们的约束来强制它们的存在或不存在。如果是我们希望表示的一组属性,约束 l o g c ( x , y ) log c(x,y) logc(x,y)可以表示为
在这里插入图片描述
我们只严格执行面部属性的一小部分,因此允许向不同的模式收敛,这些模式对应于在不同程度上展示所需特征的样本。
在图2中,我们展示了我们仅使用无条件扩散模型和分类因子p(y|x)推断具有所需属性的条件样本的能力。在第一行中,我们展示了算法1对各种属性的优化过程的结果。分类器目标c(x,y)操作图像的目的是使分类器网络产生所需的数据预测,而扩散目标试图将样本丛拉向学习分布p(x)。如果我们忽略去噪损失,结果将是一些对抗性噪声欺骗分类器网络。然而,DDPM先验足够强,可以引导过程生成看起来逼真的图像,同时满足分类器约束集
我们注意到,生成的样本x虽然已经收敛到p(x)的正确模式,但仍然表现出大量与分类器目标优化相关的噪声。为了解决这个问题,受[31]的启发,我们简单地使用DDPM模型单独去噪图像,从低噪声水平t= 200开始,以保留整体结构。去噪的结果如图2第二行所示。
在这里插入图片描述

图2:第一行:约束c(x,y)的条件FFHQ样本,具有各种属性。第二行:像[31]那样去噪,以删除使用强制约束的分类器网络进行优化时出现的工件

在图3中,我们展示了在金发+微笑+非男性条件下的推理优化过程的中间步骤,从而仅使用独立训练的属性分类器和面部无条件生成模型解决了[8]中研究的问题。用高斯噪声 *N(0,I)*初始化样本,当我们执行递减值的梯度步骤时,我们观察到面部特征以从粗到细的方式添加。
在这里插入图片描述

图3:FFHQ条件生成y={金发,微笑,女性}。最后一步如[31]中所述执行去噪,以去除在分类器上作为约束进行训练时出现的伪影

在附录(§B.2)中,我们提供了额外的样本,并进一步讨论了样本质量与无条件生成的对比。我们还介绍了具有冲突属性的推理结果以及常见的失败案例

4.实验:语义分割

我们测试了扩散先验在离散任务中的适用性,如从图像中推断语义分割。为此,我们使用了EnviroAtlas数据集[32],该数据集由来自美国四个地理位置不同的城市的5类、100万分辨率的土地覆盖标签组成;宾夕法尼亚州的匹兹堡、北卡罗来纳州的达勒姆、得克萨斯州的奥斯汀和亚利桑那州的凤凰城。我们只能使用匹兹堡的高分辨率标签,而任务是推断其他三个城市的土地覆盖标签,前提是仅根据粗糙辅助数据[34]得出的概率弱标签。我们使用算法1来执行一个推理过程,它不直接将图像作为输入,而是使用来自无监督颜色聚类的约束。我们在推理中只使用聚类索引,使得算法依赖于图像的结构,而不是颜色。局部聚类指数作为一种表示,具有极好的领域可转移性,但它们需要一种组合搜索形式,将局部聚类指数与语义标签匹配,以便创建的形状与之前观察到的土地覆盖相似,这是由语义分割的去噪扩散模型捕获的
语义像素标签上的DDPM
我们使用[7]的U-Net扩散模型体系结构,在1/4分辨率的土地覆盖标签单热表示上训练一个DDPM模型。为了将独热扩散样本转化为概率,我们遵循[15],并假设在推断的采样簇中,对于任何像素列,标签l上的分布是, p ( l i ) ∝ ∫ 0.5 1.5 N ( x i l ∣ η i , σ ) p(l_i)∝∫^{1.5}_{0.5}N(x^l_i|η_i,σ) p(li)0.51.5N(xilηi,σ),其中σ是用户定义的一个参数。我们选择这种方法是因为它简单,易于应用于算法1的推理集。或者,我们可以对分类数据[14]使用扩散模型,并对推断过程进行适当修改。从学习到的分布中提取的样本如图4所示
在这里插入图片描述

图4:土地覆盖分割训练的DDPM的无条件样本(参见图5)。

语义分割预测
为了推断单个图像的分割,在扩散先验下,我们直接应用算法1和手工制作的约束,该约束提供结构和标签指导。为了构造,我们首先计算输入图像的局部颜色聚类z(附录中的§B.3)。此外,我们利用了可用的弱标签lweak[34]并对无重叠块进行平均时,强制预测片段的分布匹配弱标签分布。我们将两个目标合并在一个单一约束c(x,z,lweak)中,方法是(i)在重叠的图像补丁中计算颜色聚类z和预测标签x之间的互信息,由推断的独热向量转换为有效的概率分布,(ii)计算平均预测分布和非重叠块中弱标签给出的分布之间的负KL散度
在这里插入图片描述
根据经验,我们发现,通过使用弱标签lweak来初始化样本x,而不是随机噪声,可以减少执行推理所需的优化步骤的数量,从而允许我们从较小ti的开始。图5显示了图像及其推断分割的示例。
带推断样本的域迁移
在这里插入图片描述

图5:分割推断结果。使用weak labels初始化推断的分割轴,以减少所需的步骤数。样本从北卡罗来纳州达勒姆、德克萨斯州奥斯汀和亚利桑那州菲尼克斯(从上到下)选取。尽管AZ在颜色和标签的联合分布上有很大不同,但推断出的分割仍能捕捉到整体结构。注意,推理算法不使用输入图像中的像素强度,仅使用无监督的颜色聚类。

上述推理过程对颜色的设计是不可知的,我们期望它比[34]中的方法具有更大的能力在新的领域中执行,该方法仍然微调以原始图像为输入的网络。我们还研究了域转移方法,其中使用扩散先验分割的面片用于训练神经网络以进行快速推理。我们仅在PA中的20k批16个随机采样的64×64图像块上预处理标准U-Net推理网络 p ( x ∣ I ) p(x|I) p(xI)。我们在每个其他地理区域随机采样640个图像,并使用我们的推理程序生成语义分割,然后在这些分割上微调推理网络。然后在整个目标地理上评估该网络。
在这里插入图片描述

表1:不同地理区域EnviroAtlas数据集上联合得分的精度和类平均交叉点。从第二排到最后一排的模型在宾夕法尼亚州匹兹堡地区的监督下进行了预训练

表1中的结果表明,对于弱监督训练,这种域转移方法与[34]的最新工作相当。仅根据可用的高分辨率PA数据(PA监督)对U-Net进行训练的方法是无法推广到地理上凤凰城AZ不同地理位置。类似地,[33]的模型(这是一个美国范围内的高分辨率土地覆盖模型,基于图像和标签以及整个美国的多分辨率辅助数据进行训练)也受到了影响。当提供弱标签作为输入(PA监督+弱)时,结果可以显著改善。

附录B:实验细节和扩展

B.1:MNIST

  • DDPM训练

为了训练扩散模型,我们使用了[7]的U-Net架构,具有近似βt schedule和T=1000个扩散步骤。我们使用Adam优化器对网络进行了10个时期的训练,批处理大小为128个样本,学习率为10−4.

  • 执行推断

对于所有的推理示例,我们使用ADAM优化器和学习率执行了1000个优化步骤10−2.如图B.1(a)所示,我们采用了余弦调制、线性递减的制革工艺。我们在观察到线性递减的值以粗略到精细的方式指导推断过程之后,根据经验设计了该退火过程,该方式从决定推断样本的总体结构开始,并详细添加。我们还添加了振荡组件,以允许在推断出具体细节后对粗略结构进行修改
在执行算法1的优化步骤时,我们观察到,为了获得良好的样本质量,逐渐减小条件c(x,y)的影响是很重要的。在实践中,当我们从mt,…,1进行优化时,损失的条件分量的权重几乎降低,从λt = 10−2到λ1= 0。这可以归因于这样一个事实,即我们使用的条件为在较大值时所做的步骤提供了指导,在较大值时,数字的形状和方向是决定的。当组合两个或两个以上的条件时,权重应用于所有的条件。
在这里插入图片描述

图b .1: (a) MNIST (b)土地覆盖实验的推断退火时间表。我们并不一定需要优化所有t = 1000值来生成样本,如(b)所示。tsp和FFHQ实验使用了类似定义的调度。

B.2:FFHQ

  • 执行推断

对于FFHQ数据集上的条件生成实验,我们使用[3]提供的预训练DDPM模型。人脸属性分类器网络是一个基于CelebA数据集[25]中给出的人脸属性进行训练的resnet -18网络。为了运行我们的推理算法,我们使用Adamax优化器执行了200个优化步骤,选择(β1,β2) =(0.9,0.999),学习率从1到0.5线性递减。晒黑时间表与用于土地覆盖分割实验的时间表相似(图b .1 (b)),但现在的数值在1000到200之间。此外,在这个实验中,我们发现用一个精心选择的加权项来平衡扩散和辅助损失是困难的。因此,我们选择了一种不同的方法,我们将辅助目标的梯度范数剪切到扩散去噪损失的梯度范数的1/2

  • 关于样本的进一步讨论

在图B.2中,我们演示了来自无条件DDPM和属性分类器的附加条件生成样本。在第一组例子中,我们可以发现尽管pDDPM(x)的模式在一定程度上满足分类器设定的条件,但样本质量并不总是与无条件生成的样本一样,就像[3]中所示的那样。我们可以将其归因于这样一个事实:对于自然图像,与分割标签相比,模式可能并不总是分布中的一个好看的样本。我们的方法是,从一个较低的温度开始运行扩散去噪过程,以及优化过程中留下的分类器噪声伪影。尽管这可能会提高结果的视觉质量,但在某些情况下,我们的选择往往不足以使样本远离推断。如果我们选择一个更大的,我们就有可能抹去我们最初想要生成的属性。
在第二组示例中,我们首先展示如何解决冲突的属性。当约束设置为满足两个相互矛盾的属性时,我们观察到推断的样本会向一个随机选择的方向延伸。这在前两个例子中很明显,其中我们设置了一个与男性相关的属性,而不是男性属性。在每一种情况下,只有一个条件,不是男性的条件,就是与男性有关的条件,得到满足。在金发+黑发的例子中,我们可以认为这两种属性的混合存在于推断的样本中。然而,分类器对特定图像的预测告诉我们,显示的人完全是金发。
我们还展示了一组失败案例,其中分类器“绘制”了与期望数据相关的特征,但扩散先验并没有以正确的方式完成样本。例如,在眼镜的例子中,我们看到分类器已经在生成的脸上画出了眼镜边缘的轮廓,但扩散模型未能接收到提示。类似地,当要求波浪头发时,我们看到的曲线会让分类器误以为这个人是卷发,或者当属性设置为微笑+胡子时,我们观察到生成的脸上滑稽地画了胡子。由于条件反射同时依赖于扩散先验和分类器的鲁棒性,我们相信通过更好的分类器训练,我们可以在这种情况下改善结果
在这里插入图片描述

图B.2:(a)约束c(x,y)的附加条件样本,具有不同的属性集合。(b)属性为setsy的条件生成失败案例。对于这两组图像,我们显示推理结果(上)和去噪后的图像,如[31],以去除由于优化分类器约束而出现的工件(下)

B.3:土地覆盖

  • 训练DDPM

在这里插入图片描述

图B.3:土地覆盖分割训练的DDPM的无条件样本

土地覆盖DDPM在14分辨率的土地覆盖标签64×64patches上进行训练,随机抽样自EnviroAtlas数据集[32]的匹兹堡、PA块。对于扩散网络,我们使用U-Net架构[7],线性βt schedule和T = 1000扩散步骤。我们使用亚当优化器和10−4的学习网格,训练了105批大小为32的批次。无条件扩散模型的附加样本如图B.3所示。我们观察到,该模型既学习了与地理无关的结构,如道路的连续性和郊区建筑规划,也学习了PA特定的结构,如位于森林地区的建筑,这在AZ可能不常见

  • 执行推断

在这里插入图片描述

图B.4:分割推理结果

在这里插入图片描述

图B.5:有和没有弱标签引导的推断

由于我们使用弱标签初始化推理过程,因此需要更少的优化步骤,并且不必从T= 1000开始搜索。因此,为了推断土地覆盖分割,我们使用Adam优化器只执行200个优化步骤,学习速率呈线性下降趋势从5×10−3到5×10−6和(β1,β2) =(0,0.999)。我们为该任务设计的退火计划反映了总体步骤较少的需求,如b .1 (b)所示。我们还降低了损耗的两个条件分量的权重,在执行优化步骤st时,从λt = 1到λ1= 0,…,1以减少它们对最终推断样本的影响。此外,我们线性降低了用于将从DDPM模型学到的单热表示转换为概率的σ参数,从σt = 0.2到σ1= 0.02,以模拟这个转换过程的不确定性。进一步的土地覆盖分割推理示例如图所示。B.4。尽管DDPM只训练PA土地覆盖标签,但我们展示了弱标签引导如何允许我们在全新的地理位置进行推断,例如AZ(最后两行),那里最突出的标签现在是Soil和瘠薄的。
我们依旧可以观察到模型学习到的pa相关偏差的一些人工制品,比如添加不间断森林区域的趋势,但语义模型的可移植性仍然远远优于基于图像的模型
我们手工制作的土地覆盖分割推理约束分为两个目标;(i)使用局部颜色聚类匹配目标图像的结构(ii)在图像的非重叠块中平均时,迫使预测片段的分布与弱标签分布的weak相匹配。
局部颜色聚类是用固定数量的局部高斯混合来计算的。为了匹配预测标签和预计算聚类之间的结构,我们计算31×31pixels重叠斑块中两个分布之间的互信息。这种约束的选择推动推断的土地覆盖段,使它们在局部上与颜色聚类段相匹配。虽然这让我们可以推断出像道路和建筑物这样的大型结构的标签,但它也倾向于在集群具有高熵的区域添加噪声标签。然而,通过逐渐减少辅助目标的权重,我们允许推理过程“填充”这些细节,因为它是由扩散先验所决定的。
推理过程中的标签引导是由粗糙辅助数据衍生出的概率弱标签提供的。这些数据由30米分辨率的国家土地覆盖数据库(NLCD)标签组成,并加上建筑足迹、道路网络和水道/水体[34]。相应的弱标签约束计算为在31×31pixels非重叠块的平均预测和弱标签分布之间的kl -发散。在缺乏此类指导的情况下,推理过程很容易混淆语义类,同时仍然产生可能低于pddpm(x)的片段。我们在图b .5中展示了这一点,其中我们从随机初始化开始推断图像的土地覆盖标签,有和没有弱标签引导

  • 域迁移

对于域转移实验,我们最初使用学习率为10−4的Adam优化器对宾夕法尼亚州匹兹堡16个随机sampled 64×64 image补丁的标准差分U-Net [35] 或 2×104 batches进行预训练。然后,我们使用上面描述的推断过程,推断出其他每个地理区域(NC, TX,AZ)的640个随机抽样斑块的土地覆盖分段。有了这些生成的标签,我们首先在一个5块的验证集上对原始网络进行微调,以确定最佳的微调参数。对于Durham, NC和Austin, TX,我们只对一个epoch的网络最后一层进行微调,使用16个补丁的批量大小和学习速率5×10−4。对于AZ的Phoenix,我们需要5个时间对整个网络进行微调,学习速率为5×10−4,因为域漂移更大。此外,对于所有区域,根据[34]的实验,我们将预测概率与弱标签相乘并重新正化。
最后,在表1中,我们还展示了推理网络从零开始训练时的结果,以表明结果性能不仅仅是预训练的产物。U-Net对所有640个生成的样本进行了20个课时的训练,批次大小为16个,学习率为10−3

参考文献

[1]Tomer Amit, Eliya Nachmani, Tal Shaharabany, and Lior Wolf. Segdiff: Image segmentationwith diffusion probabilistic models.arXiv preprint 2112.00390, 2021.
[2] Sanjeev Arora. Polynomial time approximation schemes for euclidean traveling salesman andother geometric problems.Journal of the Association for Computing Machinery, 45(5):753–782,09 1998.
[3]Dmitry Baranchuk, Andrey Voynov, Ivan Rubachev, Valentin Khrulkov, and Artem Babenko.Label-efficient semantic segmentation with diffusion models.International Conference onLearning Representations (ICLR), 2022.
[4]Xavier Bresson and Thomas Laurent. The transformer network for the traveling salesmanproblem.arXiv preprint 2103.03012, 2021.
[5]Jooyoung Choi, Sungwon Kim, Yonghyun Jeong, Youngjune Gwon, and Sungroh Yoon. ILVR:conditioning method for denoising diffusion probabilistic models.International Conference onComputer Vision (ICCV), 2021.
[6]Michel Deudon, Pierre Cournut, Alexandre Lacoste, Yossiri Adulyasak, and Louis-MartinRousseau. Learning heuristics for the TSP by policy gradient. InIntegration of ConstraintProgramming, Artificial Intelligence, and Operations Research, pages 170–181. SpringerInternational Publishing, 2018.
[7]Prafulla Dhariwal and Alexander Quinn Nichol. Diffusion models beat GANs on imagesynthesis.Neural Information Processing Systems (NeurIPS), 2021.
[8]Yilun Du, Shuang Li, and Igor Mordatch. Compositional visual generation with energy basedmodels.Neural Information Processing Systems (NeurIPS), 2020.
[9]Jesse H. Engel, Matthew D. Hoffman, and Adam Roberts. Latent constraints: Learning togenerate conditionally from unconditional generative models.International Conference onLearning Representations (ICLR), 2018.
[10]David Applegate et al. Concorde TSP solver.http://www.math.uwaterloo.ca/tsp/concorde, 1997-2003.
[11]Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, SherjilOzair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets.Neural InformationProcessing Systems (NeurIPS), 2014.
[12]Keld Helsgaun. An effective implementation of the Lin–Kernighan traveling salesman heuristic.European Journal of Operational Research, 126(1):106–130, 2000.
[13]Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models.NeuralInformation Processing Systems (NeurIPS), 2020.
[14]Emiel Hoogeboom, Didrik Nielsen, Priyank Jaini, Patrick Forré, and Max Welling. Argmaxflows and multinomial diffusion: Learning categorical distributions.Neural InformationProcessing Systems (NeurIPS), 2021.
[15]Emiel Hoogeboom, Victor Garcia Satorras, Clément Vignac, and Max Welling. Equivariantdiffusion for molecule generation in 3D.arXiv preprint 2203.17003, 2022.
[16]Chaitanya K Joshi, Thomas Laurent, and Xavier Bresson. An efficient graph convolutionalnetwork technique for the travelling salesman problem.arXiv preprint 1906.01227, 2019.
[17]Chaitanya K Joshi, Quentin Cappart, Louis-Martin Rousseau, and Thomas Laurent. Learningtsp requires rethinking generalization.International Conference on Principles and Practice ofConstraint Programming, 2021.
[18]Zahra Kadkhodaie and Eero Simoncelli. Stochastic solutions for linear inverse problems usingthe prior implicit in a denoiser.Neural Information Processing Systems (NeurIPS), 2021
[19]Tero Karras, Samuli Laine, and Timo Aila. A style-based generator architecture for generativeadversarial networks.Computer Vision and Pattern Recognition (CVPR), 2019.
[20]Bahjat Kawar, Gregory Vaksman, and Michael Elad. SNIPS: Solving noisy inverse problemsstochastically.Neural Information Processing Systems (NeurIPS), 2021.
[21]Diederik P. Kingma and Max Welling. Auto-encoding variational bayes.International Confer-ence on Learning Representations (ICLR), 2014.
[22]Thomas Kipf and Max Welling. Semi-supervised classification with graph convolutionalnetworks.International Conference on Learning Representations (ICLR), 2017.
[23]Wouter Kool, Herke van Hoof, and Max Welling. Attention, learn to solve routing problems!International Conference on Learning Representations (ICLR), 2019.
[24]Shen Lin and Brian Kernighan. An effective heuristic algorithm for the traveling-salesmanproblem.Operations Research, 21(2):498–516, 1973.
[25]Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang. Deep learning face attributes in thewild.International Conference on Computer Vision (ICCV), 2015.
[26]James MacGregor and Yun Chu. Human performance on the traveling salesman and relatedproblems: A review.The Journal of Problem Solving, 3, 02 2011.
[27]Tom Minka. Divergence measures and message passing.Microsoft Research Technical Report,2005.
[28]Joseph S. B. Mitchell. Guillotine subdivisions approximate polygonal subdivisions: A simplepolynomial-time approximation scheme for geometric tsp, k-mst, and related problems.SIAMJournal on Computing, 28(4):1298–1309, 1999.
[29]Anh Nguyen, Jeff Clune, Yoshua Bengio, Alexey Dosovitskiy, and Jason Yosinski. Plug &play generative networks: Conditional iterative generation of images in latent space.ComputerVision and Pattern Recognition (CVPR), 2017.
[30]Alex Nichol and Prafulla Dhariwal. Improved denoising diffusion probabilistic models.Inter-national Conference on Machine Learning (ICML), 2021.
[31]Weili Nie, Brandon Guo, Yujia Huang, Chaowei Xiao, Arash Vahdat, and Anima Anandkumar.Diffusion models for adversarial purification.International Conference on Machine Learning(ICML), 2022. To appear; arXiv preprint 2205.07460.
[32]Brian R. Pickard, Jessica Daniel, Megan Mehaffey, Laura E. Jackson, and Anne Neale. Envi-roatlas: A new geospatial tool to foster ecosystem services science and resource management.Ecosystem Services, 14©:45–55, 2015. URLhttps://EconPapers.repec.org/RePEc:eee:ecoser✌️14:y:2015:i:c:p:45-55.
[33]Caleb Robinson, Le Hou, Nikolay Malkin, Rachel Soobitsky, Jacob Czawlytko, Bistra Dilkina,and Nebojsa Jojic. Large scale high-resolution land cover mapping with multi-resolution data.Computer Vision and Pattern Recognition (CVPR), 2019.
[34]Esther Rolf, Nikolay Malkin, Alexandros Graikos, Ana Jojic, Caleb Robinson, and NebojsaJojic. Resolving label uncertainty with implicit posterior models.Uncertainty in ArtificialIntelligence (UAI), 2022. To appear; arXiv preprint 2202.14000.
[35]Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks forbiomedical image segmentation.Medical Image Computing and Computer-Assisted Intervention(MICCAI), 2015.
[36]Chitwan Saharia, Jonathan Ho, William Chan, Tim Salimans, David J. Fleet, and MohammadNorouzi. Image super-resolution via iterative refinement.arXiv preprint 2104.07636, 2021.
[37]Tim Salimans and Jonathan Ho. Progressive distillation for fast sampling of diffusion models.International Conference on Learning Representations (ICLR), 2022.
[38]Abhishek Sinha, Jiaming Song, Chenlin Meng, and Stefano Ermon. D2C: diffusion-decodingmodels for few-shot conditional generation.Neural Information Processing Systems (NeurIPS),2021.
[39]Jascha Sohl-Dickstein, Eric A. Weiss, Niru Maheswaranathan, and Surya Ganguli. Deepunsupervised learning using nonequilibrium thermodynamics.International Conference onMachine Learning (ICML), 2015.
[40]Yang Song, Liyue Shen, Lei Xing, and Stefano Ermon. Solving inverse problems in medi-cal imaging with score-based generative models. InInternational Conference on LearningRepresentations (ICLR), 2021.
[41]Christian Szegedy, Wojciech Zaremba, Ilya Sutskever, Joan Bruna, Dumitru Erhan, Ian Good-fellow, , and Rob Fergus. Intriguing properties of neural networks.International Conference onLearning Representations (ICLR), 2014.
[42]Yusuke Tashiro, Jiaming Song, Yang Song, and Stefano Ermon. CSDI: conditional score-based diffusion models for probabilistic time series imputation.Neural Information ProcessingSystems (NeurIPS), 2021.
[43]Arash Vahdat, Karsten Kreis, and Jan Kautz. Score-based generative modeling in latent space.Neural Information Processing Systems (NeurIPS), 2021.
[44]Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez,Łukasz Kaiser, and Illia Polosukhin. Attention is all you need.Neural Information ProcessingSystems (NIPS), 2017.
[45]Zhisheng Xiao, Karsten Kreis, and Arash Vahdat. Tackling the generative learning trilemmawith denoising diffusion GANs.International Conference on Learning Representations (ICLR),2022

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/67143.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ubuntu 20.04 系统最快安装WRF软件手册

前言 天气研究和预报(WRF)模型是一种中尺度数值天气预报系统,在全球范围内用于业务预报和研究目的。 这是在基于Intel的i7(12核)Linux Ubuntu 20.04 LTS系统上安装WRF 4.2.1的版本。这将有助于初学者在普通台式机上实现…

树莓派4b+mcp2515实现CAN总线通讯和系统编程(一.配置树莓派CAN总线接口)

文章目录前言硬件连线树莓派环境准备启用树莓派ssh启用mcp2515驱动下载can-utils工具测试CAN通讯开启CAN网卡测试发送和接收前言 树莓派本身是没有CAN通讯能力的,但他有mcp2515模块的驱动,可以通过SPI来控制mcp2515进行CAN的通讯。 本章主要讲,如何使能…

基于卡尔曼滤波的二维目标跟踪(Matlab代码实现)

🍒🍒🍒欢迎关注🌈🌈🌈 📝个人主页:我爱Matlab 👍点赞➕评论➕收藏 养成习惯(一键三连)🌻🌻🌻 🍌希…

双十二选哪个品牌led灯好一点?国产led灯这些品牌护眼好

现在绝大部分人造灯光都是使用led灯珠作为发光源了,所以led灯普遍的质量都比较好,也能护眼,特别是习惯晚上熬夜工作、学习、看书的人群,也都会选择led台灯来辅助照明,因为相比传统的家用室内顶灯,led护眼灯…

【小游戏】Unity游戏愤怒的足球(小鸟)

目录 1.弹弓逻辑 2.鸟的逻辑 3.GameManager主逻辑 文末有源工程地址 难度系数: ★★★★☆ 游戏玩法: 愤怒的足球,其实就是经典的愤怒的小鸟换图 项目简介: 功能完善,主要代码逻辑完整 本文内容: 记录一下这个工程,对内部代码逻辑没有深入了解有待以后发掘 1.弹弓逻…

workerman 聊天demo

1.demo下载 链接: https://pan.baidu.com/s/1MOqcDwvrZGgaYpZUBxxZiA 提取码: 2yqf 2.安装workerman 我这里使用的是tp5框架 下载官方压缩包解压到根目录 3.workerman 数据发送相关类 将worker目录放到项目extend文件夹中 4.启用workerman 登录服务器 linux启动方式&…

安卓APP源码和设计报告——购物APP的设计与实现

2021—2022学年第二学期期末考试 《Android手机软件开发》实践考核 项目设计说明书 项目名称: 购物APP的设计与实现 专 业: 计算机科学与技术 学 号: 姓 名: 任课教师: 2022年6月12日 目 录 1.项目概述11 2…

阿里云搭建博客之如何设置网页为中文

今天,在阿里云上参照“我的教程”–“搭建云上博客”中的指导,基于ApachemysqlWordPress搭建个人博客,参照上面的教程完成博客的搭建。但证登录博客后,发现业务展示为英文。在setting—>site language 设置中只有英文&#xff…

(附源码)springboot实验室预约管理系统 毕业设计 261141

实验室预约管理系统的设计与实现 摘 要 远程预约是一种全新的网络租用方式,它通过互联网突破了时间和空间限制,实现了便捷快速的预约与管理功能。在对数据信息有效组织并整合了一定使用功能后,远程预约系统可以方便地实现预约与取消&#xff…

如何在centos上安装nvidia驱动

首先查询服务器的gpu型号 [kfkbigdata-pro01 ~]$ lshw -C display WARNING: you should run this program as super-user. *-display description: VGA compatible controller product: SVGA II Adapter vendor: VMware physical id: f bus info: pci0000:00:0f.0 version: 00…

[附源码]JAVA毕业设计日常办公管理系统(系统+LW)

[附源码]JAVA毕业设计日常办公管理系统(系统LW) 项目运行 环境项配置: Jdk1.8 Tomcat8.5 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术…

【双碳环保】AcrelCloud-3500餐饮油烟监测云平台应用分析

背景概述 餐饮业油烟是大气中挥发性有机物(VOCS)和PM10的主要来源之一。近年来随着环保治理的加强,各地餐饮油烟条例相继推出,相关执法部门对大气监测,特别是餐饮油烟的治理监管都非常重视,为贯彻落实大气…

日本知名汽车零部件公司巡礼系列之株式会社123

株式会社123 业务内容: 各种自动组装机检测机的设计制作、半导体•液晶的设计制做、各种自动包装•省力化设备的设计制作、模具刀具的设计制作、各种零件的制作。 公司简介: 资本金:1000万日元(2022年汇率折合人民币约50万元&a…

SystemV 信号量(一) —— SystemV信号量的相关操作函数

SystemV IPC 方案的相关内容都是通过 “房间密码”来创建房间,获取到房间的ID,后面其他进程也可以根据这个房间密码来拿到同一个房间的ID。这是理解下面这些操作函数的关键。 目录 1、信号量集合的创建 semget 2、信号量的初始化 / 销毁 semctl 3、信…

C/C++入门001-概述环境搭建与案例

文章目录1.C语言概述1.1 计算机与程序1.1.1 什么是计算机1.1.2 什么是计算机程序 ?1.2 进制转化1.3 计算机语言1.4 C语言发展1.5 安装开发工具与编译器1.5.1 安装 codeblocks1.5.2 设置MinGW的环境变量1.6 C语言的HelloWorld1.6.1 入门1.6.2 demo案例1.C语言概述 参考&#x…

基于jsp+mysql+ssm大学本科考研服务系统-计算机毕业设计

项目介绍 考研是一个艰难辛苦的过程,需要具备充沛的精力;考研是一场旷日持久的战争,需要吃苦耐劳的精神和持之以恒的毅力和意志,如果三天打鱼,两天晒网,那么很难在考研大军中胜出;考研的过程中…

UDP-阿拉伯糖,15839-78-8,UDP-L-Arabinose,阿拉伯糖偶联核苷酸

常用中文名:[[(2R,3S,4R,5R)-5-(2,4-dioxopyrimidin-1-yl)-3,4-dihydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl] [(2R,3R,4S,5S)-3,4,5-trihydroxyoxan-2-yl] hydrogen phosphate 常用英文名:[[(2R,3S,4R,5R)-5-(2,4-dioxopyrimidin-1-yl)-3,4-dihydro…

windows个性化设置--自定义windows系统的u盘图标

选择一张图片,最好是正方形的,作为u盘图标 使用图片编辑软件将图片转换为ico格式 将x.icon图标放到u盘根目录 在u盘根目录下建立一个文本文件,编辑内容 [autorun] iconx.ico保存,将文本文件改名为autorun.inf 之后重新插拔u盘…

mySQL—mySQL事务

文章目录什么是事务?事务定义:设置事务的目的:事务提交:事物的特性原子性(A)提交分类:一致性(C)持久性(I)持久性危机持久性危机如何解决&#xff…

【深度学习】实验6布置:图像自然语言描述生成(让计算机“看图说话”)

DL_class 学堂在线《深度学习》实验课代码报告(其中实验1和实验6有配套PPT),授课老师为胡晓林老师。课程链接:https://www.xuetangx.com/training/DP080910033751/619488?channeli.area.manual_search。 持续更新中。 所有代码…