DDPM公式推导(一)

news2024/10/6 8:31:59

去噪扩散概率模型

Title:Denoising Diffusion Probabilistic Models

paper是UC Berkeley发表在NIPS 2020的工作

paper地址

Abstract

我们使用扩散概率模型(一类受非平衡热力学启发的潜在变量模型)展示了高质量的图像合成结果。根据扩散概率模型与采用Langevin动力学的去噪得分匹配之间的新颖联系设计的加权变分下界进行训练,我们获得了最佳结果。我们的模型自然而然地使用一种渐进的有损解压方案,这可以解释为自回归解码的推广。在无条件CIFAR10数据集上,我们取得了9.46的Inception得分和3.17的最先进的FID得分。在 256 × 256 256 \times 256 256×256 的LSUN数据集上,我们获得了与ProgressiveGAN相似的样本质量。代码。

1 Introduction

各种深度生成模型最近在多种数据模态中展示了高质量的样本。生成对抗网络(GANs)、自回归模型、流模型和变分自编码器(VAEs)已经合成了引人注目的图像和音频样本【14, 27, 3, 58, 38, 25, 10, 32, 44, 57, 26, 33, 45】。同时,并且基于能量的建模和得分匹配方面的显著进展也产生了与GANs可媲美的图像【11, 55】。

图1

图 1:在 CelebA-HQ 256 × 256(左)和无条件 CIFAR10(右)上生成的样本

图2

图 2:本工作中考虑的有向图模型。

本文介绍了扩散概率模型的进展【53】。扩散概率模型(简称为“扩散模型”)是一种参数化的马尔可夫链,通过变分推断进行训练,在有限时间内生成与数据匹配的样本。这个链的转移过程被学习来逆转扩散过程,即一个逐渐向数据中添加噪声的马尔可夫链,直到信号被完全破坏。当扩散过程由少量高斯噪声组成时,只需将采样链的转移过程也设置为条件高斯分布,从而允许采用特别简单的神经网络参数化方式。

扩散模型定义简单且训练高效,但据我们所知,尚未有研究表明它们能够生成高质量样本。我们展示了扩散模型实际上能够生成高质量样本,有时甚至优于其他类型生成模型的已发表结果(第4节)。此外,我们展示了一种特定的扩散模型参数化方法,这种方法揭示了在训练过程中扩散模型与多个噪声级别上的去噪得分匹配,以及在采样过程中与退火Langevin动力学的等价性(第3.2节)【55, 61】。我们使用这种参数化方法获得了最好的样本质量结果(第4.2节),因此我们认为这种等价性是我们主要的贡献之一。

尽管我们的模型样本质量较高,但与其他基于似然的模型相比,我们的模型在对数似然上并不具有竞争力(不过,我们的模型在对数似然上优于已报告的退火重要性采样对能量基模型和得分匹配产生的大量估计【11, 55】)。我们发现,大多数模型的无损编码长度主要用于描述难以察觉的图像细节(第4.3节)。我们以有损压缩的语言对这一现象进行了更精细的分析,并展示了扩散模型的采样过程是一种渐进解码形式,类似于按照位排序进行的自回归解码,这大大扩展了自回归模型通常可能实现的范围。

2 Background

扩散模型【53】是一种以 p θ ( x 0 ) : = ∫ p θ ( x 0 : T ) d x 1 : T p_\theta\left(\mathbf{x}_0\right):=\int p_\theta\left(\mathbf{x}_{0: T}\right) d \mathbf{x}_{1: T} pθ(x0):=pθ(x0:T)dx1:T 形式的潜在变量模型,其中 x 1 , … , x T \mathbf{x}_1, \ldots, \mathbf{x}_T x1,,xT 是与数据 x 0 ∼ q ( x 0 ) \mathbf{x}_0 \sim q\left(\mathbf{x}_0\right) x0q(x0) 同维度的潜变量。联合分布 p θ ( x 0 : T ) p_\theta\left(\mathbf{x}_{0: T}\right) pθ(x0:T) 被称为反向过程,其定义为从 p ( x T ) = N ( x T ; 0 , I ) p\left(\mathbf{x}_T\right)=\mathcal{N}\left(\mathbf{x}_T ; \mathbf{0}, \mathbf{I}\right) p(xT)=N(xT;0,I) 开始的学习高斯过渡的马尔科夫链:

p θ ( x 0 : T ) : = p ( x T ) ∏ t = 1 T p θ ( x t − 1 ∣ x t ) , p θ ( x t − 1 ∣ x t ) : = N ( x t − 1 ; μ θ ( x t , t ) , Σ θ ( x t , t ) ) ( 1 ) p_\theta\left(\mathbf{x}_{0: T}\right):=p\left(\mathbf{x}_T\right) \prod_{t=1}^T p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right), \quad p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right):=\mathcal{N}\left(\mathbf{x}_{t-1} ; \boldsymbol{\mu}_\theta\left(\mathbf{x}_t, t\right), \mathbf{\Sigma}_\theta\left(\mathbf{x}_t, t\right)\right) \quad(1) pθ(x0:T):=p(xT)t=1Tpθ(xt1xt),pθ(xt1xt):=N(xt1;μθ(xt,t),Σθ(xt,t))(1)

将扩散模型与其他类型的潜在变量模型区别开来的是,近似后验 q ( x 1 : T ∣ x 0 ) q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_0\right) q(x1:Tx0)(被称为前向过程或扩散过程)固定为一个马尔科夫链,该链根据方差调度 β 1 , … , β T \beta_1, \ldots, \beta_T β1,,βT 逐渐向数据添加高斯噪声:

q ( x 1 : T ∣ x 0 ) : = ∏ t = 1 T q ( x t ∣ x t − 1 ) , q ( x t ∣ x t − 1 ) : = N ( x t ; 1 − β t x t − 1 , β t I ) ( 2 ) q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_0\right):=\prod_{t=1}^T q\left(\mathbf{x}_t \mid \mathbf{x}_{t-1}\right), \quad q\left(\mathbf{x}_t \mid \mathbf{x}_{t-1}\right):=\mathcal{N}\left(\mathbf{x}_t ; \sqrt{1-\beta_t} \mathbf{x}_{t-1}, \beta_t \mathbf{I}\right)\quad(2) q(x1:Tx0):=t=1Tq(xtxt1),q(xtxt1):=N(xt;1βt xt1,βtI)(2)

训练过程主要是通过优化变分下界(也称作证据下界,或ELBO)的负对数似然性来完成的:

E [ − log ⁡ p θ ( x 0 ) ] ≤ E q [ − log ⁡ p θ ( x 0 : T ) q ( x 1 : T ∣ x 0 ) ] = E q [ − log ⁡ p ( x T ) − ∑ t ≥ 1 log ⁡ p θ ( x t − 1 ∣ x t ) q ( x t ∣ x t − 1 ) ] = : L ( 3 ) \mathbb{E}\left[-\log p_\theta\left(\mathbf{x}_0\right)\right] \leq \mathbb{E}_q\left[-\log \frac{p_\theta\left(\mathbf{x}_{0: T}\right)}{q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_0\right)}\right]=\mathbb{E}_q\left[-\log p\left(\mathbf{x}_T\right)-\sum_{t \geq 1} \log \frac{p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)}{q\left(\mathbf{x}_t \mid \mathbf{x}_{t-1}\right)}\right]=: L \quad(3) E[logpθ(x0)]Eq[logq(x1:Tx0)pθ(x0:T)]=Eq[logp(xT)t1logq(xtxt1)pθ(xt1xt)]=:L(3)

可以通过重参数化【33】学习前向过程的方差 β t \beta_t βt,或者将其视为恒定的超参数,并通过选择高斯条件下的 p θ ( x t − 1 ∣ x t ) p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right) pθ(xt1xt),确保反向过程的表达力,因为当 β t \beta_t βt 很小的时候,这两个过程具有相同的函数形式【53】。前向过程的一个显著特性是,它允许在任意时间步长 t t t 以封闭形式采样 x t \mathbf{x}_t xt:使用符号 α t : = 1 − β t \alpha_t:=1-\beta_t αt:=1βt α ˉ t : = ∏ s = 1 t α s \bar{\alpha}_t:=\prod_{s=1}^t \alpha_s αˉt:=s=1tαs,我们有:

q ( x t ∣ x 0 ) = N ( x t ; α ˉ t x 0 , ( 1 − α ˉ t ) I ) ( 4 ) q\left(\mathbf{x}_t \mid \mathbf{x}_0\right)=\mathcal{N}\left(\mathbf{x}_t ; \sqrt{\bar{\alpha}_t} \mathbf{x}_0,\left(1-\bar{\alpha}_t\right) \mathbf{I}\right)\quad(4) q(xtx0)=N(xt;αˉt x0,(1αˉt)I)(4)

因此,我们可以通过使用随机梯度下降优化 L L L的随机项进行高效训练。进一步的改进来自于通过将 L L L(3)重写为以下格式来降低方差:
E q [ D K L ( q ( x T ∣ x 0 ) ∥ p ( x T ) ) ⏟ L T + ∑ t > 1 D K L ( q ( x t − 1 ∣ x t , x 0 ) ∥ p θ ( x t − 1 ∣ x t ) ) ⏟ L t − 1 − log ⁡ p θ ( x 0 ∣ x 1 ) ⏟ L 0 ] ( 5 ) \mathbb{E}_q[\underbrace{D_{\mathrm{KL}}\left(q\left(\mathbf{x}_T \mid \mathbf{x}_0\right) \| p\left(\mathbf{x}_T\right)\right)}_{L_T}+\sum_{t>1} \underbrace{D_{\mathrm{KL}}\left(q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t, \mathbf{x}_0\right) \| p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)\right)}_{L_{t-1}} \underbrace{-\log p_\theta\left(\mathbf{x}_0 \mid \mathbf{x}_1\right)}_{L_0}]\quad(5) Eq[LT DKL(q(xTx0)p(xT))+t>1Lt1 DKL(q(xt1xt,x0)pθ(xt1xt))L0 logpθ(x0x1)](5)
(详情请参见附录A。这些项的标签用于第3节。)公式(5)使用KL散度直接将 p θ ( x t − 1 ∣ x t ) p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right) pθ(xt1xt)与条件于 x 0 \mathbf{x}_0 x0时可以处理的前向过程后验进行比较:
q ( x t − 1 ∣ x t , x 0 ) = N ( x t − 1 ; μ ~ t ( x t , x 0 ) , β ~ t I ) ( 6 )  where  μ ~ t ( x t , x 0 ) : α ˉ t − 1 β t 1 − α ˉ t x 0 + α t ( 1 − α ˉ t − 1 ) 1 − α ˉ t x t  and  β ~ t : = 1 − α ˉ t − 1 1 − α ˉ t β t ( 7 ) \begin{aligned} q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t, \mathbf{x}_0\right) & =\mathcal{N}\left(\mathbf{x}_{t-1} ; \tilde{\boldsymbol{\mu}}_t\left(\mathbf{x}_t, \mathbf{x}_0\right), \tilde{\beta}_t \mathbf{I}\right) \quad(6)\\ \text { where } \quad \tilde{\boldsymbol{\mu}}_t\left(\mathbf{x}_t, \mathbf{x}_0\right) & : \frac{\sqrt{\bar{\alpha}_{t-1}} \beta_t}{1-\bar{\alpha}_t} \mathbf{x}_0+\frac{\sqrt{\alpha_t}\left(1-\bar{\alpha}_{t-1}\right)}{1-\bar{\alpha}_t} \mathbf{x}_t \quad \text { and } \quad \tilde{\beta}_t:=\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t} \beta_t \quad(7) \end{aligned} q(xt1xt,x0) where μ~t(xt,x0)=N(xt1;μ~t(xt,x0),β~tI)(6):1αˉtαˉt1 βtx0+1αˉtαt (1αˉt1)xt and β~t:=1αˉt1αˉt1βt(7)
因此,公式(5)中的所有KL散度都是高斯间的比较,所以它们可以以Rao-Blackwellized的方式通过封闭形式的表达式计算,而不是使用高方差的蒙特卡洛估计。

前向加噪过程的推导,即式(2)和式(4)
前向加噪( x t − 1 → x t \mathbf{x}_{t-1} \rightarrow \mathbf{x}_t xt1xt):
x t = a t x t − 1 + b t ε t , ε t ∼ N ( 0 , I ) ( a . 1 ) \mathbf{x}_t = a_t\mathbf{x}_{t-1}+b_t\varepsilon_t, \quad \varepsilon_t \sim \mathcal{N}(\mathbf{0}, \boldsymbol{I})\quad(a.1) xt=atxt1+btεt,εtN(0,I)(a.1)
其中 a t a_t at b t b_t bt表示图像与噪声的混合比例, ε t \varepsilon_t εt是噪声,满足 a t 2 + b t 2 = 1 a_t^2+b_t^2=1 at2+bt2=1的约束。
展开上式,得:
x t = a t x t − 1 + b t ε t = a t ( a t − 1 x t − 2 + b t − 1 ε t − 1 ) + b t ε t = a t a t − 1 x t − 2 + a t b t − 1 ε t − 1 + b t ε t = … = ( a t … a 1 ) x 0 + ( a t … a 2 ) b 1 ε 1 + ( a t … a 3 ) b 2 ε 2 + ⋯ + a t b t − 1 ε t − 1 + b t ε t ⏟ 多个相互独立的正态噪声之和  ( a . 2 ) \begin{aligned} \mathbf{x}_t & =a_t \mathbf{x}_{t-1}+b_t \varepsilon_t \\ & =a_t\left(a_{t-1} \mathbf{x}_{t-2}+b_{t-1} \varepsilon_{t-1}\right)+b_t \varepsilon_t \\ & =a_t a_{t-1} \mathbf{x}_{t-2}+a_t b_{t-1} \varepsilon_{t-1}+b_t \varepsilon_t \\ & =\ldots \\ & =\left(a_t \ldots a_1\right) \mathbf{x}_0+\underbrace{\left(a_t \ldots a_2\right) b_1 \varepsilon_1+\left(a_t \ldots a_3\right) b_2 \varepsilon_2+\cdots+a_t b_{t-1} \varepsilon_{t-1}+b_t \varepsilon_t}_{\text {多个相互独立的正态噪声之和 }} \end{aligned}\quad(a.2) xt=atxt1+btεt=at(at1xt2+bt1εt1)+btεt=atat1xt2+atbt1εt1+btεt==(ata1)x0+多个相互独立的正态噪声之和  (ata2)b1ε1+(ata3)b2ε2++atbt1εt1+btεt(a.2)
根据独立高斯的可加性:
假设 X X X Y Y Y是独立的随机变量,并且服从正态分布(因此也是联合正态分布),那么它们的和也是正态分布的。即:
如果
X ∼ N ( μ X , σ X 2 ) Y ∼ N ( μ Y , σ Y 2 ) Z = X + Y \begin{aligned} & X \sim N\left(\mu_X, \sigma_X^2\right) \\ & Y \sim N\left(\mu_Y, \sigma_Y^2\right) \\ & Z=X+Y \end{aligned} XN(μX,σX2)YN(μY,σY2)Z=X+Y
然后
Z ∼ N ( μ X + μ Y , σ X 2 + σ Y 2 ) . Z \sim N\left(\mu_X+\mu_Y, \sigma_X^2+\sigma_Y^2\right) . ZN(μX+μY,σX2+σY2).
这意味着两个独立的正态分布随机变量的和是正态的,其均值是两个均值的和,其方差是两个方差的和。
因此上式可以写为:
x t = ( a t … a 1 ) x 0 + ( a t … a 2 ) 2 b 1 2 + ( a t … a 3 ) 2 b 2 2 + ⋯ + a t 2 b t − 1 2 + b t 2 ε ‾ t , ε ‾ t ∼ N ( 0 , I ) ( a . 3 ) \begin{gathered} \boldsymbol{x}_t=\left(a_t \ldots a_1\right) \boldsymbol{x}_0+\sqrt{\left(a_t \ldots a_2\right)^2 b_1^2+\left(a_t \ldots a_3\right)^2 b_2^2+\cdots+a_t^2 b_{t-1}^2+b_t^2} \overline{\boldsymbol{\varepsilon}}_t, \quad \overline{\boldsymbol{\varepsilon}}_t \sim \mathcal{N}(\mathbf{0}, \mathbf{I}) \end{gathered}\quad(a.3) xt=(ata1)x0+(ata2)2b12+(ata3)2b22++at2bt12+bt2 εt,εtN(0,I)(a.3)
注意到式(a.1)满足 a t 2 + b t 2 = 1 a_t^2+b_t^2=1 at2+bt2=1的约束,下面给出推导。
计算式(a.2)系数的平方和:
( a t … a 1 ) 2 + ( a t … a 2 ) 2 b 1 2 + ( a t … a 3 ) 2 b 2 2 + ⋯ + a t 2 b t − 1 2 + b t 2 = ( a t … a 2 ) 2 a 1 2 + ( a t … a 2 ) 2 b 1 2 + ( a t … a 3 ) 2 b 2 2 + ⋯ + a t 2 b t − 1 2 + b t 2 = ( a t … a 2 ) 2 ( a 1 2 + b 1 2 ) + ( a t … a 3 ) 2 b 2 2 + ⋯ + a t 2 b t − 1 2 + b t 2 = ( a t … a 3 ) 2 ( a 2 2 ( a 1 2 + b 1 2 ) + b 2 2 ) + ⋯ + a t 2 b t − 1 2 + b t 2 = a t 2 ( a t − 1 2 ( … ( a 2 2 ( a 1 2 + b 1 2 ) + b 2 2 ) + … ) + b t − 1 2 ) + b t 2 ( a . 3 ) \begin{aligned} & \left(a_t \ldots a_1\right)^2+\left(a_t \ldots a_2\right)^2 b_1^2+\left(a_t \ldots a_3\right)^2 b_2^2+\cdots+a_t^2 b_{t-1}^2+b_t^2 \\ = & \left(a_t \ldots a_2\right)^2 a_1^2+\left(a_t \ldots a_2\right)^2 b_1^2+\left(a_t \ldots a_3\right)^2 b_2^2+\cdots+a_t^2 b_{t-1}^2+b_t^2 \\ = & \left(a_t \ldots a_2\right)^2\left(a_1^2+b_1^2\right)+\left(a_t \ldots a_3\right)^2 b_2^2+\cdots+a_t^2 b_{t-1}^2+b_t^2 \\ = & \left(a_t \ldots a_3\right)^2\left(a_2^2\left(a_1^2+b_1^2\right)+b_2^2\right)+\cdots+a_t^2 b_{t-1}^2+b_t^2 \\ = & a_t^2\left(a_{t-1}^2\left(\ldots\left(a_2^2\left(a_1^2+b_1^2\right)+b_2^2\right)+\ldots\right)+b_{t-1}^2\right)+b_t^2 \end{aligned}\quad(a.3) ====(ata1)2+(ata2)2b12+(ata3)2b22++at2bt12+bt2(ata2)2a12+(ata2)2b12+(ata3)2b22++at2bt12+bt2(ata2)2(a12+b12)+(ata3)2b22++at2bt12+bt2(ata3)2(a22(a12+b12)+b22)++at2bt12+bt2at2(at12((a22(a12+b12)+b22)+)+bt12)+bt2(a.3)
如果满足 a t 2 + b t 2 = 1 a_t^2+b_t^2=1 at2+bt2=1的约束,那么式(a.3)会大大简化。即式(a.2)的系数平方和也为1。记 a ˉ t = ( a t … a 1 ) 2 \bar{a}_t=\left(a_t \ldots a_1\right)^2 aˉt=(ata1)2,式(a.3)可以写成:
x t = a ˉ t x 0 + 1 − a ˉ t ε ˉ t , ε ˉ t ∼ N ( 0 , I ) ( a . 4 ) \mathbf{x}_t=\sqrt{\bar{a}_t} \mathbf{x}_0+\sqrt{1-\bar{a}_t} \bar{\varepsilon}_t, \quad \bar{\varepsilon}_t \sim \mathcal{N}(\mathbf{0}, \boldsymbol{I})\quad(a.4) xt=aˉt x0+1aˉt εˉt,εˉtN(0,I)(a.4)
a t = α t a_t=\sqrt{\alpha_t} at=αt ,代入式(a.4)可得:
x t = α ˉ t x 0 + 1 − α ˉ t ε ˉ t , ε ˉ t ∼ N ( 0 , I ) \mathbf{x}_t=\sqrt{\bar{\alpha}_t} \mathbf{x}_0+\sqrt{1-\bar{\alpha}_t} \bar{\varepsilon}_t, \quad \bar{\varepsilon}_t \sim \mathcal{N}(\mathbf{0}, \boldsymbol{I}) xt=αˉt x0+1αˉt εˉt,εˉtN(0,I)
对应式(4)
α t : = 1 − β t \alpha_t:=1-\beta_t αt:=1βt,重写式(a.1)可得:
x t = ( 1 − β t ) x t − 1 + β t ε t , ε t ∼ N ( 0 , I ) \mathbf{x}_t = \sqrt{(1-\beta_t)}\mathbf{x}_{t-1}+\sqrt{\beta_t}\varepsilon_t, \quad \varepsilon_t \sim \mathcal{N}(\mathbf{0}, \boldsymbol{I}) xt=(1βt) xt1+βt εt,εtN(0,I)
对应式(2)
上述高斯相加的过程,也可以从重参数化来理解:若希望从高斯分布 N ( μ , σ 2 ) N\left(\mu, \sigma^2\right) N(μ,σ2) 中采样,可以先从标准分布 N ( 0 , 1 ) N(0,1) N(0,1) 采样出 z z z ,再得到 σ ∗ z + μ \sigma * z+\mu σz+μ ,这就是我们想要采样的结果。这样做的好处是将随机性转移到了 z z z 这个常量上,而 σ \sigma σ μ \mu μ 则当作仿射变换网络的一部分。
此外, a t 2 + b t 2 = 1 a_t^2+b_t^2=1 at2+bt2=1根本原因在于这个约束保证了信号的总能量不变,同时确保了生成过程中的稳定性和归一化特性。

  • 在信号传输和处理过程中,保持信号的原始能量有助于保留信号的主要特征,从而提高处理结果的保真度。
  • 数值稳定性:归一化处理有助于避免计算过程中出现过大的数值,防止溢出或下溢。
  • a t 2 + b t 2 = 1 a_t^2+b_t^2=1 at2+bt2=1描述的是一个单位圆上的点。在单位圆上,所有点到原点的距离都是1,表示信号和噪声在每一步的组合仍然在一个固定的能量水平上。
  • 信号和噪声的加权可以看作是两个向量的合成,这两个向量在每一步的组合结果仍然保持在单位圆上,确保总的“长度”或能量不变。
  • 数学推导的简化
    从方差合成归一化的视角理解:
    在前向加噪过程中,每一步加噪的形式为:
    x t = 1 − β t x t − 1 + β t ε t , \mathbf{x}_t = \sqrt{1 - \beta_t} \mathbf{x}_{t-1} + \sqrt{\beta_t} \varepsilon_t, xt=1βt xt1+βt εt,
    其中 ε t ∼ N ( 0 , I ) \varepsilon_t \sim \mathcal{N}(\mathbf{0}, \mathbf{I}) εtN(0,I),并且 β t \beta_t βt控制噪声的比例。
    我们来看每一步的方差归一化过程:
    初始时刻 t = 0 t = 0 t=0
    x 0 ∼ N ( 0 , σ 0 2 I ) . \mathbf{x}_0 \sim \mathcal{N}(\mathbf{0}, \sigma_0^2 \mathbf{I}). x0N(0,σ02I).
    t t t步:
    x t = 1 − β t x t − 1 + β t ε t . \mathbf{x}_t = \sqrt{1 - \beta_t} \mathbf{x}_{t-1} + \sqrt{\beta_t} \varepsilon_t. xt=1βt xt1+βt εt.
    在这里, ε t \varepsilon_t εt的方差为 I \mathbf{I} I
    为了计算 x t \mathbf{x}_t xt的方差,我们需要考虑两个独立正态分布变量的加权和:
    Var ( x t ) = Var ( 1 − β t x t − 1 + β t ε t ) = ( 1 − β t ) Var ( x t − 1 ) + β t Var ( ε t ) = ( 1 − β t ) Var ( x t − 1 ) + β t ⋅ I . \begin{aligned} \text{Var}(\mathbf{x}_t) &= \text{Var}(\sqrt{1 - \beta_t} \mathbf{x}_{t-1} + \sqrt{\beta_t} \varepsilon_t) \\ &= (1 - \beta_t) \text{Var}(\mathbf{x}_{t-1}) + \beta_t \text{Var}(\varepsilon_t) \\ &= (1 - \beta_t) \text{Var}(\mathbf{x}_{t-1}) + \beta_t \cdot \mathbf{I}. \end{aligned} Var(xt)=Var(1βt xt1+βt εt)=(1βt)Var(xt1)+βtVar(εt)=(1βt)Var(xt1)+βtI.
    累积方差的归一化
    假设在每一步中, x t − 1 \mathbf{x}_{t-1} xt1的方差为 I \mathbf{I} I(这表示信号保持归一化方差)。则我们希望通过选择合适的 β t \beta_t βt保持方差的归一化,即每一步的 x t \mathbf{x}_t xt也具有单位方差。
    在每一步中:
    ( 1 − β t ) I + β t I = I . (1 - \beta_t) \mathbf{I} + \beta_t \mathbf{I} = \mathbf{I}. (1βt)I+βtI=I.
    这意味着无论我们选择的 β t \beta_t βt是多少,只要满足 β t ∈ [ 0 , 1 ] \beta_t \in [0, 1] βt[0,1],前向加噪过程中的信号和噪声的加权组合将始终保持单位方差 I \mathbf{I} I。这就是方差合成归一化的意义。
    累积效应
    考虑从初始状态 x 0 \mathbf{x}_0 x0到第 t t t步的累积效应,我们有:
    x t = α ˉ t x 0 + 1 − α ˉ t ε ˉ t , \mathbf{x}_t = \sqrt{\bar{\alpha}_t} \mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t} \bar{\varepsilon}_t, xt=αˉt x0+1αˉt εˉt,
    其中 α ˉ t = ∏ i = 1 t ( 1 − β i ) \bar{\alpha}_t = \prod_{i=1}^t (1 - \beta_i) αˉt=i=1t(1βi)是所有 α i \alpha_i αi的累积乘积, ε ˉ t \bar{\varepsilon}_t εˉt是独立正态噪声的加权和。
    再次计算方差:
    Var ( x t ) = Var ( α ˉ t x 0 + 1 − α ˉ t ε ˉ t ) = α ˉ t Var ( x 0 ) + ( 1 − α ˉ t ) Var ( ε ˉ t ) = α ˉ t I + ( 1 − α ˉ t ) I = I . \begin{aligned} \text{Var}(\mathbf{x}_t) &= \text{Var}(\sqrt{\bar{\alpha}_t} \mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t} \bar{\varepsilon}_t) \\ &= \bar{\alpha}_t \text{Var}(\mathbf{x}_0) + (1 - \bar{\alpha}_t) \text{Var}(\bar{\varepsilon}_t) \\ &= \bar{\alpha}_t \mathbf{I} + (1 - \bar{\alpha}_t) \mathbf{I} \\ &= \mathbf{I}. \end{aligned} Var(xt)=Var(αˉt x0+1αˉt εˉt)=αˉtVar(x0)+(1αˉt)Var(εˉt)=αˉtI+(1αˉt)I=I.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1821600.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AI大模型的应用远比你想像的要简单—人人都是程序员

2022年底OpenAI发布了语言大模型chatgpt3.5,它能像人一样跟我们聊天,从此AI市场着了大火,国内外各个顶级科技公司纷纷跟进,出现了一大批的AI大模型,比如文心一言(百度)、Gemini(谷歌…

Python 使用print输出二进制文件时产生的错位

项目实践中, with open(fileName, rb) as f: result f.read()print(result)f.close()打开二进制文件,打印出的结果会出现有些\x后面有好几个字符的情况 但实际这串数字是 这种情况是因为print函数将二进制数据解释为字符串并以其字节值的十六进制表…

中电金信:GienTech动态|中标、入选、参会...近期精彩呈现!

中电金信参编业内首个银行核心系统分级度量标准 2024年6月6日,由中国信息通信研究院云计算与大数据研究所主办的“应用现代化赋能银行核心系统升级”交流会议在京召开。会议发布了业内首个银行核心系统分级度量标准《银行核心系统现代化建设水平度量模型》&#xf…

视频字幕提取工具怎么使用?不妨看看这些教程

在探索学习设备使用的过程中,视频教程扮演着极其重要的角色。 但是,我们可能会遇到一些挑战,比如长视频教程的观看效率不高,信息量大难以快速定位到关键点,或者有些人更喜欢阅读文字而非观看视频来学习。 为解决这一…

前沿重器[49] | 聊聊搜索系统2:常见架构

前沿重器 栏目主要给大家分享各种大厂、顶会的论文和分享,从中抽取关键精华的部分和大家分享,和大家一起把握前沿技术。具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有。(算起来,专项启动已经…

GPT4,你能做什么详细告诉我可以么?

个人名片 🎓作者简介:java领域优质创作者 🌐个人主页:码农阿豪 📞工作室:新空间代码工作室(提供各种软件服务) 💌个人邮箱:[2435024119qq.com] &#x1f4f1…

三个pdf工具和浏览软件(pdftk,muppdf,epdfview)

安装pdftk pdftk是一款功能强大的PDF处理工具,主要用于对PDF文件进行各种操作。它提供了丰富的功能,包括但不限于合并、拆分、旋转、加密、解密、添加水印、从PDF文档中解出附件等。pdftk分为图形界面版本和命令行版本,适用于不同的用户需求…

HTML入门教程:深度解析HTML,开启你的前端技术之旅

一、引言 HTML(HyperText Markup Language,超文本标记语言)是前端开发的基础,它负责构建网页的结构和内容。作为前端技术栈的基石,HTML的掌握程度直接影响到网页的开发效率和用户体验。本教程将带你从零开始&#xff…

算法体系-22 第二十二节:暴力递归到动态规划(四)

一 最小距离累加和 1.1 描述 给定一个二维数组matrix,一个人必须从左上角出发,最后到达右下角 沿途只可以向下或者向右走,沿途的数字都累加就是距离累加和 返回最小距离累加和 1.2 分析

【安卓】在安卓中使用HTTP协议的最佳实践

人不走空 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌赋:斯是陋室,惟吾德馨 目录 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌…

OpenCV图像变换

一 图像的缩放 resize(src,dst,dsize,fx,fy,interpolation) fx:x轴的缩放因子 fy:y轴的缩放因子 interpolation 插值算法 INTER_NEAREST,临近插值,速度快,效果差 INTER_LINEAR,双线性插值,原图中的4个点 INTER_CUBIC…

手机在网状态-手机在网状态查询-手机在网站状态接口

查询手机号在网状态,返回正常使用、停机、未启用/在网但不可用、不在网(销号/未启用/异常)、预销户等多种状态 直连三大运营商,实时更新,可查询实时在网状态 高准确率-实时更新,准确率99.99% 接口地址&…

WordPress如何删除内存中的缓存?

今天boke112百科将某篇文章修改分类和内容更新后,发现文章底部的相关文章显示的内容跟文章分类、标签毫无关系,还是显示原来的旧内容。后来查看YIA主题相关文章的代码,才发现相关文章的数据保存到内存中的,而且是永不过期&#xf…

虹科免拆诊断案例 | 2014 款雪佛兰迈锐宝车驾驶人侧车窗开关无法控制其他车窗升降

故障现象  一辆2014款雪佛兰迈锐宝车,搭载LTD发动机,累计行驶里程约为12万km。车主反映,操作驾驶人侧车窗开关无法控制其他车窗升降,而操作其他车门上的车窗开关可以正常控制相应的车窗升降。 故障诊断  接车后试车&#xff0…

KEIL5.39 5.40 fromelf 不能生成HEX bug

使用AC6 编译,只要勾选了生成HEX。 结果报如下错误 暂时没有好的解决办法 1.替换法 2.在编译完后用命令生成HEX

Linux-黑马程序员

目录 一、前言二、初识Linux1、操作系统(1)硬件和软件(2)操作系统 2、Linux3、虚拟机4、FinalShell5、WSL6、虚拟机快照 三、Linux基础命令1、Linux的目录结构2、Linux命令入门(1)Linux命令基础格式&#x…

图像算法之镜头畸变

桶形畸变(Barrel Distortion): 桶形畸变是一种常见于广角镜头的畸变类型。在桶形畸变中,图像的中心区域被向外拉伸,使得直线在图像边缘部分显得向内弯曲,看起来像一个桶。这种畸变之所以发生,是…

燃气守护神:燃气管网安全运行监测解决方案

在这个智能科技日新月异的时代,燃气安全却时有发生,严重危害人们的生命财产安全,因此旭华智能根据相关政策要求并结合自身优势,打造了一套燃气管网安全运行监测解决方案,他犹如一位“燃气守护神”,悄然守护…

[Qt] Qt Creator 以及 Qt 在线安装教程

一、Qt Creator 下载及安装 1、从以下镜像源下载安装包常规安装即可 Qt Creator 也可以在第二步Qt 在线安装时一次性勾选安装,见后文 Qt Creator 中科大源下载地址 二、Qt 在线安装 1、根据所在平台选择对应的安装器下载 Qt 在线安装器下载 2、可能的安装报错…

依赖注入的四种方式

黑马程序员SSM 文章目录 1、依赖注入方式2、setter注入2.1 引用类型2.2 简单类型 3、构造器注入3.1 引用类型3.2 简单类型 4、构造器注入--参数适配(了解)5、依赖注入方式选择 1、依赖注入方式 思考:向一个类中传递数据的方式有几种 普通方法…