AIGC-VDM -Video Diffusion Models论文解读

news2024/9/20 16:30:04

homepage:https://video-diffusion.github.io/
paper:https://arxiv.org/pdf/2204.03458
参考:https://zhuanlan.zhihu.com/p/585009571

视频生成方面的扩散模型 论文Video Diffusion Models精读,笔者会多多更新AIGC相关知识!点个关注吧!!谢谢!AIGC-VDM,3D-UNET,unconditional model, text-conditioned model, video prediction model

在这里插入图片描述

CONTRIBUTION

  • 3D-UNET-Architecture: for video data we use a factorized space-time UNet, which is a straightforward extension of the standard 2D UNet used in image diffusion models.
  • Joint image-video training: our factorized UNets can be run on variable sequence lengths and therefore can be jointly trained on both video and image modeling objectives. We find that this joint training, which has the effect of a bias-variance tradeoff on the training objective, is important for video sample quality.
  • Classifier-free guidance: improves sample quality for text conditioned generation, similar to existing work on image modeling.

BACKGROUND

扩散模型的前向过程:满足马尔科夫

  • q ( z t ∣ x ) = N ( z t ; α t x , σ t 2 I ) q(z_t|x) = N(z_t; \alpha_t x, \sigma_t^2 I) q(ztx)=N(zt;αtx,σt2I):在给定数据 x x x 的情况下,潜在变量 z t z_t zt 的分布。

  • q ( z t ∣ z s ) = N ( z t ; ( α t / α s ) z s , σ t ∣ s 2 I ) q(z_t|z_s) = N(z_t; (\alpha_t/\alpha_s)z_s, \sigma^2_{t|s} I) q(ztzs)=N(zt;(αt/αs)zs,σts2I):在给定先前潜在变量 z s z_s zs 的情况下,潜在变量 z t z_t zt 的分布,其中 s < t s < t s<t

  • 0 ≤ s < t ≤ 1 , σ t ∣ s 2 = ( 1 − e λ t − λ s ) σ t 2 0\leq s<t\leq1, \sigma_{t|s}^{2}=(1-e^{\lambda_{t}-\lambda_{s}})\sigma_{t}^{2} 0s<t1,σts2=(1eλtλs)σt2

  • σ t ∣ s 2 = ( 1 − e λ t − λ s ) σ t 2 \sigma_{t|s}^2 = (1 - e^{\lambda_t - \lambda_s})\sigma_t^2 σts2=(1eλtλs)σt2

    • α t , σ t \alpha_t, \sigma_t αt,σt定义了一个可微分的噪声调度,它控制着在前向过程中添加到数据中的噪声量。
    • 这里的 λ t \lambda_t λt 是对数信噪比, λ t = log ⁡ [ α t 2 / σ t 2 ] \lambda_t = \log[\alpha_t^2/\sigma_t^2] λt=log[αt2/σt2],随着时间 t t t 的增加而减少,直到 q ( z 1 ) ≈ N ( 0 , I ) q(z_1) \approx N(0, I) q(z1)N(0,I),即在 t = 1 t = 1 t=1 时, z z z 的分布趋近于标准正态分布。

Learning to reverse the forward process

  • 逆向过程:去噪操作的目标是将 z t ∼ q ( z t ∣ x ) \mathbf{z}_{t}\sim q(\mathbf{z}_{t}|\mathbf{x}) ztq(ztx) 转换为 x ^ θ ( z t , λ t ) \hat{x}_\theta(z_t, \lambda_t) x^θ(zt,λt),这里 x ^ θ \hat{x}_\theta x^θ 是去噪模型的输出,它是一个对 x x x 的估计(为了简化表示,我们通常省略对 λ t \lambda_t λt 的依赖)

  • 加权均方误差损失(Weighted Mean Squared Error Loss)

    • 去噪模型 x ^ θ \hat{x}_\theta x^θ 通过最小化加权均方误差损失来训练: E ϵ , t [ w ( λ t ) ∥ x ^ θ ( z t ) − x ∥ 2 2 ] E_{\epsilon, t} \left[ w(\lambda_t) \|\hat{x}_\theta(z_t) - x\|_2^2 \right] Eϵ,t[w(λt)x^θ(zt)x22]
    • 这个损失函数在时间 t t t 上是均匀采样的, w ( λ t ) w(\lambda_t) w(λt) 是一个根据 λ t \lambda_t λt 调整的权重,用于平衡不同时间步的贡献
    • x ^ θ ( z t ) \hat{x}_\theta(z_t) x^θ(zt):去噪模型的输出,是一个对 x x x的估计
    • 将数据生成问题简化为去噪问题,可以通过优化扩散模型下数据对数似然的加权变分下界,或者作为去噪得分匹配的一种形式。这提供了一种有效的训练方法。
  • ϵ \epsilon ϵ-预测参数化( ϵ \epsilon ϵ-Prediction Parameterization):使用 ϵ \epsilon ϵ-预测参数化来定义去噪模型 x ^ θ ( z t ) = ( z t − σ t ϵ θ ( z t ) ) / α t \hat{x}_\theta(z_t) = (z_t - \sigma_t \epsilon_\theta(z_t))/\alpha_t x^θ(zt)=(ztσtϵθ(zt))/αt,其中 ϵ θ ( z t ) \epsilon_\theta(z_t) ϵθ(zt) 是模型预测的噪声残差。

  • 余弦调度采样(Cosine Schedule Sampling):在 ϵ \epsilon ϵ 空间中,使用均方误差和根据余弦调度采样的时间 t t t 来训练 ϵ θ \epsilon_\theta ϵθ。余弦调度是一种常见的训练策略,有助于在训练过程中平衡不同时间步的贡献。

  • 学习缩放得分估计(Learning a Scaled Score Estimate): 训练过程对应于学习一个缩放的得分估计 ϵ θ ( z t ) ≈ − σ t ∇ z t log ⁡ p ( z t ) \epsilon_\theta(z_t) \approx -\sigma_t \nabla_{z_t} \log p(z_t) ϵθ(zt)σtztlogp(zt),这里 p ( z t ) p(z_t) p(zt) 是在给定 x x x z t z_t zt 的真实分布密度。

  • v v v-预测参数化(v-Prediction Parameterization):对于某些模型,也使用 v v v-预测参数化来训练,这提供了另一种学习去噪模型的方法。

Sampling

  • 离散时间祖先采样器(discrete time ancestral sampler):

    • 逆过程的数学表达:逆过程 q ( z s ∣ z t , x ) q(z_s|z_t, x) q(zszt,x) = N ( z s ; μ ~ s ∣ t ( z t , x ) , σ ~ s ∣ t 2 I ) N(z_s; \tilde{\mu}_{s|t}(z_t, x), \tilde{\sigma}^2_{s|t}I) N(zs;μ~st(zt,x),σ~st2I),其中:

      • 即给定未来的潜在变量 z t z_t zt 和数据 x x x,可以计算出过去潜在变量 z s z_s zs 的分布。这里的 s < t s < t s<t 表示逆过程是从未来向过去进行的
      • μ ~ s ∣ t ( z t , x ) \tilde{\mu}_{s|t}(z_t, x) μ~st(zt,x) 是条件均值,表示在给定 z t z_t zt x x x 的情况下 z s z_s zs 的最佳估计。 μ ~ s ∣ t ( z t , x ) = e λ t − λ s ( α s / α t ) z t + ( 1 − e λ t − λ s ) α s x \tilde{\boldsymbol{\mu}}_{s|t}(\mathbf{z}_t,\mathbf{x})=e^{\lambda_t-\lambda_s}(\alpha_s/\alpha_t)\mathbf{z}_t+(1-e^{\lambda_t-\lambda_s})\alpha_s\mathbf{x} μ~st(zt,x)=eλtλs(αs/αt)zt+(1eλtλs)αsx
      • σ ~ s ∣ t 2 \tilde{\sigma}^2_{s|t} σ~st2 是条件方差,表示在给定 z t z_t zt z s z_s zs 的不确定性。 σ ~ s ∣ t 2 = ( 1 − e λ t − λ s ) σ s 2 . \tilde{\sigma}_{s|t}^{2}=(1-e^{\lambda_{t}-\lambda_{s}})\sigma_{s}^{2}. σ~st2=(1eλtλs)σs2.
    • 采样规则

      • 祖先采样器从 z 1 ∼ N ( 0 , I ) z_1 \sim N(0, I) z1N(0,I) 开始,然后根据规则进行采样:
        z s = μ ~ s ∣ t ( z t , x ^ θ ( z t ) ) + ( σ ~ s ∣ t 2 ) 1 − γ ( σ t ∣ s 2 ) γ ϵ \mathbf{z}_{s}=\tilde{\boldsymbol{\mu}}_{s|t}(\mathbf{z}_{t},\hat{\mathbf{x}}_{\theta}(\mathbf{z}_{t}))+\sqrt{(\tilde{\sigma}_{s|t}^{2})^{1-\gamma}(\sigma_{t|s}^{2})^{\gamma}}\epsilon zs=μ~st(zt,x^θ(zt))+(σ~st2)1γ(σts2)γ ϵ
      • 这里 ϵ \epsilon ϵ 是标准高斯噪声
      • γ \gamma γ 是控制采样器随机性的超参数。
      • s < t s < t s<t,在采样过程中, s s s t t t 遵循从 1 到 0 的均匀间隔序列,这意味着采样器在逆过程中均匀地考虑了从未来到过去的各个时间点。
  • 预测校正采样器(predictor-corrector sampler):预测校正采样器在条件生成中有用,它结合了祖先采样器步骤(4)和Langevin校正步骤:
    z s ← z s − 1 2 δ σ s ϵ θ ( z s ) + δ σ s ϵ ′ \mathbf{z}_s\leftarrow\mathbf{z}_s-\frac{1}{2}\delta\sigma_s\boldsymbol{\epsilon}_\theta(\mathbf{z}_s)+\sqrt{\delta}\sigma_s\boldsymbol{\epsilon}' zszs21δσsϵθ(zs)+δ σsϵ

    • δ \delta δ 是一个步长参数,这里被固定为 0.1
    • z s − 1 2 δ σ s ϵ θ ( z s ) \mathbf{z}_s-\frac{1}{2}\delta\sigma_s\boldsymbol{\epsilon}_\theta(\mathbf{z}_s) zs21δσsϵθ(zs):表示对当前状态 z s z_s zs的一种修正
    • ϵ ′ \epsilon' ϵ 是另一个独立的标准高斯噪声样本。 δ σ s ϵ ′ \sqrt{\delta}\sigma_s\boldsymbol{\epsilon}' δ σsϵ是加上的一个随机扰动
    • Langevin步骤用于校正采样过程,确保生成的样本 z s z_s zs 的边际分布与从 x ∼ p ( x ) \mathbf{x}\sim p(\mathbf{x}) xp(x)开始的前向过程的真实边际相匹配
  • 条件生成设置和无分类器引导(Classifier-Free Guidance)

    • 在条件生成中,数据 x x x 附带有一个条件信号 c c c,这可以是一个类别标签、文本描述或其他类型的条件。要训练一个扩散模型以适应条件分布 p ( x ∣ c ) p(x|c) p(xc),需要将条件信号 c c c 提供给去噪模型 x ^ θ ( z t , c ) \hat{x}_\theta(z_t, c) x^θ(zt,c)
    • 在这种情况下,可以通过使用无分类器指导来提高样本质量,该方法使用调整后的模型预测值 ϵ ~ θ \tilde{\epsilon}_\theta ϵ~θ来进行采样,调整后的预测考虑了条件模型预测和无条件模型预测的组合:
      ϵ ~ θ ( z t , c ) = ( 1 + w ) ϵ θ ( z t , c ) − w ϵ θ ( z t ) \tilde{\epsilon}_\theta(z_t, c) = (1 + w)\epsilon_\theta(z_t, c) - w\epsilon_\theta(z_t) ϵ~θ(zt,c)=(1+w)ϵθ(zt,c)wϵθ(zt)
      • w w w 是引导强度。当 w > 0 w > 0 w>0 时,这种调整会过度强调条件信号 c c c 的影响,从而产生多样性较低但质量更高的样本。
      • ϵ θ ( z t , c ) \epsilon_\theta(z_t, c) ϵθ(zt,c) 是条件模型预测
      • ϵ θ ( z t ) \epsilon_\theta(z_t) ϵθ(zt) 是无条件模型预测
      • 该方法可以被解释为将样本引导到隐式分类器 p ( c ∣ z t ) p(c|z_t) p(czt) 高概率的区域,这是对显式分类器引导方法的改进。

METHODS-VDM

3D-UNET

  • UNET(UNET知识回顾可以调转UNET)

    • 在图像扩散模型中,通常使用U-Net架构,这是一种包含空间下采样和上采样通道的神经网络,并通过跳跃连接与下采样通道的激活相连。U-Net由2D卷积残差块组成,例如Wide ResNet风格,每个卷积块后面跟着一个空间注意力块。

    • 条件信息的提供:条件信息(如类别标签 c c c 和对数信噪比 λ t {λ}_t λt以嵌入向量的形式提供给网络,并在添加到每个残差块之前,通过多个MLP层进行处理。

  • UNET图像模型架构的修改

    • 更改卷积层类型:将原始的二维卷积(2D convolution)改为仅在空间维度上操作的三维卷积(space-only 3D convolution)。
    • 例如,将原来的3x3卷积改为1x3x3卷积。这里的第一个轴索引视频帧,第二个和第三个轴分别索引空间高度和宽度。(由于第一个维度是1所以对时间没有影响只对空间有影响)
    • 3D UNET如图
      • 每个方块都代表一个四维的张量(即frames × height × width × channels)
      • 每个方块的纵轴长度表示张量的长或宽(height or width )
      • 横轴长度表示张量的通道大小(channels)
      • 输入:噪音视频 z t z_t zt,条件 c c c,log SNR λ t \lambda_{t} λt
      • 下采样或上采样中块与块之间的空间分辨率(即height × width)调整比率是2
      • 使用通道乘子(channel multipliers) M 1 , M 2 . . . M k M_1,M_2...M_k M1,M2...Mk来指定通道数目
      • 模型通过卷积和时空分离注意力的方式来处理每一个块,在进行每一步空间上采样时都通过跳跃连接来同对应步骤的下采样过程的特征图进行联系
        [外链图片转存中…(img-PmHdFgQD-1721821973269)]
  • 时空分离注意力(factorized space-time attention)

    • 保留空间注意力块:在每个空间注意力块(spatial attention block)中,注意力仍然是基于空间的;即,第一轴被视为批次轴(batch axis)。这意味着在网络的前几层中,空间信息仍然是重点处理的对象。
    • 引入时间注意力块:在每个空间注意力块之后,插入一个时间注意力块(temporal attention block)。该时间注意块在第一个维度即时间维度(视频帧)上执行注意力,并将空间维度flatten为batch维度
    • 使用相对位置嵌入:使用相对位置嵌入(relative positional embeddings)来区分帧的顺序,而不依赖于视频时间的绝对概念。这使得模型能够捕捉到帧之间的关系和顺序信息。

Reconstruction-guided sampling for improved conditional generation

论文的另一个主要创新是为无条件扩散模型提供了一种条件生成的方法。这种条件生成方法称为梯度条件法(gradient conditioning method)

  • 它修改了扩散模型的采样过程,使用基于梯度优化的方式来改善去噪数据的条件损失(conditioning loss),从而可以让生成的视频通过自回归地方式扩展至更长的时间步和更高的分辨率。

  • 由于梯度条件法中所使用的附加梯度项可以解释为一种额外的指导,而这种指导其实基于模型对条件数据的重建,将该方法称为重建引导采样(reconstruction-guided sampling),或简单地称为重建指导(reconstruction guidance)。

  • generate longer videos by extending our samples

    • 显式训练与近似派生:
      • 是在采样(推理)阶段,我们可以先生成一个16帧的视频 x a ∼ p θ ( x ) \mathbf{x^a}\sim p_\theta(\mathbf{x}) xapθ(x),然后在这个基础上拓展得到第二个视频 x b ∼ p θ ( x b ∣ x a ) \mathbf{x^b}\sim p_\theta(\mathbf{x^b|x^a}) xbpθ(xbxa)这样一来就可以通过自回归的方式拓展采样的视频到任意长度
      • 或者可以选择 x a x_a xa来表示较低帧速率的视频,然后将 x b x_b xb定义为 x a x_a xa的帧之间的那些帧。这允许人们在时间上对视频进行上采样
      • 缺点:但是这2种采样方式需要我们显式地训练一个条件生成模型 p θ ( x b ∣ x a ) p_{\theta}\left(\mathbf{x}^{\mathrm{b}}\mid\mathbf{x}^{\mathrm{a}}\right) pθ(xbxa)或者通过插值的方式从无条件生成模型 p θ ( x ) p_{\theta}(x) pθ(x)近似的推导(后者不需要单独训练模型)
    • 为扩散模型条件采样的替代方法:联合训练扩散模型的条件采样(replacement method)
      • p θ ( x = [ x a , x b ] ) p_\theta\left(\mathbf{x}=\left[\mathbf{x}^\mathrm{a},\mathbf{x}^\mathrm{b}\right]\right) pθ(x=[xa,xb]) ,对两个条件样本进行联合训练
      • z s b z^b_s zsb:采样方法与从 p θ ( z s ∣ z t ) p_{\theta}(\mathbf{z}_{s}|\mathbf{z}_{t}) pθ(zszt)中标准采样方法一样 z s = [ z s a , z s b ] \mathbf{z}_{s}=[\mathbf{z}_{s}^{\mathrm{a}},\mathbf{z}_{s}^{\mathrm{b}}] zs=[zsa,zsb],在扩散模型前向的具体过程中 x b x^b xb对应部分保持正常迭代更替
      • 但是,在每次迭代中, z s a z^a_s zsa的样本被来自正向过程的确切样本 q ( z s a ∣ x a ) q\left(\mathbf{z}_s^\mathrm{a}\mid\mathbf{x}^\mathrm{a}\right) q(zsaxa) q ( z s a ∣ x a , z t a ) q\left(\mathbf{z}_s^\mathrm{a}\mid\mathbf{x}^\mathrm{a},\mathbf{z}_t^\mathrm{a}\right) q(zsaxa,zta)所取代(两者都遵循正确的边缘分布,后者还遵循条件分布),也就是始终需要参考 x a x^a xa
      • 通过去噪模型 x ^ θ ( [ z t a , z t b ] ) \hat{x}_\theta([z^a_t, z^b_t]) x^θ([zta,ztb])的影响, z s b z^b_s zsb的样本将与 z s a z^a_s zsa保持一致。这意味着生成的 x b x_b xb帧将与给定的 x a x_a xa 帧相协调。
  • 优化替换法从而使其适用于视频生成

    • 虽然样本(sample) x b x_b xb单独很好,但它们通常与 x a x_a xa不一致。
    • 论文认为这种替换方式下 x b x^b xb对应的部分的更替仅仅是 x ^ θ b ( z t ) ≈ E q [ x b ∣ z t ] \hat{\mathbf{x}}_{\theta}^{\mathrm{b}}\left(\mathbf{z}_{t}\right)\approx\mathbb{E}_{q}\left[\mathbf{x}^{b}\mid\mathbf{z}_{t}\right] x^θb(zt)Eq[xbzt]
      • 而真正理想的更替应该是 E q [ x b ∣ z t , x a ] \mathbb{E}_q\left[\mathbf{x}^b\mid\mathbf{z}_t,\mathbf{x}^a\right] Eq[xbzt,xa]这样才能够和上一个视频有更好的一致性。
      • 修改后:
        E q [ x b ∣ z t , x a ] = E q [ x b ∣ z t ] + ( σ t 2 / α t ) ∇ z t b log ⁡ q ( x a ∣ z t ) \boxed{\mathbb{E}_q\left[\mathbf{x}^b\mid\mathbf{z}_t,\mathbf{x}^a\right]=\mathbb{E}_q\left[\mathbf{x}^b\mid\mathbf{z}_t\right]+\left(\sigma_t^2/\alpha_t\right)\nabla_{\mathbf{z}_t^b}\log q\left(\mathbf{x}^a\mid\mathbf{z}_t\right)} Eq[xbzt,xa]=Eq[xbzt]+(σt2/αt)ztblogq(xazt)
        • q ( x a ∣ z t ) q(\mathbf{x}^a\mid\mathbf{z}_t) q(xazt):没有封闭形式的解(即无法直接从条件分布中采样,因此需要一种近似方法),用高斯分布来近似:
          q ( x a ∣ z t ) ≈ N [ x ^ θ a ( z t ) , ( σ t 2 / α t 2 ) I ] \boxed{q(\mathbf{x}^{a}|\mathbf{z}_{t})\approx\mathcal{N}[\hat{\mathbf{x}}_{\theta}^{\mathrm{a}}(\mathbf{z}_{t}),(\sigma_{t}^{2}/\alpha_{t}^{2})\mathbf{I}]} q(xazt)N[x^θa(zt),(σt2/αt2)I]
          • x ^ θ a ( z t ) \hat{\mathbf{x}}_{\theta}^{\mathrm{a}}(\mathbf{z}_{t}) x^θa(zt):去噪模型对条件数据 (conditioning data) x a x^a xa的重建,基于潜在变量 z t z_t zt
          • x a x^a xa:条件数据
        • 如果模型是完美的,随着 t 接近 0,这种近似将变得精确。在实验中,即使对于较大的t,这种近似也被证明是有效的。
  • 用于条件采样的去噪模型,reconstruction-guided sampling
    x ~ θ b ( z t ) = x ^ θ b ( z t ) − w r α t 2 ∇ z t b ∥ x a − x ^ θ a ( z t ) ∥ 2 2 . \boxed{\tilde{\mathbf{x}}_\theta^b(\mathbf{z}_t)=\hat{\mathbf{x}}_\theta^b(\mathbf{z}_t)-\frac{w_r\alpha_t}{2}\nabla_{\mathbf{z}_t^b}\|\mathbf{x}^a-\hat{\mathbf{x}}_\theta^a(\mathbf{z}_t)\|_2^2 }. x~θb(zt)=x^θb(zt)2wrαtztbxax^θa(zt)22.

    • 这个是优化后的替换法的变体。这个表达式中的额外梯度项可以被解释为基于模型对条件数据重建的引导形式
    • 实验发现较大的权重因子 w r w_r wr>1会提高采样的样本质量
  • 空间插值(spatial interpolation)(or超分辨率super-resolution)的应用

    • 这种情况下,对模型预测的下采样版本施加均方误差损失 MSE,并通过下采样进行反向传播。
    • 可以利用无条件高分辨率扩散模型 x ^ θ \hat{\mathbf{x}}_\theta x^θ将低分辨率的真实视频 x a x^a xa(例如 64x64 分辨率)上采样为高分辨率视频(例如 128x128 分辨率),调整高分辨率模型如下:
      x ~ θ ( z t ) = x ^ θ ( z t ) − w r α t 2 ∇ z t ∥ x a − x ^ θ a ( z t ) ∥ 2 2 \tilde{\mathbf{x}}_\theta(\mathbf{z}_t)=\hat{\mathbf{x}}_\theta(\mathbf{z}_t)-\frac{w_r\alpha_t}{2}\nabla_{\mathbf{z}_t}\|\mathbf{x}^a-\hat{\mathbf{x}}_\theta^a(\mathbf{z}_t)\|_2^2 x~θ(zt)=x^θ(zt)2wrαtztxax^θa(zt)22
      • x ~ θ ( z t ) \tilde{\mathbf{x}}_\theta(\mathbf{z}_t) x~θ(zt) : 这是调整后的去噪模型输出,用于生成条件样本

      • x ^ θ ( z t ) \hat{\mathbf{x}}_\theta(\mathbf{z}_t) x^θ(zt):这是原始去噪模型的输出,代表在给定潜在变量 z t z_t zt时,模型对数据 x x x的最佳估计

      • x a x^a xa:这是条件数据或参考数据,我们希望生成的样本与之保持一致。

      • x ^ θ a ( z t ) \hat{\mathbf{x}}_\theta^a\left(\mathbf{z}_t\right) x^θa(zt)是我们的模型从 z t z_t zt重建的低分辨率视频,通过使用可微分的下采样算法(如双线性插值)从模型的高分辨率输出获得

      • w r w_r wr:一个权重因子(weighting factor),用于控制梯度项在调整过程中的重要性

  • 自回归扩展:还可以同时对低分辨率视频进行条件化,同时使用相同的重建引导方法在高分辨率下自回归扩展样本。[外链图片转存中…(img-sM1Hb8qI-1721821973272)]

Experiments

无条件视频建模(Unconditional Video Modeling)

  • 作者使用了一个流行的基准测试,即Soomro等人[49]的101种人类活动视频片段集合,来展示他们无条件生成视频的方法。
  • 他们从这个数据集中建模了16帧的短视频片段,并将空间分辨率下采样到64x64。
  • 在表1中,作者展示了他们的模型生成视频的感知质量得分,并与文献中的其他方法进行了比较,发现他们的方法在提高先前最先进方法的基础上有显著改进。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VK39skuV-1721821973273)(https://i-blog.csdnimg.cn/direct/e354072292834544b856178bf723d2c4.png)]

视频预测(Video Prediction)

  • 视频预测是一个常见的基准任务,用于评估视频的生成模型,其中模型被给予视频的第一帧(或几帧),并被要求生成剩余部分。
  • 尽管作者的模型仅在无条件设置下进行训练,但他们可以通过第3.1节中提出的引导方法适应视频预测设置。
  • 作者在两个流行的视频预测基准测试上评估了这种方法,并获得了最先进的结果:
    • BAIR机器人推动(BAIR Robot Pushing)[17]:一个标准的视频基准测试,包含约44000个机器人推动动作的视频。
    • Kinetics-600[27, 9]:包含约40万个训练视频,描绘了600种不同的活动。
      [外链图片转存中…(img-W135xty5-1721821973274)]

文本条件视频生成(Text-Conditioned Video Generation)

  • 在文本条件视频生成设置中,作者使用了包含1000万个带字幕的视频的数据集,并以BERT-large嵌入[15]的形式,通过注意力池化处理来调节扩散模型。
  • 作者考虑了两种模型大小:一个小模型用于联合训练消融研究,一个大模型用于生成其余结果。
  • 他们探讨了联合视频-图像训练、无分类器引导和新提出的重建引导方法对于自回归扩展和同时空间与时间超分辨率的影响。
    [外链图片转存中…(img-T8iRCeoO-1721821973275)]
    [外链图片转存中…(img-ZE73HtIO-1721821973276)]
    [外链图片转存中…(img-qYxC2O4S-1721821973278)]

实验结果的评估

  • 作者使用标准指标,如FVD(Fréchet Video Distance)、FID(Fréchet Inception Distance)和IS(Inception Score)来评估他们的模型。
  • 他们提供了在UCF101数据集上的无条件视频建模结果、在BAIR Robot Pushing和Kinetics-600数据集上的视频预测结果,以及在文本条件视频生成任务上的样本和额外结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1957321.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

简单高效的在线拾色器工具 - 为您的设计工作提供便利

你是否曾在寻找完美颜色时感到困扰&#xff1f;现在&#xff0c;有了这个简单而强大的在线拾色器工具&#xff0c;选择理想的颜色变得轻而易举&#xff01; 网址&#xff1a; https://potatoh5games.fun/tools/#ColorPickr 这款拾色器工具具有以下特点&#xff1a; 用户友好…

外卖项目day09---微信登录/HttpClient

这里是初学的文章&#xff0c;大家可以去看看 HttpClient初学-CSDN博客 下面是微信登录的流程 微信登录产品原型 UserController代码 RestController RequestMapping("/user/user") Api(tags "C端用户相关接口") Slf4j public class UserController {A…

web以及nginx

⼀、web基本概念和常识 Web&#xff1a;为⽤户提供的⼀种在互联⽹上浏览信息的服务&#xff0c;Web 服务是动态的、可交互的、跨平台的和图形化的。 Web 服务为⽤户提供各种互联⽹服务&#xff0c;这些服务包括信息浏览服务&#xff0c;以及各种交互式服务&#xff0c;包括聊天…

【Python数值分析】革命:引领【数学建模】新时代的插值与拟合前沿技术

目录 ​编辑 第一部分&#xff1a;插值的基本原理及应用 1. 插值的基本原理 1.1 插值多项式 1.2 拉格朗日插值 1.3 牛顿插值 1.4 样条插值 2. 插值的Python实现 2.1 使用 NumPy 进行插值 2.2 使用 SciPy 进行插值 2.2.1 一维插值 ​编辑 2.2.2 二维插值 3. 插值…

如何让网站实现https访问

要让网站实现HTTPS访问&#xff0c;主要需要完成以下几个步骤。这些步骤确保了网站与用户之间的数据传输安全&#xff0c;并提升了用户对网站的信任度。 1. 确定证书类型 首先&#xff0c;根据网站的需求和预算&#xff0c;选择合适的SSL证书类型。常见的SSL证书类型包括&…

黑马头条Day11- 实时计算热点文章、KafkaStream

一、今日内容 1. 定时计算与实时计算 2. 今日内容 KafkaStream 什么是流式计算KafkaStream概述KafkaStream入门案例SpringBoot集成KafkaStream 实时计算 用户行为发送消息KafkaStream聚合处理消息更新文章行为数量替换热点文章数据 二、实时流式计算 1. 概念 一般流式计…

Skim通过Apple Script为选中文本添加特定颜色的高亮

一、代码编写 Skim的Apple Script维基页面 使用Mac的Script Editor编写以下代码&#xff1a; tell application "Skim"activatetell document 1set theSel to (get selection)set theNote to make note with data theSel with properties {type:highlight note, co…

Swift学习入门,新手小白看过来

&#x1f604;作者简介&#xff1a; 小曾同学.com,一个致力于测试开发的博主⛽️&#xff0c;主要职责&#xff1a;测试开发、CI/CD 如果文章知识点有错误的地方&#xff0c;还请大家指正&#xff0c;让我们一起学习&#xff0c;一起进步。 &#x1f60a; 座右铭&#xff1a;不…

零代码拖拽,轻松搞定GIS场景编辑

在三维GIS领域&#xff0c;编辑场景和处理影像数据通常是一个复杂且费时的过程&#xff0c;但现在有了山海鲸可视化&#xff0c;这一切都变得简单有趣。这款免费可视化工具为您提供了零代码拖拽式编辑的体验&#xff0c;让您无需编程知识就能轻松创建和优化GIS场景。通过直观的…

STM32——GPIO(点亮LEDLED闪烁)

一、什么是GPIO&#xff1f; GPIO&#xff08;通用输入输出接口&#xff09;&#xff1a; 1.GPIO 功能概述 GPIO 是通用输入/输出&#xff08;General Purpose I/O&#xff09;的简称&#xff0c;既能当输入口使用&#xff0c;又能当输出口使用。端口&#xff0c;就是元器件…

记一次因为在html两个地方引入vue.js导致组件注入失败的问题

这个问题我遇到两次了&#xff0c;是在恼火&#xff0c;不对&#xff0c;三次了&#xff0c;我如果不做这个笔记&#xff0c;我确定我还会遇到第三次。 尾部这个去掉就行 因为头部有了 遇到这种bu g好恼火&#xff0c;解决了又怎么样呢&#xff1f;重蹈覆辙的滋味不好受

Python技能达到这个水平,高薪就业不是梦

一&#xff0c;高薪就业的必备基础 要达到高薪就业的水平&#xff0c;Python开发者通常需要具备以下几方面的技能和经验&#xff1a; 如需Python籽料直接戳&#xff1a; 2024年最新python教程全套&#xff0c;学完即可进大厂&#xff01;&#xff08;附全套视频 下载&#xf…

#IO进程 笔记一

标准IO 文件IO 文件属性获取 目录操作 库 进程: process 线程(thread)、同步、互斥、条件变量 进程间通信: 6种(一共7种) 无名管道(pipe)、有名管道(fifo)、信号(sginal)、信号灯集(semphore)、 共享内存(shared memory)、消息队列(message queue) 标准IO 1. 概念 标准IO&…

详细分析示波器导至U盘的数据(Excel表格)示波器具体名称分析

一般由示波器导入U盘的csv文件&#xff08;即Excel表格数据&#xff09;的图如下图所示&#xff1a; 下面小编就对上表格的各个数据表示进行逐一解释 1、Memory Length&#xff1a;4000 在示波器&#xff08;Oscilloscope&#xff09;中&#xff0c;“Memory Length”&#x…

【算法】代码随想录之字符串(更新中)

文章目录 前言 一、反转字符串&#xff08;LeetCode--344&#xff09; 二、反转字符串II&#xff08;LeetCode--541&#xff09; 三、反转字符串中的单词&#xff08;LeetCode--151&#xff09; 前言 跟随代码随想录&#xff0c;学习字符串相关的算法题目&#xff0c;记录…

20240730 每日AI必读资讯

&#x1f3ac;燃爆&#xff01;奥运8分钟AI影片火了&#xff0c;巴赫主席&#xff1a;感谢中国黑科技 - 短片名为《永不失色的她》&#xff08;To the Greatness of HER&#xff09;&#xff0c;由阿里巴巴和国际奥委会联合推出。 - 百年奥运史上伟大女性的影响故事在此被浓缩…

VBA技术资料MF183:将图片导入word并调整大小

我给VBA的定义&#xff1a;VBA是个人小型自动化处理的有效工具。利用好了&#xff0c;可以大大提高自己的工作效率&#xff0c;而且可以提高数据的准确度。“VBA语言専攻”提供的教程一共九套&#xff0c;分为初级、中级、高级三大部分&#xff0c;教程是对VBA的系统讲解&#…

人生最大的毛病,就是一个“ 傲 ”字

99天 傲慢之害&#xff0c;人要勤勉恭敬 51.27 先生说&#xff1a;人生最大的毛病&#xff0c;就是一个“ 傲 ”字。 当今人们的问题&#xff0c;主要就是“ 傲 ”。千罪百恶&#xff0c;都从傲而来。一个人要是傲&#xff0c;就会自高自大、自以为是&#xff0c;不肯屈于人下…

cf960(div2)

A. Submission Bait&#xff08;博弈&#xff09; 题意&#xff1a;爱丽丝和鲍勃在大小为n的数组a中进行游戏&#xff0c;他们轮流进行运算&#xff0c;爱丽丝先开始&#xff0c;不能运算的一方输&#xff0c;一开始mx0&#xff0c;每次操作&#xff0c;玩家可以选择一个牵引i…

pikachu靶场之目录遍历、敏感信息泄露

一、目录遍历 漏洞概述 在web功能设计中,很多时候我们会要将需要访问的文件定义成变量&#xff0c;从而让前端的功能便的更加灵活。 当用户发起一个前端的请求时&#xff0c;便会将请求的这个文件的值(比如文件名称)传递到后台&#xff0c;后台再执行其对应的文件。 在这个过…