AIGC-VDM -Video Diffusion Models论文解读

homepage：https://video-diffusion.github.io/
paper:https://arxiv.org/pdf/2204.03458
参考:https://zhuanlan.zhihu.com/p/585009571

视频生成方面的扩散模型论文Video Diffusion Models精读，笔者会多多更新AIGC相关知识！点个关注吧！！谢谢！AIGC-VDM,3D-UNET,unconditional model, text-conditioned model, video prediction model

在这里插入图片描述

CONTRIBUTION

3D-UNET-Architecture: for video data we use a factorized space-time UNet, which is a straightforward extension of the standard 2D UNet used in image diffusion models.
Joint image-video training: our factorized UNets can be run on variable sequence lengths and therefore can be jointly trained on both video and image modeling objectives. We find that this joint training, which has the effect of a bias-variance tradeoff on the training objective, is important for video sample quality.
Classifier-free guidance: improves sample quality for text conditioned generation, similar to existing work on image modeling.

BACKGROUND

扩散模型的前向过程：满足马尔科夫

$q(z_t|x) = N(z_t; \alpha_t x, \sigma_t^2 I)$ ：在给定数据 $x$ 的情况下，潜在变量 $z_t$ 的分布。
$q(z_t|z_s) = N(z_t; (\alpha_t/\alpha_s)z_s, \sigma^2_{t|s} I)$ ：在给定先前潜在变量 $z_s$ 的情况下，潜在变量 $z_t$ 的分布，其中 $s < t$ 。
$0\leq s<t\leq1, \sigma_{t|s}^{2}=(1-e^{\lambda_{t}-\lambda_{s}})\sigma_{t}^{2}$
$\sigma_{t|s}^2 = (1 - e^{\lambda_t - \lambda_s})\sigma_t^2$
- $\alpha_t, \sigma_t$ 定义了一个可微分的噪声调度，它控制着在前向过程中添加到数据中的噪声量。
- 这里的 $\lambda_t$ 是对数信噪比， $\lambda_t = \log[\alpha_t^2/\sigma_t^2]$ ,随着时间 $t$ 的增加而减少，直到 $q(z_1) \approx N(0, I)$ ，即在 $t = 1$ 时， $z$ 的分布趋近于标准正态分布。

Learning to reverse the forward process

逆向过程:去噪操作的目标是将 $\mathbf{z}_{t}\sim q(\mathbf{z}_{t}|\mathbf{x})$ 转换为 $\hat{x}_\theta(z_t, \lambda_t)$ ，这里 $\hat{x}_\theta$ 是去噪模型的输出，它是一个对 $x$ 的估计(为了简化表示，我们通常省略对 $\lambda_t$ 的依赖)
加权均方误差损失（Weighted Mean Squared Error Loss）：
- 去噪模型 $\hat{x}_\theta$ 通过最小化加权均方误差损失来训练: $E_{\epsilon, t} \left[ w(\lambda_t) \|\hat{x}_\theta(z_t) - x\|_2^2 \right]$
- 这个损失函数在时间 $t$ 上是均匀采样的， $w(\lambda_t)$ 是一个根据 $\lambda_t$ 调整的权重，用于平衡不同时间步的贡献
- $\hat{x}_\theta(z_t)$ :去噪模型的输出，是一个对 $x$ 的估计
- 将数据生成问题简化为去噪问题，可以通过优化扩散模型下数据对数似然的加权变分下界，或者作为去噪得分匹配的一种形式。这提供了一种有效的训练方法。
$\epsilon$ -预测参数化（ $\epsilon$ -Prediction Parameterization）：使用 $\epsilon$ -预测参数化来定义去噪模型 $\hat{x}_\theta(z_t) = (z_t - \sigma_t \epsilon_\theta(z_t))/\alpha_t$ ，其中 $\epsilon_\theta(z_t)$ 是模型预测的噪声残差。
余弦调度采样（Cosine Schedule Sampling）：在 $\epsilon$ 空间中，使用均方误差和根据余弦调度采样的时间 $t$ 来训练 $\epsilon_\theta$ 。余弦调度是一种常见的训练策略，有助于在训练过程中平衡不同时间步的贡献。
学习缩放得分估计（Learning a Scaled Score Estimate）：训练过程对应于学习一个缩放的得分估计 $\epsilon_\theta(z_t) \approx -\sigma_t \nabla_{z_t} \log p(z_t)$ ，这里 $p(z_t)$ 是在给定 $x$ 下 $z_t$ 的真实分布密度。
$v$ -预测参数化（v-Prediction Parameterization）：对于某些模型，也使用 $v$ -预测参数化来训练，这提供了另一种学习去噪模型的方法。

Sampling

离散时间祖先采样器(discrete time ancestral sampler）：
- 逆过程的数学表达：逆过程 $q(z_s|z_t, x)$ = $N(z_s; \tilde{\mu}_{s|t}(z_t, x), \tilde{\sigma}^2_{s|t}I)$ ，其中：
  - 即给定未来的潜在变量 $z_t$ 和数据 $x$ ，可以计算出过去潜在变量 $z_s$ 的分布。这里的 $s < t$ 表示逆过程是从未来向过去进行的
  - $\tilde{\mu}_{s|t}(z_t, x)$ 是条件均值，表示在给定 $z_t$ 和 $x$ 的情况下 $z_s$ 的最佳估计。 $\tilde{\boldsymbol{\mu}}_{s|t}(\mathbf{z}_t,\mathbf{x})=e^{\lambda_t-\lambda_s}(\alpha_s/\alpha_t)\mathbf{z}_t+(1-e^{\lambda_t-\lambda_s})\alpha_s\mathbf{x}$
  - $\tilde{\sigma}^2_{s|t}$ 是条件方差，表示在给定 $z_t$ 时 $z_s$ 的不确定性。 $\tilde{\sigma}_{s|t}^{2}=(1-e^{\lambda_{t}-\lambda_{s}})\sigma_{s}^{2}.$
- 采样规则：
  - 祖先采样器从 $z_1 \sim N(0, I)$ 开始，然后根据规则进行采样:
    $\mathbf{z}_{s}=\tilde{\boldsymbol{\mu}}_{s|t}(\mathbf{z}_{t},\hat{\mathbf{x}}_{\theta}(\mathbf{z}_{t}))+\sqrt{(\tilde{\sigma}_{s|t}^{2})^{1-\gamma}(\sigma_{t|s}^{2})^{\gamma}}\epsilon$
  - 这里 $\epsilon$ 是标准高斯噪声
  - $\gamma$ 是控制采样器随机性的超参数。
  - $s < t$ ，在采样过程中， $s$ 和 $t$ 遵循从 1 到 0 的均匀间隔序列，这意味着采样器在逆过程中均匀地考虑了从未来到过去的各个时间点。
预测校正采样器（predictor-corrector sampler）:预测校正采样器在条件生成中有用，它结合了祖先采样器步骤(4)和Langevin校正步骤:
$\mathbf{z}_s\leftarrow\mathbf{z}_s-\frac{1}{2}\delta\sigma_s\boldsymbol{\epsilon}_\theta(\mathbf{z}_s)+\sqrt{\delta}\sigma_s\boldsymbol{\epsilon}'$
- $\delta$ 是一个步长参数，这里被固定为 0.1
- $\mathbf{z}_s-\frac{1}{2}\delta\sigma_s\boldsymbol{\epsilon}_\theta(\mathbf{z}_s)$ :表示对当前状态 $z_s$ 的一种修正
- $\epsilon'$ 是另一个独立的标准高斯噪声样本。 $\sqrt{\delta}\sigma_s\boldsymbol{\epsilon}'$ 是加上的一个随机扰动
- Langevin步骤用于校正采样过程，确保生成的样本 $z_s$ 的边际分布与从 $\mathbf{x}\sim p(\mathbf{x})$ 开始的前向过程的真实边际相匹配
条件生成设置和无分类器引导（Classifier-Free Guidance）：
- 在条件生成中，数据 $x$ 附带有一个条件信号 $c$ ，这可以是一个类别标签、文本描述或其他类型的条件。要训练一个扩散模型以适应条件分布 $p (x ∣ c)$ ，需要将条件信号 $c$ 提供给去噪模型 $\hat{x}_\theta(z_t, c)$ 。
- 在这种情况下，可以通过使用无分类器指导来提高样本质量，该方法使用调整后的模型预测值 $\tilde{\epsilon}_\theta$ 来进行采样，调整后的预测考虑了条件模型预测和无条件模型预测的组合:
  $\tilde{\epsilon}_\theta(z_t, c) = (1 + w)\epsilon_\theta(z_t, c) - w\epsilon_\theta(z_t)$
  - $w$ 是引导强度。当 $w > 0$ 时，这种调整会过度强调条件信号 $c$ 的影响，从而产生多样性较低但质量更高的样本。
  - $\epsilon_\theta(z_t, c)$ 是条件模型预测
  - $\epsilon_\theta(z_t)$ 是无条件模型预测
  - 该方法可以被解释为将样本引导到隐式分类器 $p(c|z_t)$ 高概率的区域，这是对显式分类器引导方法的改进。

METHODS-VDM

3D-UNET

UNET(UNET知识回顾可以调转UNET)
- 在图像扩散模型中，通常使用U-Net架构，这是一种包含空间下采样和上采样通道的神经网络，并通过跳跃连接与下采样通道的激活相连。U-Net由2D卷积残差块组成，例如Wide ResNet风格，每个卷积块后面跟着一个空间注意力块。
- 条件信息的提供：条件信息（如类别标签 $c$ 和对数信噪比 ${λ}_t$ 以嵌入向量的形式提供给网络，并在添加到每个残差块之前，通过多个MLP层进行处理。
UNET图像模型架构的修改
- 更改卷积层类型:将原始的二维卷积（2D convolution）改为仅在空间维度上操作的三维卷积（space-only 3D convolution）。
- 例如，将原来的3x3卷积改为1x3x3卷积。这里的第一个轴索引视频帧，第二个和第三个轴分别索引空间高度和宽度。(由于第一个维度是1所以对时间没有影响只对空间有影响)
- 3D UNET如图
  - 每个方块都代表一个四维的张量（即frames × height × width × channels）
  - 每个方块的纵轴长度表示张量的长或宽（height or width ）
  - 横轴长度表示张量的通道大小(channels)
  - 输入:噪音视频 $z_t$ ,条件 $c$ ，log SNR $\lambda_{t}$
  - 下采样或上采样中块与块之间的空间分辨率（即height × width）调整比率是2
  - 使用通道乘子（channel multipliers） $M_1,M_2...M_k$ 来指定通道数目
  - 模型通过卷积和时空分离注意力的方式来处理每一个块，在进行每一步空间上采样时都通过跳跃连接来同对应步骤的下采样过程的特征图进行联系
    [外链图片转存中…(img-PmHdFgQD-1721821973269)]
时空分离注意力（factorized space-time attention）
- 保留空间注意力块:在每个空间注意力块（spatial attention block）中，注意力仍然是基于空间的；即，第一轴被视为批次轴(batch axis)。这意味着在网络的前几层中，空间信息仍然是重点处理的对象。
- 引入时间注意力块:在每个空间注意力块之后，插入一个时间注意力块（temporal attention block）。该时间注意块在第一个维度即时间维度(视频帧)上执行注意力，并将空间维度flatten为batch维度
- 使用相对位置嵌入:使用相对位置嵌入（relative positional embeddings）来区分帧的顺序，而不依赖于视频时间的绝对概念。这使得模型能够捕捉到帧之间的关系和顺序信息。

Reconstruction-guided sampling for improved conditional generation

论文的另一个主要创新是为无条件扩散模型提供了一种条件生成的方法。这种条件生成方法称为梯度条件法（gradient conditioning method）

它修改了扩散模型的采样过程，使用基于梯度优化的方式来改善去噪数据的条件损失（conditioning loss），从而可以让生成的视频通过自回归地方式扩展至更长的时间步和更高的分辨率。
由于梯度条件法中所使用的附加梯度项可以解释为一种额外的指导，而这种指导其实基于模型对条件数据的重建，将该方法称为重建引导采样（reconstruction-guided sampling），或简单地称为重建指导（reconstruction guidance）。
generate longer videos by extending our samples
- 显式训练与近似派生：
  - 是在采样（推理）阶段，我们可以先生成一个16帧的视频 $\mathbf{x^a}\sim p_\theta(\mathbf{x})$ ,然后在这个基础上拓展得到第二个视频 $\mathbf{x^b}\sim p_\theta(\mathbf{x^b|x^a})$ 这样一来就可以通过自回归的方式拓展采样的视频到任意长度
  - 或者可以选择 $x_a$ 来表示较低帧速率的视频，然后将 $x_b$ 定义为 $x_a$ 的帧之间的那些帧。这允许人们在时间上对视频进行上采样
  - 缺点:但是这2种采样方式需要我们显式地训练一个条件生成模型 $p_{\theta}\left(\mathbf{x}^{\mathrm{b}}\mid\mathbf{x}^{\mathrm{a}}\right)$ 或者通过插值的方式从无条件生成模型 $p_{\theta}(x)$ 近似的推导(后者不需要单独训练模型)
- 为扩散模型条件采样的替代方法:联合训练扩散模型的条件采样(replacement method)
  - $p_\theta\left(\mathbf{x}=\left[\mathbf{x}^\mathrm{a},\mathbf{x}^\mathrm{b}\right]\right)$ ,对两个条件样本进行联合训练
  - $z^b_s$ :采样方法与从 $p_{\theta}(\mathbf{z}_{s}|\mathbf{z}_{t})$ 中标准采样方法一样 $\mathbf{z}_{s}=[\mathbf{z}_{s}^{\mathrm{a}},\mathbf{z}_{s}^{\mathrm{b}}]$ ，在扩散模型前向的具体过程中 $x^b$ 对应部分保持正常迭代更替
  - 但是，在每次迭代中， $z^a_s$ 的样本被来自正向过程的确切样本 $q\left(\mathbf{z}_s^\mathrm{a}\mid\mathbf{x}^\mathrm{a}\right)$ 或 $q\left(\mathbf{z}_s^\mathrm{a}\mid\mathbf{x}^\mathrm{a},\mathbf{z}_t^\mathrm{a}\right)$ 所取代(两者都遵循正确的边缘分布，后者还遵循条件分布)，也就是始终需要参考 $x^a$
  - 通过去噪模型 $\hat{x}_\theta([z^a_t, z^b_t])$ 的影响， $z^b_s$ 的样本将与 $z^a_s$ 保持一致。这意味着生成的 $x_b$ 帧将与给定的 $x_a$ 帧相协调。
优化替换法从而使其适用于视频生成
- 虽然样本(sample) $x_b$ 单独很好，但它们通常与 $x_a$ 不一致。
- 论文认为这种替换方式下 $x^b$ 对应的部分的更替仅仅是 $\hat{\mathbf{x}}_{\theta}^{\mathrm{b}}\left(\mathbf{z}_{t}\right)\approx\mathbb{E}_{q}\left[\mathbf{x}^{b}\mid\mathbf{z}_{t}\right]$
  - 而真正理想的更替应该是 $\mathbb{E}_q\left[\mathbf{x}^b\mid\mathbf{z}_t,\mathbf{x}^a\right]$ 这样才能够和上一个视频有更好的一致性。
  - 修改后:
    $\boxed{\mathbb{E}_q\left[\mathbf{x}^b\mid\mathbf{z}_t,\mathbf{x}^a\right]=\mathbb{E}_q\left[\mathbf{x}^b\mid\mathbf{z}_t\right]+\left(\sigma_t^2/\alpha_t\right)\nabla_{\mathbf{z}_t^b}\log q\left(\mathbf{x}^a\mid\mathbf{z}_t\right)}$
    - $q(\mathbf{x}^a\mid\mathbf{z}_t)$ :没有封闭形式的解(即无法直接从条件分布中采样，因此需要一种近似方法)，用高斯分布来近似:
      $\boxed{q(\mathbf{x}^{a}|\mathbf{z}_{t})\approx\mathcal{N}[\hat{\mathbf{x}}_{\theta}^{\mathrm{a}}(\mathbf{z}_{t}),(\sigma_{t}^{2}/\alpha_{t}^{2})\mathbf{I}]}$
      - $\hat{\mathbf{x}}_{\theta}^{\mathrm{a}}(\mathbf{z}_{t})$ :去噪模型对条件数据 (conditioning data) $x^a$ 的重建，基于潜在变量 $z_t$
      - $x^a$ :条件数据
    - 如果模型是完美的，随着 t 接近 0，这种近似将变得精确。在实验中，即使对于较大的t，这种近似也被证明是有效的。
用于条件采样的去噪模型，reconstruction-guided sampling
$\boxed{\tilde{\mathbf{x}}_\theta^b(\mathbf{z}_t)=\hat{\mathbf{x}}_\theta^b(\mathbf{z}_t)-\frac{w_r\alpha_t}{2}\nabla_{\mathbf{z}_t^b}\|\mathbf{x}^a-\hat{\mathbf{x}}_\theta^a(\mathbf{z}_t)\|_2^2 }.$
- 这个是优化后的替换法的变体。这个表达式中的额外梯度项可以被解释为基于模型对条件数据重建的引导形式
- 实验发现较大的权重因子 $w_r$ >1会提高采样的样本质量
空间插值(spatial interpolation)（or超分辨率super-resolution）的应用
- 这种情况下，对模型预测的下采样版本施加均方误差损失 MSE，并通过下采样进行反向传播。
- 可以利用无条件高分辨率扩散模型 $\hat{\mathbf{x}}_\theta$ 将低分辨率的真实视频 $x^a$ （例如 64x64 分辨率）上采样为高分辨率视频（例如 128x128 分辨率），调整高分辨率模型如下：
  $\tilde{\mathbf{x}}_\theta(\mathbf{z}_t)=\hat{\mathbf{x}}_\theta(\mathbf{z}_t)-\frac{w_r\alpha_t}{2}\nabla_{\mathbf{z}_t}\|\mathbf{x}^a-\hat{\mathbf{x}}_\theta^a(\mathbf{z}_t)\|_2^2$
  - $\tilde{\mathbf{x}}_\theta(\mathbf{z}_t)$ : 这是调整后的去噪模型输出，用于生成条件样本
  - $\hat{\mathbf{x}}_\theta(\mathbf{z}_t)$ :这是原始去噪模型的输出，代表在给定潜在变量 $z_t$ 时，模型对数据 $x$ 的最佳估计
  - $x^a$ :这是条件数据或参考数据，我们希望生成的样本与之保持一致。
  - $\hat{\mathbf{x}}_\theta^a\left(\mathbf{z}_t\right)$ 是我们的模型从 $z_t$ 重建的低分辨率视频,通过使用可微分的下采样算法（如双线性插值）从模型的高分辨率输出获得
  - $w_r$ :一个权重因子（weighting factor），用于控制梯度项在调整过程中的重要性
自回归扩展:还可以同时对低分辨率视频进行条件化，同时使用相同的重建引导方法在高分辨率下自回归扩展样本。[外链图片转存中…(img-sM1Hb8qI-1721821973272)]

Experiments

无条件视频建模（Unconditional Video Modeling）：

作者使用了一个流行的基准测试，即Soomro等人[49]的101种人类活动视频片段集合，来展示他们无条件生成视频的方法。
他们从这个数据集中建模了16帧的短视频片段，并将空间分辨率下采样到64x64。
在表1中，作者展示了他们的模型生成视频的感知质量得分，并与文献中的其他方法进行了比较，发现他们的方法在提高先前最先进方法的基础上有显著改进。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VK39skuV-1721821973273)(https://i-blog.csdnimg.cn/direct/e354072292834544b856178bf723d2c4.png)]

视频预测（Video Prediction）：

视频预测是一个常见的基准任务，用于评估视频的生成模型，其中模型被给予视频的第一帧（或几帧），并被要求生成剩余部分。
尽管作者的模型仅在无条件设置下进行训练，但他们可以通过第3.1节中提出的引导方法适应视频预测设置。
作者在两个流行的视频预测基准测试上评估了这种方法，并获得了最先进的结果：
- BAIR机器人推动（BAIR Robot Pushing）[17]：一个标准的视频基准测试，包含约44000个机器人推动动作的视频。
- Kinetics-600[27, 9]：包含约40万个训练视频，描绘了600种不同的活动。
  [外链图片转存中…(img-W135xty5-1721821973274)]

文本条件视频生成（Text-Conditioned Video Generation）：

在文本条件视频生成设置中，作者使用了包含1000万个带字幕的视频的数据集，并以BERT-large嵌入[15]的形式，通过注意力池化处理来调节扩散模型。
作者考虑了两种模型大小：一个小模型用于联合训练消融研究，一个大模型用于生成其余结果。
他们探讨了联合视频-图像训练、无分类器引导和新提出的重建引导方法对于自回归扩展和同时空间与时间超分辨率的影响。
[外链图片转存中…(img-T8iRCeoO-1721821973275)]
[外链图片转存中…(img-ZE73HtIO-1721821973276)]
[外链图片转存中…(img-qYxC2O4S-1721821973278)]

实验结果的评估：

作者使用标准指标，如FVD（Fréchet Video Distance）、FID（Fréchet Inception Distance）和IS（Inception Score）来评估他们的模型。
他们提供了在UCF101数据集上的无条件视频建模结果、在BAIR Robot Pushing和Kinetics-600数据集上的视频预测结果，以及在文本条件视频生成任务上的样本和额外结果。