Scalable Diffusion Models with Transformers（DiTs）论文阅读 -- 文生视频Sora模型基础结构DiT

news2026/2/11 8:01:19

nlpcver

忠于理想

关注他

106 人赞同了该文章

文章地址：Scalable Diffusion Models with Transformers

简介

文章提出使用Transformers替换扩散模型中U-Net主干网络，分析发现，这种Diffusion Transformers（DiTs）不仅速度更快（更高的Gflops），而且在ImageNet 512×512和256×256的类别条件图片生成任务上，取得了更好的效果，256×256上实现了SOTA的FID指标（2.27）。

Transformers已经广泛应用于包括NLP、CV在内的机器学习的各个领域。然而，很多图片level的生成模型还坚持使用卷积神经网络，比如扩散模型采用的就是U-Net的主干网络架构。经过演化，扩散模型中的U-Net网络增加了稀疏的自注意力模块，此外 Dhariwal and Nichol 也尝试过在U-Net模型上的一些改变，比如通过增加适配的正则化层来注入条件信息和Channel数量。尽管如此，U-Net的顶层设计还是与原始U-Net相差无几。

文章的目标就是要揭开扩散模型架构选择的神秘面纱，提供一个强有力的baseline。文章发现U-Net并非不可替代，并且很容易使用诸如Transformers的结构替代U-Net，使用Transformers可以很好地保持原有的优秀特性，比如可伸缩性、鲁棒性、高效性等，并且使用新的标准化架构可能在跨领域研究上展现出更多的可能。文章从网络复杂度和采样质量两个方面对DiTs方法进行评估。

方法

扩散模型基础

前向过程是一个T步逐渐加噪的马尔科夫链，公式如下

给定前向扩散过程作为先验，扩散模型训练反转的过程，可以通过去除所加噪声从XT恢复成X0，并且每步的扩散过程都采样自特定的高斯分布，其期望和方差如下：

优化目标是负的X0概率似然，其上界如下所示：

并且其目标可以简化为预测和ground truth之间的l2 loss。

Classifier-free guidance

条件扩散模型是将条件信息作为额外的输入，比如一个分类标签c。这种情况下反向过程变为了

根据贝叶斯规则

因此

所以在想要条件的概率较大，就可以将条件的梯度增加到优化目标里，最终可以表示成如下形式：

模型在训练时，使用一个网络架构优化两个模型（uncond，cond）。

Latent diffusion models

模型使用VAE（固定权重）将图片encoder到隐空间，生成结果同样也是通过VAE解码成原始大小的图片。

DiTs架构

文章提出DiTs模型架构，完整的架构图如下所示：

Patch化：DiT的输入是通过VAE后的一个稀疏的表示z（256×256×3的图片，z为32×32×4），类似其他ViTs的方式，首先要将输入转成patch，文章采用超参p=2，4，8进行对比实验。

DiT模块设计：

In-context条件：in-context条件是将t和c作为额外的token拼接到DiT的token输入中；
Cross-attention模块：DiT结构与Condition交互的方式，与原来U-Net结构类似；
Adaptive layer norm（adaLN）模块：使用adaLN替换原生LayerNorm（NeurIPS2019的文章，LN 模块中的某些参数不起作用，甚至会增加过拟合的风险。所以提出一种没有可学习参数的归一化技术）；
adaLN-zero模块：之前的工作发现ResNets中每一个残差模块使用相同的初始化函数是有益的。文章提出对DiT中的残差模块的参数γ、β、α进行衰减，以达到类似的目的。

模型大小：与ViT大小相似，分别使用DiT-S、DiT-B、DiT-L和DiT-XL，Gflops从0.3dao118.6。

Transformer Decoder：在Transformer最上层需要预测噪音，因为Transformer可以保证大小与输入一致，所以在最上层使用一层线性进行decoder。

实验

实验设置

模型使用结构/patch数量方式表示，比如DiT-XL/2表示模型采用DiT-XL，patch size为2。

训练：在ImageNet 256×256和512×512分辨率的数据集上训练。初始化最后一层线性层为0，其他初始化都与ViT一致。训练模型采用AdamW，学习率1e-4，no weight decay，batch size为256，数据增广仅有水平翻转。无需学习率warmup和正则化。实验结果使用EMA model（decay 0.9999）。

Diffusion：使用VAE将256×256×3的图像编码到32×32×4的隐空间，经过扩散模型的逆向过程后，将32×32×4的隐空间还原到256×256×3的图像。