DALLE2-文本图像生成

news2026/2/11 16:58:44

文章目录

摘要
算法
- 解码器
- prior
图像处理
- 变体
- 插值
- 文本差异
限制

论文：《Hierarchical Text-Conditional Image Generation with CLIP Latents》
github： https://github.com/lucidrains/DALLE2-pytorch
https://github.com/LAION-AI/dalle2-laion

摘要

CLIP已经被证明可以学习语义或风格表征，作者提出二阶段模型，给出文本描述，利用先验模型生成CLIP图像嵌入，解码器利用图像嵌入生成图像；解码器作者使用扩散模型；prior作者使用自回归及扩散模型，发现后者计算高效，生成样本质量高。

算法

$(x, y)$ 表示图像及对应caption， $z_i、z_t$ 为CLIP提取图像特征及文本特征；
DALLE2生成过程使用两个组件：
1、prior $P(z_i|y）$ 基于caption $y$ 生成图像编码 $z_i$ ；
2、decoder $P(x|z_i, y)$ 基于CLIP提取图像编码 $z_i$ 生成图像x，可选择使用caption y;
在这里插入图片描述
DALLE2文本图像生成过程如图2：
1、CLIP将文本进行编码，通过自回归或扩散模型（prior）生成图像编码先验，
2、图像编码通过扩散模型解码器（decoder）生成最终图像

解码器

作者使用扩散模型基于CLIP所生成的图像embedding生成图像，具体使用改进GLIDE，将CLIP embedding添加进timestep embedding中，映射CLIP embedding为4个额外token，与GLIDE文本编码器输出进行concat；

prior

解码器可将CLIP图像embedding $z_i$ 生成图像x，先验器将caption y生成图像embedding $z_i$ ；有两种方案：
1、AR（自回归先验）：使用CLIP将图像embedding $z_i$ 转换为离散序列，基于caption y进行自回归预测；
2、扩散先验；基于caption y使用高斯扩散模型对连续向量 $z_i$ 进行直接建模；
DALLE2中扩散先验，作者训练仅包含解码器的Transformer，其使用包括因果关系的mask在序列上进行：文本编码、CLIP文本embedding、扩散模型timestep embedding、噪声CLIP image embedding、最终Transformer输出embedding.