论文阅读_DALLE-2的unCLIP模型

news2025/4/14 1:35:20

论文信息

name_en: Hierarchical Text-Conditional Image Generation with CLIP Latents
name_ch: 利用CLIP的层次化文本条件图像生成
paper_addr: http://arxiv.org/abs/2204.06125
doi: 10.48550/arXiv.2204.06125
date_read: 2023-02-12
date_publish: 2022-04-12
tags: [‘深度学习’,‘自然语言处理’,‘图形图像’]
author: Aditya Ramesh
citation: 703

读后感

OpenAI出品，应用于DALL-E 2。主要实现了以文本为条件生成图像。它在图像的还原和生成过程中，利用了图像与文本间的映射关系，文本可以看作是人对图片内容的抽象，它让模型从人的视角“看”图片，识别了其中人觉得最重要的内容；在图片内容和人类概念之间建立联系，并能通过文本描述的概念来生成和编辑图片。
从技术层面看，它主要基于CLIP，Diffusion模型，并在GLIDE的方法之上进行了改进（之前GLIDE尝试了有分类的CLIP，本文尝试了无分类的CLIP；GLIDE对Diffusion中加噪图片训练CLIP对齐嵌入，本文用不加噪图片做CLIP）。

介绍

CLIP模型在图片和文本之间建立映射关系，能很好的获取图片的含义和风格。本文基于CLIP，提出了两阶段模型（如图）：首先，生成给定文本描述对应的CLIP图像嵌入，然后，用解码器生成以图像嵌入为条件的图像。其解码器尝试了自回归和扩散两种方法，发现扩散模型效率更高。

其核心逻辑如图所示：虚线上结合了文本和图像的表示空间；虚线下是生成图片的过程，用文本嵌入产生一个图像嵌入，然后利用这个嵌入在条件约束下送入扩散解码器产生最终图像。

方法

数据集由成对的( x , y)：图像x和它们对应的描述y组成，用zi和zt分别表示CLIP图像和文本嵌入。
$\mid y)=P\left(x, z_{i} \mid y\right)=P\left(x \mid z_{i}, y\right) P\left(z_{i} \mid y\right)$
利用上述公式，生成图片，其中先验（上图中prior）P (zi | y)，生成以字幕y为条件的CLIP图像嵌入zi；解码器（上图中Decoder）P (x|zi , y)，生成以CLIP图像嵌入zi (以及可选的文本标题y)为条件的图像x(具体训练细见附录C)。

解码器 Decoder

使用扩散模型生成基于CLIP图像嵌入(以及可选的文本标题)的图像。基于GLIDE模型做了一些修改（GLIDE模型使用加噪后的图片训练CLIP），将CLIP嵌入投影到额外的4个上下文标记中，这些上下文标记串联到GLIDE文本编码器的输出序列中；并在训练过程中随机丢弃文本标题50 %的来实现无分类器指导；另外，还考虑了上采样以改进模型精度，以及提升模型鲁棒性的方法。

先验 Prior

上述编码器可用嵌入空间数据生成图像，但还需要一个先验模型，从标题y生成zi，以便从文本生成图像。本文探索了两种不同的模型作为先验模型：

自回归先验
扩散先验
其中扩散模型效率更高。训练一个带因果注意力掩膜的解码器Transformer，之前的扩散先验由：编码文本、CLIP文本嵌入、扩散时间步嵌入、带噪CLIP图像嵌入、最终通过Transformer预测不带噪CLIP图像嵌入。本文生成zi的两个样本，并选择与zt点积较高的样本来提高采样质量。并且发现更好的Diffusion方法是训练模型直接预测不带噪的zi，因此改进了 Diffusion 损失函数。

$L_{\text {prior }}=\mathbb{E}_{t \sim[1, T], z_{i}^{(t)} \sim q_{t}}\left[\left\|f_{\theta}\left(z_{i}^{(t)}, t, y\right)-z_{i}\right\|^{2}\right]$