文生图——DALL-E 3 —论文解读—

文生图——DALL-E 3 —论文解读——第一版

news2026/1/23 6:45:31

概述

本文主要是DALL·E 3官方第一版技术报告（论文）的解读，原文《Improving Image Generation with Better Captions》论文解读。该文要提升文生图的效果，将技术点放到了，提升指令跟随能力上，然后顺藤摸瓜分为提升训练数据caption（使用模型合成caption），当然也要提升模型（关于模型结构、训练策略、数据集等都未做过多介绍，但是官方又明确提到，除了数据，模型也起到了不少的作用）。

一句话省流版，数据方面，训练时使用95%模型（CoCa）合成详细描述caption + 5%原本人类 caption，测试时使用GPT-4v 扩写人类caption；模型方面使用T5xxl + vae encoder + diffusion latent + 自家decoder 取得最好效果。

效果

参考几个之前公众号推出的测试效果：

DALL·E 3内部实测效果惊人！Karpathy生成逼真灵动「美国小姐」，50个物体一图全包

DALL·E 3 推理能力炸裂提升，OpenAI 抢跑“ChatGPT 原生”

DALL·E 3：与Midjourney和SDXL对比 - 知乎

主要惊奇在他的指令跟随能力，以及可以连续对话（指令）的上下文语境理解能力。如下图：

当时作为初入小白的直观感受是：现在open AI 要杀入文生图领域，这种自然对话能力，会使得SD 系列变为远古方式。当时内心OS：Stable diffusion 系列的编码器还是open AI 上个世代的产物CLIP，盲猜他的文本编码器是GPT，结果这篇报告就被打脸。这里真实使用的时候使用了GPT-4v，但是不是直接使用文本编码器的特征向量，而是用其扩写（作者称为upsample）人工prompt（论文给了扩写模板），扩写生成的例子如下：

数据方面

这篇报告也就主要讲两件事，都是针对文本captain（文本prompt）：合成captain有没有用？如何和真实captain结合？

合成captain有没有用

为什么要合成caption

现象：现有的文本到图像模型很难遵循详细的图像描述，并且经常忽略单词或混淆提示的含义。原因：我们假设这个问题源于训练数据集中的噪声和不准确的图像标题，其实就是现在的训练数据多为互联网爬取数据，这些数据的通常来源于人类作者，他们专注于对图像主题的简单描述，而忽略了图像中描绘的背景细节或常识关系，不描述背景、属性、颜色等详细信息，或者一些就是描述错误或者甚至一部分是广告。具体作者认为如下：

*比如厨房里的水槽或人行道上的停车标志，以及对这些物体的描述。

*对象在场景中的位置和这些对象的数量。

*场景中物体的颜色和大小等常识性细节。

*在图像中显示的文本。

合成captain整体思路

首先通过学习一个鲁棒图像描述器来产生准确、详细的图像描述。然后我们将此描述应用于数据集以生成更详细的标题。最终在改进的数据集上训练文本到图像的模型。然后，作者也知道这种思路其实并不新颖，除了论文提到的论文，像是BLIP 家族也都用了生成描述的方法。作者认为他们的创新点在于：建立一套生成描述性的图像描述系统，并测量在训练生成模型时使用合成字幕的影响；还为一系列评估建立了一个可重复的基准性能概要文件，这些评估用于测量提示执行情况。

如何合成caption

基础模型是Google 的CoCa，模型结构如下（FIgure2)。这里作者构建了两个数据集（未开源），对应finetune了两版描述器模型：

*一个用于生成短（只描述图像主体）的图像描述（图中的SSC）；

*一个用于生成详细（不仅描述了图像的主题，还描述了图像的周围环境、背景、图像中的文本、样式、颜色等。）的图像描述（图中称为DSC），作者举了个例子如下图（Figure3）。

合成caption实验结果

这里初始合成caption实验也包含5%的原始caption，作者解释主要是为了防止模型过拟合到合成caption的某些范式，比如最常见的例子是合成的caption往往以"a"和"an”开头，相当于一种模型正则化。训练数据为50W张图片，测试图片为5W张，对应不同的描述。对比三个数据源训练的模型（关于模型后面模型部分讲）：

*只使用原生人工描述

*5% 原生人工描述 + 95% 短描述（SSC）

*5% 原生人工描述 + 95% 长描述（DSC）

测试指标

*CLIP分数。使用开源的CLIP ViT-B/32，计算文本和图像的相似度（5W张测试图，结果*100倍画图），左右不同点是，左边的测试文本是人工描述，右边是模型长描述。可见训练+测试使用模型长描述效果好。

caption混合比例实验

鉴于上个实验，这里混合的都是长描述+人。可见95%是一个比较好的混合比例，作者也尝试了65%，发现65%已经远远落后其他，这里没有画出来。评价指标和上面一样，也是CLIP分数。

PS

到这里，作者的合成caption实验就结束了：训练时使用95%模型（CoCa）合成详细描述caption + 5%原本人类 caption训练，合成详细描述caption测试实验最好。问题是，应用场景是文生图啊，正式用户推理时，是没有图的，单纯人写caption（prompt）又不好，怎么办呢？因为GPT系列已经可以用于写故事、写诗词等，具有想象力，所以让GPT-4v去扩写用户原本输入的prompt。