文生图关键问题探索：个性化定制和效果评价

文生图（Text-to-Image Generation）是AIGC（AI Generated Content，人工智能生成内容）的一个主要方向。近年来，文生图模型的效果和质量得到飞速提升，投资界和研究界都在密切关注文生图模型的进展。这一领域还有什么样的问题或者发展方向？本文介绍了近期文生图的发展历程，从四个不同角度来介绍这一领域目前面临的关键问题和研究进展。

作者 | 刘广
责编 | Carol
出品 | 《新程序员》编辑部

2021年初，OpenAI团队提出了CLIP[1]模型并开源了模型权重，其核心点有三个：通过对比学习进行图文匹配学习，开源CLIP模型权重和发布CLIP Benchmark评测。从此，文图多模态领域开始收到广泛关注并迅速发展。文生图应用最早出现的标志是OpenAI推出DALL· E[2]，自此各大公司开始不断推出新的文生图模型，实际生成效果和效率相对于从前基于自回归（Auto Regressive)和对抗网络（GAN）等文生图方法均提升显著。

DALL·E的应用技术是Diffusion Model，主要用于生成图像、音频、文本等数据。它通过模拟数据的去噪过程来生成新的数据。与生成对抗网络（GAN）相比，Diffusion models的生成过程更加稳定，生成的数据也更加真实。Diffusion Model的发展如图1所示：

图1 AIGC-Text to Image 的发展

特别是从2022年5月Stable Diffusion[3]的开源开始，作为一个迅速火出圈的AI技术，Stable Diffusion以极快的速度获得了大量的开源社区关注，开始引领AIGC行业发展。那么，为什么Stable Diffusion能够这么快地火出圈？其根本还是在于生成的效果和效率非常高，极大地降低了创作的门槛，降低了创作的成本。这里列了Stable Diffusion的Discord上的几个例子（见图2），这些图片都可以在Nvidia Tesla A100机器上通过3-4s的时间生成出来。

图2 Stable Diffusion在Discord上的案例

虽然Stable Diffusion取得了很大的成功，但其本身存在一些问题会影响生成效果。主要包括：

问题一：模型的机器评价与人工评价之间缺乏一致性。通过机器评价指标，比如FID值等，评价结果往往和真实的生成效果并不一致，因此不能很好地评价不同模型的效果。而人工评价标准难以统一并有高昂的成本。
问题二：如何在生成过程中实现更高效的控制。如何提高生成图像和文本输入之间的一致性，特别是在使用简短的提示句来生成图像时，目前难以有效地控制所生成图片与文本之间的相关性程度。
问题三：如何进行定制个性化模型。如何定制一个文生图模型，是行业应用的关键。快速的进行新概念/风格/人物的学习，是文生图落地到各应用场景的第一个拦路虎。
问题四：高质量文图数据集的缺乏。数据的重要性不言而喻，大量高质量的文图数据是文生图发展的血液，没有数据再好的算法也发挥不了作用。

本文节选自《新程序员006：人工智能新十年》

如何评价文生图模型的效果

如何评价文生图模型的效果是生成类模型面临的共性问题之一。通常，生成类模型的评价分为机器评价和人工评价两种。机器评价方法如Bleu等，人工评价如ChatGPT中的人工评价等。然而，机器评价结果不完全符合人工评价结果，因此高机器评价并不一定代表生成效果好。

文生图的模型评价也面临同样的问题，现在用于文生图模型评价的机器评价指标比如FID值等指标的评价结果跟真实的图片生成效果并不是一致，因此机器评价的结果并不能够很好的评价不同的文生图模型效果。但是，由于机器评价的便利性和客观性等原因，还是有很多评价基准在采用机器评价指标。比如ArtBench，一个提供了很多不同艺术风格标注数据的数据集，也是用FID指标等机器评价方法来评价不同模型的效果。

从ArtBench的评测结果中可以看到基于GAN模型生成的图片可以获得最高的FID值，说明GAN生成跟训练数据同分布图片的能力还是更强。但同时这种更强的生成能力也是一种限制，限制了GAN模型的泛化能力，使得GAN只偏向于生成更像训练数据中的样本。在2021年NeurIPS上刊载的OpenAI团队的文章Diffusion Models Beat GANs on Image Synthesis[4]，指出了有引导的Diffusion 模型可以在各种机器评价指标上比GANs的效果更好。

但就像前面提到的一样，机器评价指标好就真的会生成更高质量的图片吗？由此可以看出，人工评价可能是更加合适文生图模型的评价方式。但是人工评价没有统一的标准，成本比较高。文章Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark[5]提出了一套人工评价的标准。让人从三种prompts的难度以及三种不同的task维度来对比不同的文生图模型的图片生成效果（见表1），比如SD和DALL-E 2。难度的定义用论文中的原文表述是：“In that case, the task may be easy: generating 1-3 objects, medium-generating 4-10 objects, and hard-generating more than ten objects.”

表1 不同的文生图模型的人工评测结果

论文也给出了人工评价的结果，在数量（counting）和人脸（faces）两个类别的任务上，DALL·E2占优势，而在形状（shapes）这个类型的任务上，SD占优势。从篇文章给出的结果来看，现在的文生图模型中的第一梯队水平模型，在数量和形状方面，还是明显弱于人脸的生成任务的。因此，我们可以从这篇文章中总结出现在文生图模型存在的语言理解的问题，特别是数量和形状在理解能力上偏弱。

文本理解能力可以通过更大更强的语言模型来解决，比如Google提出的Imagen[6]使用了更大的文本模型T5（Text-To-Text Transfer Transformer[7]），并在解码和超分模型中都引入文本的信息来生成具有更丰富细节的图片。为了评价文生图模型的效果，Imagen团队也同时提出了一个文生图的评价基准DrawBench。该基准主要从两个维度来评价文生图的效果:image-text alignment和sample fidelity。其实验指出，用T5作为文本编码器的Imagen模型在这两个维度上都有提升。但是，从上述实验的结果可以得出，在Image框架下将文本编码器从CLIP的文本塔换成T5，会有一定的alignment提升，但是不是特别明显。所以更大的语言模型会带来一定的alignment的提升，但是提升没有预期的高。

整体来看，文生图模型的评价是AIGC继续发展的基石,急需评价体系的建立。

可控生成

从上述论文对文生图的评价结果可以看出来，达到可控生成任重而道远，其中最关键的一点是alignment，还有很大的提升空间。因此，我们可以得到文生图的第二个关键问题——可控生成。通过一句prompts输入来生成图片时，生成的图片和文字之间的alignment会比较弱，比如：

同时输入多个实体不能实现完全生成；
实体之间的关系不能体现；
颜色和数量不能体现；
文字显示不出来。

在现行的一些研究中，研究者也提出引入对文本理解更好的模型来解决可控问题，比如EDiff-I[8]。这篇文章延续了Imagen的思路，既然T5文本理解对于可控生成有帮助，那就把它集成进来，发挥出1+1>2的效果。

但是，从文本模型角度来改进可控生成所需资源比较多，首先需要一个更强的文本模型，然后才能训练得到更好的文生图模型。因此，有一些研究便从可控编辑的角度来解决这个问题，比如一项名为P2P (Prompt-to-Prompt Image Editing with cross attention control[9]) 的研究便期望通过微调prompt达到可控生成的目标（见图3）。

图3 通过微调prompt达到可控生成的目标

InstructPix2Pix [10]这篇文章的思路跟P2P思路很像，也是通过图像编辑来实现可控生成。不一样的是，这篇文章用GPT-3来做prompt微调。从图片编辑这条线上进行研究效果的确很惊艳，但是评价偏弱，没有一个很好的评价标准和体系，还是很难继续推进。图像编辑算法Paint by Example提出了另外一种思路：将可控生成的难度降低，提供一个样本图片，结合图像修复技术来达到局部可控生成。其技术思路很直观，同时提供机器评价和人工评价的结果。

总得来说，这个方向的改进可能会引发下一波文生图应用热潮，但是因为评价方法的缺失，导致进展比较难以衡量。

个性化模型

本文首先从评测的角度探讨了文生图模型的关键问题：可控生成。接着从应用的角度出发，重点研究如何定制一个文生图模型，这是落地各行业应用的关键所在。在影视、动漫、漫画、游戏、媒体、广告、出版、时尚等行业使用文生图模型时，常常会遇到新概念、风格、人物缺失的问题。例如，若需要生成某位明星A的中国风肖像，但该模型并未见过此明星的肖像，也无法识别中国风，这将严重限制文生图模型的应用场景。因此，如何快速新增概念和风格，成为当前研究的重要方向之一。

说到这里，大家第一时间想到的肯定就是DreamBooth[11]、Textual Inversion[12]和美学梯度[13]。

DreamBooth本身是为Imagen设计的，通过三张图就能够快速学习到新概念/风格/人物，但是现在已经迁移到了Stable Diffusion。这个技术有很多个不同的版本，其核心思想是在小样本上微调的同时尽量减少过拟合。

Textual Inversion是从文本编码器的角度来解决新概念引入的问题，其提出新风格和概念的引入需要从文本理解开始，新的风格和概念如果是OOV（Out Of Vocaburary，未登录）的词汇，那我们就在文本编码器上增加这个词汇来解决概念引入的问题。其思路是整个模型的所有参数都不需要调整，只需要增加一个额外的token以及其对应的embedding就可以，即插即用。

美学梯度方法跟之前inpainting的可控生成思路很类似，针对新的风格，我们先降低难度，给出一些新风格的样例（这里是embedding），然后让生成朝着与这个样例更接近的方向展开。

总而言之，这条线上的研究现在也没有什么评价标准和体系，处于方兴未艾的阶段，离落地也很近，基本出来效果就可以直接创业。

高质量数据集

数据的重要性不言而喻，大量高质量的文图数据是文生图发展的血液，没有数据再好的算法也发挥不了作用。数据集不是开源一堆url提供下载就完了，其中包括了水印识别、NSFW（Not Suitable For Work）图片识别、文图匹配过滤等多种预处理操作，甚至包括说明文字的生成、改写和优化等操作。这个方向国外的LAION团队做的非常的扎实，国内也有一些公司开源了数据集。下表2列出，仅供参考。

表2：国内外开源文图数据集

综上，文图数据现在是英文的数据在数量和质量上都比中文和其他语言高了一截，希望未来有十亿级别的高质量中文数据集出现。

结语

文生图模型是当前人工智能领域最具潜力和前景的研究方向之一。未来，随着计算能力的提高和技术的进一步发展，文生图模型的应用前景将会更加广泛和深远。然而，针对其应用过程中存在的一些问题，如模型评价缺乏一致性、控制生成过程效率低下、定制个性化模型困难以及高质量文图数据集缺乏等，需要我们进一步研究探索解决方案。

随着文生图模型的不断发展和完善，我们可以预见到未来人机交互方式的改变。在智能化时代的到来中，文生图模型的应用将会极大地改变人们与计算机交互的方式，让计算机更加“懂人”，进一步提升人机交互的效率和质量，也有望成为人工智能走向真正“人性化”的关键一步。总之，文生图模型作为一项研究热点，具有极其广泛的应用前景，未来也将在技术创新和产业应用中扮演越来越重要的角色。

参考链接

[1] Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning.PMLR, 202

[2] Ramesh, Aditya, et al. "Zero-shot text-to-image generation." International Conference on Machine Learning. PMLR, 2021.

[3] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

[4] Dhariwal, Prafulla, and Alexander Nichol. "Diffusion models beat gans on image synthesis." Advances in Neural Information Processing Systems 34 (2021): 8780-8794.

[5] Petsiuk, Vitali, et al. "Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark." arXiv preprint arXiv:2211.12112 (2022).

[6] Saharia, Chitwan, et al. "Photorealistic text-to-image diffusion models with deep language understanding." Advances in Neural Information Processing Systems 35 (2022): 36479-36494.

[7] Raffel, Colin, et al. "Exploring the limits of transfer learning with a unified text-to-text transformer." The Journal of Machine Learning Research 21.1 (2020): 5485-5551.

[8] Balaji, Yogesh, et al. "ediffi: Text-to-image diffusion models with an ensemble of expert denoisers." arXiv preprint arXiv:2211.01324 (2022).

[9] Hertz, Amir, et al. "Prompt-to-prompt image editing with cross attention control." arXiv preprint arXiv:2208.01626 (2022).

[10] Brooks, Tim, Aleksander Holynski, and Alexei A. Efros. "Instructpix2pix: Learning to follow image editing instructions." arXiv preprint arXiv:2211.09800 (2022).

[11] Ruiz, Nataniel, et al. "Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation." arXiv preprint arXiv:2208.12242 (2022).

[12] Gal, Rinon, et al. "An image is worth one word: Personalizing text-to-image generation using textual inversion." arXiv preprint arXiv:2208.01618 (2022).

[13] Gallego, Victor. "Personalizing Text-to-Image Generation via Aesthetic Gradients." arXiv preprint arXiv:2209.12330 (2022).

作者介绍