文生图关键问题探索:个性化定制和效果评价

news2025/1/19 11:02:26

文生图(Text-to-Image Generation)是AIGC(AI Generated Content,人工智能生成内容)的一个主要方向。近年来,文生图模型的效果和质量得到飞速提升,投资界和研究界都在密切关注文生图模型的进展。这一领域还有什么样的问题或者发展方向?本文介绍了近期文生图的发展历程,从四个不同角度来介绍这一领域目前面临的关键问题和研究进展。

作者 | 刘广
责编 | Carol
出品 | 《新程序员》编辑部

2021年初,OpenAI团队提出了CLIP[1]模型并开源了模型权重,其核心点有三个:通过对比学习进行图文匹配学习,开源CLIP模型权重和发布CLIP Benchmark评测。从此,文图多模态领域开始收到广泛关注并迅速发展。文生图应用最早出现的标志是OpenAI推出DALL· E[2],自此各大公司开始不断推出新的文生图模型,实际生成效果和效率相对于从前基于自回归(Auto Regressive)和对抗网络(GAN)等文生图方法均提升显著。

DALL·E的应用技术是Diffusion Model,主要用于生成图像、音频、文本等数据。它通过模拟数据的去噪过程来生成新的数据。与生成对抗网络(GAN)相比,Diffusion models的生成过程更加稳定,生成的数据也更加真实。Diffusion Model的发展如图1所示:


图1 AIGC-Text to Image 的发展

 特别是从2022年5月Stable Diffusion[3]的开源开始,作为一个迅速火出圈的AI技术,Stable Diffusion以极快的速度获得了大量的开源社区关注,开始引领AIGC行业发展。那么,为什么Stable Diffusion能够这么快地火出圈?其根本还是在于生成的效果和效率非常高,极大地降低了创作的门槛,降低了创作的成本。这里列了Stable Diffusion的Discord上的几个例子(见图2),这些图片都可以在Nvidia Tesla A100机器上通过3-4s的时间生成出来。


图2 Stable Diffusion在Discord上的案例

虽然Stable Diffusion取得了很大的成功,但其本身存在一些问题会影响生成效果。主要包括:

  • 问题一:模型的机器评价与人工评价之间缺乏一致性。通过机器评价指标,比如FID值等,评价结果往往和真实的生成效果并不一致,因此不能很好地评价不同模型的效果。而人工评价标准难以统一并有高昂的成本。
  • 问题二:如何在生成过程中实现更高效的控制。如何提高生成图像和文本输入之间的一致性,特别是在使用简短的提示句来生成图像时,目前难以有效地控制所生成图片与文本之间的相关性程度。
  • 问题三:如何进行定制个性化模型。如何定制一个文生图模型,是行业应用的关键。快速的进行新概念/风格/人物的学习,是文生图落地到各应用场景的第一个拦路虎。
  • 问题四:高质量文图数据集的缺乏。数据的重要性不言而喻,大量高质量的文图数据是文生图发展的血液,没有数据再好的算法也发挥不了作用。


 本文节选自《新程序员006:人工智能新十年》


如何评价文生图模型的效果

如何评价文生图模型的效果是生成类模型面临的共性问题之一。通常,生成类模型的评价分为机器评价和人工评价两种。机器评价方法如Bleu等,人工评价如ChatGPT中的人工评价等。然而,机器评价结果不完全符合人工评价结果,因此高机器评价并不一定代表生成效果好。

文生图的模型评价也面临同样的问题,现在用于文生图模型评价的机器评价指标比如FID值等指标的评价结果跟真实的图片生成效果并不是一致,因此机器评价的结果并不能够很好的评价不同的文生图模型效果。但是,由于机器评价的便利性和客观性等原因,还是有很多评价基准在采用机器评价指标。比如ArtBench,一个提供了很多不同艺术风格标注数据的数据集,也是用FID指标等机器评价方法来评价不同模型的效果。

从ArtBench的评测结果中可以看到基于GAN模型生成的图片可以获得最高的FID值,说明GAN生成跟训练数据同分布图片的能力还是更强。但同时这种更强的生成能力也是一种限制,限制了GAN模型的泛化能力,使得GAN只偏向于生成更像训练数据中的样本。在2021年NeurIPS上刊载的OpenAI团队的文章Diffusion Models Beat GANs on Image Synthesis[4],指出了有引导的Diffusion 模型可以在各种机器评价指标上比GANs的效果更好。

但就像前面提到的一样,机器评价指标好就真的会生成更高质量的图片吗?由此可以看出,人工评价可能是更加合适文生图模型的评价方式。但是人工评价没有统一的标准,成本比较高。文章Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark[5]提出了一套人工评价的标准。让人从三种prompts的难度以及三种不同的task维度来对比不同的文生图模型的图片生成效果(见表1),比如SD和DALL-E 2。难度的定义用论文中的原文表述是:“In that case, the task may be easy: generating 1-3 objects, medium-generating 4-10 objects, and hard-generating more than ten objects.”

表1  不同的文生图模型的人工评测结果

论文也给出了人工评价的结果,在数量(counting)和人脸(faces)两个类别的任务上,DALL·E2占优势,而在形状(shapes)这个类型的任务上,SD占优势。从篇文章给出的结果来看,现在的文生图模型中的第一梯队水平模型,在数量和形状方面,还是明显弱于人脸的生成任务的。因此,我们可以从这篇文章中总结出现在文生图模型存在的语言理解的问题,特别是数量和形状在理解能力上偏弱。

文本理解能力可以通过更大更强的语言模型来解决,比如Google提出的Imagen[6]使用了更大的文本模型T5(Text-To-Text Transfer Transformer[7]),并在解码和超分模型中都引入文本的信息来生成具有更丰富细节的图片。为了评价文生图模型的效果,Imagen团队也同时提出了一个文生图的评价基准DrawBench。该基准主要从两个维度来评价文生图的效果:image-text alignment和sample fidelity。其实验指出,用T5作为文本编码器的Imagen模型在这两个维度上都有提升。但是,从上述实验的结果可以得出,在Image框架下将文本编码器从CLIP的文本塔换成T5,会有一定的alignment提升,但是不是特别明显。所以更大的语言模型会带来一定的alignment的提升,但是提升没有预期的高。

整体来看,文生图模型的评价是AIGC继续发展的基石,急需评价体系的建立。

可控生成

 从上述论文对文生图的评价结果可以看出来,达到可控生成任重而道远,其中最关键的一点是alignment,还有很大的提升空间。因此,我们可以得到文生图的第二个关键问题——可控生成。通过一句prompts输入来生成图片时,生成的图片和文字之间的alignment会比较弱,比如:

  • 同时输入多个实体不能实现完全生成;
  • 实体之间的关系不能体现;
  • 颜色和数量不能体现;
  • 文字显示不出来。

在现行的一些研究中,研究者也提出引入对文本理解更好的模型来解决可控问题,比如EDiff-I[8]。这篇文章延续了Imagen的思路,既然T5文本理解对于可控生成有帮助,那就把它集成进来,发挥出1+1>2的效果。

但是,从文本模型角度来改进可控生成所需资源比较多,首先需要一个更强的文本模型,然后才能训练得到更好的文生图模型。因此,有一些研究便从可控编辑的角度来解决这个问题,比如一项名为P2P (Prompt-to-Prompt Image Editing with cross attention control[9]) 的研究便期望通过微调prompt达到可控生成的目标(见图3)。

图3 通过微调prompt达到可控生成的目标

InstructPix2Pix [10]这篇文章的思路跟P2P思路很像,也是通过图像编辑来实现可控生成。不一样的是,这篇文章用GPT-3来做prompt微调。从图片编辑这条线上进行研究效果的确很惊艳,但是评价偏弱,没有一个很好的评价标准和体系,还是很难继续推进。图像编辑算法Paint by Example提出了另外一种思路:将可控生成的难度降低,提供一个样本图片,结合图像修复技术来达到局部可控生成。其技术思路很直观,同时提供机器评价和人工评价的结果。

总得来说,这个方向的改进可能会引发下一波文生图应用热潮,但是因为评价方法的缺失,导致进展比较难以衡量。

个性化模型

本文首先从评测的角度探讨了文生图模型的关键问题:可控生成。接着从应用的角度出发,重点研究如何定制一个文生图模型,这是落地各行业应用的关键所在。在影视、动漫、漫画、游戏、媒体、广告、出版、时尚等行业使用文生图模型时,常常会遇到新概念、风格、人物缺失的问题。例如,若需要生成某位明星A的中国风肖像,但该模型并未见过此明星的肖像,也无法识别中国风,这将严重限制文生图模型的应用场景。因此,如何快速新增概念和风格,成为当前研究的重要方向之一。

说到这里,大家第一时间想到的肯定就是DreamBooth[11]、Textual Inversion[12]和美学梯度[13]。

DreamBooth本身是为Imagen设计的,通过三张图就能够快速学习到新概念/风格/人物,但是现在已经迁移到了Stable Diffusion。这个技术有很多个不同的版本,其核心思想是在小样本上微调的同时尽量减少过拟合。

Textual Inversion是从文本编码器的角度来解决新概念引入的问题,其提出新风格和概念的引入需要从文本理解开始,新的风格和概念如果是OOV(Out Of Vocaburary,未登录)的词汇,那我们就在文本编码器上增加这个词汇来解决概念引入的问题。其思路是整个模型的所有参数都不需要调整,只需要增加一个额外的token以及其对应的embedding就可以,即插即用。

美学梯度方法跟之前inpainting的可控生成思路很类似,针对新的风格,我们先降低难度,给出一些新风格的样例(这里是embedding),然后让生成朝着与这个样例更接近的方向展开。

总而言之,这条线上的研究现在也没有什么评价标准和体系,处于方兴未艾的阶段,离落地也很近,基本出来效果就可以直接创业。

高质量数据集

数据的重要性不言而喻,大量高质量的文图数据是文生图发展的血液,没有数据再好的算法也发挥不了作用。数据集不是开源一堆url提供下载就完了,其中包括了水印识别、NSFW(Not Suitable For Work)图片识别、文图匹配过滤等多种预处理操作,甚至包括说明文字的生成、改写和优化等操作。这个方向国外的LAION团队做的非常的扎实,国内也有一些公司开源了数据集。下表2列出,仅供参考。

表2:国内外开源文图数据集

综上,文图数据现在是英文的数据在数量和质量上都比中文和其他语言高了一截,希望未来有十亿级别的高质量中文数据集出现。

结语

文生图模型是当前人工智能领域最具潜力和前景的研究方向之一。未来,随着计算能力的提高和技术的进一步发展,文生图模型的应用前景将会更加广泛和深远。然而,针对其应用过程中存在的一些问题,如模型评价缺乏一致性、控制生成过程效率低下、定制个性化模型困难以及高质量文图数据集缺乏等,需要我们进一步研究探索解决方案。

随着文生图模型的不断发展和完善,我们可以预见到未来人机交互方式的改变。在智能化时代的到来中,文生图模型的应用将会极大地改变人们与计算机交互的方式,让计算机更加“懂人”,进一步提升人机交互的效率和质量,也有望成为人工智能走向真正“人性化”的关键一步。总之,文生图模型作为一项研究热点,具有极其广泛的应用前景,未来也将在技术创新和产业应用中扮演越来越重要的角色。

参考链接

[1] Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning.PMLR, 202

[2] Ramesh, Aditya, et al. "Zero-shot text-to-image generation." International Conference on Machine Learning. PMLR, 2021.

[3] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

[4] Dhariwal, Prafulla, and Alexander Nichol. "Diffusion models beat gans on image synthesis." Advances in Neural Information Processing Systems 34 (2021): 8780-8794.

[5] Petsiuk, Vitali, et al. "Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark." arXiv preprint arXiv:2211.12112 (2022).

[6] Saharia, Chitwan, et al. "Photorealistic text-to-image diffusion models with deep language understanding." Advances in Neural Information Processing Systems 35 (2022): 36479-36494.

[7] Raffel, Colin, et al. "Exploring the limits of transfer learning with a unified text-to-text transformer." The Journal of Machine Learning Research 21.1 (2020): 5485-5551.

[8] Balaji, Yogesh, et al. "ediffi: Text-to-image diffusion models with an ensemble of expert denoisers." arXiv preprint arXiv:2211.01324 (2022).

[9] Hertz, Amir, et al. "Prompt-to-prompt image editing with cross attention control." arXiv preprint arXiv:2208.01626 (2022).

[10] Brooks, Tim, Aleksander Holynski, and Alexei A. Efros. "Instructpix2pix: Learning to follow image editing instructions." arXiv preprint arXiv:2211.09800 (2022).

[11] Ruiz, Nataniel, et al. "Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation." arXiv preprint arXiv:2208.12242 (2022).

[12] Gal, Rinon, et al. "An image is worth one word: Personalizing text-to-image generation using textual inversion." arXiv preprint arXiv:2208.01618 (2022).

[13] Gallego, Victor. "Personalizing Text-to-Image Generation via Aesthetic Gradients." arXiv preprint arXiv:2209.12330 (2022).

作者介绍


 刘广,北京邮电大学智能科学与技术博士,北京智源人工智能研究院NLP和多模态研究中心算法研究员。FlagAI核心贡献者,主要研究方向是预训练大模型和多模态文图生成等方向。在人工智能领域顶级学术会议和国际学术期刊上发表论文数篇,发明专利申请十余项。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/539997.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

二苯基环辛炔-生物素,DBCO-Biotin点击化学DBCO生物素;CAS:1418217-95-4

中文名称:二苯并环辛炔-生物素 英文名称:DBCO-Biotin CAS:1418217-95-4 分子式:C28H30N4O3S 分子量:502.63 性状:固体粉末 保存方法:-20℃避光避湿保存 点击化学DBCO发生在水中&#xff…

了解这3大特性,再也不担心传输线问题了!

电阻是一个实实在在的物理元器件,通过欧姆定律我们可以知道,电压、电流和电阻三者之间的关系,UI*R。 我们通过一个具体的电路来分析这三者之间的具体关系,请看下面的一张最简单的电路图。这个电路图只有一个电源一个电阻和一些导…

JVM如何安装IBM产品虚拟机openJ9和idea更换jvm

安装前提是卸载掉其他产品或版本的虚拟机防止冲突的发生 1.openJ9是IBM产品的虚拟机 1.1官网下载 1.2openJ9官网介绍 2.下载后的产品 3.点击安装–选择默认安装路径 默认路径–C:\Program Files\Semeru\ 3.1安装完成 4.配置jdk环境变量JAVA_HOME 5.配置Path–作用是在操作…

【游戏逆向】某某游戏邮件遍历分析

邮件常常用来远程交易,这样可以节省交易时间,并且降低数据的需求。邮件遍历的分析,一般是以邮件名字,邮件数量等为突破口。不过有些游戏的邮件名字并不存放在邮件对象中,或者在对象中也不会改变邮件的本地显示&#xf…

Canal搭建 idea设置及采集数据到kafka

Canal GitHub:https://github.com/alibaba/canal#readme 实时采集工具canal:利用mysql主从复制的原理,slave定期读取master的binarylog对binarylog进行解析。 canal工作原理 canal模拟MySQL slave的交互协议,伪装自己为MySQL slav…

tb-gateway配置modbus

1、在tb_gateway.yaml开启modbus连接器 2、配置modbus.json 2.1、配置文件示例 {"master": {"slaves": [{"host": "127.0.0.1","port": 5021,"type": "tcp","method": "socket",…

DBCO-Cy3,荧光染料标记点击化学二苯基环辛炔CAS 1782950-79-1;DBCO-Cyanine3分子量983.18

中文名称:二苯基环辛炔-CY3 中文别称:花菁染料CY3标记DBCO 英文名称:DBCO-CY3 英文别称:DBCO-Cyanine3 性状:红色固体或粉末 分子量:983.18 分子式:C50H54N4O11S3 CSA:1782950-79-1 激发…

ESP32-S3 N8R2 烧录调试记录

ESP32 型号:ESP32-S3-WROOM-1(M0N8R2) ESP32 烧录器型号:ESP Prog v1.0 IOTMCU 烧录器的开关按键是复位按键。 接线图如下: 注意:RX连 RX TX连TX EN连RST Arudion IDE 配置如下: 注意 Arudino 中使用串口为 Serial…

【计算机网络】| Http.*协议该知道的那些事儿 | 面经

本文章参考了很多文档文献整理成狮子自己喜欢的风格类型文字,主要有: 《图解网络-小林coding》、Github上面的《前端语音社群》,ChatGpt 3.5 大家有兴趣可以去找来看看,一起上岸!!! 目录 面试官…

leecode654——最大二叉树

leecode最大二叉树 🌻题目要求: 给定一个不重复的整数数组 nums 。 最大二叉树 可以用下面的算法从 nums 递归地构建: 创建一个根节点,其值为 nums 中的最大值。 递归地在最大值 左边 的 子数组前缀上 构建左子树。 递归地在最大值 右边 的…

数据信托:可信的数据流通模式

数据信托:可信的数据流通模式 黄京磊, 李金璞, 汤珂 清华大学社会科学学院经济学研究所,北京 100084 摘要:数据信托可被视作一种新型的、可信的数据流通模式。数据信托不仅是一种保障信息安全的组织结构,还是一种增进数据要素市场…

DreamGPT - 基于生成式AI的灵感激发器

dreamGPT是第一个利用LLM大模型的幻觉(hallucinations)进行发散思维的灵感激发系统,目的是帮助你产生新的创新想法。 推荐:用 NSDT设计器 快速搭建可编程3D场景。 LLM的幻觉通常被视为大模型的缺陷,但如果这一特性可以…

什么是KD树?

一、什么是KD树? KD树(K-Dimensional Tree)是一种用于高效处理多维数据的数据结构。它是二叉搜索树的一种变体,在每个节点上对数据进行分割,从而构建一个多维空间的层次结构。 因为KD树是基于二叉搜索树的特性构建的&…

【C++初阶】C++内存分配与动态内存管理

​ ​📝个人主页:Sherry的成长之路 🏠学习社区:Sherry的成长之路(个人社区) 📖专栏链接:C初阶 🎯长路漫漫浩浩,万事皆有期待 文章目录 C内存分配与动态内存管…

端口扫描的CS木马样本的分析

序言 病毒、木马是黑客实施网络攻击的常用兵器,有些木马、病毒可以通过免杀技术的加持躲过主流杀毒软件的查杀,从而实现在受害者机器上长期驻留并传播。 CobaltStrike基础 Cobalt Strike简称CS,它是一款非常好用的渗透测试工具&#xff0c…

网络编程--select实现IO复用

何为复用 简单来说,复用就是在1个通信频道中传递多个数据的技术。 常见的复用方式有时分复用和频分复用。 时分复用:即在某一时间段内容,只允许传输一个数据。 频分复用:指的是在某一时间段可以传输多个“频率”不同的数据。 …

朱金宝:数据治理产品发展趋势及Datablau产品最新动态

在刚刚结束的2023数据治理新实践峰会上,Datablau数语科技联合创始人&CTO朱金宝先生分享了对数据治理产品发展趋势的深度思考及Datablau新产品预览,并在现场发布了两款最新工具。 以下是朱金宝先生的演讲实录,为了方便阅读,小…

商家中心之java商城 java电子商务Spring Cloud+Spring Boot+mybatis+MQ+VR全景+b2b2c

1. 涉及平台 平台管理、商家端(PC端、手机端)、买家平台(H5/公众号、小程序、APP端(IOS/Android)、微服务平台(业务服务) 2. 核心架构 Spring Cloud、Spring Boot、Mybatis、Redis 3. 前端框架…

字符串String

目录 String 字符串比较 charAt 取数组中的值 案例 substring 案例:手机号加密​ StringBuilder StringBuilder提高效率原理图 StringJoiner 字符串拼接底层方法 String 创造方法 直接赋值通过new关键字 / 构造方法 字符串比较 equals :要求比…

chatgpt赋能Python-pycharm滚轮调大小

PyCharm使用技巧:滚轮调整代码大小提高工作效率 介绍 PyCharm是目前最受欢迎的Python开发IDE之一。然而,即使在使用PyCharm多年的开发者中,很多人都不知道如何使用滚轮来调整代码显示的大小。这在工作中可能会导致眼睛疲劳,降低…