Sora背后的技术《可控生成与文本到图像扩散模型》

news2024/11/16 1:21:12

在迅速发展的视觉生成领域中,扩散模型革命性地改变了景观,以其令人印象深刻的文本引导生成功能标志着能力的重大转变。然而,仅依赖文本来条件化这些模型并不能完全满足不同应用和场景的多样化和复杂需求。认识到这一不足,多项研究旨在控制预训练的文本到图像(T2I)模型以支持新颖的条件。在这个综述中,我们对可控生成与T2I扩散模型的文献进行了全面调研,涵盖了这一领域的理论基础和实践进展我们的综述从去噪扩散概率模型(DDPMs)和广泛使用的T2I扩散模型的基础知识简介开始。然后,我们揭示了扩散模型的控制机制,从理论上分析了如何在去噪过程中引入新颖条件进行条件生成。此外,我们提供了这一领域研究的详细概述,从条件视角将其组织成不同的类别:具有特定条件的生成、具有多重条件的生成和通用可控生成。对于所调研的可控生成文献的详尽列表,请参考我们在https://github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models上的整理仓库。

https://www.zhuanzhi.ai/paper/9f4a05bc7007432b269db0583ad4babe

扩散模型,作为视觉生成领域的一个范式转变,已经大幅超越了像生成对抗网络(GANs)这样的传统框架【1】-【8】。作为参数化的马尔科夫链,扩散模型展现出了将随机噪声转化为复杂图像的卓越能力,逐步从噪声过渡到高保真的视觉表征。随着技术的进步,扩散模型在图像生成及相关下游任务中展示了巨大的潜力。

随着这些模型生成的图像质量的提升,一个关键挑战变得越来越明显:实现对这些生成模型的精确控制,以满足复杂多样的人类需求。这个任务超越了简单提高图像分辨率或现实感;它涉及到细致地使生成的输出与用户的特定和细腻的需求以及他们的创造性愿景相匹配。得益于大量多模态文本-图像数据集【9】-【17】的出现和引导机制的发展【18】-【21】,文本到图像(T2I)扩散模型已经成为可控视觉生成领域的一个基石【21】-【26】。这些模型能够生成真实、高质量的图像,准确反映自然语言中提供的描述。

虽然基于文本的条件在推动可控生成领域向前发展方面起到了重要作用,但它们本质上缺乏完全满足所有用户需求的能力。这一限制在一些场景中尤为明显,比如通过文本提示单独无法有效传达的条件,如未见过的人物或独特的艺术风格的描述。这些场景在T2I生成过程中提出了重大挑战,因为这种视觉表征的细微之处和复杂性难以用文本形式封装。认识到这一差距,大量的研究开始转向整合超越文本描述界限的新颖条件到T2I扩散模型中。这一转变进一步得到了强大且开源的T2I扩散模型的出现的促进,如图1a所示。这些进步导致了对多样条件的探索,从而丰富了条件生成的可能性范围,并解决了用户在各种应用中更为复杂和细腻的需求。

尽管有许多调查文章探讨了由AI生成的内容(AIGC)领域,包括扩散模型理论和架构【28】、高效扩散模型【29】、多模态图像合成与编辑【30】、视觉扩散模型【31】-【34】,以及文本到3D应用【35】,但它们通常只简要介绍了控制文本到图像扩散模型或主要关注于其他模态。这种缺乏对T2I模型中新颖条件整合和影响的深入分析凸显了未来研究和探索的一个关键领域。本综述提供了使用文本到图像扩散模型的可控生成的全面回顾,涵盖了理论基础和实际应用。起初,我们提供了T2I扩散模型背景的简要概述,并深入探讨了这些方法的理论基础,阐明了如何将新颖条件整合到T2I扩散模型中。这一探索阐明了先前研究的基本原理,有助于更深入地理解该领域。随后,我们提供了对先前研究的全面概述,强调它们的独特贡献和区别特征。此外,我们探索了这些方法的多样化应用,展示了它们在不同背景和相关任务中的实际效用和影响。

总结来说,我们的贡献包括

  • 我们从条件角度引入了一个结构良好的可控生成方法的分类法,揭示了这一研究领域固有的挑战和复杂性。

  • 我们对引入新颖条件到T2I扩散模型中的两个核心理论机制进行了深入分析:条件评分预测和条件引导评分估计,提供了对这些机制如何在细粒度级别上运作的细致理解。

  • 我们的回顾是全面的,根据我们提出的分类覆盖了广泛的条件生成研究。我们细致地强调了每种方法的显著特征和独特特点。

  • 我们展示了使用T2I扩散模型的条件生成在各种生成任务中的多样化应用,证明了它作为AIGC时代一个基本和有影响力的方面的出现。

本文的其余部分如下组织。第2节提供了去噪扩散概率模型(DDPMs)的简要介绍,展示了广泛使用的文本到图像扩散模型,并呈现了一个结构良好的分类法。在第3节,我们分析了控制机制并揭示了如何在文本到图像扩散模型中引入新颖条件。第4节总结了根据我们提出的分类控制文本到图像扩散模型的现有方法。最后,第7节展示了可控文本到图像生成的应用。

分类法

利用文本到扩散模型进行条件生成的任务代表了一个多方面且复杂的领域。从条件视角来看,我们将这个任务划分为三个子任务(参见图2)。大多数工作研究如何在特定条件下生成图像,例如图像引导的生成和草图到图像的生成。为了揭示这些方法的机械理论和特点,我们根据它们的条件类型进一步对它们进行分类。这项任务的主要挑战在于如何使预训练的文本到图像(T2I)扩散模型学会模拟新类型的条件,并与文本条件一起生成,同时确保产生的图像质量高。此外,一些方法探索如何使用多个条件生成图像,例如给定角色的身份和姿态。这些任务的主要挑战在于多个条件的整合,需要能力同时在生成结果中表达几个条件。此外,一些工作尝试开发一种条件不可知的生成方法,可以利用这些条件产生结果。

可控文本到图像生成与特定条件

在文本到图像扩散模型的基础上,引入新颖条件来指导生成过程代表了一个复杂和多方面的任务。在接下来的章节中,我们将根据条件视角回顾现有的条件生成方法,对它们的方法论提供全面的评述。

在多条件生成的任务中,目标是在多个条件下生成图像,例如在用户定义的姿态下生成特定人物,或生成具有三种个性化身份的人物。在本节中,我们从技术角度对这些方法进行全面概述,将它们分类为联合训练(第5.1节)、权重融合(第5.3节)、基于注意力的整合(第5.4节)、引导融合(第5.5节)和持续学习(第5.2节)。注意,一些其他的可控生成方法也展示了多条件合成的能力,而无需专门的设计【41】、【42】、【215】。

通用可控文本到图像生成

除了针对特定类型条件的方法外,还存在旨在适应图像生成中任意条件的通用方法。这些方法根据它们的理论基础被广泛分类为两组:通用条件评分预测框架和通用条件引导评分估计。

应用

在本节中,我们关注那些在生成过程中利用新颖条件来解决特定任务的创新方法。通过强调这些开创性的方法,我们旨在突出条件生成不仅在改变内容创作的格局,还在各个领域扩大创造力和功能性的视野。后续的讨论将提供这些模型的变革性影响及其在多样化应用中的潜力的见解。

结论

在这篇全面的综述中,我们深入探讨了使用文本到图像扩散模型的条件生成领域,揭示了在文本引导生成过程中融入的新颖条件。起初,我们为读者提供了基础知识,介绍了去噪扩散概率模型、著名的文本到图像扩散模型以及一个结构良好的分类法。随后,我们揭示了将新颖条件引入T2I扩散模型的机制。然后,我们总结了以前的条件生成方法,并从理论基础、技术进步和解决策略的角度对它们进行了分析。此外,我们探索了可控生成的实际应用,强调了其在AI生成内容时代的重要作用和巨大潜力。这篇综述旨在提供对当前可控T2I生成格局的全面理解,从而为这一动态研究领域的持续发展和扩展做出贡献。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1510186.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

day41 动态规划part3

343. 整数拆分 中等 给定一个正整数 n ,将其拆分为 k 个 正整数 的和( k > 2 ),并使这些整数的乘积最大化。 返回 你可以获得的最大乘积 。 但是dp[0] 和 dp[1]为什么是0值得讨论,或者说不用讨论,压根…

Anybus获得IEC 62443-4-1工业网络安全标准ML3认证

HMS 工业网络旗下 Anybus 品牌已成功获得国际电工委员会(IEC)62443-4-1:安全产品开发生命周期要求(一项工业网络安全标准)的 3 级成熟度(ML3)认证。 该认证由全球知名的测试服务提供商 TV Rhein…

vite配置

"vite": "^5.1.4" resolve.alias:配置别名 1、执行npm install -D types/node 或者 yarn add types/node -D 2、以下配置代表访问src时可以用“”代替 resolve: {alias: {"": path.resolve(__dirname, "./src"),},}, 使…

龙芯2K1000双核处理器主板支持SATA固态盘,4G,GPS,WIFI蓝牙等接口

硬件配置 国产龙芯处理器,双核64位系统,板载2GDDR3内存,流畅运行Busybox、Buildroot、Loognix、QT5.12 系统! 接口全 板载4路USB HOST、2路千兆以太网、2路UART、2路CAN总线、Mini PCIE、SATA固态盘接口、4G接口、 GPS接口WIFI、蓝牙、Mini…

Java零基础入门到精通_Day 1

01 Java 语言发展史 Java语言是美国Sun公司(StanfordUniversity Network)在1995年推出的 计算机语言Java之父:詹姆斯高斯林(ames Gosling) 重要的版本过度: 2004年 Java 5.0 2014年 Java 8.0 2018年 9月 Java 11.0 (目前所使用的) 02 J…

Altair® Flux® 仿真软件加速电机、传感器和执行器设计

Altair Flux 仿真软件加速电机、传感器和执行器设计 Flux 着眼于机电设备的复杂性,旨在精确优化其性能、效率、尺寸、成本或重量,为终端用户带来更优质的创新的以及高价值的产品。Flux 可对静磁、交流稳态和瞬态条件,以及电热特性进行仿真。…

【办公类-40-02】20240311 python模仿PPT相册功能批量插入照片,更改背景颜色 (家长会系列二)

作品展示——用Python插入PPT相册 背景需求: 马上就要家长会,我负责做会议前的照片滚动PPT,通常都是使用PPT的相册功能批量导入照片, 生成给一个新的PPT文件 更改背景颜色 设置4秒间隔,应用到全部 保存,改…

Midjourney从入门到实战:图像生成命令及参数详解

目录 0 专栏介绍1 Midjourney Bot常用命令2 Midjourney绘图指令格式3 Midjourney绘图指令参数3.1 模型及版本3.2 画面比例3.3 风格化3.4 图片质量3.5 混乱值3.6 随机数种子3.7 重复贴图3.8 停止3.8 垫图权重3.9 提示词权重分割 0 专栏介绍 🔥Midjourney是目前主流的…

FastAPI 学习笔记

FastAPI 学习笔记 0. 引言1. 快速开始2. 升级示例代码 0. 引言 在 Python 这个充满活力的生态系统中,FastAPI 应运而生,它是一个现代的、快速的 Web 框架,专注于构建 RESTful API。 无论你是一名有经验的 Python 开发人员,还是一…

Flask python 开发篇:项目布局

一、背景简介 Flask应用程序可以像单个文件一样简单。就像上一篇简单实现一个接口一样,所有的东西都在一个python文件内; 然而,当项目越来越大的时候,把所有代码放在单个文件中就有点不堪重负了。 Python 项目使用 包 来管理代码…

2023年第三届中国高校大数据挑战赛第二场赛题D题赛题:行业职业技术培训能力评价(成品论文 代码与思路 视频讲解)

赛题 中国是制造业大国,产业门类齐全,每年需要培养大量的技能娴熟的技术工人进入工厂。某行业在全国有多所不同类型(如国家级、省级等)的职业技术培训学校,进行 5 种技能培训。学员入校时需要进行统一的技能考核&…

Python之禅——跟老吕学Python编程

Python之禅——跟老吕学Python编程 Python之禅1.**Beautiful is better than ugly.**2.**Explicit is better than implicit.**3.**Simple is better than complex.**4.**Complex is better than complicated.**5.**Flat is better than nested.**6.**Spare is better than den…

每日学习笔记:C++ STL 的List

定义 特点 操作函数 关于c.merge(c2)的分析,详见: 。。。。 C list merge()用法及代码示例 - 纯净天空 (vimsky.com) 异常安全性 运用实例

WPF Button去除按钮边框,添加下划线

<Button Width"45" Height"25" FontSize"20" Background"Transparent" BorderBrush"Transparent" Foreground"#FFC9A322" Click"Btn_Retry_Click" ><TextBlock><Underline>重试</…

Redis常见数据类型下

目录 Hash 哈希 常用指令 HSET HGET HEXISTS HDEL HKEYS HVALS HGETALL HMGET 内部编码 Hash类型和关系型数据库 缓存方式对比 List 列表 特点 常用命令 LPUSH LPUSHX RPUSH RPUSHX LRANGE LPOP / RPOP LINDEX LINSERT 阻塞(BLOCK)版…

STM32存储左右互搏 SPI总线读写SD/MicroSD/TF卡

STM32存储左右互搏 SPI总线读写SD/MicroSD/TF卡 SD/MicroSD/TF卡是基于FLASH的一种常见非易失存储单元&#xff0c;由接口协议电路和FLASH构成。市面上由不同尺寸和不同容量的卡&#xff0c;手机领域用的TF卡实际就是MicroSD卡&#xff0c;尺寸比SD卡小&#xff0c;而电路和协…

中兴服务器R6900 G5实力领先,有效助力大模型训练

日前&#xff0c;中兴通讯推出专为大规模模型训练而设计的旗舰GPU服务器—R6900 G5。据悉&#xff0c;该中兴服务器具备卓越的计算性能、高速网络通信能力以及创新的能效表现&#xff0c;有望为人工智能和深度学习等领域带来全新的突破。 R6900 G5搭载了中兴通讯最新一代的英特…

开源的java视频处理库介绍

本文将为您详细讲解 Java 开源的视频处理库&#xff0c;以及它们的特点、区别和应用场景。Java 社区提供了多种视频处理库&#xff0c;这些库可以帮助您在 Java 应用程序中实现视频的录制、编辑、转换和播放等功能。 1. JCodec 特点 - 基于 Java 的视频编解码库。 - 支…

嵌入式C语言(八)

继续来看看新的属性&#xff1a;weak 这个符号知道是弱&#xff0c;但是这个是干嘛的呢&#xff1f;我们先来学习一下强符号和弱符号 强符号和弱符号 GNU C通过weak属性声明&#xff0c;**可以将一个强符号转换为弱符号。**使用方法如下。 void __attribute__((weak)) func(…

【OpenGL手册15】 多光源

目录 一、说明二、定向光三、点光源四、合并结果练习 一、说明 我们在前面的教程中已经学习了许多关于OpenGL中光照的知识&#xff0c;其中包括冯氏着色(Phong Shading)、材质(Material)、光照贴图(Lighting Map)以及不同种类的投光物(Light Caster)。在这一节中&#xff0c;我…