DenseDiffusion:Dense Text-to-Image Generation with Attention Modulation

news2024/12/28 21:15:09

1 研究目的

该文献的研究目的主要是:

探讨一种更为广泛的调制方法,通过设计多个正则化项来优化图像合成过程中的空间控制。论文的大致思想是,在现有的基于数据驱动的图像合成系统基础上,通过引入更复杂的调制策略,实现对文本描述和空间控制更为精确的图像合成。

在研究中,作者发现了以下问题:

现有的文本到图像扩散模型很难在给定密集字幕的情况下合成逼真的图像,并且倾向于省略或混合不同对象的视觉特征。其中每个文本提示为特定图像区域提供详细的描述,用户很难仅使用文本提示精确控制生成图像的场景布局。有些模型提供了对图像布局的控制,但它们通常需要每次重新训练新的控制类型或增加推理时间。

为了解决这些问题,作者提出了一种新的方法:

提出了 DenseDiffusion,这是一种无需训练的方法,它采用预训练的文本到图像模型来处理这种密集的字幕,同时提供对场景布局的控制。

  • 首先分析了生成的图像布局与预训练模型的中间注意图之间的关系,以表明生成的图像的布局与自我注意和交叉注意图显著相关,但专注于空间控制而不是图像编辑的图像合成。
  • 接下来,基于这一观察,动态根据布局条件调节中间注意力图,开发了一种注意力调制方法,根据布局引导对象出现在特定区域。不需要额外的微调或数据集
  • 进一步提出考虑原始注意力分数的值范围并根据每个片段的面积调整调制程度。

该方法基于自注意力和交叉注意力映射,通过实时调制中间注意力映射来适应布局条件。

此外,作者还考虑了原始注意力得分的值范围,并根据每个区域的面积调整调制的程度。

这种方法旨在更准确地反映文本和布局条件,从而提高图像合成的质量和灵活性

2 方法介绍

2.1 前期介绍

2.1.1 注意力分数分析

通过分析稳定扩散产生的16 × 16注意图来展示类似的趋势。

随着图像生成的进行,注意力图往往类似于上面的图像布局。

  • 在 (a) 中,可视化了“sloth”和“beer”的交叉注意力图。感兴趣的对象用蓝色和黄色的边界框概述。
  • 在 (b) 中,展示了自注意力层中红框中标记的标记键注意力图。
  • 由于时间步 t 接近零,属于同一对象的标记更仔细地通信,影响图像布局。

匹配键和未匹配键的注意力分数分析。首先,YOLOv7检测对象边界框。

  • 在交叉注意力层的上下文中,如果键的文本标记与框的类标签匹配,定义一个匹配键。
  • 在自注意力层中,框内的图像标记有资格作为匹配的键。
  • 在这两个层中,匹配的键始终比不匹配的键具有更高的平均值和最大注意力值;属于同一对象的查询键对在生成过程中往往具有更大的分数。

为什么要进行匹配键和为匹配键的注意力分数分析?

      其目的主要是为了探究和解释在自注意力层和交叉注意力层中,注意力机制是如何运作的,以及这种机制如何影响图像的生成过程。

首先,匹配键和未匹配键的区分是基于查询-键对是否属于同一对象。在注意力机制中,每个查询都会与所有的键进行匹配,计算得到一个注意力分数,这个分数决定了在生成新特征时,应该给予哪些键(即哪些位置或特征)多大的权重。

对于匹配键,即查询和键属于同一对象的情况,理论上,它们之间的注意力分数应该更高,因为模型需要确保同一对象内的信息能够得到有效传播和整合。

对于未匹配键,即查询和键属于不同对象的情况,注意力分数可能相对较低,以避免不同对象之间的特征混淆。

通过对比匹配键和未匹配键的注意力分数,可以验证模型的注意力机制是否按照预期工作。

  • 如果匹配键的分数显著高于未匹配键,那么说明模型能够有效地识别和整合同一对象内的信息。
  • 如果两者分数相差不大,或者未匹配键的分数过高,可能意味着模型在处理不同对象时存在混淆,需要进一步优化。

此外,这种分析还有助于理解模型在生成过程中的不同阶段如何利用注意力机制的

  • 早期阶段,模型可能更注重位置和对象的基本形状,
  • 后期阶段,可能更注重细节和纹理。

通过比较不同阶段的注意力分数,可以揭示模型在生成过程中的这种变化趋势。

2.1.2 注意力层

注意层是稳定扩散的构建块之一,它根据注意图A∈R|query|×|keys|更新中间特征,定义如下:

其中 Q 和 K 是查询和键值,每个值都从中间特征和上下文特征映射。这里 d 表示键和查询特征的长度。

  • 自注意力层中,中间特征也用作上下文特征,允许我们通过连接不同区域的图像标记来合成全局连贯的结构。
  • 交叉注意力层更新以文本特征为条件,这些特征使用 CLIP 文本编码器从输入文本标题 c 编码。

2.2 布局引导注意调制

上述的注意力图的分析结果促使作者干预生成过程调制原始分数以更好地反映文本和布局条件。具体来说,我们将注意力图调制如下:

引入了矩阵 Mpos、Mneg ∈ R|query|×|keys|来考虑原始值范围,旨在保留预训练模型的生成能力。为了进一步根据每个对象的大小调整调制程度,计算矩阵S∈R|query|×|keys|,表示每个图像查询标记的段面积。

其中每个段\left ( c_{n} ,m_{n}\right )描述单个区域,如上图所示。

这里c_{n}是全文标题c的非重叠部分

m_{n}表示表示表示每个区域的二值映射

A是注意力图

A'是调制后的注意力图

给定输入条件,我们动态调制所有注意力层的注意力图,以便 c_{n}描述的对象可以在相应的区域m_{n}中生成。为了保持预训练模型的生成能力,作者设计了调制来考虑原始值范围和每个片段的面积。

2.2.1 交叉注意力层注意调制

在交叉注意力层中,根据文本特征更新中间图像特征,这些特征构建对象的外观和布局。它们反映的程度和位置由  图像标记和文本标记  之间的注意力分数决定。因此,我们修改了交叉注意力图,以根据其相应的布局条件 m_{n}在特定区域中聚合某些文本特征

2.2.2 自我注意力层注意调制

自注意力层允许中间特征相互交互以创建全局连贯的结果。

注意力调制旨在限制不同段标记之间的通信,从而防止不同对象特征的混合。具体来说,增加了同一段中标记的注意力分数,并将其减少到不同段中的标记的注意力得分来实现其目的。

这样做可以使得自注意力层更好地反映文本和布局条件,使得属于同一对象的图像标记对在自注意力层中展现出更高的得分。

2.2.3 值范围自适应注意调制

由于作者的方法改变了原始的去噪过程,它可能会破坏预训练模型的图像质量。

为了减轻这种风险,根据原始注意力分数的范围调制值。

计算以下矩阵来识别每个查询的最大值和最小值,确保调制值保持在原始范围附近。因此,调整与原始值和最大值(对于正对)或最小值(对于负对)之间的差异成正比

2.2.4掩码区自适应注意调制

当段之间存在较大的面积差异时,观察到明显的质量下降。

具体来说,如果一个段的面积比其他段小得多,我们的方法可能无法生成逼真的图像。

为了解决这个问题,使用等式 2 中的矩阵 Sin 来根据每个片段的面积自动调整调制程度:增加小段的程度并减少大段。为了计算矩阵 S,首先计算每个查询标记所属的掩码的面积百分比,然后沿键轴复制值。

什么是段之间的面积差异大?

在图像处理、计算机视觉或相关领域中,经常需要将图像划分为不同的区域或段(segments),这些段可以基于颜色、纹理、形状等特征进行区分。

这些段可能代表了图像中的不同对象、部分或场景。当这些段之间的面积存在显著差异时,即有的段面积很大,而有的段面积很小,就可能对后续的图像处理任务产生不利影响。

2.2.5 实施细节

  • 使用在LAION数据集上训练的稳定扩散
  • 在实验中,只对初始去噪步骤 (t = 1 ∼ 0.7) 应用注意力调制,因为观察到除了这一点之外没有明显的改进。
  • 为了进一步提高方法的有效性,将文本特征的部分替换为每个文本段c_{n} 的单独编码部分。当文本标题包含多个密切相关的对象(例如微波和烤箱)时,这种策略特别有用。

3 评估

3.1 评估设置

3.1.1 评估指标

根据两个标准评估每种方法:文本提示的保真度与布局条件对齐

对于文本提示:

  •  CLIP-Score ,它测量输入文本特征和生成的图像特征之间的距离,
  • 使用 YOLOv7 的 SOA-I 分数来检查所描述的对象是否存在于生成的图像中。

对于布局对齐方面:

  • 比较了YOLOv7预测的分割图相对于给定布局条件的IoU分数。
  • 进一步评估了裁剪对象图像(Local CLIP-score)上的CLIP-scores,以检查生成的对象是否遵循详细的描述。

由于  可组合扩散   和   结构扩散  不采用布局条件,因此将它们排除以进行公平比较。

3.1.2 数据集

作者策划了一个新的评估数据集,其中包含每个片段的详细描述。

具体来说,从 MS-COCO 验证集中选择具有两个或多个独特对象的 250 个样本。然后用从标题中提取的短语手动替换每个分割图的类标签;例如,“狗”到“黑白狗”。为每个标题生成四个随机图像,导致评估中使用的每个基线有 1,000 张图像。

3.1.3 用户研究

使用 Amazon Mechanical Turk 进行用户研究。

对于每个任务,向用户展示两组 4 张图像以及相同的输入条件。他们被要求根据以下任一标准选择更好的集合:对文本条件的保真度,同时反映关键对象的详细说明或对布局条件的保真度,并准确描述对象。

以随机顺序呈现每一对,并从唯一用户那里收集三个评级。

3.2 实验结果

3.2.1 文本条件保真度的评估

在该图 4 中,将 DenseDiffusion 与使用密集字幕生成的图像的所有基线进行比较。

虽然基线方法有时会省略文本标题中描述的一个或多个对象,但作者的结果更忠实于文本和布局条件。特别是,与 SD-Pwww 的比较突出了我们的无训练调制方法的有效性。

 SD-Pwww 和作者的方法 DenseDiffusion 支持分割图进行布局控制。

文本条件保真度的定量评估结果。

我们将我们的方法与各种无训练方法进行比较,这些方法旨在在使用密集字幕时提高预训练的稳定扩散的保真度。由于 eDiffi 模型没有公开,使用在稳定扩散 (SD-Pww) 上实现的 Pwww 进行了实验。

由于LAION和MS-COCO之间的域差距,SOA-I似乎与人类评估结果松散相关,分别用于训练稳定扩散和YOLOv7。有趣的是,当推理方法与原始方法的变化太大时,性能往往会受到显着影响,如可组合扩散的情况所示。

3.2.2 布局条件保真度的评估

为了评估布局条件的保真度,只与 SD-Pww 的结果进行比较,SD-Pww 是唯一可以控制图像布局的基线。

可以看一下表和图,得到DenseDiffusion 大大优于 SD-Pwww。S

D-Pww不仅不能忠实地反映布局条件,而且倾向于混合不同的对象特征或省略关键对象。特别是,IoU 分数的显着差异表明 DenseDiffusion 在反映布局条件方面更有效。

表 3:布局条件保真度的定量评估结果。我们只与 SD-Pww进行比较,因为它是使用分割图的唯一基线。

3.2.3 与布局条件的模型比较

为了突出DenseDiffusion 即使在无训练方法的情况下也能有效,我们进一步与 MAS 和 SpaText 进行了比较,它们都是使用布局条件训练的文本到图像模型。

MAS 使用标记化的语义分割图作为附加条件

SpaText 根据布局条件微调具有空间飞溅的 CLIP 图像特征的稳定扩散。由于这些模型没有公开,我们使用原始 SpaText 论文中呈现的示例。

下图 5 显示 DenseDiffusion 可以相对反映布局条件,甚至优于不同概念的 MAS。

图 6 显示,作者的方法可以很好地响应通过改变给定文本条件的一部分创建的各种条件,例如对象类型或图像样式,同时保持原始布局条件。

3.3 消融实验

下面评估DenseDiffusion中使用的每个组件:

(a)交叉注意层的注意调制

(b)自我注意层的注意调制

(c)值范围自适应注意调制

(d)掩码区域自适应注意调制

我们首先展示了我们在图7中消融研究的视觉结果。同一行中的所有图像都是从相同的初始噪声图生成的。

  • w/o (a) 和 w/o (b) 列所示,交叉注意力层和自注意力层中的注意力调制对于满足文本和布局条件至关重要。
  • w/o (c) 列中的图像表明,值范围自适应调制进一步提高了方法对给定条件的保真度。
  • w/o (d) 列,该方法遵循条件,但产生纹理单调的图像。

结果表明,除了组件 (d) 之外,每个组件的删除都会导致所有指标分数显着下降。

关于组件 (d),将此异常解释为消融方法创建单调背景的倾向的结果,如图 7 所示。虽然它看起来可能与真实图像相距甚远,但分割模型更容易预测分割图。因此,它有助于在与布局条件相关的指标上获得良好的分数,但它并不总是满足文本条件。

4 优点

  • 提出的 DenseDiffusion,是一种无需训练的方法,可以将预训练的文本到图像模型的保真度提高到密集字幕,并实现图像布局控制。
  • 考虑值范围和段大小显着提高了我们的注意力调制方法。
  • DenseDiffusion的无训练方法提供了与专门为此任务训练的现有模型相当的布局控制。

5 限制

DenseDiffusion 有几个限制。

  • 首先,作者的方法高度依赖于其基础模型的容量,稳定扩散。如图 8a 所示,如果 Stable Diffusion 无法产生它们本身,作者的方法无法产生某些对象,例如 jugling 熊。
  • 其次,作者的方法难以处理具有薄结构的细粒度输入掩码,因为自注意力层和交叉注意力层都相当粗糙。如图 8b 所示,作者的方法未能遵循段条件的精细细节,例如叶子的形状。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1614881.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

操作系统——进程

进程定义 是计算机中已经运行的程序是系统进行资源分配和调度的一个独立单位。 进程的特性 独立性:进程在内存中可以独立寻址,每个进程都有一个独立的堆栈空间。动态性:进程在执行过程中可以申请资源、使用资源、释放资源。并发性&#xf…

埃夫特机器人更换编码器电池

一、编码器电池位置 埃夫特机器人编码器电池位置,在机器人基座底部位置,将编码器电池包拆卸下来,并按线标将新的编码器电池连接上去。 二、消除各轴编码器报警 点开监控选项中的驱动器页面,输入密码1975,开打权限管理…

将CSV转换为LDIF以便导入到ldap中?

将CSV转换为LDIF以便导入到ldap中? 目标格式: dn: uidzhangsan,ouusers,dcbaimeidashu,dccom objectClass: posixAccount objectClass: top objectClass: inetOrgPerson gidNumber: 0 givenName: zhangsan sn: 1 displayName:张三 uid: zhangsan homeDi…

node.js-包

包的概念 包:将模块,代码,其他资料聚合成的一个文件夹 包分类: 1.项目包:主要用于编写项目和业务逻辑的文件夹 2.软件包:封装工具和方法供开发者使用(一般使用npm管理) 1&#…

迅雷下载不了的资源怎么下载?

我想下载Boost库,但是下载不下来 用迅雷下载是一直卡在0k 后来尝试在centos上用wget进行下载,竟然可以 wget https://boostorg.jfrog.io/artifactory/main/release/1.85.0/source/boost_1_85_0.tar.gz

HCIP(路由过滤)--7

实验要求: 实现过程: (一)配置IP地址与环回地址: AR1: [AR1]int g0/0/0 [AR1-GigabitEthernet0/0/0]ip add 100.1.1.1 24 Apr 22 2024 19:24:50-08:00 AR1 %%01IFNET/4/LINK_STATE(l)[0]:The line protocol IP on …

C++核心编程——4.3 C++对象模型和this指针

4.3.1 成员变量和成员函数分开存储 在C中,类内的成员变量和成员函数分开存储(虽然封装在一起,但是分开存储) 只有非静态成员变量才属于类的对象上,静态成员(包括静态成员变量和静态成员函数)和非…

绿联 安装qbittorrent及一些常见错误的解决办法

绿联 安装qbittorrent及一些常见错误的解决办法 1、镜像 linuxserver/qbittorrent:latest 2、安装 2.1、创建容器 按需决定是否进行资源限制。 2.2、基础设置 2.3、网络 桥接即可。 注:如果使用IPV6,请选择"host"模式。 注:如…

C# 使用 ThoughtWorks.QRCode 生成二维码

目录 关于 ThoughtWorks.QRCode 开发运行环境 方法设计 代码实现 调用示例 Logo图标透明化 小结 关于 ThoughtWorks.QRCode 二维码是用某种特定的几何图形按一定规律在平面分布的、黑白相间的、记录数据符号信息的图形,在应用程序开发中也被广泛使用&#x…

虚拟局域网PPTP配置与验证

虚拟局域网PPTP配置与验证 前言PPTP服务侧安装配置REF 前言 虚拟专用网(Virtual Private Network,VPN)是一种通过公共网络建立安全的连接的技术。它能够在不同的地理位置之间建立私密的通信通道,实现远程访问网络资源的安全性和隐…

c语言不难说C语言难的,已经说明你根本不适合计算机编程工作

对普通人来说C语言是学习编程的最佳入门语言,有效培养你的编程思维,你有了这个基础后去学其它语言,你会惊讶地发现原来其它语言原来这么好学,现在出现一个Python说小白最适合,在开始前我有一些资料,是我根据…

真实世界的密码学(一)

原文:annas-archive.org/md5/655c944001312f47533514408a1a919a 译者:飞龙 协议:CC BY-NC-SA 4.0 前言 序言 当你拿起这本书时,你可能会想,为什么又一本关于密码学的书?甚至,为什么我要读这本…

STM32G030F6P6TR ST意法

STM32G030F6P6TR是ST(意法半导体)一款基于高性能ArmCortex-M032位RISC内核,工作频率高达64MHz的32位MCU微控制器。代理销售ST(意法半导体)全系列IC电子元器件-中芯巨能为您提供STM32G030F6P6TR(ST 32位MCU)引脚图及中文参数介绍等内容。 STM32G030F6P6TR的中文参数 …

UE5(基础动作)多人游戏制作蹲伏

1.创建输入操作,IA_Crouch 在输入映射中添加 IA_Crouch,在触发器中创建两个索引,已按下已松开来创建蹲伏输入。 蹲伏操作必须要勾选角色-角色移动-crouch勾选可蹲伏否则你的人物无法真正蹲下。 为蹲伏创建函数,创建布尔来判断是否蹲伏。 通过…

Linux 网络操作命令FTP

FTP命令 引言 文件传输协议(FTP)是一种用于在网络上进行文件传输的协议。在Linux系统中,FTP可以作为一个非常有用的工具来上传、下载和管理文件。本文将介绍如何在Linux系统中安装FTP服务器,以及如何使用FTP客户端进行文件传输。…

什么是XXE攻击?如何进行防护

安全性很难做到正确,即使在当今具有安全意识的世界中,也存在一些严重的漏洞,例如 XML 外部实体 (XXE),它们被忽视并最终成为破坏的原因。 XML 外部实体 (XXE) 攻击是一种计算机安全漏洞,通常存在于 Web 应用程序中&…

贪心 | | 将数组和减半的最少操作数

目录 将数组和减半的最少操作数 除 2 将数组和减半的最少操作数 2208. 将数组和减半的最少操作次数 - 力扣(LeetCode)https://leetcode.cn/problems/minimum-operations-to-halve-array-sum/description/ 由题意可知,我们可以遍历数组&…

高斯过程回归【详细数学推导】

机器学习笔记 第一章 机器学习简介 第二章 感知机 第三章 支持向量机 第四章 朴素贝叶斯分类器 第五章 Logistic回归 第六章 线性回归和岭回归 第七章 多层感知机与反向传播【Python实例】 第八章 主成分分析【PCA降维】 第九章 隐马尔可夫模型 第十章 奇异值分解 第十一章 熵…

[移动通讯]【无线感知-P1】[从菲涅尔区模型到CSI模型-3][Mobius transformations-3]

前言: 参考 Professor Bonfert-Taylors 《Mobius transformations》,我们重点理解 因此莫比乌斯变换是共形映射( conformal mappinngs )以及反演特性inversion 目录 mobious transfromation 定义 mobious transfromation 性质…

掌握item_get_app,提升电商推广转化率

一、引言 在数字化时代,电商行业蓬勃发展,竞争也日趋激烈。为了提高销售额和用户满意度,电商企业需要不断探索新的推广策略和技术手段。其中,掌握item_get_app技术,对于提升电商推广转化率具有重要意义。本文将深入探…