有界注意力:增强文本到图像合成中的控制

news2024/11/27 11:48:51

人工智能咨询培训老师叶梓 转载标明出处

传统的文本到图像扩散模型虽然能够生成多样化和高质量的图像,但在处理包含多个主题的复杂输入提示时,往往难以准确捕捉预期的语义。特别是当这些主题在语义上或视觉上相似时,模型生成的图像常常出现语义不准确的问题,如主题特征混合、属性绑定错误或主题被忽略等。为了解决上述问题,特拉维夫大学与 Snap 研究团队共同提出了一种名为“Bounded Attention”(有界注意力)的方法。这种方法不需要训练,通过在采样过程中限制信息流,有效减少了在去噪过程中固有的语义泄露现象。通过限定每个主题的注意力,该方法鼓励每个主题保持其独特性,即使在复杂的多主题条件下也能如此。

图1为本文提出的Bounded Attention方法如何应用于控制预训练文本到图像扩散模型的布局生成。图像中包含了多个场景,每个场景都有多个主题(如不同颜色的小猫),它们被放置在不同的位置上,例如楼梯上、街道上、篮子里和树上。这些场景的生成显示了即使在主题语义或视觉上相似的情况下,有界注意力也能够确保每个主题保持其独特性,避免了在去噪过程中由于注意力层导致的不同主题间的视觉特征混合,从而减少了语义泄露的问题。

方法

现有布局到图像的方法虽然在理论上可行,但在实践中却常常因为语义泄露而产生不准确的图像。这种泄露主要发生在去噪过程中,当模型试图在图像中同时表示多个语义或视觉上相似的主题时。由于注意力层的设计初衷是在图像中混合不同区域的特征,这就不可避免地导致了主题间的信息泄露。

自注意力层中语义泄露的出现,特别是对于视觉上相似的主题,如螃蟹和青蛙的眼睛和腿部特征

图5 通过在不同分辨率的 UNet 层级上生成不同的主题(如小猫、小狗、蜥蜴和水果),并绘制了交叉注意力查询的前两个主成分,来展示模型在生成过程中的行为。图中显示,小猫和小狗由于在语义上高度相似,它们在所有层级的查询都非常接近,它们在去噪过程中共享了许多语义信息。这种共享导致在生成图像时,一个主题可能会借用另一个主题的特征,比如颜色或形状,这可能会导致最终图像与原始的文本提示不完全一致。

与此同时,蜥蜴和水果在语义上并不相似,但由于它们具有相似的纹理,它们在最高分辨率层的查询有所纠缠。这种视觉相似性同样会导致特征的泄露,但只在图像的最终细节阶段发生。

这种现象揭示了现有扩散模型在处理多主题图像生成时的一个关键局限性:当主题在语义上或视觉上相似时,模型的注意力层倾向于混合不同主题之间的视觉特征,从而导致信息泄露。这种泄露可能会损害图像的准确性和主题的独特性。

为了解决这个问题,研究团队提出了Bounded Attention机制。该机制在去噪过程中应用,通过限制每个像素上不相关视觉和文本标记的影响,减少了主题间的不利信息泄露。具体为有界注意力通过在自注意力和交叉注意力层中引入时间特定的掩码,这些掩码由零和负无穷大的元素组成,有效地阻止了不同主题间的信息流动,从而鼓励每个主题保持其独特性,即使在复杂的多主题条件下也能如此。通过这种方式,有界注意力有助于生成与给定提示和布局更加一致的图像。

Bounded Attention方法接收一个全局提示y,其中包含n个不同的文本主题S={si},以及它们对应的边界框B={bi}。该方法的目标是在不进行任何训练或微调的情况下,根据y、S和B调节生成过程,同时保持每个主题的预期语义。

图6 展示了该方法的概览。输入提示y是“一只小猫和一只小狗”,S包括“小猫”和“小狗”,相应的两个边界框{b1, b2}在左上角展示。Bounded Attention有两种模式:Bounded Guidance和Bounded Denoising。在去噪过程的开始,对于时间步t ∈ [T, Tguidance],首先执行Bounded Guidance步骤,然后是Bounded Denoising步骤。在Guidance步骤中,使用Bounded Guidance损失函数。这个时间步区间构成了优化阶段。然后,对于t ∈ [Tguidance, 0],只应用Bounded Denoising步骤。

在这两种模式中,通过在注意力层采用增强的加权方案来操作模型的前向传递,这种方案保护了查询和键之间的信息流。具体为通过引入时间特定的掩码Mt,这些掩码由零和负无穷大元素组成,来限制自注意力层中像素之间以及跨注意力层中像素和标记嵌入之间的有害信息流动。

在Bounded Guidance中,通过反向传播通过扩散模型来引导潜在信号朝向期望的布局,使用梯度下降法。Bounded Guidance损失函数鼓励每个主题si的Bounded Attention图位于其对应的bi边界框内。为此对于每个主题键,考虑在相应边界框内的注意力与整个Bounded Attention图的比例。损失函数Li的计算方式是,对于每个主题,将边界框内的注意力总和与整个注意力图的注意力总和进行比较,并引入一个超参数α来增强对背景的注意力,帮助防止主题混合。

图7 展示了在第一阶段,主题的粗略形状形成后,进入第二阶段,使用细粒度的主题掩码应用Bounded Denoising步骤。在这个阶段,定期通过聚类自注意力(SA)图来细化这些掩码。

在Bounded Denoising中,计算模型的输出并将其作为下一个潜在变量。这里的掩码旨在减少主题之间的语义泄露,并防止不希望的语义泄露到背景中。与Bounded Guidance和典型的基于注意力的引导方法不同,Bounded Denoising可以应用于所有时间步来减轻细节中的泄露,这些细节只在后期阶段显现。然而,后期阶段的粗糙掩码可能会降低图像质量并导致明显的接缝。为了解决这个问题,在优化阶段之后,对于t ∈ [Tguidance, 0],用通过聚类自注意力图获得的细分割掩码替换每个边界框。

图8 展示了通过分割UNet瓶颈处的平均自注意力图,可以将输入边界框细化为密集的分割掩码,即使在高幅度噪声中也能实现。Bounded Attention利用这些掩码将不断发展的图像结构(由自注意力图表示)与其语义(由跨注意力图反映)对齐,确保每个主题在去噪过程中保持其独特的特征。

实验

研究者将该方法与三种无需训练的基线方法进行了比较:布局引导(Layout-guidance, LG)、BoxDiff(BD)和MultiDiffusion(MD)。还包括了需要训练的GLIGEN和ReCo方法的比较。为了公平比较,研究者在比较中使用了Stable Diffusion模型。

研究者展示了在SDXL模型上使用Bounded Attention在具有挑战性的场景中生成多个语义相似主题的有效性。在图9中,展示了Bounded Attention能够生成具有复杂位置关系和遮挡的主题,例如堆叠的蛋糕层,以及自然融入背景的视觉上相似的主题,如部分浸没在池中的各种犬种。该方法即使在改变提示、种子或边界框分配时,也能生成具有各自独特特征的所有主题。

在图10中,展示了在不同种子下生成具有不同修饰语的多个语义相似主题的结果。可以看出,Vanilla SDXL由于语义泄露而未能遵循提示。例如,在第一行中,它错误地生成了狗和小猫的数量并混合了它们的颜色。在中间一行中,服装组合结合了提示中提到的织物、轮廓和颜色。在最后一行中,它合并了主题的外观,同时将粉色属性泄露到了背景中。

然后研究者进行了非策划的比较,并在图11中展示了每种方法从种子0采样的前六个图像。预计在没有Bounded Attention的情况下,语义泄露可能会自由混合主题特征,阻碍预期布局的形成。结果表明,没有一种竞争方法能够始终如一地构建输入布局。例如,Layout Guidance经常忽略一个主题,即使生成了三个主题,也难以避免泄露,导致小狗具有类似小猫的特征或不正确的颜色分配。BoxDiff通常能生成正确数量的主题,但会产生斑点等人工制品。即使MultiDiffusion分别生成主题,也会在自举阶段面临一些消失或合并的挑战。

与这些方法相比,Bounded Attention始终优于这些方法,在所有六个图像中生成了与提示和布局一致的三个主题。

研究者使用DrawBench数据集评估了方法的有效性,该数据集以具有挑战性的提示而闻名,旨在测试模型构成具有特定数量和关系的多个主题的能力。在表1中总结了结果。与其他不考虑语义泄露的方法不同,Bounded Attention在计数类别上展示了显著的改进。它通过0.1提高了召回率,这是一个值得注意的进步。它还提高了计数精度和空间精度,突显了Bounded Attention在解决语义错位方面的有效性。

为了评估每个组件的重要性,研究者进行了消融研究,通过在每种设置中省略一个组件来系统地改变方法的配置。在图13中展示了使用SDXL(顶行)和SD(底行)生成的两个示例。引导对于将潜在信号与预期布局对齐至关重要。然而,没有Bounded Guidance机制尝试引导潜在信号会导致结果不佳,如图中蜥蜴与其边界框的部分对齐和小狗的扭曲形态所示。问题源于每次检查中两个语义相似主题之间固有的查询纠缠。如果没有Bounded Guidance,优化在顶行达到一个平台期,蜥蜴与其边界框的对齐减少了它的损失,但也增加了海龟的损失。在底行中,优化将两个主题查询彼此推开,造成人工制品。

同时省略Bounded Denoising会导致明显的语义泄露。在顶示例中,蜥蜴被海龟替换,"红色"属性错误地泄露到了错误的主题上。同样,在底示例中,小狗被小猫替换。

在后期加入掩码细化可以保留细节并防止它们泄露。没有掩码细化,小猫的腿失去了姜黄色皮草纹理的细节,海龟的面部特征类似于蜥蜴,蜥蜴的背部呈现出类似壳的轮廓。

Bounded Attention技术为生成包含多个主题的图像提供了一种新的解决方案,它通过调节注意力机制,强调了在图像生成过程中保持每个主题个性和独特性的重要性。尽管Bounded Attention在减少语义泄露方面取得了显著进步,但研究者也指出,该技术并未完全消除泄露现象,仍有改进空间。

论文链接:https://arxiv.org/abs/2403.16990

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2062866.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBootWeb 篇-深入了解 SpringBoot + Vue 的前后端分离项目部署上线与 Nginx 配置文件结构

🔥博客主页: 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 云服务器的准备 2.0 Xshell 和 Xftp 软件 2.1 Xshell 介绍 2.2 Xftp 介绍 3.0 在云服务器进行环境配置 3.1 安装 JDK 3.2 安装 MySQL 3.3 安装 Nginx 4.0 SpringB…

换代危机,极氪不得不闯的一关

文|刘俊宏 编|王一粟 “今年,不容我们有任何犯错的机会,如果犯错,一定会全盘皆输。” 面临智能化愈发重要的汽车市场,极氪智能科技CEO安聪慧曾在今年初提醒着极氪汽车(下简称极氪&#xff09…

团队管理三大核心要点

团队管理不仅关乎任务的完成效率,更关乎团队成员的成长与团队的持续发展。一个高效、和谐的团队背后,往往离不开管理者对以下几个关键要点的深刻理解和有效实践。 一、以人为本 管理的本质不是简单地“管人”,而是通过管事来激发人的潜能&a…

叉车考证考试题库分享

1、制动效果的良好与否,主要取决于路面制动力的大小。 A、正确 B、错误 答案:A 2、《特种设备使用管理规则》规定,特种设备使用单位应当根据本单位的特种设备数量、特征等配备相应的特种设备作业人员,并且在使用特种设备时应保…

教程2_编辑形状

本文将介绍一些形状的基本编辑 1、对象属性设置 我们通过双击画布上的对象,弹出属性设置框 这里我们使用的是Box对象,每种对象的属性会有差异,根据属性名称进行相应设置即可。 2、对象局部编辑 点击工具栏中的Partial图标 当对象创建后需…

UE5 多个类选择界面生成。解决方案思路。

中控器CC 》用户界面控制器UI_CC 》用户界面UI_Inst 生成 CC使用接口,通知UI_CC开始生成UI_Inst。 蓝图函数库编写判断是否存在和创建UI的蓝图。(此处略) UI_CC生成时,userwidget使用接口,注册UI_CC的用户控件的控件…

(转载)使用zed相机录制视频

参照下面这个链接 https://blog.csdn.net/peng_258/article/details/127457199?ops_request_misc&request_id&biz_id102&utm_termzed2%E5%BD%95%E5%88%B6%E6%95%B0%E6%8D%AE%E9%9B%86&utm_mediumdistribute.pc_search_result.none-task-blog-2~all~sobaiduweb…

AI绘画StableDiffusion有哪几种模型,各个模型之间又有什么作用?小白入门必看扫盲级教程!(附各种模型资料)

大家好,我是画画的小强 在AI绘画工具 Stable Diffusion中,模型有好几种,不同插件有不同的模型,分别作用于不同的功能。 今天强哥就带着大家一起来了解一下。 大模型:Stable Diffusion StableDiffusion大模型&#…

YOLOv8改进 | 融合改进 | C2f 融合Efficient Multi-Scale Conv提升检测效果【改进结构图+完整代码】

秋招面试专栏推荐 :深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 💡💡💡本专栏所有程序均经过测试,可成功执行💡💡💡 专栏目录 :《YOLOv8改进有效…

[已解决]mac远程连接windows桌面:parallels client连接遇到的问题

[已解决]mac远程连接windows桌面:parallels client连接遇到的问题 问题一:网络不通问题二:远程windows防火墙导致无法连接问题三:远程桌面服务未启动问题四:家庭版(非专业版)windows导致的无法使…

Xilinx FPGA 7系列 GTX/GTH Transceivers

1概述 Xilinx 7系列FPGA全系所支持的GT,GT资源是Xilinx系列FPGA的重要卖点,也是做高速接口的基础,GT的意思是Gigabyte Transceiver,G比特收发器。不管是PCIE、SATA、MAC等,都需要用到GT资源来做数据高速串化和解串处理…

2379.得到K个黑块的最少涂色次数

目录 题目描述 示例1: 示例2: 提示: 解题思路 滑动窗口法 概念 应用场景及特点: 思路 流程展示 代码 复杂度分析 题目描述 给你一个长度为 n 下标从 0 开始的字符串 blocks ,blocks[i] 要么是 W 要么是 B…

Vsphere连接ESXI主机创建虚拟机并安装操作系统

🏡作者主页:点击! 🐧Linux基础知识(初学):点击! 🐧Linux高级管理防护和群集专栏:点击! 🔐Linux中firewalld防火墙:点击! ⏰️创作…

软碟通刻盘装系统出现错误代码0X800700D解决方案

install.wim大小超过4G,fat32不支持单个文件4G以上的文件。 可以按winR,在弹出的windows程序员运行窗口用cmd命令,调出命令提示符,然后执行convert H:/FS:NTFS命令即可(H为我的U盘盘符,这个根据个人的盘符来定&#xf…

【Linux入门】Liunx权限

文章目录 前言一、用户的概念1.用户的概念2.用户切换1)普通用户切换到超级用户2)超级用户切换到普通用户 二、权限管理1.文件访问者的分类(人)2.文件类型和访问权限(事物属性) 三、文件类型1.基本权限2.文件…

开放式耳机好还是入耳式耳机好?本文章为你讲解

闲话少说,今天的这篇文章就是我个人整理出来对开放式耳机的一些认知分享,就是相当于一份开放式耳机的选购攻略,标准再多也没有使用感好来的直接!感兴趣的朋友一起来了解 什么样的耳机是开放式的 首先区别于封闭式的入耳耳机&…

linux文件——用户缓冲区——概念深度理解、IO模拟实现

前言:本篇文章主要讲解文件缓冲区。 讲解的方式是通过抛出问题, 然后通过分析问题, 将缓冲区的概念与原理一步一步地讲解。同时, 本节内容在最后一部分还会带友友们模拟实现一下c语言的printf, fprintf接口&#xff0c…

5IUX极简主页搜索源码/自定义你的浏览器主页

5IUX极简主页搜索源码,自定义你的浏览器主页。在使用各种导航首页时,我们时常被满屏的广告和资讯所困扰,这款源码可以让你自己设计一个不受干扰的浏览器主页。它不是镜像,也不是代理,只是用作浏览器主页,同…

最近算法岗笔试题整理

目录 1. 子串和子序列的区别? 2. 给一个featuremap 矩阵,行列都代表机器翻译用到的不同的单词的依赖程度,判断这个矩阵是哪个模型生成的? 3. 判断递归函数的时间复杂度 4. K-means 组关键数,选一个K得到SSE&#x…

对于初学者来说,如何选择一个合适的FPGA学习路径?

初学者入门还是相对简单的, 学fpga有专业要求: 一般是电子信息类、自动化类、计算机类等相关专业都是比较合适入行的。 FPGA岗位一般要求熟悉数字电路设计,以及C、verilog等,能够看懂原理图。 像其他专业也可以入行,但…