ConsiStory:无需训练的一致性文本到图像生成技术

news2025/2/23 7:21:59

随着大规模文本到图像(T2I)扩散模型的发展,用户可以更自由地通过文本指导图像生成过程。然而,要在不同的提示中保持同一主题的视觉一致性仍然是一个挑战。现有的方法通常需要对模型进行微调或预训练,以教授新词汇来描述特定用户提供的主题,这不仅耗时耗力,而且在生成图像与文本提示的对齐以及描绘多个主题时存在困难。本文提出了一种无需训练的方法ConsiStory,它通过共享预训练模型的内部激活来实现一致性主题生成,不涉及任何优化或预训练步骤。

Fig. 1展示了ConsiStory如何将一组包含重复主题的输入提示转换成一系列图像,这些图像保持相同的主题身份,并符合提供的文字描述。它还可以在多主题情况下保持一致的身份。
重要的是,ConsiStory不涉及任何优化或预训练

ConsiStory通过三个主要步骤实现生成图像之间的一致性:首先是通过主题驱动的共享注意力机制(SDSA)来共享跨图像的主题特定信息;其次是通过注意力丢弃机制和从非一致性采样步骤获取的查询特征混合策略来丰富布局多样性;最后是通过特征注入机制进一步细化结果,确保跨图像的相应区域(如左眼)的特征相似性得到增强。

方法

ConsiStory方法的第一步是引入一个主题驱动的自注意力机制(SDSA),目的是在生成图像批次中共享与主题相关的模型激活信息。这种方法通过扩展自注意力,使得一个图像中的查询(Query)能够关注到批次中其他图像的主题相关的键(Key)和值(Value)。

ConsiStory的架构概览,包括主题定位、受主题驱动的自注意力(Subject Driven Self-Attention, SDSA)和特征注入(Feature Injection)

架构概览(左图)

  • 研究者们在给定一组提示(prompts)的情况下,每一步生成过程中都会在每个生成的图像 中定位主题。
  • 利用到目前为止的每一步生成步骤中的交叉注意力图(cross-attention maps),来创建主题掩码()。
  • 然后,他们将 U-net 解码器中的标准自注意力层替换为主题驱动的自注意力层,这些层能够在批次中的主题实例之间共享信息。
  • 此外,为了额外的细化,他们还添加了特征注入(Feature Injection)。

主题驱动的自注意力(右图)

  • 自注意力层被扩展,使得生成图像 中的查询(Query)也能够访问批次中所有其他图像(​,其中)的键(Keys),这受到它们各自的主题掩码 的限制。
  • 为了丰富多样性,研究者们采取了以下两个策略:
    1. 通过丢弃(dropout)削弱 SDSA,这有助于减少不同图像间共享注意力的影响,从而增强布局的多样性。
    2. 将查询特征(Query features)与非一致性采样步骤中得到的香草查询特征(vanilla Query features)混合,从而产生新的查询特征

这种设计允许模型在生成图像时,不仅关注当前图像内的相关信息,还能够考虑到批次中其他图像的主题信息,从而促进主题在多图像中的一致性。同时,通过引入多样性增强策略,模型能够生成在保持主题一致性的同时,布局和风格上更为多样化的图像。

虽然SDSA能够恢复对提示的对齐并避免背景崩溃,但它可能导致图像布局之间过于相似。为了提高结果的多样性,提出了两种策略:一是结合非一致性采样步骤中获得的特征;二是通过注意力丢弃机制进一步削弱SDSA。使用香草查询特征(Vanilla Query Features)可以在不牺牲一致性的情况下增强姿势的变化。而自注意力丢弃(Self-Attention Dropout)则通过在每次去噪步骤中随机将一部分补丁设置为0,来削弱不同图像之间的注意力共享,从而促进更丰富的布局变化。

共享注意力机制显著提高了主题一致性,但可能在细微的视觉特征上存在挑战,这可能影响主题的身份。因此研究者提出了一种新颖的跨图像特征注入机制,目的是提高批次中不同图像对应区域(例如左眼)的特征相似性。首先,使用DIFT特征为图像对建立一个密集的对应图,然后根据这个图在图像之间注入特征。这个过程通过选择DIFT特征空间中余弦相似度最高的对应补丁来实现,然后将目标图像的自注意力输出层特征与其对应源补丁的特征混合。

特征注入机制,即如何在图像批次中混合特征以进一步细化主题的身份

额外的优化,可以通过指定生成图像的子集作为“锚定图像”来减少方法的计算复杂性。在SDSA步骤中,不是在所有生成图像之间共享键和值,而是只允许图像观察来自锚定图像的键和值。类似地,在特征注入中,只考虑锚定图像作为有效的特征源。这样不仅可以加快推理速度并减少VRAM需求,还可以通过限制扩展注意力的大小来提高大批量生成的质量。最重要的是,现在可以在新场景中重用相同的主题,通过创建一个新的批次,使用相同的提示和种子重新创建锚定图像,但非锚定提示已经改变。

基于个性化的方法在保持单个图像中多个主题的一致性方面,ConsiStory可以通过简单地合并主题掩码来实现多主题一致性生成。当主题在语义上不同时,它们之间的信息泄露不是问题。这是由于注意力softmax的指数形式,它作为一个门控,抑制了不相关主题之间的信息泄露。同样,在特征注入期间阈值化对应图也会产生防止信息泄露的门控效果。

实验

研究者确立了几个基线模型以进行比较。这些包括:(1) 未经调整的SDXL模型作为起点;(2) 基于优化的个性化方法,这些方法通过微调模型的部分结构来使模型学习描述新主题的词汇,例如文本反转(TI)和DreamBooth-LoRA(DB-LORA);(3) 基于编码器的方法,它们通过接受单个图像作为输入,然后为扩散模型提供条件码,如IP-Adapter、ELITE和E4T。除了ELITE之外,所有这些基线都是基于预训练的SDXL模型。对于ConsiStory,研究者采用了两个锚定图像并设置了0.5的丢弃率。

研究者通过定性比较展示了ConsiStory在保持主题一致性和遵循文本提示方面的卓越性能。如图4所示,ConsiStory能够在不同的初始噪声输入下生成多样化且一致的图像集合。相比之下,基于优化的个性化方法在训练图像上的拟合效果要么过强导致缺乏变化,要么不足导致无法维持一致性。IP-Adapter在匹配复杂提示时也显示出了困难,特别是当涉及到风格变化时。ConsiStory成功实现了主题的一致性和文本对齐。

ConsiStory方法与其他方法(如IP-Adapter、TI、DB-LoRA)的定性比较结果
在不同的初始噪声输入下,ConsiStory生成的一致图像集合
ConsiStory在生成多个一致主题方面的比较结果,与其他方法相比,ConsiStory能够更好地保持多个主题的一致性

研究者进一步使用自动化指标进行了定量评估。他们使用每个基线生成了100组图像,每组包含5张在不同提示下描绘同一主题的图像。评估用的提示是利用ChatGPT生成的,包括主题描述、场景描述和风格描述三个部分。研究者使用CLIP分数来衡量生成图像与条件提示之间的相似度,并使用DreamSim来评估图像间的相似性,特别关注了主题一致性。

主题一致性与文本相似性之间的对比,ConsiStory在这两个方面都达到了最优平衡

尽管ConsiStory是一种无需训练的方法,但通过大规模用户研究,研究者发现用户通常更偏好ConsiStory生成的图像,无论是在主题一致性还是文本对齐方面。用户研究采用了两种问题类型:(1) 主题一致性,用户需要选择展示同一主题特征的图像集合;(2) 文本对齐,用户需要选择最符合文本描述的图像。

用户研究结果。无论是在主题一致性还是文本相似性方面参与者普遍偏好ConsiStory生成的图像

研究者还对主要方法的运行时间进行了分析,重点是它们达到一致性主题的时间(TTCS)。ConsiStory实现了最快的TTCS结果,即在H100 GPU上生成两个锚定图像和基于新提示的图像仅需32秒,这一速度是现有最先进方法的25倍。

为了评估ConsiStory中不同组件的影响,研究者进行了消融研究,涉及SDSA步骤、特征注入(FI)、注意力丢弃和查询特征混合等组件。定性和定量结果表明,去除这些组件中的任何一个都会导致一致性降低。

组件消融研究的结果,包括移除SDSA、FI以及变化丰富策略后的影响

研究者还展示了ConsiStory与现有引导生成工具如ControlNet的兼容性,并演示了无需训练的个性化,即ConsiStory能够在没有任何调整或编码器使用的情况下实现个性化。

ConsiStory与ControlNet集成,用于生成具有姿势控制的一致性角色

图 11 展示了 ConsiStory 方法与 ControlNet 的集成能力。ControlNet 是一种用于引导图像生成的工具,它允许用户通过控制特定参数来影响生成图像的特定方面,例如姿势或布局。 

无需训练的个性化,ConsiStory使用编辑友好的逆转实现了无需调整或编码器使用的个性化

图 12 展示了 ConsiStory 方法的一个扩展应用——无需训练的个性化(Training-Free Personalization)。这项技术允许用户使用少量特定主题的图像来生成一致性高的新图像,而无需对模型进行额外的训练或调整。

ConsiStory通过其创新的架构和策略,在保持主题一致性和文本对齐方面展现出了卓越的性能,同时大幅提高了图像生成的速度,减少了对计算资源的需求。然而,这项技术也存在一些局限性。其一ConsiStory依赖于通过交叉注意力图准确定位图像中的主题,这在处理某些不寻常的风格或复杂场景时可能会遇到挑战。其次,该方法在分离主题的外观和风格方面仍有困难,这限制了它在多样化风格生成上的能力。尽管在减少模型偏见方面取得了进展,但SDXL模型本身的某些倾向可能仍然存在,这需要进一步的研究和改进。

ConsiStory方法的一些局限性,包括在处理同一图像集合中的不同风格时的挑战,以及对正确定位主题的依赖性
模型偏差问题。即底层SDXL模型可能对某些群体存在偏见,以及ConsiStory方法如何通过在提示中突出特定群体来减少这些偏见

论文链接:https://arxiv.org/abs/2402.03286 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1895745.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

信息安全驱动汽车行业快速向数字化转型

开发一款安全性良好的软件是困难的,它需要专业知识的积累以及对常见编程缺陷和规则的了解,例如检查输入范围、管理内存分配和回收、寻址字符串格式、避免悬空指针等等。通常情况下,编写安全代码与开发人员编写“流畅”代码的自然愿望形成了对…

滤波算法学习笔记

目录 引言 一、定义 二、分类 三、常见滤波算法 四、应用与优势 五、发展趋势 例程 1. 均值滤波(Moving Average Filter) 2. 中值滤波(Median Filter) 3. 高斯滤波(Gaussian Filter) 4.指数移动…

新技术 高效的碳捕捉技术设计

网盘 https://pan.baidu.com/s/1mUlEhbQ6LBHYdmfg-du9bw?pwdc7gk 一种用于高效捕集CO_Sub_2__Sub_的生物炭颗粒吸附剂及其制备方法和应用.pdf 基于双相离子溶液的高效碳捕集及节能再生装置.pdf 基于水合物法低温液化的高效碳捕集系统及其操作方法.pdf 碳捕集系统及方法.pdf 高…

Feign远程调用,请求头丢失情况

现象 解决方案 import feign.RequestInterceptor; import feign.RequestTemplate; import org.springframework.context.annotation.Bean; import org.springframework.context.annotation.Configuration; import org.springframework.web.context.request.RequestContextHolde…

一篇文章说清楚Filter(过滤器)、Interceptor(拦截器)和AOP(切面儿)

文章目录 前言一、Filter(过滤器)1.说明2.实现filterChain.doFilter() 3.order优先级4.解决跨域5.拦截返回错误信息JSON 二、Interceptor(拦截器)1.说明2.实现preHandlepostHandleafterCompletion 3.执行顺序图4.排除特定路径拦截…

C#/.NET/.NET Core编程技巧练习集

DotNet Exercises介绍 DotNetGuide专栏C#/.NET/.NET Core编程常用语法、算法、技巧、中间件、类库练习集,配套详细的文章教程讲解,助你快速掌握C#/.NET/.NET Core各种编程常用语法、算法、技巧、中间件、类库等等。 GitHub开源地址:https://…

MedCLIP:CLIP + 医学语义匹配策略,解决模型误将不同患者同病症视为不相关

MedCLIP:CLIP 医学语义匹配策略,解决模型误将不同患者同病症视为不相关 提出背景流程图解法拆解子解法1:知识提取子解法2:视觉和文本编码器子解法3:语义匹配损失 提出背景 论文:https://arxiv.org/pdf/22…

【SkiaSharp绘图15】SKPath属性详解:边界、填充、凹凸、类型判断、坐标、路径类型

文章目录 SKPath 构造函数SKPath 属性Bounds 边界(宽边界)TightBounds紧边界FillType填充方式IsConcave 是否凹/ IsConvex 是否凸IsEmpty是否为空IsLine是否为线段IsRect是否为矩形IsOval是否为椭圆或圆IsRoundRect是否为圆角矩形Item[] 获取路径的坐标LastPoint最后点的坐标Po…

JavaScript——while类型

目录 任务描述 相关知识 while类型 编程要求 任务描述 质数的定义如下:大于1的自然数,且除了1和本身外没有别的因数。如2、3、5、7。 本关任务:利用循环结构求质数的和。 相关知识 在选择结构中,条件会被测试一次&#xff…

第一百四十三节 Java数据类型教程 - Java Boolean包装类

Java数据类型教程 - Java Boolean包装类 布尔类的对象包装一个布尔值。 Boolean.TRUE和Boolean.FALSE是布尔类型的两个常量,用于表示布尔值true和false值。 我们可以使用构造函数或valueOf()工厂方法创建一个布尔对象。 当解析字符串时,此类将处理“t…

复现centernet时,报错RuntimeError: CUDA error: out of memory

运行 python test.py ctdet --dataset coco --exp_id coco_dla --load_model /root/CenterNet/exp/ctdet/coco_dla/model_last.pth --gpus 0 --test_scales 1 报错下面: RuntimeError: CUDA error: out of memory明明显存是够用的 解决办法: 找到自己…

RK3568平台(opencv篇)ubuntu18.04上安装opencv环境

一.什么是 OpenCV-Python OpenCV-Python 是一个 Python 绑定库,旨在解决计算机视觉问题。   Python 是一种由 Guido van Rossum 开发的通用编程语言,它很快就变得非常流行,主要是 因为它的简单性和代码可读性。它使程序员能够用更少的代码行…

LVS-DR负载均衡

LVS-DR负载均衡 LVS—DR工作模式 原理 客户端访问调度器的VIP地址,在路由器上应该设置VIP跟调度器的一对一的映射关系,调度器根据调度算法将该请求“调度“到后端真实服务器,真实服务器处理完毕后直接将处理后的应答报文发送给路由器&#xf…

[Redis]哨兵机制

哨兵机制概念 在传统主从复制机制中,会存在一些问题: 1. 主节点发生故障时,进行主备切换的过程是复杂的,需要人工参与,导致故障恢复时间无法保障。 2. 主节点可以将读压力分散出去,但写压力/存储压力是无法…

二、基础—常用数据结构:列表、元祖、集合、字典、函数等(爬虫及数据可视化)

二、基础—常用数据结构:列表、元祖、集合、字典、函数等(爬虫及数据可视化) 1,字符串2,最常用的是列表(重点掌握)3,元组4,字典(重要)5&#xff0…

卫星IoT产品发展前景

卫星IoT产品发展前景 一、概述 卫星IoT产品是指利用卫星通信技术实现物联网设备互联互通的解决方案。随着卫星互联网技术的快速发展,卫星IoT产品正逐渐成为解决偏远地区、海洋、航空等场景下物联网连接问题的重要手段。 二、性能特点 广泛覆盖: 卫星…

搜维尔科技:如何使用 SenseGlove Nova 加速手部运动功能的恢复

District XR 的VR 培训 5 年多来,District XR 一直在为最大的工业公司创建 VR 和 AR 项目。 客户:District XR 客户代表:尼古拉沃尔科夫 他的角色:District XR 首席执行官 面临解决的挑战 该公司正在寻找一种方法来加速身体伤…

k8s离线安装安装skywalking9.4

目录 概述资源下载Skywalking功能介绍成果速览实践rbacoapoap-svcuiui-svc 结束 概述 k8s 离线安装安装 skywalking9.4 版本,环境:k8s版本为:1.27.x 、spring boot 2.7.x spring cloud :2021.0.5 、spring.cloud.alibab&#xff1…

搜维尔科技:【研究】Scalefit人体工程学测量系统为预防肌肉骨骼疾病提供生物力学分析

与工作相关的肌肉骨骼疾病(MSE)是工作生活中的一个持续的伴侣。总部位于科隆的Scaleit公司生产的移动生物力学测量系统Industrial Athlete有助于在工作场所立即发现疾病,伤害和损伤的原因。 Scalefit是一个跨学科网络的一部分,在德国科隆体育大学和职业…