T2I-Adapter:学习适配器为文本到图像扩散模型挖掘更多可控能力

news2024/9/21 7:38:35

文章目录

  • 一、研究动机
  • 二、T2I-Adapter的特点
  • 三、模型方法
    • (一)关于stable diffusion
    • (二)适配器设计
      • 1、结构控制
      • 2、空间调色板
      • 3、多适配器控制
    • (三)模型优化
      • 训练期间的非均匀时间步采样


一、研究动机

  • T2I模型,也就是文本到图像模型(text-to-image model)具备强大的生成能力,能够学习到复杂的内部结构和语义信息。但是仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的控制(例如颜色和结构)时。

文本很难为图像合成提供结构指导,导致在一些复杂场景下结果随机且不稳定。这并不是由于生成能力差,而是因为文本无法提供准确的生成指导以充分将 SD 的内部知识与外部控制相结合。
在这里插入图片描述

  • 因此文章提出了 T2I-Adapter,这是一种简单而小型的模型,可以为预训练的文本到图像(T2I)模型提供额外的指导,同时不影响其原始网络拓扑和生成能力。

借助 T2I-Adapter,我们可以生成原始 T2I 模型(例如stable diffusion)难以准确生成的更具想象力的结果。可以使用各种指导,例如颜色、深度、草图、语义分割和关键姿势。我们可以使用 T2I-Adapter 进一步实现本地编辑和可组合指导。
在这里插入图片描述

二、T2I-Adapter的特点

  • 即插即用:不会影响现有 T2I 扩散模型(例如稳定扩散)的原始网络拓扑和生成能力。
  • 简单、小型:可以轻松地插入到现有的 T2I 扩散模型中,训练成本较低,并且在扩散过程中只需要一次推理。它们是轻量级的,具有 ∼ 77 M 参数和 ∼ 300 M 存储空间。
  • 灵活性:可以针对不同的控制条件训练各种适配器,包括空间颜色控制和精细结构控制。
  • 可组合:可以方便地组合多个适配器来实现多条件控制。
  • 可推广:经过训练后,只要从相同的 T2I 模型进行微调,它们就可以直接用于自定义模型。
    在这里插入图片描述

三、模型方法

(一)关于stable diffusion

Stable Diffusion 是一个两阶段扩散模型,包含一个自动编码器和一个 UNet 降噪器。在第一阶段,SD 训练了一个自动编码器,它可以将图像 X0 转换为潜在空间,然后重建它们。在第二阶段,SD训练了一个改进的UNet降噪器来直接在潜在空间中执行降噪。

SD的优化过程:

  • Z t Z_t Zt表示第 t 步的噪声特征图
  • C代表条件信息
  • θ指的是UNet降噪器的函数
    在这里插入图片描述

在推理过程中, 输入潜在图 Z T Z_T ZT 由随机高斯分布生成。给定 Z T Z_T ZT ϵ θ \epsilon_θ ϵθ 在每个步骤 t以 C 为条件 预测噪声估计。通过减去它,噪声特征图变得逐渐清晰。经过 T 次迭代后,最终结果 Z 0 Z_0 Z0作为干净的潜在特征,被输入到自动编码器的解码器中以执行图像生成。

在条件部分, SD 利用预先训练的 CLIP 文本编码器将文本输入嵌入到标记 y 的序列中。然后利用交叉注意力模型将 y 结合到去噪过程中:

在这里插入图片描述

(二)适配器设计

T2I 适配器由四个特征提取块和三个用于改变特征分辨率的下采样块组成。
在这里插入图片描述
原始条件输入的分辨率为512×512,利用像素 unshuffle 操作将其下采样到 64 × 64。在每个尺度中,利用一个卷积层和两个残差块(RB)来提取条件特征 Fck。最终形成多尺度条件特征Fc = {Fc1, Fc2, Fc3, Fc4}。注意,Fc的维度与UNet降噪器的编码器中的中间特征Fenc = {Fe1nc, Fe2nc, Fe3nc, Fe4nc}相同。然后在每个尺度上添加 Fc 和 Fenc。
在这里插入图片描述

1、结构控制

T2I-Adapter 具有良好的泛化性,可以支持各种结构控制,包括草图、深度图、语义分割图和关键姿势。这些模式的条件图直接输入到特定于任务的适配器中以提取条件特征Fc。
在这里插入图片描述

2、空间调色板

除了结构之外,颜色也是图像的基本组成部分,主要涉及两个方面:色调和空间分布。文章设计了一个空间调色板来粗略地控制生成图像的色调和颜色分布

  • 文章使用了高双三次下采样来去除图像的语义和结构信息,同时保留足够的颜色信息。
  • 然后应用最近的上采样来恢复图像的原始大小。
  • 最后,色调和颜色分布由几个空间排列的色块来表示。
    根据经验,文章利用 64× 下采样和上采样来完成这个过程。训练过程利用颜色图作为C,通过FAD生成Fc。

3、多适配器控制

除了使用单个适配器作为条件外,T2I 适配器还支持多个条件。此策略不需要额外的培训。从数学上讲,这个过程可以定义为:
在这里插入图片描述

(三)模型优化

优化时固定SD中的参数,只优化T2I适配器。每个训练样本都是一个三元组,包括原始图像 X 0 X_0 X0、条件图 C C C和文本提示 y y y。优化过程与SD类似。具体来说,给定图像 X 0 X_0 X0,首先通过自动编码器的编码器将其嵌入到潜在空间 Z 0 Z_0 Z0。然后从 [ 0 , T ] [0, T ] [0,T] 中随机采样一个时间步 t t t,并将相应的噪声添加到 Z 0 Z_0 Z0,产生 Z t Z_t Zt。从数学上讲,我们的 T2I 适配器通过以下方式进行优化:
在这里插入图片描述

训练期间的非均匀时间步采样

扩散模型中的时间嵌入是采样的重要条件。如果将时间嵌入引入适配器,能够增强其引导能力,但是这种设计需要适配器参与每次迭代,进而使得适配器不再轻量化。因此文章采用了合适的训练策略来弥补这个弱点:

  • 将DDIM推理采样平均分为3个阶段,即开始、中期和后期。
  • 向三个阶段中的每个阶段添加指导信息。可以发现中后期添加引导对结果影响不大。表明生成结果的主要内容是在早期采样阶段就确定的。因此,如果t是从后面的部分采样的,则在训练期间将忽略指导信息。

因此,为了加强adapter的训练,采用非均匀采样来增加采样早期t下降的概率。这里,文章利用三次函数(即 t = ( 1 − ( t T ) 3 ) × T , t ∈ U ( 0 , T ) t = (1 − ( \frac{t} {T} )^3) × T, t ∈ U (0, T ) t=(1(Tt)3)×T,tU(0,T))作为 t 的分布。

在这里插入图片描述

均匀采样和三次采样的比较如下图所示,包括颜色引导和关键姿势引导。可以发现t的均匀采样存在指导性弱的问题,尤其是在颜色控制方面。三次采样策略可以纠正这个弱点。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1617079.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

安卓手机如何改ip地址?探索方法与注意事项

在数字时代,IP地址成为了我们在线身份的重要标识。对于安卓手机用户而言,了解如何修改IP地址可能涉及多种场景,那么,如何安全、有效地进行这一操作呢?下面将为您提供相关方法,并探讨修改IP地址时的注意事项…

国外问卷调查如何做?需要借助海外住宅IP吗?

在数字化时代,国外问卷调查不仅是了解市场需求的重要手段,还成为了一项能够赚取额外收入的方式。随着全球范围内消费者行为的多样化,各类企业和机构越来越需要了解不同地区的用户观点和偏好,以优化产品和服务。 一、国外问卷调查…

接口测试和Mock学习路线(中)

1.什么是 swagger Swagger 是一个用于生成、描述和调用 RESTful 接口的 WEB 服务。 通俗的来讲,Swagger 就是将项目中所有想要暴露的接口展现在页面上,并且可以进行接口调用和测试的服务。 现在大部分的项目都使用了 swagger,因为这样后端…

基于STM32实现流水灯【Proteus仿真】

详情更多 wechat:嵌入式工程师成长日记 https://mp.weixin.qq.com/s?__bizMzg4Mzc3NDUxOQ&mid2247485624&idx1&sn4e553234c2624777409bd2067a07aad8&chksmcf430de0f83484f6189b119d9d83ea6e6f2a85d13afaa04d218483918231c38e6382d3007061&tok…

【大语言模型LLM】- Meta开源推出的新一代大语言模型 Llama 3

🔥博客主页:西瓜WiFi 🎥系列专栏:《大语言模型》 很多非常有趣的模型,值得收藏,满足大家的收集癖! 如果觉得有用,请三连👍⭐❤️,谢谢! 长期不…

【图说】VMware Ubuntu22.04 详细安装教程

前言 无论是从事 Linux 开发工作,还是希望电脑运行双系统,VMware 虚拟机都是我们日常工作不可或缺的工具。本章将会重点介绍 VMware 安装流程,以及在 VMware 上如何运行、使用 Ubuntu22.04 系统。 一、VMware 下载安装 1.1 VMware 官网下载…

使用虚拟信用卡订阅Starlink教程

Starlink 是由 SpaceX 公司开发的卫星互联网服务平台。它旨在通过将成千上万的卫星部署到地球轨道上,为全球范围内的用户提供高速互联网接入。通过 Starlink,用户可以通过卫星连接接入互联网,无需依赖传统的地面基础设施,这对于偏…

软考高项(已通过,E类人才)-学习笔记材料梳理汇总

软考高项,即软考高级信息系统项目管理师,全国计算机技术与软件专业技术资格(水平)考试中的高级水平测试。适用于从事计算机应用技术、软件、网络、信息系统和信息服务等领域的专业人员,以及各级企业管理人员和从事项目…

基于K-means和FCM算法的合成纹理图像及SAR图像的分割

🎀个人主页: https://zhangxiaoshu.blog.csdn.net 📢欢迎大家:关注🔍点赞👍评论📝收藏⭐️,如有错误敬请指正! 💕未来很长,值得我们全力奔赴更美好的生活&…

免 Administrator 权限安装软件

以欧路词典为例, 从官网下载的安装包 https://www.eudic.net/v4/en/app/download 直接运行会弹出 UAC 提示需要管理员权限. 一个词典而已, 为啥要管理员权限呢? 答案是安装程序默认使用的安装路径是 C:\Program Files\ 这就不难理解了. 对于这种不需要其他额外权限的软件, 可以…

zabbix自动发现和自动注册

一、zabbix自动发现 1.1 确保客户端上的zabbix-agent2服务器状态正常 1.2 在web页面删除原有的客户端主机 1.3 在服务端和客户端上配置hosts 1.4 web端配置自动发现 二、zabbix自动注册 2.1 环境配置 2.2 修改zabbix-agent2配置文件 过滤非#或非¥开头的内容 2.3 we…

Qt 跨平台开发的一丢丢总结

Qt 跨平台开发 文章目录 Qt 跨平台开发摘要第一 \ & /第二 神奇{不能换行显示第三 预处理宏 关键字: Qt、 win、 linux、 lib、 MSVC 摘要 最近一直在琢磨Qt跨平台开发的问题,缘由有以下几个, 首先第一个,我们目前开发…

【剪映专业版】03立体自动翻页

【剪映专业版】立体自动翻页制作 1.导入素材,图片或视频均可 2.将素材2拖动至素材1的上方,点击蒙版,选择线性蒙版,并旋转为90度。 3.复制素材1,并拖动到素材2上方,分割并删除后半部分,点击蒙版…

Java进阶-Stream流

概述 在Java8中,得益于lambda所带来的函数式编程,引入了一个全新的Stream流的概念目的:用于简化集合和数组操作的api 案例 需求:创建一个集合存储多个字符串元素,将集合中所有以“z”开头的元素存储到新的集合中&am…

邀请全球创作者参与 The Sandbox 创作者训练营

作为首屈一指的元宇宙平台之一,The Sandbox 的使命是成为全球创作者的中心。随着我们对 Game Maker 的不断改进、旨在激发创作者灵感的定期 Game Jams、革命性的 "创作者挑战 "以及众多其他活动的开展,我们见证了大量个人加入我们充满活力的创…

C++ 虚表起源

本文会让看不见 摸不着的虚表(Vtable),虚指针(Vptr)彻底现行 本文涉及思想: C 面向对象 封装 继承 多态 中的 多态 概念解释: 虚表指针: 这是指向虚表(vtable)的指针,虚表中包含了该类的所有虚函数对应的地址。 虚表&#x…

每日一题 — 二分查找

704. 二分查找 - 力扣(LeetCode) 朴素二分查找模板: while(.......){//防止溢出int mid left(right - left)/2;if(........){right mid-1;}else if(......){left mid1;}else{return mid;}} 代码: public int search(int[] num…

十六、Qgis工具如何将shp转换geoJson类型文件

在使用GIS地图的时候线路图是非常重要的一个部分,根据以前的下载方法下载好了Qgis工具,那么如何将在openstreetmap下载下来的.shp文件转换为geoJson呢,下面就来说说。 准备工作 一、首先肯定是下载好了中国地图的全部的.shp包。里面包含全国的地图,包含shp,cpg,dbf类型的道…

软考 系统架构设计师系列知识点之大数据设计理论与实践(18)

接前一篇文章:软考 系统架构设计师系列知识点之大数据设计理论与实践(17) 所属章节: 第19章. 大数据架构设计理论与实践 第5节 Lambda架构与Kappa架构的对比和设计选择 19.5.2 Lambda架构与Kappa架构的设计选择 根据Lambda与Kapp…

ArrayList与顺序表(2)

前言~🥳🎉🎉🎉 hellohello~,大家好💕💕,这里是E绵绵呀✋✋ ,如果觉得这篇文章还不错的话还请点赞❤️❤️收藏💞 💞 关注💥&#x1…