【多条件控制生成模型综述】

news2024/11/15 19:45:51

多条件控制生成

  • 1 分类
  • 2 联合训练
    • 2.1 Composer
    • 2.2 Cocktail
    • 2.3 SVDiff
  • 3 持续学习
    • 3.1 CLoRA
    • 3.2 L2DM
    • 3.3 STAMINA
  • 4 权重融合
    • 4.1 Cones
    • 4.2 Custom Diffusion/Mix-of-Show
    • 4.3 ZipLoRA
    • 4.4 style LoRAs
  • 5 基于注意力的集成方法
    • 5.1 Cones2
    • 5.2 Mix-of-Show
  • 6 指导组合
    • 6.1 Decompose and Realign
    • 6.2 Face-diffuser
    • 6.3 GCFG

1 分类

1.联合训练、
3.权重融合、
4.基于注意力的集成、
5.引导融合、
2.持续学习

2 联合训练

设计一个多条件框架并联合训练他们,这种方法侧重于多条件编码器和训练策略。

2.1 Composer

将所有条件(文本标题、深度图、草图)投影到与使用堆叠卷积层将空间大小与噪声潜伏期相同的均匀维嵌入。
利用联合训练策略从一组表示中生成图像,其中每个条件使用0.5的独立dropout概率,丢弃所有条件的概率为0.1,保留所有条件的概率为0.1。

2.2 Cocktail

提出可控归一化方法(ControlNorm),具有一个额外的层来生成以所有模态为条件的两组可学习参数。这两组参数用于融合外部条件信号和原始信号。

2.3 SVDiff

利用切割混合机制进行多主体生成。它通过类似CutMix的数据增强来增强多概念数据,并重写相应的文本提示。它还利用交叉注意力图上的非混合正则化,确保文本嵌入仅在对应区域有效。这种注意力图约束机制也被应用于 FastComposer [83]。

3 持续学习

持续学习方法通常被提出用于解决基于训练的条件分数预测工作中的知识“灾难性遗忘”。

3.1 CLoRA

由交叉注意力层中的连续自注意力 LoRA 组成。它利用过去的 LoRA 权重增量通过引导哪些参数可用于更新以进行连续概念学习来调节新的 LoRA 权重增量。

3.2 L2DM

设计了一个任务感知记忆增强模块和一个弹性概念蒸馏模块,该模块可以分别保护先前概念和每个过去个性化概念的知识。它利用彩虹记忆库策略来管理长期和短期记忆,并提供正则化样本来保护个性化过程中的知识。在训练期间,作者进一步提出了一个概念注意力艺术家模块和正交注意力艺术家模块来更新噪声潜在以获得更好的性能。

3.3 STAMINA

在持续学习中引入了遗忘正则化和稀疏性正则化,避免了遗忘学习的概念,确保了存储或推理的成本。

4 权重融合

在通过微调将 T2I 扩散模型适应新条件的领域,权重融合本身就呈现作为合并多种条件的直观方法。这些方法专注于实现权重的内聚混合,该混合包含每个条件,同时确保保留各个条件的可控性。目标是将各种条件方面无缝集成到一个统一的模型中,从而增强其在不同场景的多功能性和适用性。这需要在保持每个条件影响的完整性并实现有效的整体合成之间做出微妙的平衡。
由于个性化条件通常代表UNet的权重或文本嵌入,权重融合是在多个个性化条件下生成图像的一种直观有效的方法。

4.1 Cones

在个性化后进一步微调概念神经元,以获得更好的生成质量和多主体生成能力。

4.2 Custom Diffusion/Mix-of-Show

引入了一种约束优化方法来合并微调键和值矩阵

4.3 ZipLoRA

通过最小化混合 LoRA 模型和原始 LoRA 模型生成的主题/样式图像之间的差异以及内容列之间的余弦相似度来合并 LoRA 样式权重

4.4 style LoRAs

提出正交适应来替换微调中的 LoRA,鼓励定制模型具有正交残差权重以实现高效融合。

5 基于注意力的集成方法

基于注意力的集成方法调节注意力图以在合成图像中战略性地定位主题,从而可以精确控制每个条件在最终组合中表示的位置和方式。

5.1 Cones2

通过 EditedCA ← sof tmax(CA ⊕ {η(t) · Msi |i = 1, · · · , N } 编辑交叉注意力图,其中 ⊕ 表示添加交叉注意力图 CA 和预定义布局 M 的相应维度的操作,η(t) 是控制不同时间步 t 编辑强度的凹函数。

5.2 Mix-of-Show

采用区域可控的采样方法,将全局提示和多区域提示与交叉注意中的预定义掩码相结合。

6 指导组合

指导组合是一种在多个条件下合成图像的集成机制,集成了每种条件的独立去噪结果。这个过程在数学上表示为:
在这里插入图片描述

其中 ε(zt, ci) 表示每种条件的指导,而wi 和 Mi 是用于整合这些结果的相应权重和空间掩码。

6.1 Decompose and Realign

通过它们的交叉注意力图获得相应的 Mi。

6.2 Face-diffuser

提出了一种显著性自适应噪声融合方法,将文本驱动扩散模型和提出的主题增强扩散模型的结果结合起来。

6.3 GCFG

提出了用于以概念为中心的个性化的广义无分类器引导(GCFG),并通过手动设置强度wi来整合概念引导和控制指导。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1906952.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

众所周知沃尔玛1P是怎么运营?

​​沃尔玛的1P模式,即第一方供应商模式,是其独特的采购策略。在这种模式下,供应商先将商品卖给沃尔玛,由沃尔玛负责库存管理和销售。沃尔玛通过强大的采购和物流能力控制库存,确保商品品质,为客户提供更加…

STM32入门笔记(03): ADC低通滤波(IIR)(SPL库函数版)(2)

A/D转换的常用技术有逐次逼近式、双积分式、并行式和跟踪比较式等。目前用的较多的是前3种。 A/D转换器的主要技术指标 转换时间 分辨率 例如,8位A/D转换器的数字输出量的变化范围为0~255,当输入电压的满刻度为5V时,数字量每变化…

Android的校园二手交易app-计算机毕业设计源码46291

摘要 在大学校园中,学生们的物品更换频繁,有许多闲置物品堆积。对于这些物品,许多学生希望能够有一个平台来方便地交易。随着移动互联网的普及,移动应用已成为校园生活的重要组成部分。其中,校园二手交易平台能够有效地…

(2024,稀疏 MoE,大量小专家,参数高效专家检索 PEER,product key 检索)混合百万专家

Mixture of A Million Experts 公和众与号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群) 目录 0. 摘要 1. 简介 2. 方法 3. 实验 0. 摘要 标准 Transformer 架构中的前馈(feedforward&a…

绝区肆--2024 年AI安全状况

前言 随着人工智能系统变得越来越强大和普及,与之相关的安全问题也越来越多。让我们来看看 2024 年人工智能安全的现状——评估威胁、分析漏洞、审查有前景的防御策略,并推测这一关键领域的未来可能如何。 主要的人工智能安全威胁 人工智能系统和应用程…

C++入门基础_cpp

目录 1.C发展历史 2.C版本更新 3. C参考⽂档 4.C的第⼀个程序 5.命名空间(namespace) 5.1 namespace的价值 5.2 namespace的定义 5.3 命名空间使用 6.C输⼊&输出 7. 缺省参数 8.函数重载 9. 引用 9.1 引用的概念和特性 9.2 const引用 9.3 引用与指针的关系 …

学诚教育在线管理系统-计算机毕业设计源码98076

目 录 摘要 1 绪论 1.1 选题背景与意义 1.2开发现状 1.3论文结构与章节安排 2 开发环境及相关技术介绍 2.1 MySQL数据库 2.2 Tomcat服务器 2.3 Java语言 2.4 Spring Cloud框架介绍 3 教育在线管理系统系统分析 3.1 可行性分析 3.1.1 技术可行性分析 3.1.2 经济可…

如何确保工业展厅设计既专业又吸引?三原则详解!

工业是民族发展的基石,它为我们带来了无数的便利和进步,而为了让更多人了解这个至关重要的产业,以及其背后的技术和产品,许多工业性质的企业都致力于通过互动投影、虚拟现实、全息投影等多媒体技术,来打造独具特色的工…

AI视频生成,文字、图片、人像生成视频小程序开发

AI视频生成,文字、图片、人像生成视频小程序开发 AI驱动的多媒体内容创新平台:从文本至视频的一站式生成解决方案。 以下概述集成AI技术的原创视频生成小程序的高级功能框架,旨在为用户提供极致的创作体验。 文本视频化引擎:允…

web端已有项目集成含UI腾讯IM

通过 npm 方式下载 TUIKit 组件,将 TUIKit 组件复制到自己工程的 src 目录下: npm i @tencentcloud/chat-uikit-vue mkdir -p ./src/TUIKit && rsync -av --exclude={node_modules,package.json,excluded-list.txt} ./node_modules/@tencentcloud/chat-uikit-vue/ .…

学数据结构学的很慢,毫无头绪怎么办 ?

这个情况比较正常诶,不用有太大的心理压力。 然后程序设计那个没有学过,而数据结构的前置课程之一就是程序设计,比如栈/队列/树,这些数据结构都要基于代码实现的。我估计是因为你之前缺少学习程序设计的经验,所以学起…

Perforce发布白皮书,解读电动汽车初创公司如何加速进入市场并降低软件开发中的风险和成本

电动汽车(EV)领域的初创企业正迅速崛起,创新速度显著加快。然而,随着消费者对电动汽车需求的激增,老牌汽车制造商正加速进军这一市场,加剧了行业竞争。为在竞争中生存并发展,电动汽车初创企业必…

JS数据类型检测的方式有哪些 (常用)

typeof 其中数组、对象、null都会被判断为object,其他判断都正确typeof返回的类型都是字符串形式 instanceof instanceof :用于检测一个实例是否属于某个类,通过验证当前类的原型 prototype 是否出现在实例的原型链 __proto__ 上。它不能检测…

读书记录《SQL从小白到大牛》01

读书记录《SQL从小白到大牛》01 接地气的书名,内容应当值得一读。 第一篇 SQL基础 01 一些基础概念 SQL是结构化查询语言(Structured Query Language),是一套用来输入、更改和查看关系数据库内容的命令。数据库发展经历三个阶…

花朵短视频:四川江兴川丰科技有限公司

花朵短视频:绽放于屏幕间的自然诗篇 在快节奏的现代生活中,我们常常渴望一抹清新与宁静,以慰藉心灵的疲惫。而花朵短视频,就像是大自然精心编织的一首首无声诗篇,四川江兴川丰科技有限公司通过手机屏幕的方寸之间&…

ArcGIS中国工具(ArcGISCTools)等插件使用体验

ArcGIS中国工具(ArcGISCTools)的主要功能 1. 接合图表生成 这个功能允许用户生成标准分幅图的行政区边框注记,并在打印时自动加入。这对于需要制作标准地图的用户非常实用。 2. 图框工具 图框工具可以帮助用户创建和管理地图的图框&#…

latex改写字体和字号

文章目录 字体使用宏包设置命令声明命令 字号例子设置特定字号 设置行间距用\setlength{\baselineskip}{24pt}设置\renewcommand{\baselinestretch}{2} \selectfont中文行距({ctex}) 补充: 字体 使用宏包 \usepackage{ctex}设置命令 只对确…

ExcelVBA运用Excel的【条件格式】(二)

ExcelVBA运用Excel的【条件格式】(二) 前面知识点回顾 1. 访问 FormatConditions 集合 Range.FormatConditions 2. 添加条件格式 FormatConditions.Add 方法 语法 表达式。添加 (类型、 运算符、 Expression1、 Expression2) 3. 修改或删除条件…

飞睿智能无线高速uwb安全数据传输模块,低功耗、抗干扰超宽带uwb芯片传输速度技术新突破

在信息化的时代,数据传输的速度和安全性无疑是每个企业和个人都极为关注的话题。随着科技的飞速发展,超宽带(Ultra-Wideband,简称UWB)技术凭借其性能和广泛的应用前景,逐渐成为了数据传输领域的新星。今天&…