【AIGC-图片生成视频系列-4】DreamTuner:单张图像足以进行主题驱动生成

news2025/1/17 21:42:16

目录

一. 项目概述

问题:

解决:

二. 方法详解

a) 整体结构

b) 自主题注意力

三. 文本控制的动漫角色驱动图像生成的结果

四. 文本控制的自然图像驱动图像生成的结果

五. 姿势控制角色驱动图像生成的结果


2023年的最后一天,发个文记录下。马上就要迎来新的一年,在这里预祝各位读者新年新气象!

今天要介绍的是字节的DreamTuner: Single Image is Enough for Subject-Driven Generation,可以通过单张图像实现特定主题的驱动生成。

一. 项目概述

什么是主题驱动生成?使用一张或几张参考图像生成定制概念的个性化应用。

问题:

  1. 现有的基于微调的方法需要在主题学习和维护预训练模型的生成能力之间进行权衡,个人理解是模型特化和泛化的权衡。

  2. 基于附加图像编码器的其他方法往往由于编码压缩而丢失主题的一些重要细节。

解决:

文中提出了 DreamTurner,这是一种从粗到细注入定制主题的参考信息的新颖方法。

  1. 首先提出了一种用于粗略主题身份保留的主题编码器,其中在视觉文本交叉注意之前通过附加注意层引入压缩的一般主题特征。

  2. 然后,我们将预训练的文本到图像模型中的self-attention修改为self-subject-attention层,以细化目标主体的细节。值得强调的是,self-subject-attention是一种优雅、有效、免训练的方法,用于维护定制概念的详细特征,可以在推理过程中用作即插即用的解决方案。

  3. 最后,通过仅对单个图像进行额外的微调,DreamTurner 在由文本或姿势等其他条件控制的主题驱动图像生成方面取得了卓越的性能。

二. 方法详解

DreamTuner 作为一种基于微调和图像编码器的主题驱动图像生成的新颖框架,它保持从粗到细的主题身份。

DreamTuner由三个阶段组成:主题编码器预训练、主题驱动微调和主题驱动推理。

  1. 首先,训练主题编码器以进行粗略的身份保留。主题编码器是一种图像编码器,为生成模型提供压缩图像特征。冻结的 ControlNet 用于解耦内容和布局。

  2. 然后我们在参考图像和一些生成的常规图像上微调整个模型,如 DreamBooth 中一样。请注意,主题编码器和自主题注意力用于常规图像生成以细化常规数据。

  3. 在推理阶段,通过微调获得的主题编码器、自身主题注意力和主题词[S*]用于从粗到细地进行主题身份保留。预训练的 ControlNet 还可用于布局控制生成。

a) 整体结构

  1. 提出的主题编码器作为一种图像编码器,为主题驱动生成提供粗略参考。使用冻结的 CLIP 图像编码器来提取参考图像的压缩特征。使用显著对象检测(SOD)模型或分割模型来去除输入图像的背景并强调主题。

  2. 然后引入一些残差块(ResBlock)进行域移位。CLIP提取的多层特征在通道维度上cat操作,然后通过残差块调整到与生成特征相同的维度。使用附加的主题编码器注意(SEA)层将主题编码器的编码参考特征注入到文本到图像模型中。主题编码器注意层添加在视觉文本交叉注意之前,因为交叉注意层是控制生成图像的总体外观的模块。

  3. 根据与交叉注意力相同的设置构建主题编码器注意力,并将输出层初始化为零。附加系数β引入来调整主题编码器的影响。

  4. 此外,进一步引入ControlNet来帮助解耦内容和布局。具体来说,我们训练主题编码器和冻结深度 ControlNet。由于ControlNet提供了参考图像的布局,主题编码器可以更加关注主题内容

b) 自主题注意力

  1. 由于主题编码器为生成过程提供了特定主题的一般外观,因此进一步提出基于原始自注意力层的自主题注意力,以实现良好的主题身份保存。

  2. 将预训练的文本到图像 U-Net 模型提取的参考图像的特征注入到自注意力层中。

  3. 参考特征可以提供精细且详细的参考,因为它们与生成图像的特征共享相同的分辨率。具体来说,在每个时间步长通过扩散前向过程对参考图像进行噪声处理t。

  4. 然后从噪声参考图像中提取每个自注意力层之前的参考特征,这些特征与时间步长生成的图像特征共享相同的数据分布。

  5. 利用参考特征将原始的自注意力层修改为自主题注意力层。将生成图像的特征作为查询,并将生成图像特征和参考图像特征的进行cat操作作为键和值。

  6. 为了消除参考图像背景的影响,使用显著对象检测(SOD)模型创建前景掩模,其中使用0和1来指示背景和前景。

  7. 此外,掩模还可以通过权重策略来调整参考图像影响的大小,即掩模乘以调整系数, 起到注意偏差的作用,因此使用对数函数作为预处理。

将原来的分类器免引导方法也修改为:

图片

第一个方程强调参考图像的引导,第二个方程强调条件的引导,用概率控制选择第一个或者第二个的可能性。

三. 文本控制的动漫角色驱动图像生成的结果

结果显示了专注于动漫角色的文本控制的主题驱动图像生成的输出。

局部编辑结果(例如第一行的表达式编辑)和全局编辑结果(包括后续五行的场景和动作编辑),即使输入复杂的文本也能产生高度详细的图像。值得注意的是,图像准确地保留了参考图像的细节。

四. 文本控制的自然图像驱动图像生成的结果

该方法在 DreamBooth 数据集上进行评估,其中每个主题的一张图像用作参考图像。通过使用主题编码器和自我主题注意力,生成精确的参考。

这使得 DreamTuner 能够成功生成与文本输入一致的高保真图像,同时还保留关键的主题细节,包括但不限于、小狗头上的白色条纹、包上的徽标、罐头上的图案和文字。

图片

五. 姿势控制角色驱动图像生成的结果

该方法可以与 ControlNet 相结合,将其适用性扩展到各种条件,例如姿势。在下面的示例中,仅使用一张图像进行 DreamTuner 微调,并使用参考图像的姿态作为参考条件。为了保证帧间的一致性,参考图像和生成图像的前一帧都用于自我注意力,参考权重分别为10和1。 

欢迎加入AI杰克王的免费知识星球,海量干货等着你,一起探讨学习AIGC!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1348318.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[C#]使用ONNXRuntime部署一种用于边缘检测的轻量级密集卷积神经网络LDC

源码地址: github.com/xavysp/LDC LDC: Lightweight Dense CNN for Edge Detection算法介绍: 由于深度学习方法的快速发展,近年来,用于执行图像边缘检测的卷积神经网络(CNN)模型爆炸性地传播。但边缘检测…

【C++】手撕 Vector类

目录 1,vector类框架 2,vector () 3,pinrt() 4,vector(int n, const T& value T()) 5,vector(const vector& v) 6,vector(InputIterator first, InputIterator last) 7,~vector…

Adobe ColdFusion 文件读取漏洞(CVE-2010-2861)

漏洞原理 Adobe ColdFusion是美国Adobe公司的一款动态Web服务器产品,其运行的CFML(ColdFusion Markup Language)是针对Web应用的一种程序设计语言。由于AJP协议设计存在缺陷导致内部相关的属性可控,攻击者可以构造属性值&#xff…

C++17中的内联变量

在C11中: (1).声明为constexpr的函数隐式地是内联函数; (2).deleted函数隐式地是一个内联函数。 在内联函数中: 1.所有函数定义中的函数局部静态对象(function-local static object)在所有翻译单元之间共享(它们都引用一个翻译单…

实时交通标志检测和分类(代码)

交通标志检测和分类技术是一种基于计算机视觉和深度学习的先进技术,能够识别道路上的各种交通标志,并对其进行分类和识别。这项技术在智能交通系统、自动驾驶汽车和交通安全管理领域具有重要的应用前景。下面我将结合实时交通标志检测和分类的重要性、技…

【STM32】SPI通信

1 SPI通信 SPI(Serial Peripheral Interface,串行外设接口)是由Motorola公司开发的一种通用数据总线 四根通信线:SCK(Serial Clock,串行时钟)、MOSI(Master Output Slave Input&am…

【MyBatis】操作数据库——入门

文章目录 为什么要学习MyBatis什么是MyBatisMyBatis 入门创建带有MyBatis框架的SpringBoot项目数据准备在配置文件中配置数据库相关信息实现持久层代码单元测试 为什么要学习MyBatis 前面我们肯定多多少少学过 sql 语言,sql 语言是一种操作数据库的一类语言&#x…

BLE Mesh蓝牙组网技术详细解析之Lower Transport Layer下传输层(四)

目录 一、什么是BLE Mesh Lower Transport Layer下传输层? 二、未分段消息 2.1 未分段接入层消息 2.2 未分段控制层消息 三、分段消息 3.1 超过多少个字节需要分段? 3.2 分段接入层消息 3.3 分段控制层消息 3.4 分段确认消息 3.5 分段和重组流程…

按行依次处理数据的文件操作(C语言版)

按行依次处理数据的文件操作(C语言版) 这段代码的目的是处理多个文件,为每个文件创建一个新文件,将以 ‘r’ 开头的行添加 “./” 前缀,并将修改后的内容写入新文件。在main函数中,通过调用process函数,逐个处理了一系…

牛客网SQL训练5—SQL大厂面试真题

文章目录 一、某音短视频1.各个视频的平均完播率2.平均播放进度大于60%的视频类别3.每类视频近一个月的转发量/率4.每个创作者每月的涨粉率及截止当前的总粉丝量5.国庆期间每类视频点赞量和转发量6.近一个月发布的视频中热度最高的top3视频 二、用户增长场景(某度信…

[react]脚手架create-react-app/vite与reac项目

[react]脚手架create-react-app/vite与reac项目 环境问题描述create-react-app 脚手架根据脚手架修改项目结构安装脚手架注入配置文件-config文件夹package.json文件变更删除 serviceWorker.js新增reportWebVitals.js文件更新index.js文件 脚手架creat-react-app 缺点 vite 脚手…

数据结构期末复习(2)链表

链表 链表(Linked List)是一种常见的数据结构,用于存储一系列具有相同类型的元素。链表由节点(Node)组成,每个节点包含两部分:数据域(存储元素值)和指针域(指…

MyBatis多表映射

1. 多表映射概念 MyBatis 思想是:数据库不可能永远是你所想或所需的那个样子。 我们希望每个数据库都具备良好的第三范式或 BCNF 范式,可惜它们并不都是那样。 如果能有一种数据库映射模式,完美适配所有的应用程序查询需求,那就太…

【FileZilla的安装与使用(主动与被动模式详解,以及如何利用FileZilla搭建FTP服务器并且进行访问)】

目录 一、FileZilla介绍 1.1 简介 1.2 重要信息和功能 二、FileZilla的安装与使用 2.1 FileZilla服务端安装与配置 2.1.1 安装步骤 2.1.2 新建组 2.1.3 新建用户 2.1.4 新建目录 2.1.5 权限分配 (1)用户Milk权限分配 (2&#xff…

HikvisionCamera开发-萤石云RTMP协议获取视频流

RTMP/RTSP(实时流传输协议)是一种网络协议,旨在用于传输音频和视频数据。本文将介绍如何在HikvisionCamera二次开发中如何通过RTMP协议获得实时视频流,使用到的摄像头为POE供电的海康威视-臻全彩款,以及套餐内配套录像…

JMeter使用

目录 启动JMeter 创建线程组 设置线程参数 设置http请求参数 ​编辑 创建查看结果树(显示成功/失败多少以及返回结果等信息) 创建聚合报告(显示响应时间、吞吐量、异常数等信息) 点击上方的执行按钮即可开始压力测试 结果树显示 聚合报告结果显示 启动JMeter 在JMete…

【NLP论文】03 基于 jiagu 的情感分析

本篇是NLP论文系列的最后一篇,主要介绍如何计算情感分析结果,并将其融入到XX评价体系和物流关键词词库,之前我已经写了两篇关于情感分析的文章,分别是 SnowNLP 和 Cemotion 技术,最终我才用了 jiagu 来写我的论文&…

机器人中的数值优化之线性共轭梯度法

欢迎大家关注我的B站: 偷吃薯片的Zheng同学的个人空间-偷吃薯片的Zheng同学个人主页-哔哩哔哩视频 (bilibili.com) 本文ppt来自深蓝学院《机器人中的数值优化》 目录 1.无约束优化方法对比 2.Hessian-vec product 3.线性共轭梯度方法的步长​编辑 4.共轭梯度…

mac上使用Navicat Premium 在本地和生产环境中保持数据库同步

Navicat Premium 是一款功能强大的数据库管理和开发工具,支持多种数据库系统,如 MySQL、Oracle、SQL Server 等。作为程序员,我深知在开发过程中需要一款方便、高效的数据库管理工具来提升工作效率。而 Navicat Premium 正是这样一款不可多得…

Spring Boot学习随笔- Jasypt加密数据库用户名和密码以及解密

学习视频:【编程不良人】2021年SpringBoot最新最全教程 第十九章、Jasypt加密 Jasypt全称是Java Simplified Encryption,是一个开源项目。 Jasypt与Spring Boot集成,以便在应用程序的属性文件中加密敏感信息,然后在应用程序运行…