033_SS_Inversion-Based Creativity Transfer with Diffusion Models

033_SS_Inversion-Based Creativity Transfer with Diffusion Models

news2025/6/28 19:56:53

在这里插入图片描述

下载地址：Arxiv 2022.11.23
Code地址：https://github.com/zyxElsa/creativity-transfer

1. Introduction

在这里插入图片描述

Motivations

以前的任意示例引导的艺术图像生成方法（比如风格迁移）通常无法控制形状变化或传达语义元素。而预训练的text-to-image diffusion需要大量的文字描述才能准确描绘特定绘画的属性。
本文的核心思想是从一幅画中学习艺术创造力，然后在不提供复杂的文字描述的情况下指导生成过程。

Arguments

在这里插入图片描述

Style Transfer不能传递对象形状和语义元素等特定的创意属性。如图中的b，e
Text-guided Stylization从自然图像和文本提示中生成艺术图像，但是通常目标风格的文本提示只能是对材料的粗略描述。如图中a，d
Diffusion模型虽然可以生成高质量的结果，但是除了输入图像之外，如果我们想要再现一些生动的内容和风格，还需要详细的辅助文本输入来指导生成过程，这可能仍然难以在结果中再现特定绘画的创意

Contributions

本文提出了一种新任务：艺术创造力迁移的任务（Creativity Transfer）。给定一个单一的绘画图像，目标是通过使用自然图像或文本描述来控制内容，生成对其创作属性具有高保真度的新艺术图像。
本文提出了一种基于注意力的单图像文本反转方法，可以快速准确地学习图像的整体语义和艺术技巧，从而捕捉绘画的完整创意。
通过实验证明本文提出的创造性学习方法可以实现SOTA的性能和新颖的视觉效果

2. Methodology

主要思想是通过Textual Inversion将输入的艺术图像进行处理，得到其对应的包含了creativity的文本v，然后将v进行embedding后作为预训练好的Diffusion的条件输入。

在这里插入图片描述

2.1 Textual Inversion

做法是对于输入的条件图像y，利用CLIP image Encoder $\tau_{\theta}(y)$ 得到其对应的embedding，然后经过Attention后输出的v作为Diffusion要用的文本条件，经过Text encoder编码之后作为Diffusion的条件输入。

训练的目标则是Diffusion的目标

在这里插入图片描述

而在训练的时候， $\tau_{\theta}$ 和 $\epsilon_{\theta}$ 的参数是固定的。

2.2 Stochastic Inversion

本文指出，LDM生成图像的整体性由文本条件控制，而细节则有加入的噪声控制，因此本文固定了随机种子。

这个部分原文写的不太清楚，事实上本文我只给了两个S的一个重要原因就是文章好几个地方写的很不清楚，包括整体的训练和采样过程也没有详细给出。实验部分也是只有效果图，没有指标的比较。

3. Experiments

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/371956.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【Linux | ELK 8.2】搭建ELKB集群Ⅰ—— 实验环境说明和搭建Elasticsearch集群

【Linux | ELK 8.2】搭建ELKB集群Ⅰ—— 实验环境说明和搭建Elasticsearch集群

目录1. 实验环境1.1 实验工具1.2 操作系统1.3 架构版本、IP地址规划与虚拟机配置要求1.4 拓扑图1.5 其他要求2. 实验步骤2.1 安装Elasticsearch（单节点）（1）检查系统jdk版本（2）下载elasticsearch&#xff08…

阅读更多...

格式化串漏洞

格式化串漏洞

格式化字符串漏洞本身并不算缓冲区溢出漏洞，这里作为比较典型的一类漏洞进行简单介绍。为了能够将字符串、变量、地址等数据按照指定格式输出，通常使用包含格式化控制符的常量字符串作为格式化串，然后指定用相应变量来代替格式化串中的格式化…

阅读更多...

进程管理之基本概念

进程管理之基本概念

目录关于进程的基本概念进程描述符查看进程进程标识进程的生命周期僵尸进程、孤儿进程写时拷贝技术 fork()函数 vfork()函数终止进程进程优先级和权重进程地址空间关于进程的基本概念进程和程序是操作系统领域的两个重要的概念，进程是执行…

阅读更多...

LeetCode 145. 二叉树的中序遍历

LeetCode 145. 二叉树的中序遍历

LeetCode 145. 二叉树的中序遍历难度：easy\color{Green}{easy}easy 题目描述给你一棵二叉树的根节点 rootrootroot ，返回其节点值的后序遍历。示例 1： 输入：root [1,null,2,3] 输出：[3,2,1]示例 2&#xff1a…

阅读更多...

mitmproxy使用总结

mitmproxy使用总结

mitmproxy is a free and open source interactive HTTPS proxy. 这官网上的一句话说明mitmproxy的身份，MITM 即中间人攻击（Man-in-the-middle attack），与charles、fidder之类的抓包工具不同的是可以增加一些自定义处理的扩展脚本…

阅读更多...

aws appmesh 在ec2上部署和使用appmesh

aws appmesh 在ec2上部署和使用appmesh

参考资料 Getting started with AWS App Mesh and Amazon EC2 之前的文章中我们已经介绍了aws的服务网格场频appmesh，并且在eks环境中进行了部署和简单功能的测试。由于eks环境较为复杂，本文在ec2环境下手动配置appmesh网格环境需求： 两个…

阅读更多...

【Spring 基础】

【Spring 基础】

【Spring 基础】一、 Spring 介绍 1. 简述 Spring 技术是 JavaEE 开发必备技能，企业开发技术选型专业角度简化开发，降低企业级开发的复杂性 IoCAOP 事务处理框架整合，高效整合其他技术，提高企业级应用开发与运行效率 MyBat…

阅读更多...

Linux内核中的软中断、tasklet和工作队列

Linux内核中的软中断、tasklet和工作队列

软中断、tasklet和工作队列并不是Linux内核中一直存在的机制，而是由更早版本的内核中的“下半部”（bottom half）演变而来。下半部的机制实际上包括五种，但2.6版本的内核中，下半部和任务队列的函数都消失了，…

阅读更多...

5M240ZT144C5N【CPLD】5M240ZT144I5N,5M570ZT100I5N满足低功耗设计

5M240ZT144C5N【CPLD】5M240ZT144I5N,5M570ZT100I5N满足低功耗设计

MAX V设备系列的特点：低成本、低功耗、非易失性CPLD架构即时启动(0.5 ms或更短)配置时间待机电流低至25A，快速下电/复位操作快速传播延迟和时钟到输出时间内部振荡器模拟RSDS输出支持，数据速率高达200 Mbps模拟LVDS输出支持，数据速…

阅读更多...

手把手教你做微信公众号

手把手教你做微信公众号

手把手教你做微信公众号微信公众号可以通过注册的方式来建立。 1.进入微信公众平台首先，在浏览器中搜索微信公众号，网页第一个就是，如下图所示，我们点进去。 2.注册微信平台账号进入官网之后，如下图所示&#…

阅读更多...

day53【代码随想录】单调栈之每日温度、下一个更大元素 I、下一个更大元素 II

day53【代码随想录】单调栈之每日温度、下一个更大元素 I、下一个更大元素 II

文章目录前言一、每日温度（力扣739）二、下一个更大元素 I（力扣496）三、下一个更大元素 II（力扣503）【环形数组】思路一思路二前言单调栈：栈内元素保证递增或递减的 1、每日温度 2、下一个更大…

阅读更多...

“AI板块凉了”说法有失公允？AI板块CNTM其发展的关键！

“AI板块凉了”说法有失公允？AI板块CNTM其发展的关键！

今年区块链所有的建设都围绕着以太坊，存储板块开年也是火爆了一把，龙头FIL更是一路前行，短期虽有回落但热度依然在，后期市场热度还是会给到存储，未来可期。目前市场上新出一个区块链覆盖多个赛道的项目——Filswan和AI…

阅读更多...

Hive的视图与索引

Hive的视图与索引

Hive的视图其实是一个虚表，视图可以允许保存一个查询，并像对待表一样对这个查询进行操作，视图是一个逻辑结构，并不会存储数据。 Hive中的索引只有有限的功能，Hive中没有主键和外键的概念，可以通过对一些字段…

阅读更多...

【CS224W】(task6)Google的PageRank算法

【CS224W】(task6)Google的PageRank算法

note 求解pagerank：用power iteration（幂迭代）方法求解 rM⋅r\mathbf{r}\mathbf{M} \cdot \mathbf{r}rM⋅r ( MMM 是重要度矩阵)用random uniform teleporation解决dead-ends（自己指向自己）和spider-traps&#xff08…

阅读更多...

Linear()全连接层+矩阵原理

Linear()全连接层+矩阵原理

Linear()全连接层矩阵原理) Linear()全连接层矩阵原理 Linear（）参数原文地址：https://blog.csdn.net/horizonwys/article/details/125933921 。矩阵原理在 NLP中 x 一般为一行故 *linear()中输出为 x W x的维度为 （tok…

阅读更多...

二叉树—— 二叉搜索树中的搜索

二叉树—— 二叉搜索树中的搜索

二叉搜索树中的搜索链接给定二叉搜索树（BST）的根节点 root 和一个整数值 val。你需要在 BST 中找到节点值等于 val 的节点。返回以该节点为根的子树。如果节点不存在，则返回 null 。示例 1: 输入：root [4,2,7,1,3], val…

阅读更多...

jsp图书借阅管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

jsp图书借阅管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 JSP 图书借阅管理系统是一套完善的java web信息管理系统，对理解JSP java编程开发语言有帮助，系统采用serlvetdaobean，系统具有完整的源代码和数据库，系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.…

阅读更多...

[oeasy]python0093_电子游戏起源_视频游戏_达特茅斯_Basic_家酿俱乐部

[oeasy]python0093_电子游戏起源_视频游戏_达特茅斯_Basic_家酿俱乐部

编码进化回忆上次内容 Ed Robert 的创业之路从售卖 diy 组装配件到进军计算器市场最后发布牛郎星8800 intel 8080 的出现让人人都有自己的个人电脑 Bill Gate 和 Paul Allen 要去新墨西哥州朝圣这场奥德赛会发生什么呢？🤔 奥德赛当…

阅读更多...

【并发编程学习篇】ReentrantLock设计思想剖析

【并发编程学习篇】ReentrantLock设计思想剖析

一、AQS原理剖析什么是AQS java.util.concurrent包中的大多数同步器实现都是围绕着共同的基础行为，比如等待队列、条件队列、独占获取、共享获取等而这些行为的抽象就是基于AbstractQueuedSynchronizer（简称AQS）实现的，AQS是一…

阅读更多...

【python】函数详解

【python】函数详解

注：最后有面试挑战，看看自己掌握了吗文章目录基本函数-function模块的引用模块搜索路径不定长参数参数传递传递元组传递字典缺陷，容易改了原始数据，可以用copy()方法避免变量作用域全局变量闭包closurenonlocal 用了这个声明闭包…

阅读更多...

推荐文章

最新文章