[TI] [Textual Inversion] An image is worth an word

[TI] [Textual Inversion] An image is worth an word

news2025/7/5 20:33:22

自己的理解：

根据几个图像，找出来一个关键字可以代表它们，然后我们可以再用这个关键字去生成新的东西。

提出关键字

1 Introduction

word->token->embedding

Textual Inversion过程

需要：

① a fixed, pre-trained text-to-image model （一个固定的预训练模型）

② a small image set depicting the concept（一个描述概念的小图像集）

目标：

find a single word embedding, such that "A photo of S*" will lead to the reconstructions of images from our small set

3 Method

LDM

包含两个核心组件：

1.AutoEncoder

Encoder，把

Decoder

2.Diffusion Model

LDM Loss

Text embedding

典型的文本编码器（例如 BERT）都从文本处理步骤开始

① word (in a input string) convert to a token ( an index in some pre-defined dictionary某个预定义词典中的索引)

构建一个词汇表，包含数据集中出现的所有唯一token，通常是一个字典，将每个token映射到唯一的整数ID。

②each token then linked to a embedding vector (可以通过基于索引的查找来检索。)

对于每个token，使用词汇表的ID可以查找其对应的 embedding vector。

③learned as part of the text encoder c_{\theta}

in our work

定义一个 placeholder string S_*，表示我们想要学习的 new concept

干涉 embedding process，用 embedding v_* 取代与标记符相关的向量（本质上是把这个词注入到我们的词典中）

小结：

一串字符串文本，它的每个词可以通过分词器变为若干个 token，每个token可以映射到一个词向量，我们通过干预它映射词向量的过程，学得一个可以代表新特征的伪词。

Text Inversion

用 3-5张图片 depict 目标概念。

通过直接优化的方式，最小化 LDM loss，就可以找到 v_*

优化目标：

保持 \epsilon_{\theta} ,c_{\theta} 不变，重新训练LDM，来找到 V_*

小结：

通过几张图片输入到网络中，依据LDM loss，固定某些参数不变，来找到最合适的 V_*

参考资料：

Textual Inversion · AUTOMATIC1111/stable-diffusion-webui Wiki · GitHub

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1020515.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

C语言的文件操作（炒详解）

C语言的文件操作（炒详解）

⭐回顾回顾文件操作的相关细节⭐ 欢迎大家指正错误 📝在之前的学习中，不管增加数据，减少数据，当程序退出时，所有的数据都会销毁，等下次运行程序时，又要重新输入相关数据，如果一直像这…

阅读更多...

升级OpenSSL并进行编译安装

升级OpenSSL并进行编译安装

Packaging (OpenSSL)组件存在安全漏洞的原因是由于当前爆出的Openssl漏洞。这个漏洞可能会导致泄露隐私信息，并且涉及的机器和环境也有所不同，因此修复方案也会有所不同。目前，一些服务器使用的Nginx是静态编译OpenSSL，直接将Op…

阅读更多...

【数据结构】C++实现红黑树

【数据结构】C++实现红黑树

【数据结构】C实现红黑树红黑树的概念红黑树，是一种二叉搜索树，但在每个结点上增加一个存储位表示结点的颜色，可以是Red或Black。通过对任何一条从根到叶子的路径上各个结点着色方式的限制，红黑树确保没有一条路径会比其他路…

阅读更多...

多数网工碌碌无为，都是败在这件事上

多数网工碌碌无为，都是败在这件事上

大家好，我是老杨。这周是网络安全周，博览会的现场很热闹，我也被邀请去参观了一圈。主要是学习观摩各大厂出的最新的安全产品、解决方案等。这几天，也遇上了不少大佬。有从路由交换转到安全的，也有从渗透转到防御…

阅读更多...

Unity中Shader的模板测试

Unity中Shader的模板测试

文章目录前言什么是模板测试1、模板缓冲区2、模板缓冲区中存储的值3、模板测试是什么（看完以下流程就能知道模板测试是什么）模板测试就是在渲染，后渲染的物体前，与渲染前的模板缓冲区的值进行比较，选出符合条件的部分…

阅读更多...

红队打靶：Me and My Girlfriend打靶思路详解（vulnhub）

红队打靶：Me and My Girlfriend打靶思路详解（vulnhub）

目录写在开头第一步：主机发现和端口扫描第二步：Web渗透（修改XFF代理） 第三步：数据库手工枚举第四步：sudo php提权总结与思考写在开头本篇博客在自己的理解之上根据大佬红队笔记的视频进行…

阅读更多...

GPIO子系统编写LED灯的驱动、linux内核定时器

GPIO子系统编写LED灯的驱动、linux内核定时器

一、GPIO子系统 1.概念： 一个芯片厂商生产出芯片后会给linux提供一个当前芯片中gpio外设的驱动，我们当前只需要调用对应的厂商驱动即可完成硬件的控制。而linux内核源码中的gpio厂商驱动有很多，这里linux内核对厂商驱动做了一些封装&#x…

阅读更多...

基于Java的大学生心理健康答题小程序设计与实现（亮点：选题新颖、可以发布试卷设置题目、自动判卷、上传答案、答案解析）

基于Java的大学生心理健康答题小程序设计与实现（亮点：选题新颖、可以发布试卷设置题目、自动判卷、上传答案、答案解析）

校园点餐小程序一、前言二、我的优势2.1 自己的网站2.2 自己的小程序（小蔡coding）2.3 有保障的售后2.4 福利三、开发环境与技术3.1 MySQL数据库3.2 Vue前端技术3.3 Spring Boot框架3.4 微信小程序四、功能设计4.1 主要功能描述五、系统主要功能5.1 登…

阅读更多...

python-字符串去掉空格的常见方法

python-字符串去掉空格的常见方法

python提供了去掉字符串空格的方法，可以满足大部分需求。但在实际应用中，还需要灵活借助python其他方法，来实现字符串空格的删除。比如，去掉字符串的全部空格、字符串连续空格保留一个等，都需要结合其他的方法来实现…

阅读更多...

【kafka】mac环境安装kafka

【kafka】mac环境安装kafka

生产中使用到的中间件使用心得记录，感兴趣可以关注我一起学习～ 环境： 硬件：mac 软件：kafka v3.0.0 安装步骤： 终端安装： 通过brew安装，会默认直接安装最新的版本步骤1&#xf…

阅读更多...

Android StringFog 字符串自动加密

Android StringFog 字符串自动加密

一、StringFog 作用一款自动对dex/aar/jar文件中的字符串进行加密Android插件工具，正如名字所言，给字符串加上一层雾霭，使人难以窥视其真面目。可以用于增加反编译难度，防止字符串代码重复。支持java/kotlin。支持app打包生成…

阅读更多...

【JDK 8-函数式编程】4.6 方法引用与构造函数引用

【JDK 8-函数式编程】4.6 方法引用与构造函数引用

一、方法引用与构造函数引用 1. 说明 2. 语法: 二、静态方法三、实例方法四、构造函数 4.1 单个参数 4.2 2个参数五、执行结果一、方法引用与构造函数引用以前调用：对象.方法名、类名.方法名 jdk1.8提供了另外一种调用方式 :: 1. 说明用来直接访…

阅读更多...

子网的划分

子网的划分

强化计算机网络发现王道没有这一块的内容，导致做题稀里糊涂。于是个人调研补充。子网划分是将一个大型IP网络划分成更小的子网，以实现更有效的网络管理和资源分配。原因： 提高网络性能：子网划分可以减少广播域的大小&#xff…

阅读更多...

靶场练习——SDcms文件上传漏洞靶场

靶场练习——SDcms文件上传漏洞靶场

文章目录前言一、寻找网站后台页面1、点击请登录，查看URL2、修改URL参数，找到后台登录页面二、登录后台管理系统1、不能使用爆破2、使用弱口令登录三、寻找文件上传点四、上传文件操作1、上传普通的图片文件，查看数据包2、尝试上传PHP文件…

阅读更多...

Mysql----锁

Mysql----锁

文章目录锁概述全局锁全局锁概述全局锁操作表级锁表级锁表锁表级锁元数据锁表级锁意向锁行级锁行级锁行锁行级锁间隙锁&临键锁锁概述是什么是计算机协调多个进程或线程并发访问某一资源的机制。意义在数据库中，数据是一种供许多用户共享的…

阅读更多...

C/C++计算分数的浮点数值 2019年12月电子学会青少年软件编程（C/C++）等级考试一级真题答案解析

C/C++计算分数的浮点数值 2019年12月电子学会青少年软件编程（C/C++）等级考试一级真题答案解析

目录 C/C计算分数的浮点数值一、题目要求 1、编程实现 2、输入输出二、解题思路 1、案例分析三、程序代码四、程序说明五、运行结果六、考点分析 C/C计算分数的浮点数值 2019年12月 C/C编程等级考试一级编程题一、题目要求 1、编程实现两个整数a和b分别作…

阅读更多...

每日一题 337. 打家劫舍 III

每日一题 337. 打家劫舍 III

难度：中等整体思路相当于是前两天的方法倒过来，毕竟二叉树最常用的解法就是递归倒推对于每一颗子树，他必定有一种最大的盗取方法，但是只有它的 root 的盗取情况才会影响到 root 的父节点，即如果收益最大的盗取方法…

阅读更多...

【TCP】滑动窗口、流量控制以及拥塞控制

【TCP】滑动窗口、流量控制以及拥塞控制

滑动窗口、流量控制以及拥塞控制 1. 滑动窗口（效率机制）2. 流量控制（安全机制）3. 拥塞控制（安全机制） 1. 滑动窗口（效率机制） TCP 使用确认应答策略，对每一个发送的数…

阅读更多...

机器学习第七课--情感分析系统

机器学习第七课--情感分析系统

分词分词是最基本的第一步。无论对于英文文本，还是中文文本都离不开分词。英文的分词相对比较简单，因为一般的英文写法里通过空格来隔开不同单词的。但对于中文，我们不得不采用一些算法去做分词。常用的分词工具 # encodingutf-8 import …

阅读更多...

Linux C 多线程

Linux C 多线程

为什么会有线程? ————————>>>> 进程实现多任务的缺点： 进程间切换的计算机资源开销很大，切换效率非常低进程间数据共享的开销也很大线程和进程的关系线程是进程的一个执行单元，是进程内的调度实体。比进程…

阅读更多...

推荐文章

最新文章