diffusion model(十五) : IP-Adapter技术小结

news2024/12/26 3:12:07

info
paperhttps://arxiv.org/pdf/2308.06721.pdf
codehttps://github.com/tencent-ailab/IP-Adapter
org.Tencent AI Lab
个人博客地址http://myhz0606.com/article/ip_adapter

1 Motivation

为了对文生图diffusion model进行特定概念的定制,常用LoRA[1]、textual inversion[2]等inference before fine-tune的方法。此类方法有一个弊端:每一个新的概念都需要重新训练一个权重,比较麻烦。那么,能不能有一个方法inference前无须微调,只需给一张reference image,就能将该图片的概念融入到生成过程中?这就是IP-adapter想要解决的问题。

2 Method

IP-adapterLoRA等工作类似,也是一个PEFT(parameter efficient fine-tuning)的方法。区别在于,一般LoRA等方法只须定制特定概念,训练数据只需少量(一般只需数十张)、高质量特定概念的图片。而IP-adapter希望diffusion model能够理解开放式的图片特征,并依此生成图片,故为了保证泛化性,需要在大量数据上进行训练。

2.1 模型架构

为了降低训练成本,作者引入了预训练的CLIP[3] image encoder来初步提取reference image的图片特征,随后接了一个Linear+layer norm层来调整特征的维度。随后设计了一个decoupled cross-attention 模块,将image feature融入到diffusion model的生成过程中。通过训练让diffusion model能够理解image prompt。(pipeline中只有 🔥的module更新权重,其它module freeze。)

在这里插入图片描述

2.2 decoupled cross-attention

decoupled cross-attention相比文生图的cross attention多了两个训练参数 W i k ′ , W i v ′ W_{i}^{k'},W_{i}^{v'} Wik,Wiv,起始阶段用text分支的 W i k , W i v W_{i}^{k},W_{i}^{v} Wik,Wiv进行初始化。(下标 i i i代表第 i i icross-attention)。

可以通过调整image embedding的权重 λ \lambda λ来决定image condition的影响程度。

在这里插入图片描述

2.3 模型训练

模型的训练数据采用LAION-2BCOYO-700M的子集,总计10M左右。训练目标和经典的diffusion model[4]一致。

L s i m p l e = E x 0 , ϵ , c t , c t , t ∣ ∣ ϵ − ϵ θ ( x t , c t , c i , t ) ∣ ∣ 2 . { \mathcal L } _ { \mathrm { s i m p l e } } = { \mathbb E } _ { { \boldsymbol { x } } _ { 0 } , \epsilon , c _ { t } , c _ { t } , t } \vert \vert \epsilon - \epsilon _ { \theta } ( { \boldsymbol { x } } _ { t } , c _ { t } , c _ { i } , t ) \vert \vert ^ { 2 } . Lsimple=Ex0,ϵ,ct,ct,t∣∣ϵϵθ(xt,ct,ci,t)2.

同样为了classifier-free guidance训练时随机drop condition。

3 Result

IP-Adapter的一大优势是他能结合其它condition tool。

在这里插入图片描述

下图展示了IP-Adapter和其它方法的对比结果

在这里插入图片描述

在这里插入图片描述

IP-adapter还能做instruction editing

在这里插入图片描述

(更多结果请见原论文)

4 summary

IP-Adapter能接受image作为prompt,实现inference without fine-tune的定制生成。虽然在单一概念比不上精心微调的LoRA等定制方法,但在一些精细化要求没那么高的场景,IP-Adapter是一个非常有用的工具。

Reference

[1] LoRA: Low-Rank Adaptation of Large Language Models

[2] An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

[3] Learning Transferable Visual Models From Natural Language Supervision

[4] Denoising Diffusion Probabilistic Models

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1579395.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

国内超声波清洗机排名!洗眼镜超声波清洗机推荐

眼镜是我们日常生活中不可或缺的用具,但随着使用时间的增长,眼镜上的灰尘和污垢也会逐渐积累,传统的清洗方法往往难以彻底清洁。为了解决这一难题,超声波清洗机出现了!它利用超声波振动原理,可以轻松、快速…

使用Docker部署jar包

vi DockerfileDockerfile内容 FROM java:8 ADD chery5G-admin.jar chery5G-admin.jar ENTRYPOINT ["java","-jar","chery5G-admin.jar"]上传jar包到Dockerfile文件同级目录 使用Dockerfile文件,将jar包制作为镜像 docker build -t…

2024/4/5—力扣—在排序数组中查找元素的第一个和最后一个位置

代码实现: 思路:二分法 方法一:分别查找左右侧边界 /*** Note: The returned array must be malloced, assume caller calls free().*/ int GetTargetFirstPosition(int *nums, int numsSize, int target) {int l 0, r numsSize - 1;while …

JAVA面试八股文之Redis相关

Redis相关 Redis6.0为什么要用多线程?在Redis中存一个list集合怎么实现排序?Redis的5大基本类型的底层原理?缓存穿透?缓存击穿?缓存雪崩?redis做为缓存怎么保持和mysql数据进行同步?&#xff08…

物证管理系统|DW-S404实现物证全生命周期管理

物证管理系统|DW-S404实现物证全生命周期管理 一、项目背景 随着社会的进步和科技的发展,信息化和数字化已经成为各个行业的必然趋势。在众多领域中,物证管理系统逐渐受到广泛的关注和应用。 物证是公安机关处理案件的关键凭证,针对过去物证管…

如何给MySQL数据库的所有表统一加上字段

在开发过程中,有时候慢慢的建了很多数据库表,但是后来发现需要统一增加某些字段的时候,可以通过alter语句 ALTER TABLE 表名 ADD 列名 数据类型;比如我要给t_user表增加gmt_create与gmt_modified字段,用作记录新增记录时间与更新…

U盘格式化数据恢复,3个妙计助你快速恢复!

“我的u盘由于中病毒了,我不得已将它格式化了,现在想进行u盘数据的恢复,不知道应该怎么操作,大家有什么方法推荐吗?” U盘作为我们日常生活中常见的存储设备,经常用于存储各种重要数据。但是在日常使用u盘的…

华火电火灶:人间烟火味,最抚凡人心

厨房,一直是家的核心,那里不仅有妈妈的味道,更有生活的味道。当炊烟袅袅,炉火旺盛,家的温馨与幸福便油然而生。华火电火灶以其独特的魅力,不仅成为了现代厨房中的一道亮丽风景线,更成为了家人的…

Digicert 证书

一、简介 在当今数字化时代,网络安全已成为全球关注的焦点。随着网络攻击和数据泄露事件的频发,企业和组织越来越重视保护自己的网络环境。在这种背景下,数字证书成为了确保网络通信安全的关键工具。作为数字证书行业的领导者,Di…

yolov8草莓及病害检测项目开发(python开发,带有训练模型,可以重新训练,并有Pyqt5界面可视化)

本次检测系统,可以通过图片、视频或摄像头三种形式检测,检测出开花、结果、熟果、草莓叶子健康、叶子缺钙、灰叶斑病等八大类别。基于最新的YOLO-v8模型,下载后即可重新运行训练脚本,,也可以直接运行检测脚本&#xff…

嘉轩智能工业科技诚邀您参观2024第13届生物发酵展

参展企业介绍 自2005年成立以来,嘉轩一直致力于工业智能永磁滚筒的研发、制造及销售,具有十多年的从业经验,公司主营产品包括工业智能永磁滚筒、机电智能诊断、工业智能电机等,高效智能自驱动永磁滚筒为我公司目前主导产品&#x…

考PMP一定要培训吗?PMP备考可不是说着玩的

想要考项目管理认证一定要培训吗?其实这是必要的也是必须的啦,不仅仅是因为自学的难度大,个人自学很难总结学习技巧,另一个原因就是考试前还必须要有授权培训机构提供的35学时培训证明,没有这个培训证明也就直接意味着…

使用 Go-Ora 连接到 Oracle 数据库

前文 《 一鍵啓動 Oracle 23c Free 》 介绍了如何使用容器技术快速拉起 Oracle 23c 数据库。 这个开发者版本可以很便捷的拉起、测试、销毁,对开发者是非常友好的。 本文将介绍如何使用 Go 语言构建项目,并连接到 Oracle 数据库。 Go 环境配置 本文使用的…

计算机视觉之三维重建(7)---多视图几何(下)

文章目录 一、透视结构恢复问题1.1 概述1.2 透视结构恢复歧义1.3 代数方法1.4 捆绑调整 二、P3P问题三、随机采样一致性 一、透视结构恢复问题 1.1 概述 1. 透视结构恢复问题:摄像机为透视相机,内外参数均未知。 2. 问题:已知 n n n 个三维…

一起学习python——基础篇(10)

前言,Python 是一种面向对象的编程语言。以前大学读书的时候经常开玩笑说的一句话“如果没有对象,就new一个”。起因就是编程老师上课时经常说一句“首先,我们new一个对象”。 今天讲一下python的类和对象。 类是什么?它是一种用…

互联网大厂ssp面经之路:计算机网络part2

什么是 HTTP 和 HTTPS?它们之间有什么区别? a. HTTP(超文本传输协议)和HTTPS(安全超文本传输协议)是用于在Web上传输数据的协议。它们之间的区别在于安全性和数据传输方式。 b. HTTP是一种不安全的协议&…

重大利好|五万亿元增量!能源领域大规模设备更新!

前 3月13日,国务院印发《推动大规模设备更新和消费品以旧换新行动方案》。国家发改委主任郑栅洁更是表示,随着高质量发展的深入推进,设备更新的需求会不断扩大,初步估算这是一个5万亿元以上的巨大市场。 在推进重点行业设备更新改…

面试算法-160-合并两个有序链表

题目 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例 1: 输入:l1 [1,2,4], l2 [1,3,4] 输出:[1,1,2,3,4,4] 解 class Solution {public ListNode mergeTwoLists(ListNode li…

Springboot-redis整合

Springboot-redis命令行封装 前言 Redis(Remote Dictionary Server),即远程字典服务,是一个开源的使用ANSI C语言编写的、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。Redis也是现…

为什么 AI 模型的计算成本如此之高?

生成式人工智能的热潮是受计算限制的。它具有独特的属性,即添加更多计算直接导致更好的产品。通常,研发投资与产品的价值更直接相关,而这种关系显然是亚线性的。但目前人工智能并非如此,因此,推动当今行业的一个主要因…