diffusion model(五)stable diffusion底层原理(latent diffusion model, LDM)

news2025/1/22 23:04:05

LDM: 在隐空间用diffusion model合成高质量的图片!

[论文地址] High-Resolution Image Synthesis with Latent Diffusion Models

[github] https://github.com/compvis/latent-diffusion

文章目录

  • LDM: 在隐空间用diffusion model合成高质量的图片!
    • 系列阅读
    • 1 背景
    • 2 方法
      • 2.1 整体架构
      • 2.2 更多细节
        • 2.2.1 感知压缩的权衡
        • 2.2.2 LDM的训练策略与预测
        • 2.2.3 给生成过程引入控制信号
    • 参考文献

系列阅读

  • diffusion model(一)DDPM技术小结 (denoising diffusion probabilistic)
  • diffusion model(二)—— DDIM技术小结
  • diffusion model(三)—— classifier guided diffusion model
  • diffusion model(四)文生图diffusion model(classifier-free guided)
  • diffusion model(五)stable diffusion底层原理(latent diffusion model, LDM

1 背景

近期扩散模型(diffusion model,DM)在图像生成取得了最先进的结果。但是传统的扩散模型是在像素空间(pixel space)进行优化的,高分辨率图像的训练往往需要更大的显存,更多的梯度回传,导致DM模型训练成本高,推理时延长。当下很多工作从优化采样策略12、分层方法3来解决这两个缺点,但效果有限。latent diffusion model提供了一个新的思路:它将扩散过程从传统的像素空间转到了隐空间(DM模型输入参数量大大降低),极大提升了DM的训练效率和推理效率,使得DM模型得以在单张消费级显卡应用,降低了AI图片生成的上手成本。目前火出圈的Dalle24, Stable Diffusion5都用到了LDM技术。下面我们来看LDM是如何做的。

2 方法

2.1 整体架构

LDM主要参考了VQGAN6的思路,其整体架构如下图所示。与传统Diffusion model在像素空间(pixel-based diffusion model)重建不同的是,LDM是在隐空间进行重建。为了得到图片的隐空间表征,LDM需要预选训练一个VAE模型。记原始图像为 x , x ∈ R H × W × 3 x,x\in\mathbb{R}^{H \times W \times 3} x,xRH×W×3通过VAE的编码器$ \mathcal{E} 获得图片的隐空间表示 获得图片的隐空间表示 获得图片的隐空间表示z,z\in \mathbb{R}^{\frac{H}{f} \times \frac{W}{f} \times c}$, f f f为下采样率。在重建阶段,首先通过DM预测隐空间的表征 z ~ \tilde{z} z~,再将其送入到VAE的解码器中 D \mathcal{D} D重建像素空间的表征 x ~ \tilde{x} x~。本质上LDM是一种二阶段的图片生成方法。

通过在隐空间重建的操作,相较原本的像素空间重建,一个时间步的计算量近似降低了近 f 2 f^2 f2倍。有同学会问通道数不是从 3 → c 3 \rightarrow c 3c了吗,为什么整体计算量没有扩到 c 3 \frac{c}{3} 3c倍,其实这只会增加第一层卷积的计算量,相较整体模型而言较低。

原本DM模型的优化目标
L D M = E x , ϵ ∼ N ( 0 , 1 ) , t [ ∥ ϵ − ϵ θ ( x t , t ) ∥ 2 2 ] L_{DM} = \mathbb{E}_{x, \epsilon \sim \mathcal{N}(0, 1), t} [\parallel \epsilon - \epsilon_\theta(x_t, t) \parallel_2^2] LDM=Ex,ϵN(0,1),t[ϵϵθ(xt,t)22]
LDM的优化目标
L L D M = E E ( x ) , ϵ ∼ N ( 0 , 1 ) , t [ ∥ ϵ − ϵ θ ( z t , t ) ∥ 2 2 ] L_{LDM} = \mathbb{E}_{\mathcal{E}(x), \epsilon \sim \mathcal{N}(0, 1), t} [\parallel \epsilon - \epsilon_\theta(z_t, t) \parallel_2^2] LLDM=EE(x),ϵN(0,1),t[ϵϵθ(zt,t)22]
t t t { 1 , . . . , T } \{1, ..., T\} {1,...,T}以服从均匀分布进行采样

通过上面的描述不难看出LDM就是套了一层VAE的DM!利用VAE搭建起隐空间和像素空间的桥梁。
在这里插入图片描述

2.2 更多细节

2.2.1 感知压缩的权衡

上文提到LDM先通过VAE的encode将图片从像素空间 x , x ∈ R H × W × 3 x,x\in\mathbb{R}^{H \times W \times 3} x,xRH×W×3变换到隐空间 z , z ∈ R H f × W f × c z,z\in \mathbb{R}^{\frac{H}{f} \times \frac{W}{f} \times c} z,zRfH×fW×c。当下采样率 f f f越大,DM的过程越快,但f越大可能导致丢失过多的高频信号,影响重建结果。因此需要对不同的下采样率进行权衡。论文中分别对 f ∈ { 1 , 2 , 4 , 8 , 16 , 32 } f \in \{1,2,4,8,16,32\} f{1,2,4,8,16,32}进行了试验。基于试验结果,作者建议采样率控制在 4 − 16 4-16 416能够取得效率和质量的均衡。

从下图可以看出,当采样率为4-16时,LDM的训练收益比最大。

在这里插入图片描述
在这里插入图片描述

2.2.2 LDM的训练策略与预测

LDM采用了二阶段的训练策略(two-stage)。需要先训练VAE模型再训练DM模型。DM训练时会利用已训练好的VAE的encode将数据从像素空间切换到隐空间。

预测时,在隐空间随机采样一个噪声,用DM进行去噪。最后将DM的预测结果传给VAE的Decode进行解码。

2.2.3 给生成过程引入控制信号

如果说不带控制信号的LDM是对 p ( z ) p(z) p(z)建模的话,那么加上控制信号的建模可以表述成 p ( z ∣ y ) p(z|y) p(zy)。控制信号 y y y可以是文本、图片布局、轮廓图等。当有有一些更为细粒度的生成存在多个控制信号,即对 p ( z ∣ y 1 , ⋯   , y N ) p(z|y_1, \cdots,y_N) p(zy1,,yN)。为了使得生成过程考虑控制信息,作者在原有的Unet backbone上引入了一个交叉注意力机制,来融入控制信号。首先通过一个 domain specific encoder  τ θ \text{domain specific encoder} \space \tau_\theta domain specific encoder τθ y y y投影到为一个中间表征 τ θ ( y ) ∈ R M × d τ \tau_\theta(y) \in \mathbb{R}^{M \times d_\tau} τθ(y)RM×dτ,随后和DM某层的输出进行融合。

假定 φ i ( z t ) \varphi_i(z_t) φi(zt)是隐变量 z z z在Unet在层 i i i时间步为 t t t时的输出,下面需要将 φ i ( z t ) \varphi_i(z_t) φi(zt) τ θ ( y ) \tau_\theta(y) τθ(y)用交叉注意力机制融合
KaTeX parse error: No such environment: eqnarray at position 8: \begin{̲e̲q̲n̲a̲r̲r̲a̲y̲}̲ \mathrm{Attent…
此时模型的优化目标为
L L D M c o n d = E E ( x ) , ϵ ∼ N ( 0 , 1 ) , t [ ∥ ϵ − ϵ θ ( z t , t , τ θ ( y ) ) ∥ 2 2 ] L_{LDM_{cond}} = \mathbb{E}_{\mathcal{E}(x), \epsilon \sim \mathcal{N}(0, 1), t} [\parallel \epsilon - \epsilon_\theta(z_t, t, \tau_\theta(y)) \parallel_2^2] LLDMcond=EE(x),ϵN(0,1),t[ϵϵθ(zt,t,τθ(y))22]

参考文献


  1. On fast sampling of diffusion probabilistic models. ↩︎

  2. Noise estimation for generative diffusion models. ↩︎

  3. Cascaded diffusion models for high fidelity image generation ↩︎

  4. Hierarchical Text-Conditional Image Generation with CLIP Latents,GitHub ↩︎

  5. stable diffusion GitHub ↩︎

  6. [Taming transformers for high-resolution image synthesis]( ↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/801041.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

3D工厂模拟仿真 FACTORY I/O 2.55 Crack

FACTORY I/O 提供超过20个典型的工业应用场景让您如身临其境般地练习控制任务。选择一种场景直接使用或以其作为一个新项目的开端。学生可以利用内嵌的可编辑的典型工业系统模板,也可以自由搭建并编辑工业系统。同时该系统具有全方位3D视觉漫游,可随意放…

存储重启后,ceph挂载信息没了,手动定位osd序号并挂载到对应磁盘操作流程、ceph查看不到osd信息处理方法

文章目录 故障说明处理流程定位硬盘中的osd序号挂载osd到ceph上验证并拉起osd重复上面操作故障说明 我们的一个存储节点莫名其妙的重启了,不知道咋回事 但这样的问题就是,所有osd都down了 因为挂载信息没有写到fstab里面,所以不会自动up,并且没有挂载信息,并且也看不到o…

如何用Java代码写出二维码!!!

什么你说你不会&#xff1a; 1.首先加入二维码需要的架包。&#xff08;认真看了&#xff0c;我只教一遍&#xff09;安装包已经放上来了&#xff0c;需要的直接下载。 2.将架包接入项目。 3.编写代码。 //支持中文格式Map<EncodeHintType,String> hintsnew HashMap<&…

适配器模式——不兼容结构的协调

1、简介 有的笔记本电脑的工作电压是20V&#xff0c;而我国的家庭用电是220V&#xff0c;如何让20V的笔记本电脑能够在220V的电压下工作&#xff1f;答案是引入一个电源适配器&#xff08;AC Adapter&#xff09;&#xff0c;俗称充电器&#xff0f;变压器。有了这个电源适配器…

【JAVA】你可知JAVA中的运算符|重温运算符

作者主页&#xff1a;paper jie的博客 本文作者&#xff1a;大家好&#xff0c;我是paper jie&#xff0c;感谢你阅读本文&#xff0c;欢迎一建三连哦。 本文录入于《JAVASE语法系列》专栏&#xff0c;本专栏是针对于大学生&#xff0c;编程小白精心打造的。笔者用重金(时间和精…

MySQL之深入InnoDB存储引擎——Checkpoint机制

文章目录 一、引入二、LSN三、触发时机 一、引入 由于页的操作首先都是在缓冲池中完成的&#xff0c;那么如果一条DML语句改变了页中的记录&#xff0c;那么此时页就是脏的&#xff0c;即缓冲池中页的版本要比磁盘的新。那么数据库需要将新版本的页刷新到磁盘。倘若每次一个页…

地图应用构建平台:助力小程序开发者快速构建地图应用

地图应用构建平台&#xff08;也称Wemap Builder&#xff09;是地图低代码开发平台&#xff0c;在微信开发者工具中提供了丰富的小程序模板&#xff0c;开发者能够选择模板快速创建地图应用&#xff0c;同时在微信开发者工具中可直接使用低代码编辑器&#xff0c;更高效的开发小…

力扣算法数学类—剑指 Offer 16. 数值的整数次方

目录 剑指 Offer 16. 数值的整数次方 题解&#xff1a; 知识点&#xff1a; 代码&#xff1a; 结果&#xff1a; 实现 pow(x, n) &#xff0c;即计算 x 的 n 次幂函数&#xff08;即&#xff0c;xn&#xff09;。不得使用库函数&#xff0c;同时不需要考虑大数问题。 示例…

向量数据库这杯“啤酒”与“泡沫”

就像啤酒注定要有泡沫&#xff0c;每一场淘金热都不缺被捧上了时代风口的人。 大模型这一波热潮中&#xff0c;向量数据库就是那个幸运儿。 一方面&#xff0c;技术层面并没有太大突破。向量数据库并不是一种特别新的数据库技术&#xff0c;在AI领域已经应用了七八年&#xff0…

英特尔14代酷睿参数曝光:13代酷睿用户看完放心了 升级幅度有限

今年6月份英特尔进行了品牌升级&#xff0c;宣布新命名规则&#xff0c;预热了酷睿Ultra品牌和第14代酷睿处理器产品线。 代号为Meteor Lake的酷睿Ultra系列虽然备受关注&#xff0c;但令人遗憾的是&#xff0c;它只面向低功耗移动端&#xff0c;预计将包括45W的H系列&#xff…

NLP From Scratch: 使用char-RNN对姓氏进行分类

NLP From Scratch: 使用char-RNN对姓氏进行分类 本篇我们将构建并训练基本的字符级 RNN 来对单词进行分类。 本教程&#xff0c;以及后续两个教程&#xff0c;展示了如何“从头开始”针对 NLP 建模过程中所需的数据进行预处理&#xff0c;抛开torchtext的许多便利功能进行编码…

C语言基础教程(fgets和fputs)

文章目录 前言一、fputs函数二、fgets函数三、fputc和fgetc函数总结 前言 本篇文章我们来讲解一下fgets和fputs函数&#xff0c;这两个函数通常用来作为输入和输出功能使用。 一、fputs函数 fputs函数是C语言标准库中的一个输出函数&#xff0c;用于将字符串写入到指定的文件…

mysql主从同步怎么跳过错误

今天介绍两种mysql主从同步跳过错误的方法&#xff1a; 一、两种方法介绍 1、跳过指定数量的事务&#xff1a; mysql>slave stop; mysql>SET GLOBAL SQL_SLAVE_SKIP_COUNTER 1 #跳过一个事务 mysql>slave start2、修改mysql的配置文件&#xff0c;通过slav…

The Sandbox 重新上线,带来全新体验!

在经历了一个充满史诗般新回忆的全力开局后&#xff0c;我们短暂休息了片刻&#xff0c;为玩家准备了全新的、惊心动魄的游戏活动。 我们已经完成了功能的微调&#xff0c;准备将您的游戏体验提升到一个全新高度&#xff01; 想知道我们正在做什么吗&#xff1f;现在还无法公开…

iTOP-STM32MP157开发板Linux Misc驱动-编译驱动程序

这里我们以 stm32mp157 开发板为例&#xff0c;将杂项设备驱动编译成模块&#xff0c;请参考本手册第三十七章 Linux 内核模块。我们将 misc.c 文件拷贝到 Ubuntu 的/home/nfs/03 目录下。将上次编译 helloworld 的 Makefile 文 件拷贝到 misc.c 同级目录下&#xff0c;修改 …

指针学习(特殊指针)

1.char型指针 char型指针实质上跟别的类型的指针并无本质区别&#xff0c;但是C语言中的字符串以字符数组的方式存储&#xff0c;而数组在大多数场合又会表现为指针&#xff0c;因此字符串在绝大多数场合就表现为char型指针。 例如&#xff1a; char *p "abcd"; …

axios的如何使用

1、axios的使用第一步先装包 npm i axios-S 2、axios的使用方法&#xff0c;先导入包&#xff0c;再绑定事件&#xff0c;再注册事件 3、axios如何实现post请求 4、Vue挂载axios,简便输入地址&#xff1a; 5、通过this实例&#xff0c;可以访问到axios的链接 6、给他改成$http…

【李宏毅 DLHLP 深度学习人类语言处理 HW1】

李宏毅 DLHLP 深度学习人类语言处理 HW1 相关资料HW1 语音小白在网上没有找到这门课的作业分享&#xff0c;那就记录一下自己的作业吧。 相关资料 课程官网&#xff1a;https://speech.ee.ntu.edu.tw/~hylee/dlhlp/2020-spring.php 作业github代码1&#xff1a;https://githu…

用抓包工具结合局域网代理技术爬取meituan某些商家的数据

众所周知&#xff0c;爬虫玩的好&#xff0c;牢饭吃的早&#xff08;如有侵犯利益&#xff0c;请您告知&#xff0c;我将立删&#xff01;&#xff09;。 其实抓包嘛&#xff0c;简单的H5网页直接就能用浏览器的开发者工具进行抓包&#xff0c;但是很多平台剔除了网页版&#…

《面试1v1》Kafka与传统消息系统区别

&#x1f345; 作者简介&#xff1a;王哥&#xff0c;CSDN2022博客总榜Top100&#x1f3c6;、博客专家&#x1f4aa; &#x1f345; 技术交流&#xff1a;定期更新Java硬核干货&#xff0c;不定期送书活动 &#x1f345; 王哥多年工作总结&#xff1a;Java学习路线总结&#xf…