标准扩散模型(standard diffusion)和潜在(latent diffusion)扩散模型的关键区别、对潜在扩散模型的认识

news2024/9/27 23:27:11

标准扩散模型(standard diffusion)和潜在(latent diffusion)扩散模型的关键区别、对潜在扩散模型的认识

1.两者的关键区别

潜在扩散模型通过在低维潜在空间的扩散过程,可以减少内存和计算的复杂性。而standard diffusion是在像素级别的空间(actual pixel space)进行扩散.

2.latent diffusion model的具体讲解

其有三个主要的组成部分:

1.一个autoencoder(VAE)

2.一个U-Net模型

3.一个文本编码器,CLIP的文本编码器(text-encoder,CLIP’s Text Encoder)

1.The autoencoder (VAE)

VAE模型由两个部分组成,即编码器和解码器。编码器用于将图像转换为低维潜在表示,该表示将作为U-Net模型的输入。相反,解码器将潜在表示转换回图像。

在潜在扩散训练过程中,编码器用于获取图像的潜在表示(潜在变量)进行前向扩散过程,该过程在每一步逐渐应用更多噪声。在推断过程中,通过逆扩散过程生成的去噪潜在变量被转换回图像,使用VAE解码器。在推断过程中,我们只需要VAE解码器。

2.The U-Net

U-Net有编码器部分和解码器部分,均由ResNet块组成。编码器将图像表示压缩为较低分辨率的图像表示,解码器将较低分辨率的图像表示重新解码为原始更高分辨率的图像表示。更具体地说,U-Net的输出预测了噪声残差,可以用来计算预测去噪图像表示。

为了防止U-Net在卷积时丢失重要信息,通常会在编码器的降采样ResNets和解码器的升采样ResNets之间添加残差连接。此外,稳定扩散U-Net能够通过交叉注意力层将输出条件化于文本嵌入。交叉注意力层通常添加在U-Net的编码器和解码器部分之间的ResNet块之间。

3. The Text-encoder

文本编码器负责将输入提示(例如“一名骑马的宇航员”)转换为可以被 U-Net 理解的嵌入空间。通常使用基于变换器的简单编码器,将一系列输入标记映射到一系列潜在文本嵌入中。

受 Imagen 启发,稳定扩散在训练时不训练文本编码器,而是简单地使用已经训练好的 CLIP 文本编码器 CLIPTextModel。

3.为什么潜在扩散快速而有效率?

由于潜在扩散是在低维空间上运行的,与像素空间扩散模型相比,它极大地降低了内存和计算要求。例如,稳定扩散中使用的自编码器具有8倍的缩减因子。这意味着形状为(3, 512, 512)的图像在潜在空间中变为(3, 64, 64),这样需要的内存就减少了8 × 8 = 64倍。这也是其与标准扩散模型的一个关键的区别。

4.推理过程图

image-20240709095443835

首先,稳定扩散模型将潜在种子和文本提示作为输入。然后,使用潜在种子生成尺寸为64×64的随机潜在图像表示,而文本提示则通过CLIP的文本编码器转换为尺寸为77×768的文本嵌入。

接下来,U-Net 在文本嵌入的条件下,迭代去噪随机潜在图像表示。U-Net 的输出是噪声残差,通过调度算法用于计算去噪后的潜在图像表示。可以使用许多不同的调度算法进行这种计算,每种都有其优缺点。对于 Stable Diffusion,建议使用的如下所示:

1.PNDM scheduler

2.DDIM scheduler

3.K-LMS scheduler

如果想要了解更多详细的信息可以参考下面:

Elucidating the Design Space of Diffusion-Based Generative Models

参考链接:

1.Stable Diffusion with 🧨 Diffusers (huggingface.co)

ce.co/blog/stable_diffusion#how-does-stable-diffusion-work)

2.[2112.10752] High-Resolution Image Synthesis with Latent Diffusion Models (arxiv.org)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1909509.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CSS上下悬浮特效

要实现一个上下悬浮的特效,可以使用CSS的keyframes规则和动画属性。以下是一个简单的示例: 代码示例 /* 定义一个名为floating的动画 */ keyframes floating {0% {transform: translateY(0); /* 初始位置 */}50% {transform: translateY(-4px); /* 向上…

吴恩达机器学习笔记2.1 - 什么是机器学习

吴恩达机器学习笔记2.1 - 什么是机器学习 最早的机器学习 1959年,亚瑟塞缪尔(Arthur Samuel)将机器学习定义为“Field of study that gives computers the ability to learn without being explicitly programmed”(无需编程即可学习的研究领域&#xf…

ABAP BAPI_INCOMINGINVOICE_CREATE dump

在执行BAPI_INCOMINGINVOICE_CREATE 之后,正常生成了发票号,但是系统会dump 数据会回滚 dump如下 查阅后得知相关note:1894901 原因是在填写税行的时候,输入了多行,将数据合并为一行后即可 代码如下: ls_headerdat…

openlayers更改点坐标

我现在的需求是无人机点位根据ws传输的经纬度改变位置,在网上查了很多资料,终于是做出来了,如果有问题请指出。 效果图,无人机可以来回移动 这里是核心代码 // 添加飞机点位图层let vectorLayerpointfunction DronepointLayer()…

vscode设置左侧窗口字体大小

vscode设置左侧窗口字体大小 打开设置 在搜索框输入Zoom 修改这个值即可放大相关字体

从数字化营销与运营视角:看流量效果的数据分析

基于数据打通的“全链路”营销是当下的“时髦”,应用它的前提是什么?深度营销和运营的关键数据如何获得?如何利用数据进行更精准的营销投放?如何利用数据优化投放的效果?如何促进消费者的转化,以及激活留存…

【js面试题】深入理解尾递归及其在JavaScript中的应用

面试题:举例说明尾递归的理解,以及应用场景 引言: 在编程中,递归是一种常见的解决问题的方法,它允许函数调用自身来解决问题。然而,递归如果不当使用,可能会导致栈溢出错误,特别是在…

无损音频格式 FLAC 转 MP3 音频图文教程

音频文件的格式多样,每种格式都有其独特的特点与适用场景。FLAC(Free Lossless Audio Codec),作为一种无损音频压缩格式,因其能够完美保留原始音频数据的每一个细节而备受音频发烧友和专业人士的青睐。 然而&#xff0…

代码随想录打卡第十八天

代码随想录–二叉树部分 day 17 休息日 day 18 二叉树第五天 文章目录 代码随想录--二叉树部分一、力扣654--最大二叉树二、力扣617--合并二叉树三、力扣700--二乘树中的搜素四、力扣98--验证二叉搜索树 一、力扣654–最大二叉树 代码随想录题目链接:代码随想录 给…

双系统ubuntu20.04扩容

windows端 打开磁盘管理器,选择需要的盘点击压缩卷 点击未分配的盘,新建简单卷,一致点击下一步即可,记住分配的大小容量 ubuntu端 lsblk 查看所有的磁盘,可以看到新增为nvme0n1p4、nvme1n1p2 win分配的格式为NTFS&a…

Idea-单个窗口导入并开启多个module项目

前言 大家是否有过这样的困扰,我们每次打开一个项目就需要单开一个idea窗口,项目少时了还好,一旦涉及多个项目间服务调用,特别是再包括网关、注册中心、前端web服务,需要开启的窗口就会是一大批,每次切换的…

antd a-select下拉框样式修改 vue3 亲测有效

记录一下遇到的问题 1.遇到问题: 使用到Vue3 Ant Design of Vue 3.2.20,但因为项目需求样式,各种查找资料都未能解决; 2.解决问题: ①我们审查元素可以看到,下拉框是在body中的; ①在a-select 元素上添加dropdownCla…

在Linux下使用Docker部署chirpstack

目录 一、前言 二、chirpstack 1、chirpstack是什么 2、chirpstack组件 3、为什么选择Docker部署 三、Linux下部署过程 四、web界面部署过程 一、前言 本篇文章我是在Linux下使用 Docker 进行部署chirpstack,chirpstack采用的是v4 版本,v4 版本 与…

AMEYA360荣登2024电子元器件分销商30强!

2024年7月4日,“2024(第二届)电子产业供应链生态大会”在东莞顺利召开。 本次大会由中国物流与采购联合会和东莞市人民政府联合主办,由中国物流与采购联合会电子产业供应链分会承办,该会议以“智链端生态 互链芯未来”为主题,旨在…

你最近想通了什么事情?这10条职场经验帮助你活得更通透

1别总当老好人 记得刚步入职场那会儿,我简直是“老好人”的代名词。 无论是同事的额外任务,还是朋友的小忙,我总是二话不说就接下来,结果自己累得半死,换来的却是别人的理所当然和偶尔的忽视。 直到有一次&#xff…

蓝牙信标是什么?蓝牙信标好不好用?

说到蓝牙大家应该都非常熟悉,有很多通信设备都可以经过蓝牙而取得联系。但是说到蓝牙信标很多人可能就比较陌生了,毕竟这样的说法太少见了,很多人也不知道这到底是什么。那么究竟我们应该怎么去理解,蓝牙信标是什么,另…

TikTok海外运营,云手机多种变现方法

从现阶段来看,TikTok 的用户基数不断增长,已然成为全球创业者和品牌的全新竞争舞台。其用户数量近乎 20 亿,年轻用户占据主导,市场渗透率也逐年提高。不管是大型企业、著名品牌,还是个体创业者,都绝不能小觑…

进程地址空间(初)

1.遗留问题 前面在fork创建子进程的内容中遗留了一个问题,一个 变量既等于0又大于0. 2.地址空间的概念 (仅有栈区从高地址处向低地址处) (堆区和栈区之间有一大块的镂空,这里暂时不作介绍) 使用代码验证上图的大…

项目实施案例:金蝶云星空对接泛微OA

摘要 在企业信息化中,某电子行业集团公司面临着跨语言、跨系统的业务流程管理和数据同步的挑战。本项目通过一系列的技术实施解决方案,成功地解决了这些问题,提高了企业的运营效率和数据管理的准确性,本此分享满满的干货&#xff…

RTK_ROS_导航(2):卫星图查看

目录 1. 基于MapViz的卫星图查看 1. 基于MapViz的卫星图查看 安装 # 源码安装 mkdir -p RTK_VISION/src cd RTK_VISION/src git clone https://github.com/swri-robotics/mapviz.git --branchmelodic-eol sudo apt-get install ros-$ROS_DISTRO-mapviz ros-$ROS_DISTRO-mapviz-…