详解Stable Diffusion 原理图

news2024/9/24 11:31:20

参考英文文献:The Illustrated Stable Diffusion – Jay Alammar – Visualizing machine learning one concept at a time.

 

 

在这个Stable Diffusion模型的架构图中,VAE(变分自编码器)模型对应的是图中的 E 和 D 部分。

具体来说:

  1. E(Encoder): 这是VAE的编码器部分。它接收输入图像 x0,并将其编码为潜在空间表示 z0。
  2. D(Decoder): 这是VAE的解码器部分。它接收潜在空间表示 z0,并将其解码回图像空间,重构出输入图像。

在Stable Diffusion的工作流程中:

  • 训练阶段,VAE用于将高维图像数据压缩到低维潜在空间。
  • 生成阶段,扩散模型在这个低维潜在空间中工作,生成新的潜在表示。
  • 最后,VAE的解码器 D 用于将生成的潜在表示转换回可视化的图像。

τ_θ(tau theta)通常是指文本编码器,它用于将输入的文本提示编码成模型可以理解的向量表示。

  • CLIP(Contrastive Language-Image Pre-training)是由 OpenAI 开发的模型,用于连接文本和图像。
  • 在 Stable Diffusion 中,CLIP 的文本编码器部分被用作 τ_θ(tau theta),即用来将文本提示转换为模型可理解的向量表示。

  • UNet的作用:
    • UNet是一个神经网络模型,专门用于预测和去除图像中的噪声。
    • 在每个步骤中,UNet接收当前的噪声图像,并预测应该去除多少噪声。
  • Scheduler的作用:
    • Scheduler控制整个去噪过程的节奏和强度。
    • 它决定在每个步骤中应该去除多少噪声,以及如何调整这个过程。
  • 配合过程: a. 初始化:从完全随机的噪声开始。 b. 迭代过程(重复50次):
    • UNet分析当前的噪声图像,预测应该去除的噪声。
    • Scheduler根据当前步骤和UNet的预测,计算实际应该去除的噪声量。
    • 将计算出的噪声从当前图像中减去,得到稍微清晰一点的图像。
    c. 逐步优化:
    • 在早期步骤,Scheduler可能会让UNet去除较多噪声,以快速形成图像的大致轮廓。
    • 在后期步骤,Scheduler可能会减缓去噪速度,让UNet更专注于细节的优化。
  • 文本引导:
    • 文本编码的信息会输入到UNet中,影响它对噪声的预测。
    • 这使得去噪过程能够朝着符合文本描述的方向进行。
  • 适应性调整:
    • Scheduler可以根据去噪的进展动态调整过程,确保生成的图像既符合文本描述,又保持高质量。

这个过程是逐步进行的。每一步都添加了更多相关信息。为了直观地了解这个过程,我们可以检查随机潜变量数组,看看它是如何转化为视觉噪音的。在这种情况下,视觉检查是通过图像解码器进行的。

扩散发生在多个步骤中,每个步骤在一个输入潜变量数组上操作,并生成另一个潜变量数组,更好地反映输入文本以及模型从训练中捕获的所有图像信息。


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1946175.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

keystone学习小结2

简介 通过源码 官方文档 进行学习 官方文档 架构 identity 提供user和group的鉴权及数据 可以用这些数据处理增删改查的请求 这些服务在某些情况也可以托管在授权的服务中,有认证任务时,授权的服务会执行认证的任务,而不会把这些转发到…

SuperMap GIS基础产品FAQ集锦(20240715)

一、SuperMap iDesktopX 问题1:想问一下,线数据更改粗细和颜色,他只能保存到地图中吗?我希望能修改源数据,但是保存不了? 11.1.1 【问题原因】简单数据集不支持保存风格。 【解决办法】入需保存风格&…

SAP中途增加批次管理提示:库存在工厂级别已经存在。

SAP中途增加批次管理提示:库存在工厂级别已经存在。 在这种情况,将需要启用批次管理功能的物料主数据进行出库,通过移动类型201(562)进行出库,然后再修改物料主数据,当成功启用物料主数据的批次…

前置-Linux相关知识速记

linux Linux命令大全 [!IMPORTANT] chown-chmod-ls-chgrp-cdpwd-mkdir-rmdir-cp-rm-mv-cat-tac-nl-more-less-head-tail 应用领域 通常服务器使用 LAMP(Linux Apache MySQL PHP)或 LNMP(Linux Nginx MySQL PHP)组合。 目前…

700.二叉搜索树的搜索

给定二叉搜索树(BST)的根节点 root 和一个整数值 val。 你需要在 BST 中找到节点值等于 val 的节点。 返回以该节点为根的子树。 如果节点不存在,则返回 null 。 示例 1: 输入:root [4,2,7,1,3], val 2 输出:[2,1,3]…

SmartX 超融合 vs vSAN 8:数据库场景下的性能对比

此前,我们以 vSAN 7 为例,对比了 SmartX 与 VMware 超融合在快照、缓存、I/O 路径上的技术差异,及其带来的性能影响。不同于 vSAN 7,vSAN 8 引入了快速存储架构 ESA(Express Storage Architecture)&#xf…

SpringCloud------Seata(分布式事务)

分布式事务产生原因 CAP定理(一致性、可用性、分区容错性) BASE理论 解决思想 Seata 三个角色

【操作系统】线程池的底层逻辑解析及实现

目录 线程池一、线程池是什么二、底层线程池 ThreadPoolExecutor三、实现线程池四、标准库中的线程池Executors 线程池 一、线程池是什么 在我们频繁的创建线程时或销毁线程时,都会进行系统调度从而占用系统资源,虽然创建线程/销毁线程的开销不是很大,但架不住量多,进而我们该…

photoshop学习笔记——选区

选区工具快捷键:M shift M 切换 矩形/椭圆选区工具 基本用法 选区框选出的地方被激活(其后进行的操作,仅在选区中生效) 选区工具选择后(以矩形选区为例) 按下鼠标左键拖动,画出一块矩形区…

TCP连接与释放

目录 引言 一. TCP连接的建立 二.TCP连接的释放 三.TCP连接状态机 引言 传输控制协议(Transmission Control Protocol,TCP)作为互联网上最广泛使用的协议之一,其在网络通信中扮演着关键角色。其中,TCP连接的建立与释放是TCP协议中最为重要的部分之一。本文将对TCP连接的建立…

【笔记:3D航路规划算法】一、RRT

目录 关键概念3D路径规划算法1. A*算法2. RRT1. 初始化:2. 实例化搜索算法:3. 路径生成:4. 绘制图像: 3D路径规划是在三维空间中寻找从起点到终点的最短或最优路径的一种技术。它广泛应用于无人机导航、机器人运动规划、虚拟现实等…

谷粒商城实战笔记-48~49-商品服务-API-三级分类-查询-树形展示三级分类数据-前端优化

文章目录 一,48-商品服务-API-三级分类-查询-树形展示三级分类数据1,创建商品服务命名空间2,商品服务增加配置3,网关增加商品服务的路由配置4,前端树形展示5,测试 二,49-商品服务-API-三级分类-…

未来的智能交通系统:智能合约在交通管理中的应用前景

随着城市化进程的加快和交通问题日益突出,智能交通系统成为了解决城市交通拥堵和安全问题的重要手段。本文将探讨智能合约在未来智能交通系统中的应用前景,分析其在交通管理中的潜力和优势。 什么是智能交通系统? 智能交通系统利用先进的信息…

数据结构经典测题3

1. 设有定义: char *p; ,以下选项中不能正确将字符串赋值给字符型指针 p 的语句是【多选】( ) A: pgetchar(); B: scanf("%s",p); C: char s[]"china"; ps; D: *p"china"; 答案为ABD A选项&…

汇昌联信数字做拼多多运营实力好吗?

汇昌联信数字在拼多多运营方面的实力如何?汇昌联信数字作为一家专注于电子商务运营服务的公司,其在拼多多平台的运营能力是值得关注的。根据市场反馈和客户评价,汇昌联信数字在拼多多的运营实力表现良好,能够为客户提供专业的店铺管理、产品…

学习大数据DAY23 Linux基本指令4与ngnix安装以及Shell,python编写环境配置

目录 其他扩展类 echo 输出字符串 date 显示当前日期 (用于日期转字符串) date -d 日期解析(用于字符串转日期) date 设置日期 linux 网络对时 cal 查看日历 wget 命令 seq 命令 Linux 定时执行计划 特殊符号说明 linux 添加硬盘分区挂载 上…

PotatoTool 蓝队版 V1.3 发布:增强功能和性能优化

一、简介 经过广大网友的反馈和建议,我们对V1.1版本中存在的问题进行了优化。其中,我们针对MD5库进行了本地化处理,以提高查询效率。然而,这也导致了软件体积的飙升。二、优化概述 1、兼容性 兼容arm架构系统 2、UI 2.1 界面…

Meta革命性发布:Llama 3.1——性能最强的AI开源模型,开启智能新时代!

前言 🚀 Meta隆重推出Llama 3.1:迄今为止性能最强的AI模型 Meta公司近日发布了他们最新的AI语言模型——Llama 3.1,这一消息迅速在科技界掀起了波澜。作为猫头虎技术团队,我们将为大家详细解析Llama 3.1的强大功能及其应用前景。…

unity文字||图片模糊

一.文字模糊 1、增大字体大小后等比缩放 快捷键R 2、更改字体渲染模式 二.图片模糊 1、更改过滤模式 2、更改格式或者压缩 3、如果只是图片边缘看不清,可以增加canvas/图片的每单位参考像素

C++学习笔记01-语法基础(问题-解答自查版)

前言 以下问题以Q&A形式记录,基本上都是笔者在初学一轮后,掌握不牢或者频繁忘记的点 Q&A的形式有助于学习过程中时刻关注自己的输入与输出关系,也适合做查漏补缺和复盘。 本文对读者可以用作自查,答案在后面&#xff0…