扩散模型论文概述(三):Stability AI系列工作【学习笔记】

news2025/1/8 17:45:00

视频链接:扩散模型论文概述(三):Stability AI系列工作_哔哩哔哩_bilibili

本期视频讲的是Stability AI在图像生成的工作。

 同样,第一张图片是神作,总结的太好了!

介绍Stable Diffusion之前,先来看一个重要的铺垫工作,VQGAN可以看作是SD的雏形。在这个架构中,可以看到对图像先进行压缩,然后在隐空间里进行建模的思想。

这张幻灯片展示了VQGAN的生成结果,可以看到其已经具备条件控制生成和修复的能力。

而Latent Diffusion Model也就是所谓的SD模型,将VQGAN中基于Transformer序列建模的部分替换成去噪扩散,利用交叉注意力机制将条件约束引入扩散过程。LDM中继承了VQGAN中对图像进行压缩的思想,相较于DDPM,极大的减少了计算量。

LDM在不同条件下可以生成多种输出。例如,文本条件控制、布局图控制以及修复功能。这些能力也展示了模型的多样性与强大性能。

这里可以看到语义分割图的应用效果。该模型还具有超分辨率生成的能力,输出结果可以展示更高的细节和真实感。

这里展示了LDM在ImageNet上类别控制的生成结果。值得注意的是,以上所有模型都是使用相同的LDM架构进行训练的,只需要调整LDM中的条件控制编码器,就能接受各种不同类型的条件输入。

SDXL提出类似Google CDM的架构,将生成过程分为Base和Refiner两个阶段。在Base阶段生成初步的隐变量表征,然后在Refiner阶段进一步优化,最终生成高分辨率的图像。同时,相较于SD,它额外使用了一个更大的文本编码器(OpenCLIP ViT-bigG),用于更好的语义理解。

SDXL重点关注了训练数据本身存在问题,这张幻灯片展示了数据集中高度和宽度分布。我们发现大量的训练数据小于256尺寸,同时长宽比并不等于1。如果直接对小于256尺寸的图像进行筛除,那么会有39%的数据会被丢弃。

为了解决训练图像尺寸的问题,SDXL提出了尺寸和裁剪微条件控制处理算法,先讨论尺寸控制。右图展示了不同尺寸控制条件下生成的图像对比效果,可以看到引入尺寸作为输入的控制条件,随着尺寸大小增加,图像的质量显著提升。

这里展示的是SDXL在裁剪条件下的效果。可以看到左侧SD 1.5和SD 2.1生成的图像中,猫的头部被裁剪了。一个可能的原因是使用了Pytorch框架中进行提量预训练时,为了保持tensor形状一致而对图像做出了缩放和裁剪。而SDXL额外引入裁剪作为控制条件,解决了上述问题并可人为控制被裁剪样本的生成。

SDXL Turbo模型使用对抗扩散蒸馏(ADD)方法,通过对SDXL进行蒸馏得到更高效的模型SDXL Turbo,仅需一个采样步长就能生成令人满意的结果。

2023年DiT横空出世,全面取代了扩散模型传统的UNet/ViT的网络骨架。SD 3进一步拓展了DiT框架,提出MM-DiT,使DiT能够支持文本等条件约束。

同时SD 3做了大量的对比实验,探索了多模态DiT的Scaling Law,发现基于DiT的文生图模型与大模型一样,也具有Scaling Law的规律。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2272734.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据库软考历年上午真题与答案解析(2018-2024)

本题考查计算机总线相关知识。 总线(Bus)是计算机各种功能部件之间传送信息的公共通信干线,它是由导线组成的传输线束。 根据总线连接设备范围的不同, 分为:1.片内总线:芯片内部的总线; 2.系统…

【three.js】模型-几何体Geometry,材质Material

模型 在现实开发中,有时除了需要用代码创建模型之外,多数场景需要加载设计师提供的使用设计软件导出的模型。此时就需要使用模型加载器去加载模型,不同格式的模型需要引入对应的模型加载器,虽然加载器不同,但是使用方式…

彻底学会Gradle插件版本和Gradle版本及对应关系

看完这篇,保你彻底学会Gradle插件版本和Gradle版本及对应关系,超详细超全的对应关系表 需要知道Gradle插件版本和Gradle版本的对应关系,其实就是需要知道Gradle插件版本对应所需的gradle最低版本,详细对应关系如下表格&#xff0…

预测facebook签到位置

1.11 案例2:预测facebook签到位置 学习目标 目标 通过Facebook位置预测案例熟练掌握第一章学习内容 1 项目描述 本次比赛的目的是预测一个人将要签到的地方。 为了本次比赛,Facebook创建了一个虚拟世界,其中包括10公里*10公里共100平方公里的…

【万字详细教程】Linux to go——装在移动硬盘里的Linux系统(Ubuntu22.04)制作流程;一口气解决系统安装引导文件迁移显卡驱动安装等问题

Linux to go制作流程 0.写在前面 关于教程Why Linux to go?实际效果 1.准备工具2.制作步骤 下载系统镜像硬盘分区准备启动U盘安装系统重启完成驱动安装将系统启动引导程序迁移到移动硬盘上 3.可能出现的问题 3.1.U盘引导系统安装时出现崩溃3.2.不影响硬盘里本身已有…

在 macOS 上,你可以使用系统自带的 终端(Terminal) 工具,通过 SSH 协议远程连接服务器

文章目录 1. 打开终端2. 使用 SSH 命令连接服务器3. 输入密码4. 连接成功5. 使用密钥登录(可选)6. 退出 SSH 连接7. 其他常用 SSH 选项8. 常见问题排查问题 1:连接超时问题 2:权限被拒绝(Permission denied&#xff09…

Linux CentOS 7系统如何修改panel 重新打开最小化的界面/软件/程序

CentOS 7系统下,部分用户可能一开始打开界面没有类似Windows的下方菜单栏,只有一个浮动的panel。一旦打开软件,然后点击最小化后,找不到重新打开的方法。 右键panel,点击Add New Items… 选择以下三个基本就可以了&am…

打造三甲医院人工智能矩阵新引擎(二):医学影像大模型篇--“火眼金睛”TransUNet

一、引言 1.1 研究背景与意义 在现代医疗领域,医学影像作为疾病诊断与治疗的关键依据,发挥着不可替代的作用。从传统的X射线、CT(计算机断层扫描)到MRI(磁共振成像)等先进技术,医学影像能够直观呈现人体内部结构,为医生提供丰富的诊断信息,涵盖疾病识别、病灶定位、…

基于Arduino的FPV头部追踪相机系统

构建FPV头部追踪相机:让你置身于遥控车辆之中! 在遥控车辆和模型飞行器的世界中,第一人称视角(FPV)体验一直是爱好者们追求的目标。通过FPV头部追踪相机,你可以像坐在车辆或飞行器内部一样,自由…

使用 Three.js 创建动态粒子效果

今天,带大家使用粒子实现一个粒子飞毯的效果,我们先来看一下效果。 实现 初始化场景 首先创建一个场景,所有 3D 对象都会被添加到这个场景中。 const scene new THREE.Scene();相机和渲染器 配置相机和渲染器来捕捉和显示场景。 相机…

Linux双端口服务器:端口1的文件系统目录挂载到端口2

目录 一、服务器安装NFS服务并配置二、文件挂载三、持久化挂载总结为什么服务器配置多个端口 目前有一台服务器,不过他设置了两个SSH的端口,通过下面方法可以让这两个端口连接的主机能够共享同一个文件系统,原本这两个端口的文件系统是隔离的…

机器学习算法---贝叶斯学习

1.了解相关概念 先验概率:有数据集d,以及假设h,此时h是不确定的。在还没有训练数据之前h的初始概率记为P(h),类似地我们把P(d)表示训练数据d在任何假设都未知或不确定时的概率。P(d|h)表示已知假设h成立时d的概率。 后验概率:就是在数据d上经过学习之后…

[paddle] 非线性拟合问题的训练

利用paddlepaddle建立神经网络,模拟有限个数据的非线性拟合 本文仍然考虑 f ( x ) sin ⁡ ( x ) x f(x)\frac{\sin(x)}{x} f(x)xsin(x)​ 函数在区间 [-10,10] 上固定数据的拟合。 import paddle import paddle.nn as nn import numpy as np import matplotlib.…

GWAS数据和软件下载

这部分主要是数据获取,以及软件配置方法。 一、配套数据和代码 数据和代码目前在不断的更新,最新的教程可以私信,我通过后手动发送最新版的pdf和数据代码。发送的压缩包,有电子版的pdf和数据下载链接,里面是最新的百度网盘的地址,下载到本地即可。然后根据pdf教程,结合配套的…

win32汇编环境,在对话框中画五边形与六边形

;运行效果 ;win32汇编环境,在对话框中画五边形与六边形 ;展示五边形与六边形的画法 ;将代码复制进radasm软件里,直接编译可运行.重要部分加备注。 ;下面为asm文件 ;>>>>>>>>>>>>>>>>>>>>>>>>>&g…

springcloud 介绍

Spring Cloud是一个基于Spring Boot的微服务架构解决方案集合,它提供了一套完整的工具集,用于快速构建分布式系统。在Spring Cloud的架构中,服务被拆分为一系列小型、自治的微服务,每个服务运行在其独立的进程中,并通过…

如何进行千万级别数据跑批优化

目录 背景问题分析解决方案 数据库问题分片广播分批获取事务控制充分利用服务器资源MQ消费任务并行动态调整并发度失败任务如何继续下游接口时间线程安全异常 & 监控 总结 背景 定义:跑批是指在特定日期对大量数据进行定时处理的过程。在金融领域,…

电脑提示wlanapi.dll丢失怎么办?wlanapi.dll丢失的多种解决方法

电脑提示wlanapi.dll丢失?别担心,这里有多种解决方法! 作为软件开发领域的从业者,我深知电脑在运行过程中可能会遇到的各种问题,其中“wlanapi.dll丢失”这一报错信息就常常让用户感到困惑和不安。今天,我…

刷服务器固件

猫眼淘票票 大麦 一 H3C通用IP 注:算力服务器不需要存储 二 刷服务器固件 1 登录固定IP地址 2 升级BMC版本 注 虽然IP不一致但是步骤是一致的 3 此时服务器会出现断网现象,若不断网等上三分钟ping一下 4 重新登录 5 断电拔电源线重新登录查看是否登录成功

深入Android架构(从线程到AIDL)_13 线程安全的化解之例

目录 7、 线程安全的化解之例 复习:Android单线程环境 非单线程环境的线程安全议题 范例-1 范例-2​编辑 同步(Synchronization)化解线程安全的问题 7、 线程安全的化解之例 复习:Android单线程环境 View是一个单线程的类;其意味着&…