4、High-Resolution Image Synthesis with Latent Diffusion Models

news2025/1/11 15:09:05

简介

github地址

diffusion model明显的缺点是耗费大量的时间、计算资源,为此,论文将其应用于强大的预训练自编码器的潜在空间 ,这是首次允许在复杂性降低和细节保存之间达到一个近乎最佳的点,极大地提高了视觉保真度。通过在模型架构中引入交叉注意层,将扩散模型转化为强大而灵活的生成器,用于一般条件输入,如文本或包围框,并以卷积方式实现高分辨率合成。

这种潜在扩散模型(LDMs)在图像修补和类条件图像合成方面取得了新的最先进的分数,并在各种任务上获得了极具竞争力的性能,包括文本到图像合成,无条件图像生成和超分辨率,同时与基于像素的DMs相比,大大降低了计算需求。

由于扩散模型为空间数据提供了极好的归纳偏差,不需要在潜在空间中对相关生成模型进行大量的空间下采样,但仍然可以通过合适的自动编码模型大大降低数据的维数

数字图像的大多数位对应于难以察觉的细节。虽然 DM 允许通过最小化 responsible loss 来抑制这些语义上无意义的信息,但梯度(在训练期间)和神经网络主干(训练和推理)仍然需要在所有像素上进行评估,导致多余的计算和不必要的昂贵优化和推理。提出潜在扩散模型(DLMs)作为一个有效的生成模型和一个单独的温和压缩阶段,只消除不可察觉的细节

贡献点:

  • 与纯粹基于变压器的方法相比,LDMs更适合于高维数据 。首先,可以在压缩级别上工作,比以前的工作提供更忠实和详细的重建,其次,可有效应用于百万像素图像的高分辨率合成。

  • LDMs在多个任务(无条件图像合成,修补,随机超分辨率)和数据集上实现了具有竞争力的性能,同时显著降低了计算成本。与基于像素的扩散方法相比,还显著降低了推理成本。

  • 与之前同时学习编码器/解码器架构和基于分数的先验的工作相比,LDMs不需要对重建和生成能力进行微妙的加权。这确保了非常忠实的重建和需要很少的正则化的潜在空间。

  • 对于超分辨率、修补和语义合成等条件密集的任务,LDMs可以以卷积方式应用,并呈现大而一致的~ px图像。

  • 设计了一种基于交叉注意的通用条件反射机制,实现了多模态训练。用它来训练类条件模型、文本到图像模型和布局到图像模型

实现流程

尽管扩散模型允许通过对相应的损失项进行欠采样来忽略感知上不相关的细节,但它们仍然需要在像素空间中进行昂贵的函数评估,这导致了对计算时间和能量资源的巨大需求。论文引入压缩与生成学习阶段的显式分离来规避这一缺点 ,使用了一种自动编码模型,该模型学习的空间在感知上与图像空间等效,但大大降低了计算复杂度 。有以下几个优点:

  • 通过离开高维图像空间,获得的 DMs 在计算上更有效,因为采样是在低维空间上执行的

  • 利用了继承自其UNet架构的 DMs 的归纳偏差,这使得它们对于具有空间结构的数据特别有效 ,减轻了以往方法所要求的激进的、降低质量的压缩级别的需要

  • 得到通用压缩模型,其潜在空间可用于训练多个生成模型,也可用于其他下游应用,如单幅图像CLIP指导生成

Perceptual Image Compression

感知图像压缩 模块由一个结合感知损失和基于补丁的对抗目标训练的自编码器组成 ,其通过加强局部真实感来确保重建被限制在图像流形中,并避免仅依靠像素空间损失(如L2或L1目标)而引入的模糊。

输入图像 ,编码器 编码为潜变量,解码器从潜变量中重构图像,即,其中,编码器按因子下采样,论文研究不同的下采样因子f = 2m, m∈N

为了避免任意高方差的潜在空间,尝试了两种不同的正则化

  • KL-reg 对习得潜变量的标准normal施加轻微的kl惩罚,类似于VAE

  • VQ-reg在解码器中使用矢量量化层,可以解释为一个VQGAN,但量化层被解码器吸收 。后续DM设计用于学习的潜在空间 的二维结构,所以可以使用相对温和的压缩率并实现非常好的重建

之前的工作依赖于学习空间z的任意1D顺序来对其分布进行自回归建模,从而忽略了z的大部分固有结构,而压缩模型更好地保留了x的细节

Latent Diffusion Models

原始DM为:

通过训练过的由 和D组成的感知压缩模型,现在可以获得一个有效的、低维的潜在空间,其中高频的、难以察觉的细节被抽象掉了 。

与高维像素空间相比,这个空间更适合基于可能性的生成模型,因为它们现在可以

  • 专注于数据的重要语义位

  • 在低维、计算效率更高的空间中训练。

是时间条件的UNet ,由于正向过程是固定的,所以在训练过程中可以有效地从 中获得 ,并且 p(z) 中的样本可以通过D一次解码到图像空间。

Conditioning Mechanisms

使用交叉注意机制(cross-attention mechanism)增强DMs的底层UNet主干,将其转变为更灵活的条件图像生成器,这对于学习各种输入模式的基于注意的模型是有效的

为了从各种模式(如语言提示)对y进行预处理,引入了领域特定的编码器 ,将y投影到中间表示 ,然后通过实现注意力 的交叉注意层映射到UNet的中间层

表示实现 的UNet的一个(扁平)中间表示,是可学习的投影矩阵

论文使用BERT-tokenizer 实现 作为转换器来推断一个潜在代码,该代码通过(多头)交叉注意映射到UNet 。这种学习语言表示和视觉合成的领域特定专家的结合产生了一个强大的模型,它很好地概括了复杂的、用户定义的文本提示

用户定义的文本提示样本来自文本到图像合成模型LDM-8 (KL),该模型是在LAION数据库上训练的。以200个DDIM步骤生成样品,η = 1.0。使用无条件引导,s = 10.0。

Experiments

在OpenImages上训练的完整的自编码器,在ImageNet-Val上评估。†表示无需注意的自动编码器

在 VQ正则化潜在空间中训练的 LDMs 有时可以获得更好的样本质量,尽管VQ正则化第一阶段模型的重构能力略低于连续模型cf

编码器下采样因子

LDM-{1,2}的小下采样因素导致训练进展缓慢 。

过大的f值导致在相对较少的训练步骤后保真度停滞 。原因可以归结为:

  • 将大部分感知压缩留给扩散模型

  • 太强的第一阶段压缩导致信息丢失,从而限制了可实现的质量

LDM-{4-16}在效率和感知忠实结果之间取得了良好的平衡,这体现在2M训练步骤后,基于像素的扩散(LDM-1)和LDM-8之间的FID差距为38

分析了ImageNet数据集上2M以上训练步具有不同下采样因子的类条件 LDMs 的训练。与具有较大下采样因子(LDM-{4-16})的模型相比,基于像素的LDM-1需要更大的训练时间。LDM-32中过多的感知压缩限制了整体样本质量。所有模型都在一台NVIDIA A100上训练,计算预算相同。100个DDIM步骤[84],且κ = 0。

在CelebA-HQ(左)和ImageNet(右)数据集上比较不同压缩的 LDMs。不同的标记表示使用DDIM的{10,20,50,100,200} 采样步骤,沿着每条线从右向左。虚线显示了200步的FID分数,表明LDM{4-8}的强大性能。对5000个样本进行FID评分。在A100上对所有模型进行500k (CelebA) / 2M (ImageNet)步长训练。

无条件图像合成的评价指标。CelebA-HQ,FFHQ,†:N -s指的是DDIM采样器的N个采样步骤。*:在kl正则化潜空间中训练。

在256 × 256大小的MS-COCO 数据集上评估文本条件图像合成:模型有250个DDIM步,尽管使用了明显较少的参数,但与最新的扩散和自回归[26]方法相当。†/ *:Numbers from

超分辨率

遮挡

Limitations & Societal Impact&Conclusion

Limitations

虽然与基于像素的方法相比,LDMs 显著降低了计算需求,但其顺序采样过程仍然比GANs慢。此外,当需要高精度时,LDMs的使用可能是有问题的:尽管在f = 4自动编码模型中图像质量的损失非常小,但它们的重建能力可能成为在像素空间中需要细粒度精度的任务的瓶颈。超分辨率模型在这方面已经有些局限。

Societal Impact

图像等媒体的生成模型是一把双刃剑:一方面,它们使各种创造性应用成为可能,特别是像我们这样降低训练和推理成本的方法,有可能促进这种技术的使用,并使其探索民主化。另一方面,这也意味着创建和传播被操纵的数据或传播虚假信息和垃圾邮件变得更加容易。特别是,故意操纵图像(“深度造假”)是这一背景下的一个常见问题,女性尤其受其影响较大

生成模型还可以显示他们的训练数据,当数据包含敏感或个人信息并且未经明确同意收集时,这是非常值得关注的。然而,这在多大程度上也适用于图像的 DMs 还没有完全理解。

最后,深度学习模块倾向于重现或加剧数据中已经存在的偏见。虽然扩散模型比基于GANs的方法更好地覆盖了数据分布,但结合了对抗性训练和基于可能性的目标的两阶段方法在多大程度上歪曲了数据仍然是一个重要的研究问题。

Conclusion

提出了潜在扩散模型,这是一种简单有效的方法,可以在不降低扩散模型质量的情况下显著提高去噪扩散模型的训练和采样效率。基于这一点和交叉注意调节机制,实验可以在没有任务特定架构的情况下,在广泛的条件图像合成任务中,与最先进的方法相比,展示出良好的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/388528.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

操作系统复习题

什么是线程? 线程(Thread):轻量级进程,是操作系统进行调度的最小单位。一个线程是一个任务(一个程序段)的一次执行过程。线程不占有内存空间,它包括在进程的内存空间中。在同一个进程…

自然语言处理历史最全预训练模型(部署)汇集分享

什么是预训练模型?预练模型是其他人为解决类似问题而创建的且已经训练好的模型。代替从头开始建立模型来解决类似的问题,我们可以使用在其他问题上训练过的模型作为起点。预训练的模型在相似的应用程序中可能不是100%准确的。本文整理了自然语…

踩坑:maven打包失败的解决方式总结

Maven打包失败原因总结如下: 失败原因1:无法使用spring-boot-maven-plugin插件 使用spring-boot-maven-plugin插件可以创建一个可执行的JAR应用程序,前提是应用程序的parent为spring-boot-starter-parent。 需要添加parent的包spring-boot…

QML组件

一个QML文件定义了一个独立的、顶级的QML组件。 一个QML组件就是一个模板,被QML运行环境解释来创建一个带有一些预定义行为的对象。 一个独立的QML组件可以运行多次来禅城多个对象,每个对象都可以称为该组件的实例。 例子: 在项目中添加一…

Redis基础入门

文章目录前言一、redis是什么?二、安装步骤1.下载安装包2.安装三、Redis的数据类型redis是一种高级的key-value的存储系统,其中的key是字符串类型,尽可能满足如下几点:字符串(String)列表(List)集合(Set,不允许出现重复…

MySQL面试题-索引篇

1.什么是索引 MySQL的索引是一种数据结构,可以用于加快数据库中数据的查询速度。索引是基于表中一个或多个列的值排序的快速查找数据结构,可以大大提高查询效率。MySQL支持多种类型的索引,如B-tree索引、哈希索引、全文索引等。 索引可以在…

【java基础】异常处理(Exception)

文章目录基本介绍异常分类抛出异常非检查型异常检查型异常捕获异常捕获单个异常捕获多个异常创建自定义异常类finally字句try-with-Resource总结基本介绍 对于一个程序,总是有bug的。如果我们的程序遇到一个错误就终止了,那么肯定是不合理,程…

数据爬取(urllib+BeautifulSoup)

文章目录知识点总结爬虫步骤爬虫三要素爬虫注意事项python爬取技术学习网页抓取库Urllib网页解析库Beautifulsoup案例知识点总结 爬虫是一种按照一定规则,自动抓取互联网上网页中的相应信息的程序或脚本。 爬虫步骤 1.需求分析 2.找到要爬取信息的网站 3.下载reque…

基于halo后台管理+Gblog-wx搭建的微信小程序

先决条件 1、已经通过docker安装了halo后台管理系统(参考:http://43.136.39.20:8090/archives/halo-build) 2、安装的halo版本为1.5.3版本。此版本的halo才能安装小程序主题并启动小程序 3、需要修改小程序文件配置 解决安装的不是1.5.3的halo 1、如果是docker安装的halo…

蓝牙技术|蓝牙5.4标准正式发布,蓝牙ESL电子价签迎来一波利好

蓝牙技术联盟于2023年1月31日批准了蓝牙核心规范v5.4版本(以下简称蓝牙5.4版本),并已正式公布。 蓝牙5.4版本引入了四个新特性,如下: 广播数据加密(Encrypted Advertising Data):对广播数据进行加密以提高广播数据传…

[神经网络]Swin Transformer网络

一、概述 Swin Transformer是一个用了移动窗口的层级式Vision Transformer。 在图像领域,Transformer需要解决如下两个问题: ①尺度问题:同一语义的物体在图像中有不一样的尺度。(大小不同) ②Resolution过大:若以像素点作为单位&…

利用python写一个gui小公举--环境搭建

文章目录背景搭建环境安装必要库添加工具快捷方式检验背景 在实习过程中遇到一个问题,某项目是通过python代码实现的,而且需要一直修改参数实现功能,过程有些繁琐。虽然师兄用PHP study搭了一个网站用于查看结果,但是还是过于繁琐…

分布式新闻项目实战 - 12.热点文章-实时计算(kafkaStream)

死海效应: 公司发展到一定阶段后,工作能力强的员工,就会离职,因为他无法容忍公司的某些行为,即使辞职也很快会找到好工作;工作能力差的员工,却赖着不走,因为辞职以后也不太好找工作&…

JavaScript实现十大排序算法

目录 概览 一、冒泡排序 1、算法描述 2、图示 3、代码 二、选择排序 1、算法描述 2、图示 3、代码 三、插入排序 1、算法描述 2、图示 ​编辑 3、代码 四、希尔排序 1、算法描述 2、图示 3、代码 五、并归排序 1、算法描述 2、图示 ​编辑​编辑3、代码 …

食品与疾病关系预测赛题

和鲸平台数据分析实战 题目:食品与疾病关系预测算法赛道 一、赛题描述 食品与疾病关系预测算法赛道 越来越多的证据表明,食物分子与慢性疾病之间存在关联甚至治疗关系。营养成分可能直接或间接地作用于人类基因组,并调节参与疾病风险和疾病…

php结课报告--会员注册管理系统

目录 1. 系统背景及意义 1 2. 系统的设计思路 1 2.1 数据库设计分析 1 2.2 功能模块设计分析 1 3. 程序功能测试及截图 1 3.1代码测试与功能演示 1 4. 总结与收获 6 1.系统背景及意义 随着现在时代得发展,…

【AI面试】NMS 与 Soft NMS 的辨析

往期文章: AI/CV面试,直达目录汇总【AI面试】L1 loss、L2 loss和Smooth L1 Loss,L1正则化和L2正则化 一、NMS 非极大值抑制(Non-Maximum Suppression,NMS),并不是深度学习时期,目标…

VS项目配置常用的配置

背景随着学习使用VS的深入在项目配置使用一些相对路径是必不可少的,使用绝对路径是最简单的,但是加入你换了电脑或者别人拉取你的代码,就会发现通常会编译不过.因为项目配置使用了绝对路径.所以使用相对路径的好处就会体现.在VS项目配置有自己的一套配置,简单记录一下我使用到的…

mysql一主键uuid和自增的选择

文章目录 1.自增ID的优缺点1.1 优点1.2 缺点1.3 不适合以自增ID主键作为主键的情况2.UUID作为主键2.1 介绍2.2 优点2.3 缺点3.有序UUID作为主键3.1 介绍3.2 演示使用3.2.1 前提知识3.2.1.1 数据类型 - binary3.2.1.2 函数 - hex()3.2.1.3 函数 - unhex()3.2.2 数据库层3.2.3 JA…

蓝桥杯第十四届校内赛(第三期) C/C++ B组

一、填空题 (一)最小的十六进制 问题描述   请找到一个大于 2022 的最小数,这个数转换成十六进制之后,所有的数位(不含前导 0)都为字母(A 到 F)。   请将这个数的十进制形式作…