经典文献阅读之--A Survey on Generative Diffusion Models(扩散模型最新综述)

news2025/3/14 22:53:39

0. 简介

本文综述了深度生成模型,特别是扩散模型(Diffusion model),如何赋予机器类似人类的想象力。扩散模型在生成逼真样本方面显示出巨大潜力,克服了变分自编码器中的后分布对齐障碍,缓解了生成对抗网络中的对抗性目标不稳定性。

扩散模型包括两个相互连接的过程:一个将数据分布映射到简单先验分布的前向过程和一个相应的反向过程。前向过程类似于具有时变系数的简单布朗运动。神经网络通过使用去噪评分匹配目标来训练估计得分函数。在前向扩散阶段,图像被逐渐引入的噪声污染,直到图像成为完全随机噪声。在反向过程中,利用一系列马尔可夫链在每个时间步逐步去除预测噪声,从而从高斯噪声中恢复数据。

在这里插入图片描述

然而,扩散模型与GANs和VAEs相比,其采样过程本质上需要更耗时的迭代过程。这是由于通过利用ODE/SDE或马尔科夫过程将先验分布转化为复杂数据分布的迭代转换过程,这需要反向过程中进行大量的函数评估。

这是由于扩散模型保留数据语义结构的能力。然而,这些模型的计算要求很高,训练需要非常大的内存,这使得大多数研究人员甚至无法尝试这种方法。这是因为所有的马尔可夫状态都需要一直在内存中进行预测,这意味着大型深度网络的多个实例一直在内存中。此外,这些方法的训练时间也变得太高(例如,几天到几个月),因为这些模型往往陷入图像数据中细粒度的、难以察觉的复杂性。然而,需要注意的是,这种细粒度图像生成也是扩散模型的主要优势之一,因此,使用它们是一种矛盾。

为了应对这些挑战,研究人员提出了各种解决方案。例如,提出了先进的ODE/SDE求解器来加速采样过程,同时采用了模型传授策略来实现这一目标。此外,还引入了新型前向过程来增强采样稳定性或促进维度降低。此外,近年来有一系列研究致力于利用扩散模型有效地连接任意分布。为了提供一个系统性的概述,我们将这些进展分为四个主要领域:采样加速、扩散过程设计、似然优化和连接分布。此外,本综述将全面考察扩散模型在不同领域中的各种应用,包括计算机视觉、自然语言处理、医疗保健等。

在这里插入图片描述

图1. 扩散模型概述。 (左) 生成模型简介。GAN 和 EBM 首先利用生成器捕获数据分布。通过从训练数据中采样,根据真实分布纠正估计的分布。捕获过程及判别标准各异。VAE、NF 和 DPM 通过编码过程直接将真实分布投影到预定义的分布中。实例是通过解码预定义分布中的样本获得的。它们应用不同的预定义分布 z 和编码解码过程。 (右) 扩散模型的简化形式。通用程序遵循右上方图示。数据分布被扩散到随机高斯噪声中,并通过去噪过程被反转。 (1) DDPM沿离散时间线实现逐步扩散和去噪过程。 (2) SDE建立连续时间线,通过基于函数的随机微分方程(SDE)实现状态间的转换。 (3) CDPM在 DPM 的每个采样步骤中使用条件 𝑐 来实现可控的生成。

1. 算法改进

尽管扩散模型在各种数据模态中生成的质量很高,但它们在现实世界的应用仍有待改进。与其他生成模型(如GAN和VAE)不同,它们需要一个缓慢的迭代抽样过程,并且它们的前向过程在高维像素空间中操作。本节重点介绍了四项最近的发展,以增强扩散模型的性能:(1)抽样加速技术(第2节)用于加速标准ODE/SDE模拟;(2)新的前向过程(第3节)用于改进像素空间中的布朗运动;(3)似然优化技术(第4节)用于增强扩散ODE的似然度;(4)桥接分布技术(第5节)利用扩散模型的概念连接两个不同的分布。

2. 抽样加速

尽管扩散模型生成的图像质量很高,但由于其抽样速度较慢,实际应用受到了限制。本节简要介绍了四种先进技术来提高抽样速度:蒸馏、训练进度优化、无需训练的加速以及将扩散模型与更快的生成模型集成。

2.1 知识蒸馏

知识蒸馏是一种从较大模型向较简单模型转移“知识”的技术,正在越来越流行。在扩散模型中,目标是通过对齐和最小化原始样本与生成样本之间的差异,使用更少的步骤或更小的网络生成样本。将其视为跨分布的轨迹优化,蒸馏提供了经济高效和更快的可控生成的最佳映射

ODE轨迹知识蒸馏从教师模型到学生模型使用ODE形式的蒸馏,通过分布场中的高效路径将先验分布映射到目标分布。首先将这一原理应用于改进扩散模型,通过逐步蒸馏抽样轨迹,在每两个步骤中纠正潜在映射。 TRACT、Denoising Student 和 Consistency Models 扩展了这种效果,通过在时间 𝑇 中直接估计干净数据,将加速率提高到了 64 和 1024。RFCD 通过在训练期间对齐样本特征来增强学生模型的性能。通过最优传输,可以获得最佳轨迹。通过最小化流匹配中的分布间运输成本,ReFlow 和 实现了单步生成。DSNO 提出了一个用于直接时间路径建模的神经运算符。 Consistency Model、SFT-PG 和 MMD-DDM 分别使用 LPIPS、IPA 和 MMD 寻找理想轨迹。SDE轨迹蒸馏难度仍然较大。提出了一些工作(参见第5节)。

2.2 训练进度优化

改进训练进度涉及修改传统的训练设置,如扩散方案和噪声方案,这些设置与抽样无关。最近的研究突出了影响学习模式和模型性能的训练方案中的关键因素。在本小节中,我们将训练增强技术分为两个主要领域:扩散方案学习和噪声尺度设计

扩散方案学习 扩散模型将数据投影到潜在空间中,如变分自动编码器(VAEs),由于其更高的表现力,它们更复杂。这些模型中的反向解码方法可以分为两种方法:编码程度优化和投影方法。

编码程度优化方法,如 CCDF 和 Franzese et al.,通过将扩散步骤的数量视为变量,最小化证据下界(ELBO)。另一种方法是截断,通过从较少扩散的数据中进行一步采样,平衡生成速度和样本保真度。TDPM 和 ES DDPM 使用 GAN 和 CT 进行截断。投影方法,如 Soft diffusion 和模糊扩散模型,利用线性破坏(如模糊和蒙版)来探索扩散核的多样性。

**噪声尺度设计 **在传统的扩散过程中,每个转换步骤由注入的噪声确定,这相当于在前向和反向轨迹上进行随机行走。设计噪声尺度可以导致合理的生成和快速收敛。与传统的 DDPM 不同,现有的方法在整个过程中将噪声尺度视为可学习参数。

对于前向噪声设计方法,如VDM,将噪声尺度参数化为信噪比,将其与训练损失和模型类型联系起来。FastDPM将噪声设计与ELBO优化联系起来,使用离散时间变量或方差标量。对于反向噪声设计,改进的DDPM通过训练混合损失隐式学习反向噪声尺度,而San Roman等人则使用噪声预测网络在祖先采样之前更新反向噪声尺度。

2.3 无需训练的采样

无需训练的方法旨在利用先进的采样器加速预先训练的扩散模型的采样过程,消除了重新训练模型的需要。本小节将这些方法分为几个方面:扩散ODE和SDE采样器的加速、分析方法和动态规划

ODE加速证明了DDPM中的随机采样过程具有等价的概率ODE,其定义了从先验到数据分布的确定性采样轨迹。鉴于ODE采样器产生的离散化误差较少,大多数先前关于采样加速的工作都是以ODE为中心的。例如,广泛使用的采样器DDIM可以被视为概率流ODE:

…详情请参照古月居

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1598556.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深度挖掘响应式模式的潜力,从而精准优化AI与机器学习项目的运行效能,引领技术革新潮流

​🌈 个人主页:danci_ 🔥 系列专栏:《设计模式》 💪🏻 制定明确可量化的目标,坚持默默的做事。 🔥 转载自热榜文章:探索设计模式的魅力:深度挖掘响应式模式的…

uni-starter的微信登录拿不到登录者的昵称,头像,手机号问题记录

uni-starter的微信登录竟然拿不到登录者的昵称,头像,手机号 获取手机号的方法在另外一篇文章中,需要认证,需要有营业执照 uni.login({"provider": type,"onlyAuthorize": true,// #ifdef APP"univerif…

RabbitMQ - Spring boot 整合 RabbitMQ

一、RabbitMQ 1、RabbitMQ 使用场景 1.1、服务解耦 假设有这样一个场景, 服务A产生数据, 而服务B,C,D需要这些数据, 那么我们可以在A服务中直接调用B,C,D服务,把数据传递到下游服务即可 但是,随着我们的应用规模不断扩大,会有更多的服务需要A的数据,如果有几十甚至几百个下…

Docker Desktop修改镜像存储路径 Docker Desktop Start ... 卡死

1、CMD执行wsl -l -v --all 2、Clean / Purge data 3、导出wsl子系统镜像: wsl --export docker-desktop D:\docker\wsl\distro\docker-desktop.tar wsl --export docker-desktop-data D:\docker\wsl\data\docker-desktop-data.tar4、删除现有的wsl子系统: wsl -…

智游剪辑网页版发布了!

你是否因为软件安装麻烦而不愿意尝试本软件?那么可以试试网页版!只需要一个浏览器,就可以直接访问了,网页版免安装,无广告,大部分功能都可以免费使用! 网页版地址:app.zyjj.cc 界面…

汇编基础-----通过x64dbg了解什么是堆栈

汇编基础-----通过x64dbg了解什么是堆栈 什么是堆栈 在汇编语言中,堆栈(stack)是一种用于存储临时数据和执行函数调用的内存结构。堆栈是一种后进先出(Last-In-First-Out, LIFO)的数据结构,通常用于保存函…

ssm042在线云音乐系统的设计与实现+jsp

在线云音乐系统的设计与实现 摘 要 随着移动互联网时代的发展,网络的使用越来越普及,用户在获取和存储信息方面也会有激动人心的时刻。音乐也将慢慢融入人们的生活中。影响和改变我们的生活。随着当今各种流行音乐的流行,人们在日常生活中经…

08_ADC轮询方式读取电压值/DMA方式多通道采集/DAC数模转换

ADC轮询方式读取电压值/DMA方式多通道采集/DAC数模转换 ADC轮询方式读取电压值DMA方式多通道采集DAC数模转换 ADC轮询方式读取电压值 while (1){/* USER CODE END WHILE *//* USER CODE BEGIN 3 */HAL_ADC_Start(&hadc1);//启动ADC装换HAL_ADC_PollForConversion(&hadc…

多维时序 | Matlab实现TCN-LSTM时间卷积长短期记忆神经网络多变量时间序列预测

多维时序 | Matlab实现TCN-LSTM时间卷积长短期记忆神经网络多变量时间序列预测 目录 多维时序 | Matlab实现TCN-LSTM时间卷积长短期记忆神经网络多变量时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.【Matlab实现TCN-LSTM时间卷积长短期记忆神经网络多变量…

【C++ 继承】关于多继承、菱形继承你了解多少?

文章目录 1. 为什么 C 有多继承,Java 没有多继承呢?2. 什么是菱形继承呢?3. 菱形继承产生数据冗余和二义性问题 1. 为什么 C 有多继承,Java 没有多继承呢? C 实现多继承是为了满足某些场景的需要,但是有多继…

leetcode:739.每日温度/496.下一个更大元素

单调栈的应用: 求解当前元素右边比该元素大的第一个元素(左右、大小都可以)。 单调栈的构成: 单调栈里存储数组的下标; 单调栈里的元素递增,求解当前元素右边比该元素大的第一个元素;元素递…

【附gpt4.0升级秘笈】百度智能云万源全新一代智能计算操作系统发布:引领AI新纪元

在科技日新月异的今天,人工智能(AI)作为引领未来发展的关键技术,正逐步渗透到社会的每一个角落。百度,作为中国AI领域的领军企业,始终站在技术创新的前沿,不断推出引领行业的重磅产品。今日&…

【小贴士|Unity】华佗热更版本控制配置

现在越来越多的新项目选择使用HybridCLR,而不是以前的Lua。也不妨有的项目会配置打包机器人以及版本控制,但是这个版本控制的配置还真需要注意一些。(因为我就踩坑了) 如图所示,当你第一次执行HybridCLR/Generate/All后…

渲染农场怎么收费?渲染100邀请码1a12

随着互联网的发展,越来越多的影视、动画和广告项目涌现出来,为了加快渲染,很多视觉工作者都会使用渲染农场,现在市面上的农场那么多,它们有什么收费模式?性价比如何?这篇文章我们就来看下吧。 1…

leetcode199 二叉树的右视图

题目 给定一个二叉树的 根节点 root,想象自己站在它的右侧,按照从顶部到底部的顺序,返回从右侧所能看到的节点值。 示例 输入: [1,2,3,null,5,null,4] 输出: [1,3,4] 解析 这道题首先能想到的办法,就是使用迭代法层次遍历&…

《手把手教你》系列基础篇(九十)-java+ selenium自动化测试-框架设计基础-Logback实现日志输出-中篇(详解教程)

1.简介 上一篇宏哥介绍是如何使用logback将日志输出到控制台中,但是如果需要发给相关人需要你拷贝出来,有时候由于控制台窗口的限制,有部分日志将会无法查看,因此我们还是需要将日志输出到文件中,因此今天主要介绍和分…

视频号小店被严重低估,私域电商再次崛起,这次真的不一样!

大家好,我是电商笨笨熊 在视频号正式推出电商之后,我听到过很多贬低的话; 有人觉得腾讯没有做电商的基因, 有人觉得这不过是资本打一枪换一个地方罢了,最终都是普通人承担后果, 总之,这样的…

华为海思数字芯片设计笔试第五套

声明 下面的题目作答都是自己认为正确的答案,并非官方答案,如果有不同的意见,可以评论区交流。 这些题目也是笔者从各个地方收集的,感觉有些题目答案并不正确,所以在个别题目会给出自己的见解,欢迎大家讨论…

【Zabbix】zabbix 软件监控

使用zabbix监控系统查看服务器状态以及网站流量指标,利用监控系统的数据去了解上线发布的结果,和网站的健康状态 利用一个优秀的监控软件,我们可以: ●通过一个友好的界面进行浏览整个网站所有的服务器状态 ●可以在 Web 前端方便的查看监控…

three.js两大神器:粒子效果与补间动画,很好很强大!

本期介绍three.js的两大神奇,开始了。 一、什么是粒子效果 粒子效果在计算机图形学和动画中有多种应用和作用。以下是一些常见的粒子效果的应用和作用: 创建自然现象:粒子效果可以用来模拟自然现象,如雨、雪、火焰、烟雾、云等。…