优化扩散模型中的采样计划

news2024/11/15 1:48:52

在生成模型领域,扩散模型(Diffusion Models, DMs)因其卓越的生成质量而成为最新的技术趋势。但这些模型的一个关键缺点是它们的采样速度较慢,需要通过大型神经网络进行多次顺序函数评估。扩散模型通过一个称为采样计划的离散噪声水平集来解决微分方程。尽管过去的研究主要集中在开发高效的求解器上,但很少有人关注寻找最优的采样计划。大多数现有工作都依赖于手工制定的启发式计划,如简单多项式和余弦函数。本文提出了一种新的框架,名为“Align Your Steps”(AYS),用于优化扩散模型中的采样计划,显著提高了输出质量,尤其是在仅进行少量步骤合成时。

AYS框架

AYS框架利用随机微积分方法,为不同的求解器、训练有素的DMs和数据集找到最优的采样计划。该框架基于所有随机SDE求解器都可以重新解释为在短间隔内精确求解近似线性化SDE的观察结果。通过将问题框架化为采样计划上的优化问题,使用随机微积分技术最小化近似线性SDE和真实生成SDE之间的不匹配。

使用AYS优化采样计划后,图像合成的细节得到了显著改善

AYS框架的核心在于它能够根据数据集的特性、所使用的模型以及选定的求解器,定制出最优的采样计划。这种定制化的方法是传统启发式采样计划所不具备的,后者通常依赖于简单的多项式衰减或余弦退火等规则。通过优化采样计划,AYS框架能够确保在给定的计算预算内,生成的样本尽可能地接近真实数据分布。

为了找到最优的采样计划,AYS框架采用了一种基于随机微积分的方法。它通过最小化真实生成的SDE(随机微分方程)与近似线性化SDE之间的Kullback-Leibler (KL) 散度上界(KLUB),来优化采样计划。这种方法允许研究者在不同的时间点调整采样计划,以确保生成过程的每一步都能够有效地逼近真实的数据生成过程。

AYS框架的另一个显著优势是其快速合成能力。在需要迅速生成高质量样本的应用场景中,AYS框架通过优化采样步骤,减少了生成过程中所需的前向评估次数,从而加快了整个合成过程。AYS框架还具有很好的通用性。它不仅限于特定的数据类型或模型架构,而是可以泛化到多种不同的扩散模型和求解器。无论研究者或开发者使用的是图像、文本还是视频数据,都可以利用AYS框架来优化他们的采样计划。

在实现上,AYS框架采用了迭代优化的方法。首先使用启发式方法初始化采样计划,然后通过迭代过程调整各个时间点,以最小化KL散度上界。这个过程可以高度并行化,因为各个时间点的优化可以独立进行。为了确保优化过程的稳定性和有效性,AYS框架还引入了早停机制。

优化采样计划

AYS优化采样计划的方法。它说明了通过最小化KL散度上界(KLUB)来找到最优的DM采样计划

在进行少步骤合成时,现有的采样计划可能导致显著的离散化误差,从而影响最终的输出质量。为了证明优化采样计划的必要性,研究者以一个简单的高斯数据分布为例,展示了如何通过解析方法得到最优采样计划,并发现该计划与文献中常用的启发式采样计划有显著不同。

比较了不同的采样计划。它展示了在高斯数据分布下,最优采样计划与文献中常用的启发式采样计划之间的差异

研究者使用Girsanov定理来分析离散化误差,该定理提供了两个共享扩散项的随机微分方程(SDEs)输出差异的上界。通过这个上界(KL-divergence Upper Bound, KLUB),研究者将寻找最优采样计划的问题转化为一个优化问题,就是最小化实际求解SDE/ODE时使用的离散采样计划与理论上无需离散化的逆向生成SDE之间的差异。

为了解决上述优化问题,研究者提出了一个迭代方法。该方法首先选择一个采样计划的索引,然后在其周围选择多个候选点,计算每个候选点的KLUB,并选择使KLUB最小的候选点作为优化后的采样点。这个过程可以高度并行化,特别是对于非邻近的索引。

为了减少方差并提高KLUB估计的准确性,研究者使用了针对时间t的重要性采样。通过假设高斯数据分布,并解析计算所有积分项,然后从与这些计算值匹配的概率密度函数中采样t,研究者显著降低了KLUB估计的方差。

在实践中,采样计划的优化是分层进行的。首先,使用启发式计划初始化一个10步的采样计划,然后迭代优化所有中间点,并使用早停机制避免过度优化。接下来,进行两轮细分和进一步微调,以获得40步的采样计划。在每次细分后,只优化新添加的中间点,而保持其他点固定。这使得采样计划的一般“形状”变得固定,从而在这些后期阶段不需要早停。

为了获得与[10, 20, 40]不同的步数的计划,研究者将40步计划视为分段对数线性函数,并对其进行插值以匹配所需的步数。

实验

实验部分旨在展示优化采样计划(Optimizing Sampling Schedules)对扩散模型性能的显著影响。研究者采用了FID得分作为主要的定量评估指标,并通过用户研究提供了定性评估。通过一系列实验验证了AYS(Align Your Steps)框架在不同数据集和模型上的有效性,包括2D玩具数据、标准图像数据集以及文本到图像和视频生成模型。

研究者首先在2D玩具数据集上展示了优化采样计划的优势。这些数据集具有已知的真实分布,使得研究者能够直观地比较不同采样计划生成样本的质量和原始分布的接近程度。实验结果表明,使用优化采样计划的模型能够生成更接近原始分布的样本,并且减少了异常值的出现。

在2D玩具数据分布上使用不同采样计划生成的样本。它说明了优化采样计划可以生成更接近原始分布且异常值更少的样本

接下来,研究者在CIFAR10、FFHQ和ImageNet等标准图像数据集上进行了实验。他们使用了预训练的连续时间扩散模型,并采用了不同的随机和确定性求解器。实验结果显示,优化的采样计划在低前向评估(NFE)次数下显著提高了生成图像的质量,减少了FID(Fréchet Inception Distance)得分,这是评估生成图像质量的常用指标。

在CIFAR10和FFHQ数据集上,使用不同采样计划的FID分数比较。它证实了优化采样计划可以显著提高样本质量

研究者还将AYS框架应用于流行的开源文本到图像模型,如Stable Diffusion 1.5和SDXL。这些模型依赖于分类器自由引导(classifier-free guidance),研究者发现,即使使用默认引导值优化的采样计划,也能在合理的引导值范围内有效。通过用户研究,研究者进一步验证了优化采样计划在图像质量和文本对齐方面的优势。

在Stable Diffusion 1.5和SDXL模型上使用不同采样计划生成的图像。它说明了优化采样计划可以在低NFEs下生成更高质量的图像

对于视频生成,研究者使用Stable Video Diffusion(SVD)模型进行了实验。他们发现,使用优化的采样计划能够改善视频生成中的时间颜色一致性,并解决了视频帧过度饱和的问题。通过用户研究,研究者证明了优化采样计划在视频生成中的实际优势。

在Stable Video Diffusion模型上使用不同采样计划生成的视频。它说明了优化采样计划可以改善视频生成中的时间稳定性

实验结果一致表明,通过优化采样计划,可以在保持相同计算预算的情况下,显著提高扩散模型生成样本的质量。研究者还讨论了优化采样计划对于模型多样性和实时应用的潜在影响。

在ImageNet数据集上,使用不同采样计划的FID、sFID和Inception Score。它进一步证实了优化采样计划在多个指标上的优势

实验结果表明,无论是在图像、视频还是2D玩具数据上,AYS都能显著超越传统的启发式采样计划,实现更快、更准确的数据生成。AYS的通用性和自动化特性,为广泛的应用领域和不同需求的用户提供了一个强大的工具。随着扩散模型在各个领域的不断进步,AYS框架有望成为推动生成模型性能提升的关键技术之一,为未来的研究和实践开辟新的道路。

论文链接:https://arxiv.org/abs/2404.14507

项目地址:https://research.nvidia.com/labs/toronto-ai/AlignYourSteps/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1801216.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Elastic Search(ES)Java 入门实操(2)搜索代码

上篇解释了 ES 的基本概念和分词器。Elastic Search (ES)Java 入门实操(1)下载安装、概念-CSDN博客 Elastic Search(ES)Java 入门实操(3)数据同步-CSDN博客 这篇主要演示 Java 整合…

Day 42 LVS四层负载均衡

一:负载均衡简介 1.集群是什么 ​ 集群(cluster)技术是一种较新的技术,通过集群技术,可以在付出较低成本的情况下获得在性能、可靠性、灵活性方面的相对较高的收益,其任务调度则是集群系统中的核心技术 …

PyTorch深度学习实战(44)——基于 DETR 实现目标检测

PyTorch深度学习实战(44)——基于 DETR 实现目标检测 0. 前言1. Transformer1.1 Transformer 基础1.2 Transformer 架构 2. DETR2.1 DETR 架构2.2 实现 DETR 模型 3. 基于 DETR 实现目标检测3.1 数据加载与模型构建3.2 模型训练与测试 小结系列链接 0. 前…

windows安装tensorboard

要在Windows系统上使用TensorBoard来可视化你的TensorFlow模型训练过程,请按照以下步骤进行操作: 安装TensorFlow和TensorBoard 安装Python: 确保你已经安装了Python。你可以从Python官方网站下载并安装最新版本的Python。 安装TensorFlow&…

kafka-重试和死信主题(SpringBoot整合Kafka)

文章目录 1、重试和死信主题2、死信队列3、代码演示3.1、appication.yml3.2、引入spring-kafka依赖3.3、创建SpringBoot启动类3.4、创建生产者发送消息3.5、创建消费者消费消息 1、重试和死信主题 kafka默认支持重试和死信主题 重试主题:当消费者消费消息异常时&…

基于思通数科大模型的设备隐患智能检测:图像处理与声音分析的融合应用

在现代工业生产中,设备的稳定运行对保障生产效率和产品质量至关重要。然而,设备的老化、磨损以及异常状态的检测往往需要大量的人力和物力。思通数科大模型结合图像处理技术和声音分析技术,为设备隐患检测提供了一种自动化、高效的解决方案。…

源码、反码和补码

对于有符号数而言,原码就是一个数的二进制表示。二进制的最高位是符号位,0 表示正数,1 表示负数。 计算机用数的原码进行显示,数的计算和存储是用补码进行的。 正数的原码,反码和补码都一样,即正数三码合…

Matching Anything by Segmenting Anything

摘要 在复杂场景中跨视频帧稳健地关联相同对象是许多应用的关键,特别是多目标跟踪(MOT)。当前方法主要依赖于标注的特定领域视频数据集,这限制了学习到的相似度嵌入的跨域泛化能力。我们提出了MASA,一种新颖的方法用于…

JavaScript 动态网页实例 —— 图像显示

图像是网页设计中必不可少的内容之一,而图像的显示方式更是关系到网站的第一印象。本章介绍图像的显示,主要包括:图片的随机显示、图像的显示和隐藏、图像的滚动显示、图像的探照灯扫描显示、多幅图像的翻页显示、图像的水纹效果显示、全景图效果显示手电照射效果显示以及雷达…

揭秘800G以太网——简介

什么是800G以太网? 800G以太网是一种高带宽以太网标准,每秒可传输800 Gbps(千兆位每秒)的数据速率。它代表了以太网技术的又一进步,旨在满足不断增长的数据传输需求以及处理大量数据的能力。因此,800G以太…

杰理AC632N提升edr的hid传输速率, 安卓绝对坐标触摸点被识别成鼠标的修改方法

第一个问题: 首先修改edr的hid传输速率.修改你的板级配置,里面的一个地方给注释掉了,请打开那个注释就能提升edr的hid传输效率了 第二个问题: 修改632n系别把触摸板的hid报告描述符识别成鼠标点,修改如下: 注释掉上面的pnp,改成下面的

RocketMQ的安装

首先到RocketMQ官网下载页面下载 | RocketMQ (apache.org),本机解压缩,作者在这里用的是最新的5.2.0版本。按照如下步骤安装。 1、环境变量配置rocket mq地址 ROCKETMQ_HOME D:\rocketmq-all-5.2.0-bin-release 在变量path中添加”%ROCKETMQ_HOME%\bi…

04 架构核心技术之分布式消息队列

本课时的主题是分布式消息队列,分布式消息队列的知识结构如下图。 本课时主要介绍以下内容。 同步架构和异步架构的区别。异步架构的主要组成部分:消息生产者、消息消费者、分布式消息队列。异步架构的两种主要模型:点对点模型和发布订阅模型…

RandomDate(接口参数化-随机生成日期)

目录 1、入口位置:2、验证函数生成值3、获取 年月日时分秒 的全随机4、时间函数 前言:有时候我们做性能测试或者接口测试时,参数需要传入日期格式,但是又不想每次都是用同一个日期,我们就可以使用Jmeter工具中函数助手…

[MQTT]服务器EMQX搭建SSL/TLS连接过程(wss://)

👉原文阅读 💡章前提示 本文采用8084端口进行连接,是EMQX 默认提供了四个常用的监听器之一,如果需要添加其他类型的监听器,可参考官方文档🔗管理 | EMQX 文档。 本文使用自签名CA,需要提前在L…

三次谐波式发电机定子单相接地保护Simulink仿真

在用于接地保护的发电机定子回路的仿真模型的基础上增加三次谐波电动势,得到用于仿真三次谐波式接地保护的发电机定子回路的Simulink仿真模型,如图1所示。 图 1发电机定子回路的Simulink仿真模型 发电机端和中性点侧的三次谐波电压的获取采用如图2所示的方法。 图 2 …

校园生活服务平台的设计

管理员账户功能包括:系统首页,个人中心,管理员管理,用户管理,跑腿管理,文娱活动管理,活动申请管理,备忘录管理 前台账户功能包括:系统首页,个人中心&#xff…

使用wheelnav.js构建酷炫的动态导航菜单

目录 前言 一、WheelNav是什么 1、项目地址 2、关于开源协议 3、相关目录介绍 二、如何使用wheelnav.js 1、新建html页面 2、设置style样式 3、创建展示元素实现动态导航 三、参数即方法介绍 1、参数列表 2、运行方法 3、实际成果 四、总结 前言 用户体验永远是一…

数据结构和算法一轮

前言 本文参考《2025年数据结构考研复习指导(王道论坛组编)》和相关文章,为考试前复习而写。 目录 前言 第一章线性表 1.1顺序表 1.2单链表 1.3循环链表 ​1.4双向链表 第二章栈和队列 2.1栈 2.2共享栈 2.3链栈 2.4队列 2.5循环…

大学生创新与创业搜题软件?推荐7个搜题软件和学习工具 #媒体#知识分享

随着大学课程的增多和知识的不断积累,大学生们常常面临着繁重的作业和复杂的题目。为了解决这一问题,许多大学生搜题软件应运而生。 1.彩虹搜题 这个是公众号 个性化推荐功能,精准满足需求。更高效地获取你想要的答案。 下方附上一些测试的…