【论文阅读笔记】Tackling the Generative Learning Trilemma with Denoising Diffusion GANs

news2024/9/20 1:09:37

【论文阅读笔记】Tackling the Generative Learning Trilemma with Denoising Diffusion GANs

  • Introduction
      • 方法
    • 使用传统GANS建模去噪分布
    • 理解模式覆盖率

Paper:https://arxiv.org/abs/2112.07804
Code:https://github.com/NVlabs/denoising-diffusion-gan
Authors:Nvlabs, Zhisheng Xiao, Karsten Kreis, Arash Vahdat

Introduction

在这里插入图片描述
主流生成模型(Generative Models)的优缺点以及它们在三个关键目标上的表现:高质量样本生成、模式覆盖和多样性、快速采样。

在本文中,我们通过重新制定去噪扩散模型来解决生成学习三引理,专门用于快速采样,同时保持强大的模式覆盖率和样本质量。

  1. 扩散模型通常假设去噪分布可以近似为高斯分布。然而,众所周知,高斯假设仅在小去噪步骤的无穷小极限中成立,这导致在反向过程中需要大量的步骤。
  2. 当反向过程使用更大的步长(即去噪步骤更少)时,需要一个非高斯多模态分布来建模去噪分布。直观地说,在图像合成中,多模态分布源于多个似是而非的干净图像可能对应于相同的噪声图像这一事实。

受这一观察的启发,我们建议使用富有表现力的多模态分布参数化去噪分布,以实现大步骤的去噪。特别是,我们引入了一种新的生成模型,称为去噪扩散 GAN,其中去噪分布用条件 GAN 建模

在图像生成中,我们观察到我们的模型获得了与扩散模型竞争的样本质量和模式覆盖率,同时只需要两个去噪步骤,与Song等人(2021c)在CIFAR-10上的预测器校正器采样相比,采样速度提高了约2000倍。与传统的GANs相比,我们表明我们的模型在样本多样性方面明显优于最先进的GANs,同时在样本保真度方面具有竞争力

总之,我们做出了以下贡献:

  1. 我们将扩散模型的缓慢采样归因于去噪分布中的高斯假设,并提出采用复杂的多模态去噪分布。
  2. 我们提出了去噪扩散 GAN,这是一种扩散模型,其反向过程由条件 GAN 参数化。
  3. 通过仔细评估,我们证明了去噪扩散 GAN 与当前的图像生成和编辑扩散模型相比实现了几个数量级的加速。我们表明,我们的模型在很大程度上克服了深度学习三引理,使得扩散模型首次以较低的计算成本适用于交互式的现实世界应用程序。

方法

扩散模型文献中的一个常见假设是用高斯分布近似 q ( x t − 1 ∣ x t ) q(x_{t−1}|x_t) q(xt1xt)。在这里,我们质疑这种近似何时是准确的
LSGM尝试使用 VAE 将数据编码到高斯分布,但仍然需要数百或数十步,而且数据分布压缩到高斯分布是十分困难的。

在本文中,我们认为当不满足任何条件时,即当去噪步长较大且数据分布为非高斯时,不能保证去噪分布的高斯假设成立。为了说明这一点,在图 2 中,我们可视化了多模态数据分布的不同去噪步长的真实去噪分布。我们看到,随着去噪步骤变大,真正的去噪分布变得更加复杂和多模态。
在这里插入图片描述
上图:一维数据分布 q(x0) 通过扩散过程的演变。底部:以固定的x5为条件的不同步长的真实去噪分布的可视化。**小步长(即q(x4|x5 = X))的真实去噪分布接近于高斯分布。**然而,随着步长的增加,它变得更加复杂和多模态。

使用传统GANS建模去噪分布

我们的目标是减少扩散模型反向过程中所需的去噪扩散步骤T的数量。受上述观察的启发,我们建议对去噪分布进行建模具有表现力的多模态分布。由于条件 GAN 已被证明可以对图像域的复杂条件分布进行建模(Mirza & Osindero,2014;Ledig 等人,2017;Isola 等人,2017),我们采用它们来近似真实去噪分布 q(xt−1|xt)。

具体来说,我们的正向扩散的设置类似于Eq. 1中的扩散模型,主要假设T很小(T≤8),每个扩散步长βt较大。我们的训练是通过使用对抗性损失匹配条件 GAN 生成器 pθ (xt−1|xt) 和 q(xt−1|xt) 来制定的,该对抗性损失最小化每个去噪步骤的散度 Dadv:

在这里插入图片描述
在这里插入图片描述

简而言之:
给定x0,前向加噪过程为 xt-1 到 xt;在扩散模型 xt 的基础上预测 x’0,随后将其加噪成 x’t-1;然后以 xt、xt-1(或 x’t-1)和 t 为条件输入到判别器网络中进行对抗性训练。

我们模型的一个自然问题是,为什么不仅仅是训练一个 GAN,它可以使用传统的设置一次性生成样本,而我们的模型通过迭代去噪生成样本。我们的模型比传统的 GAN 有几个优点。众所周知,GAN 存在训练不稳定和模式崩溃的问题(Kodali 等人,2017;Salimans 等人,2016),一些可能的原因包括难以直接从一次性的复杂分布中采样,以及鉴别器仅查看干净样本时的过拟合问题。相比之下,由于对 xt 的强条件作用,我们的模型将生成过程分解为几个条件去噪扩散步骤,其中每个步骤对模型相对简单。此外,**扩散过程平滑了数据分布(Lyu, 2012),使鉴别器不太可能过拟合。**因此,我们希望我们的模型表现出更好的训练稳定性和模式覆盖率。我们在第 5 节中凭经验验证了传统 GAN 的优势。

理解模式覆盖率

在这里插入图片描述
生成模型的结果是否可以 cover Real samples。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2125789.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大模型LLM部署学习

1、推理工具vLLM vLLM使用指北 https://zhuanlan.zhihu.com/p/685621164 VLLM官方文档 Welcome to vLLM! — vLLM 2、RAG(检索增强生成) https://zhuanlan.zhihu.com/p/675509396 RAG就是通过检索获取相关的知识并将其融入Prompt,让大模…

企业预算管理的数字化转型

在当今激烈的市场竞争中,企业面临着前所未有的挑战,尤其在成本控制和资源配置方面,预算管理成为企业成功运营的关键。然而,传统的预算管理方式,尤其依赖于Excel等工具的操作,随着企业规模的扩大和业务复杂度…

13步指南:如何建立品牌社区(附真实案例)

如果你正在寻找增强客户忠诚度、降低营销费用,并直接从客户那边获取创新想法的方法,那么创建一个品牌社区可能非常适合你。在这里,我们还推荐使用光年AI,将两者结合可以事半功倍。 例如,丝芙兰的美妆爱好者社区自2017…

SAP Fiori UI5-环境搭建-2022-2024界面对比

文章目录 一、Fiori项目初始化实际操作第一步:新建文件夹(项目文件)第二步:打开我们项目第三步:打开终端 部署环境第四步: XML中新增文本 二、 2023年Vscode中Fiori界面三 、2024年Vscode中Fiori界面 一、Fiori项目初始…

上海徐汇区开启大模型备案奖励申报

上海徐汇区开启大模型备案奖励申报 徐汇区作为全国首批人工智能战略性新兴产业集群,敏锐地抓住了通用人工智能的变革趋势和产业风口,率先打造了全国首个大模型创新生态社区“模速空间”,并创建了上海人工智能大模型创新生态集聚区。为了进一步…

2024伊语IM即时通讯源码/im商城系统/纯源码IM通讯系统安卓+IOS前端纯原生源码

一、端口说明、域名解析及服务器配置要求 1.1端口说明 使用二级域名映射的情况下 使用端口说明3306数据导入是可以开放 后期关闭 或者直接在服务器上面导入6379不用对外开放9903需要开放80需要开放 1.2 子域名说明: api.xxx.com接口 im.xxx.com通讯 web.xxx.…

Go跨平台Wails框架入门教程

前言 Go跨平台Wails UI应用框架是一个强大的工具,它允许开发者利用Go语言的性能优势和Web技术的灵活性来构建跨平台的桌面应用程序。以下是一个详细的Wails应用框架应用教程及相关示例的概述。 一、Wails简介 Wails是一个开源项目,旨在让开发者能够使…

2024.9 学习笔记

9.10 1.大地坐标系 大地坐标系(Geodetic Coordinate System): 定义: 基于地球表面,通常使用经度、纬度和高度来描述位置。也可以称为东北天(XYZ轴)用途: 常用于地图制作、地理信息系统(GIS)和…

基于 NIM 建构多模态 AI-Agent (代码解析)

本次课程将着重介绍一下内容: 多模态模型基于 NIM 的调用方式基于 NIM 接口实现 Phi-3-Vision 的推理实践基于 Gradio 框架建立前端互动界面 申请NIM的API Key,来调用NIM的计算资源 进入NVIDIA NIM | phi-3-vision-128k-instruct, 点击Get API Key按钮&#xff0…

SpringBootWeb案例(续)

书接上回,上篇文章CSDN 复习了部门管理功能的开发。这篇文章来复习员工管理模块功能开发 基于以上页面原型,我们可以把员工管理功能分为: 分页查询(重点) 带条件的分页查询(重点) 删除员工 新…

泰语快速学习方法!速成方法学习!

要快速学习泰语,可以采取多种策略,如掌握基础语法和词汇,专注于发音练习以掌握泰语特有的音调系统,利用语言学习软件进行互动学习,通过观看泰语媒体内容提高听力理解,与母语者进行语言交换来锻炼口语&#…

GDB 查看汇编

查看汇编 x disassemble

MySQL 按照条件(分组)只取一个形成列表 group max

方法一、通过Max形成where条件 SELECTt1.* FROMbiz_customer_hold AS t1 WHEREt1.ch_create_time ( SELECT MAX( ch_create_time ) FROM biz_customer_hold AS t2 WHERE t2.ch_cust_no t1.ch_cust_no ) ORDER BYt1.ch_create_time DESC,t1.ch_hold_time DESC 方法二、通…

部署TC服务 服务集成Seata

一、部署TC服务 tc在管理全局事务和分支事务是需要记录,最好放在数据库中持久保存 1.创建数据库表 创建一个名为Seata的库建立四张表 语句如下 CREATE DATABASE IF NOT EXISTS seata; USE seata;CREATE TABLE IF NOT EXISTS global_table (xid …

【PGCCC】Postgres 17 中的 3 大特性

一年又一年,Postgres 已成为世界上最受喜爱和最受信任的数据库 — Postgres 17将变得更好。即将发布的版本在开发人员体验和性能方面都有所改进。 Postgres 17 中的 3 大特性 #01 具有 RETURNING 支持的 MERGE 命令 它可以帮助需要处理条件数据修改而无需处理多…

CMU 10423 Generative AI:HW1(理论部分)

备注:S24版GitHub上有某CMU学生分享了自己的全套理论编程作业,以下内容的整理结合了我自己的理解查阅、GPT4的解答、以及CMU学生的答案。 文章目录 0 作业概述1 RNN语言模型1.1 问题1:Elman(即RNN) 网络模型条件输出问…

IDEAJ真正修改maven(.m2)在Windows环境下缓存路径

IDEAJ真正修改maven(.m2)缓存路径的方法 下面这种方式虽然当前项目生效了,IntelliJ IDEA修改默认.m2和.gradle缓存路径-CSDN博客文章浏览阅读251次,点赞4次,收藏8次。文章浏览阅读1.3k次。1,File -ProjectStructure - Artifacts &…

RISC-V (十二)系统调用

系统模式:用户态和内核态 当前的代码都是实现在machine模式下。 系统模式的切换 epc寄存器的值存放的是ecall指本身的地址 。 用ecall指令 系统调用的执行流程 mret这条指令会利用status的mpp值恢复到之前的特权级别。 蓝色的线表示涉及到权限切换。 系统调用的传…

【VUE】pinia持久化存储

前言:状态持久化存储的意义在于它能够确保用户在与应用程序交互时,其操作状态、用户偏好、应用数据等关键信息在页面刷新、浏览器关闭或重新启动后依然得以保留,从而提供连贯、无缝的用户体验,避免因状态丢失导致的不便和重复操作…

绑定域名解析怎么做?

在当今数字化时代,拥有一个网站已经成为许多个人和企业展示自己、提供服务或进行商业活动的重要方式。而要让网站能够在互联网上被访问到,绑定域名解析是一个关键的步骤。 绑定域名解析究竟该怎么做呢? 一、了解域名解析的基本概念 域名解…