生成式模型对比:扩散模型、GAN 与 VAE

news2024/12/24 3:41:58

引言

深度生成式模型应用于图像、音频、视频合成和自然语言处理等不同领域。随着深度学习技术的快速发展,近年来不同的深度生成模型出现了爆炸式的增长。这导致人们越来越有兴趣比较和评估这些模型的性能和对不同领域的适用性。在

本文中,我们的目标是提供深度生成式模型的全面比较,包括扩散模型、生成对抗网络(GAN)和变分自编码器(VAE)。我将回顾它们的基本原则、优点和缺点。目标是清楚地了解这些模型之间的差异和相似之处,以指导研究人员和从业者为其特定应用选择最合适的深度生成模型。

在这里插入图片描述

算法概述

GAN [1, 2] 学习生成类似于训练数据集的新数据。它由两个神经网络:一个生成器和一个鉴别器组成,实际上是一个 two-player game。生成器采用从正态分布中采样的随机值并生成合成样本,而鉴别器则尝试区分真实样本和生成样本。生成器经过训练可以产生可以欺骗鉴别器的真实输出,而鉴别器经过训练可以正确区分真实数据和生成数据。图 1 的顶行显示了其工作方案。

VAE [3, 4] 由编码器和解码器组成。编码器将高维输入数据映射为低维表示,而解码器尝试通过将该表示映射回其原始形式来重建原始高维输入数据。编码器通过预测均值和标准差向量,将隐表示编码的正态分布输出为低维表示。图 1 的中间行演示了其工作原理。

扩散模型 [5, 6] 由前向扩散和反向扩散过程组成。前向扩散是一个马尔可夫链,它逐渐向输入数据添加噪声,直到获得白噪声。这不是一个可学习的过程,通常需要 1000 个步骤。反向扩散过程旨在将正向过程反向逐步去除噪声以恢复原始数据。反向扩散过程是使用可训练的神经网络来实现的。图 1 的底行显示了这一点。

特点总结

请添加图片描述

GAN

  • 它由两个神经网络组成:生成器和鉴别器。
  • 通过对抗性损失进行训练。生成器的目的是通过生成与真实样本无法区分的样本来“欺骗”鉴别器。目的是使鉴别器无法区分真实样本和生成样本。
  • 高保真样本。神经网络是收敛的,那么判别器就无法区分真实样本和生成样本。这会产生非常真实的样本。
  • 低多样性样本。对抗性损失没有动力覆盖整个数据分布。当鉴别器训练过度或发生灾难性遗忘时,生成器可能会很乐意产生一小部分数据多样性。这是一个常见问题,称为模式崩溃[2]。
  • 很难训练。确定网络何时收敛可能很困难。不要监控一项损失的下降,而应该查看两项没有简单解释的损失,有时并不清楚你的神经网络发生了什么。通常你需要应对模式崩溃。
  • 通过截断技巧,可以在多样性和保真度之间进行简单的权衡。

VAE

  • 它由两个神经网络组成:编码器和解码器。
  • 通过最大化似然对数进行训练,经过数学简化后,成为 L2 损失。它估计输入样本和生成样本之间的差异。
  • 低保真度样本。有几个原因:
    • 由于编码器预测潜在代码的分布,因此可能存在两个潜在代码分布彼此重叠的情况。因此,如果两个输入具有相同的潜在代码,则最佳解码将是两个输入的平均值。这会导致样本模糊。Gan和扩散模型不存在这个问题。
    • 它具有基于像素的损失。带有头发的图像的生成将由交替的亮像素和暗像素组成。如果生成仅移动一个像素,则与地面真实情况的相似性损失将显着增加或减少。然而,VAE 不保留此类像素级信息,因为潜在空间比图像小得多。这导致模型预测明暗像素的平均值以找到最佳解决方案,从而产生模糊的图像。GAN 不存在这样的问题,因为判别器可以利用样本的模糊性来区分真实样本和生成样本。同样,扩散模型尽管具有相同的基于像素的损失,但不存在此问题。他们依靠从真实情况获得的当前噪声图像结构来预测下一步的去噪。
  • 高多样性样本。似然最大化强制覆盖训练数据集的所有模式,为每个训练数据点提供神经网络容量。
  • 易于训练。它有一个易于处理的似然损失。
  • 编码器使您能够获取任何图像的潜在代码,这提供了超出生成范围的额外可能性。

扩散模型

  • 它由固定的前向扩散过程和可学习的反向扩散过程组成。
  • 前向扩散过程是一个多步骤的过程,逐渐向样本中添加少量高斯噪声,直到变成白噪声。常用的步数值为 1000。
  • 反向扩散过程也是一个多步骤过程,它反转正向扩散过程,将白噪声带回到图像中。反向扩散过程的每一步都由神经网络执行,并且其步骤数与正向过程相同。
  • 通过最大化似然对数进行训练,经过数学简化后,成为 L2 损失。在训练期间,我们使用随机选择的 T 值的公式计算 T 和 T-1 步骤的噪声图像。然后,扩散模型根据 T 步噪声图像预测 T-1 步图像。使用 L2 损失对生成的图像和 T-1 步图像进行比较。
  • 高保真样本。这是由于逐渐消除噪音的本质。与一次性生成样本的 VAE 和 GAN 不同,扩散模型逐步创建样本。该模型首先创建一个粗糙的图像结构,然后专注于在顶部添加精细的细节。
  • 高多样性样本。似然最大化涵盖了训练数据集的所有模式。
  • 中间噪声图像用作潜在代码,并且具有与训练图像相同的大小。这就是扩散模型能够生成高保真样本的原因之一。
  • 易于训练。它有一个易于处理的似然损失。
  • 样本生成缓慢。与 GAN 和 VAE 不同,它需要神经网络多次运行才能逐渐生成样本。尽管有一些采样方法可以将这个过程加速几个数量级,但它们仍然比 GAN 和 VAE 慢得多。
  • 只需利用输入噪声,多步骤过程即可提供新功能,例如修复或图像到图像生成。

结论

GAN、VAE 和扩散模型都是流行的深度学习生成式模型,它们具有独特的功能并适合不同的用例。每种模型都有其优点和缺点,在为特定应用选择模型之前了解其细微差别非常重要。

参考资料

  • Generative Adversarial Nets. Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio — https://arxiv.org/pdf/1406.2661.pdf
  • GAN Mode Collapse Explanation — https://medium.com/towards-artificial-intelligence/gan-mode-collapse-explanation-fa5f9124ee73
  • Auto-Encoding Variational Bayes. Diederik P Kingma, Max Welling — https://arxiv.org/pdf/1312.6114.pdf
  • Understanding Variational Autoencoders (VAEs) — https://towardsdatascience.com/understanding-variational-autoencoders-vaes-f70510919f73
  • Deep Unsupervised Learning using Nonequilibrium Thermodynamics. Jascha Sohl-Dickstein, Eric A. Weiss, Niru Maheswaranathan, Surya Ganguli — https://arxiv.org/pdf/1503.03585.pdf
  • What are Diffusion Models? Lilian Weng — https://lilianweng.github.io/posts/2021-07-11-diffusion-models

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1304599.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RCG Self-conditioned Image Generation via Generating Representations

RCG: Self-conditioned Image Generation via Generating Representations TL; DR:将图像的无监督表征作为(自)条件(而非是将文本 prompt 作为条件),生成与原图语义内容一致的多样且高质量结果。视觉训练能…

如何在Android中旋转屏幕时避免重新绘制Activity

如何在Android中旋转屏幕时避免重新绘制Activity 在Android开发中,设备旋转通常导致当前活动(Activity)被销毁并重新创建,这可能导致用户界面重置和不必要的资源重新加载。然而,有时我们希望避免这种行为,…

3.4_3GBN课后题的思考

首先思考最大平均数据传输速率,看到是GBN协议,无法直接带入信道带宽; 其次比较RRT传输时延和信道带宽传输所有数据的时间 把图中划分为三个公式分别为abc 1.a是1000个窗口尺寸,每个尺寸抖音1000字节数据帧,除以信道带宽…

邮件营销软件:10个创新邮件策略,持续提升投资回报(二)

在上一篇文章中,我们了解到内容、个性化和适当的策略有助于在增加邮件营销中客户的参与度。在这篇文章中,我们将深入研究客户行为、自动化和评估等方面。 1、根据客户行为发送电子邮件 从购买到放弃购物车,客户的行为可能千差万别。跟踪这…

胡桃工具箱 原神多功能工具箱

胡桃工具箱 原神胡桃工具箱是一款非常实用的游戏工具辅助软件,可以为用户们提供优质的原神游戏工具,体验更精彩的游戏辅助,提供帧率解锁游戏功能,包括数据查询、游戏详解以及各种实用的功能。 安装使用 1.获取胡桃工具箱 请点击…

linux sed命令删除一行/多行_sed删除第一行/linux删除文件某一行

sed系列文章 linux常用命令(9):sed命令(编辑/替换/删除文本)linux sed命令删除一行/多行_sed删除第一行/linux删除文件某一行 文章目录 sed系列文章一、sed删除某一行内容/删除最后一行二、sed删除多行三、扩展3.1、-i命令 本文主要讲解如何删除txt文件中的某一行内…

瓶装饮用水行业分析:全国市场产量约4789万吨

水根据自身的硬度首先分为软水和硬水两种。水的硬度是指溶解在水中的盐类物质的含量,也就是钙盐与镁盐的含量,硬度单位是ppm,1ppm代表水中碳酸钙含量1毫克/升(mg/L)。低于142的水称为软水,高于285ppm的水称为硬水,介于…

【PTA刷题】 求子串(代码+详解)

【PTA刷题】 求子串(代码详解) 题目 请编写函数,求子串。 函数原型 char* StrMid(char *dst, const char *src, int idx, int len);说明:函数取源串 src 下标 idx 处开始的 len 个字符,保存到目的串 dst 中,函数值为 dst。若 len…

传输层—UDP—校验和

传输层—UDP—校验和 学习一个协议,当然要掌握协议的特性,还需要理解协议报文格式。 UDP UDP 基本特点:无连接、不可靠传输、面向数据报、全双工 UDP报头包含:源端口、目的端口、UDP报文长度、校验和。 UDP载荷中&#xff1a…

微信小程序开始收取短剧保证金

我是卢松松,点点上面的头像,欢迎关注我哦! 从多位短剧从业者处获悉,今日陆续收到微信公众平台发布的保证金缴纳通知,缴费金额从100-1000不等。 有的需要缴纳1000,而有的只需缴纳100元。这个和你GMV来决…

微信小程序:上传图片到别的域名文件下

效果 wxml <!-- 上传照片 --> <view class"addbtn"><view classpic name"fault_photo" wx:for"{{imgs}}" wx:for-item"item" wx:key"*this"><image classweui-uploader_img src"{{item}}"…

VSCode配置记录

1. 修改代码背景颜色 1&#xff09;Shift Command P&#xff0c;搜索框输入&#xff1a;settings.json 2&#xff09;输入配置 {"workbench.colorCustomizations": {"editor.lineHighlightBackground": "#86e9e93d", # 修改鼠标所在行背景色…

[足式机器人]Part2 Dr. CAN学习笔记-数学基础Ch0-8Matlab/Simulink传递函数Transfer Function

本文仅供学习使用 本文参考&#xff1a; B站&#xff1a;DR_CAN Dr. CAN学习笔记-数学基础Ch0-8Matlab/Simulink传递函数Transfer Function L − 1 [ a 0 Y ( s ) s Y ( s ) ] L − 1 [ b 0 U ( s ) b 1 s U ( s ) ] ⇒ a 0 y ( t ) y ˙ ( t ) b 0 u ( t ) b 1 u ˙ ( t…

(1)(1.5) FrSky telemetry

文章目录 前言 1 设置 2 Turnigy 9XR Pro 前言 FrSky 遥测技术允许你显示 ArduPilot 的信息&#xff0c;如飞行模式、电池电量和错误信息&#xff0c;以及来自 OpenTx 兼容遥控发射机上其他 FrSky 传感器的信息&#xff0c;甚至包括较旧的 X9R 发射机&#xff08;尽管功能较…

Tomcat下载及idea中配置Tomcat(详细图文步骤,建议收藏)

1、Tomcat简介 Tomcat的相关概念: Tomcat是Apache软件基金会一个核心项目&#xff0c;是一个开源免费的轻量级Web服务器&#xff0c;支持Servlet/JSP少量JavaEE规范。 概念中提到了JavaEE规范&#xff0c;那什么又是JavaEE规范呢? JavaEE: Java Enterprise Edition,Java企业…

ubuntu22.04 安装nvidia GPU显卡驱动

下载 https://www.nvidia.com/Download/index.aspx 删除原有的NVIDIA驱动程序 sudo apt-get remove –purge nvidia*禁用nouveau 默认情况下&#xff0c;Ubuntu采用开源的nouveau驱动程序作为Nvidia显卡的驱动&#xff0c;需要将其禁用 打开编辑配置文件&#xff1a; sudo …

最好的猫罐头品牌有哪些?精选的5款口碑好的猫罐头推荐!

对于一个刚入门的养猫小白来说&#xff0c;面对市面上琳琅满目的猫罐头选择确实让人头大。我们总想选到营养价值高的罐头&#xff0c;但又怕猫咪不喜欢吃&#xff0c;也担心选到不安全的产品。 最好的猫罐头品牌有哪些&#xff1f;根据我开宠物店7年的经验&#xff0c;今天我将…

探索AI在CRM中的潜力:智能化客户关系的构建

AI人工智能在CRM系统中的应用有&#xff1a;赋能内容生产、客户服务支持、赋能品牌推广、自动化业务流程、数据分析、辅助科学决策、给出最佳客户联系时间。合理运用CRM系统中AI人工智能助手可以让团队工作事半功倍。 1.内容生产 市场营销活动离不开内容生产&#xff0c;持续…

节日气氛拉满的毛衣~你喜欢吗?

节日氛围感毛衣一眼就心动采用北极绒面料厚实软糯有质感拼接彩点正是氛围感的来源 整件穿上超级显白显气质 随便搭件牛仔裤还是休闲裤 来穿都很亮眼&#xff01;&#xff01;

NFTScan | 12.04~12.10 NFT 市场热点汇总

欢迎来到由 NFT 基础设施 NFTScan 出品的 NFT 生态热点事件每周汇总。 周期&#xff1a;2023.12.04~ 2023.12.10 NFT Hot News 01/ NFTScan 与 MintCore 联合推出适用于 NFT 的 Layer2 网络 Mint 12 月 5 日&#xff0c;根据官方消息&#xff0c;NFT 基础设施服务商 NFTScan …