读:《An Overview of Diffusion Models Applications……》导览

news2025/1/23 7:10:20

读:《An Overview of Diffusion Models: Applications,Guided Generation, Statistical Rates and Optimization》 简单说明

这篇文章也是关于 Diffusion 模型的综述,但是这一篇讲的显然不如 2022出的这篇综述 [2209.00796] Diffusion Models: A Comprehensive Survey of Methods and Applications (arxiv.org)

但是这篇在讲应用的时候带了例子可能还是不错的。


文章我的一个有理解部分分享:

2.2 条件扩散模型

这里我主要理解:就是给扩散的数据进行一个标签标记,但是数据在前向后向的过程是要被打乱的,但是条件 y 是不变的

在这里插入图片描述


3.1 视觉和音频生成

比较白话的说明了 Diffusion Model 的一些在图像、音频方面的应用,这里就放3.1的一个翻译了,感觉 第三个部分这里讲的还行吧。

扩散模型在图像和音频生成任务中实现了最先进的性能 [7–22],并且是图像和音频合成系统(例如 DALL-E [66]、稳定扩散 [101] 和 Diffwave [11])的基本构建块之一。 扩散模型的性能以高保真样本生成为评估标准,并允许使用多种指导来控制生成。指导下生成的最简单示例是生成某些类别的图像,例如猫或狗。此类分类信息被视为条件信号并输入到条件扩散模型中。更详细地说,我们使用由样本对 (xi , yi) 组成的标记数据集训练条件扩散模型,其中 yi 是图像 xi 的标签。训练是使用数据集估计条件得分函数,对 x 和 y 之间的对应关系进行建模。通过这种方式,条件扩散模型正在学习条件分布 P(x = 图像 | y = 给定标签) 并允许从分布中进行采样。 6在文本到图像合成系统中,条件信息是输入文本提示,可以是包含对象或更抽象的要求(例如美学质量)的句子。为了生成与提示一致的图像,条件扩散模型会使用大量带注释的数据集进行训练,该数据集包含表示为 (xi, yi) 的图像和文本摘要对。文本 yi 将被转换为词嵌入并作为条件扩散模型的输入。 与某些类别的图像生成类似,用于文本到图像合成的条件扩散模型学习条件分布 P(x = 图像 | y = 文本提示) 并允许从中采样。在更复杂的合成系统中,会实施一些微调步骤,以进一步实现抽象提示条件并提高生成图像的质量。例如,[78] 将离散化的后向过程 (2) 重新表述为有限时域马尔可夫决策过程 (MDP)。状态空间表示图像,条件得分函数被视为策略,奖励函数定义为测量图像与其所需文本提示的对齐程度。因此,生成与提示对齐的图像相当于通过寻找最佳策略来优化奖励。[78] 提出了一种基于策略梯度的方法来微调预训练的扩散模型。在图 2 中,我们展示了使用 [78] 中的方法从左到右对条件扩散模型进行微调的逐步改进。条件扩散模型在图像编辑和恢复 [102–109] 以及音频增强 [110–113] 中也是一个强大的工具;另请参阅综述 [22, 56] 及其中的参考文献。为了展示这个想法,我们以图像修复任务为例。修复的目标是预测图像中缺失的像素。我们将图像的已知区域表示为 y,将原始完整图像表示为 x。然后,修复归结为从条件分布 P(x = 完整图像 | y = 图像的已知区域) 中采样 x。在所有这些应用中,条件扩散模型在建模条件分布方面表现出极高的表现力和有效性 [10, 107]。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1718951.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

微信小程序-网络数据请求(配置request合法域名)

1.小程序中网络数据请求的限制 出于安全方面的考虑,小程序官方对数据接口的请求做出了如下两个限制: (1)只能请求HTTPS类型的接口 (2)必须将接口的域名添加到信任列表中 如果要请求某个域名下的接口&am…

优化基础(二):线性组合、仿射组合、锥组合、凸组合、线性集合、仿射集合、锥集合、凸集合的理解

文章目录 前言组合线性组合 (linear combination)仿射组合 (affine combination)锥组合 (conic combination)凸组合 (convex combination) 集合仿射集合凸集合 练习:哪个图形是凸的,哪个是仿射的?参考资料 前言 组合侧重于描述由一些基点生成…

MySQL数据库--从创建数据库到删库跑路

目录 MySQL安装: 1. 数据库基本操作1.1 创建数据库1.2 显示当前数据库1.3 删除数据库1.4 使用数据库/选中数据库 2. SQL中的数据类型2.1 数值类型2.2 字符串类型2.3 时间类型 3. 表的操作3.2 创建表3.1 显示数据库中的表3.3 查看表的详细情况3.4 删除表3.5 注释3. 修改列(了解即…

超大功率光伏并网逆变器学习(三相)

1.超大功率用的IGBT开关频率通常很低,比如6KHz 2.线电压和相电压的关系 相电压 A AB线电压-CA线电压 相电压 B BC线电压-AB线电压 相电压 C CA线电压-BC线电压 3.坐标变换 ABC三相信号通过Clark坐标变换得到αβ两相静止信号,其中α与A相重合,β与α…

用任务监听RTOS各任务的运行状态

使用rtos时内存对于单片机来说总是非常抠搜的。 任务分配多了浪费,少了跑不动。 最近看到这个监听任务还是很好用的。 废话不多说。开始操作 第一步在配置文件中打开这几个宏 #define configUSE_TRACE_FACILITY 1 /*为1时启用可视化跟踪调试*/ #define conf…

VBA代码解决方案第十四讲 如何利用VBA检查单元格中是否含有公式

《VBA代码解决方案》(版权10028096)这套教程是我最早推出的教程,目前已经是第三版修订了。这套教程定位于入门后的提高,在学习这套教程过程中,侧重点是要理解及掌握我的“积木编程”思想。要灵活运用教程中的实例像搭积木一样把自己喜欢的代码…

[论文笔记]MemGPT: Towards LLMs as Operating Systems

引言 今天介绍一篇论文MemGPT: Towards LLMs as Operating Systems。翻过过来就是把LLM看成操作系统。 大语言模型已经在人工智能领域引起了革命性的变革,但受到有限上下文窗口的限制,在扩展对话和文档分析等任务中的效用受到了阻碍。为了能够利用超出…

短视频自己怎么配音:四川京之华锦信息技术公司

短视频自己怎么配音:揭秘配音技巧与创作流程 在短视频盛行的当下,配音作为提升视频质量、增强观众体验的重要环节,越来越受到创作者的关注。四川京之华锦信息技术公司将为您详细解读如何为短视频自己配音,包括配音技巧、创作流程…

echarts学习:将echats实例代理为响应式对象可能带来的风险

1.起源 最近我在学习如何封装echarts组件,我所参考的其中一篇博客中提到了一个“图表无法显示的问题”。 根据其中的介绍,造成此种问题的原因是因为,使用ref接受了echarts实例,使得echarts实例被代理为了响应式对象,进…

【移动端】商场项目路由设计

1:路由设计配置: 一级路由配置 分析项目,设计路由,配置一级路由 一级路由:单个页面独立展示的,都是一级路由,例如:登录页面,首页架子,报错页面 二级路由&…

特征工程技巧——OneHot编码

我们以Kaggle比赛里面的一个数据集跟一个公开代码为例去解释我们的OneHot编码。 简单来说,独热编码是一种将类别型变量转换为二进制表示的方法,其中每个类别被表示为一个向量,向量的长度等于类别的数量,其中只有一个元素为1&…

STM32使用ST-LINK下载程序中需要注意的几点

使用keil5的ST-link下载界面 前提是ST-LINK已经连接好,(下图中是没有连接ST-link设备),只是为了展示如何查看STlink设备是否连接的方式 下载前一定设置下载完成后自启动 这个虽然不是必须,但对立即看到新程序的现象…

基于Chisel语言的FPGA流水灯程序

目录 一、 内容概要二、 Chisel介绍三、 Chisel的使用四、 流水灯实现五、 心得体会六、 参考链接 一、 内容概要 Chisel介绍Chisel使用流程Chisel流水灯实操 二、 Chisel介绍 Chisel 是一种构建硬件描述语言(HDL)的高级编程语言,它允许硬…

2020年CSP-J入门级第一轮初赛真题

一、选择题 在内存储器中每个存储单元都被赋予一个唯一的序号,称为()。 A.地址 B. 序号 C. 下标 D. 编号 答案:A. 地址 在内存储器中,每个存储单元都有一个唯一的标识,用于区分和访问不同的存储单元。这个唯…

Day10:平面转换、渐变色

目标:使用位移、缩放、旋转、渐变效果丰富网页元素的呈现方式。 一、平面转换 1、简介 作用:为元素添加动态效果,一般与过渡配合使用。 概念:改变盒子在平面内的形态(位移、旋转、缩放、倾斜)。 平面转换…

C语言(字符和字符串函数)2

Hi~!这里是奋斗的小羊,很荣幸各位能阅读我的文章,诚请评论指点,欢迎欢迎~~ 💥个人主页:小羊在奋斗 💥所属专栏:C语言 本系列文章为个人学习笔记,在这里撰写成文一…

今日分享丨按场景定制界面

遇到问题 我们在写文档或者代码时,会遇到需要书写重复或者类似内容的情况。快捷的做法是:先复制粘贴此相似内容,再修改差异。那么开发人员在设计界面的时候,也会遇到同类型的界面有重复的特性,比如报销类型的单据&…

PostgreSQL常用插件

PostgreSQL 拥有许多常用插件,这些插件可以大大增强其功能和性能。以下是一些常用的 PostgreSQL 插件: 性能监控和优化 pg_stat_statements 1.提供对所有 SQL 语句执行情况的统计信息。对调优和监控非常有用。 2.安装和使用: pg_stat_k…

picoLLM:大模型的量化魔术师 上

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模…

数字孪生在气象灾害防治中的重要贡献

数字孪生技术在气象灾害防治中正发挥着越来越重要的作用。数字孪生是指通过数字化方式在虚拟空间中构建与现实世界对应的虚拟模型,通过实时数据和模拟技术进行动态映射和交互。利用数字孪生技术,气象部门可以更高效、更精准地监测、预测和应对气象灾害&a…