【Diffusion Model】Learning notes

【Diffusion Model】Learning notes

news2026/2/14 12:24:08

来自扩散模型 Diffusion Model 1-1 概述

扩散模型是什么？

本质是生成模型，拟合目标分布，然后生成很多数据符合这个分布
在这里插入图片描述

训练测试阶段？
在这里插入图片描述

和 GAN 相比优势是什么？

在这里插入图片描述
generator 和 discriminator 两者都得训练的比较均衡才能得到好的结果（稳定性），两者对抗，loss 并不能直观的反应训练过程

训练难度
训练稳定性
loss 的复杂性

DDPM 的话，reverse 只是一个去噪模型，目标比较明确，易于训练

扩散阶段

$Z_t$ 服从标准正态分布

$\beta_t$ 加权系数，越来越大

在这里插入图片描述
上图是从 $X_t$ 到 $X_{t-1}$ 的公式

每张图加噪 T 次太慢了

我们能否直接从 $X_0$ 直接推导到 $X_t$ 呢？

在这里插入图片描述

$\alpha_t$

在这里插入图片描述
$X_T \approx Z$ 近似高斯噪声

在这里插入图片描述
reverse 的过程这里简单的进行了表示

看看多 batch 的时候是怎么训练的

在这里插入图片描述

扩散过程

$\widetilde{Z} = UNet(X_t, t)$

reverse 的形式是什么样子的呢？
在这里插入图片描述

也是一步步反推回来的

具体看看 reverse 的公式推导
在这里插入图片描述
也即，求条件概率 $p(X_{t-1}| X_t)$

在这里插入图片描述

注意上公式2中 $p(X_t)$ 表示 $p(X_t | X_0)$ ，公式3中 $p(X_{t-1})$ 表示 $p(X_{t-1} | X_0)$

正太分布这里忽略了 $\frac{1}{ \sqrt{2 \pi} \cdot \sigma}$

把公式1/2/3代入公式4得到公式5

公式4的目的是求出 $p(X_{t-1} | X_t)$ ， $X_{t-1}$ 为变量，把公式5按二次式展开

在这里插入图片描述

已知： $\alpha_t + \beta_t = 1$ ， $\alpha_t \cdot \overline{\alpha_{t-1}} = \overline{\alpha_t}$

方差
在这里插入图片描述
均值

得到了关于 $X_t$ 和 $X_0$ 的表达形式

我们要求的是条件概率 $p(X_{t-1}| X_t)$ ， $X_0$ 不知道的，所以要替换掉上式中的 $X_0$
在这里插入图片描述
得到最终的均值结果，与 $X_t$ 和 $\widetilde{z}$ 有关

汇总一下：
在这里插入图片描述
这里 $X_{t-t}$ 的公式有误，应该为

$z$ 服从标准的正态分布

$X_{t-t}$ 公式模拟分子的布朗运动， $X_{t-1}$ 中加式1 $\widetilde{z}$ 是确定项，加式2 $z$ 是随机的正态分布

布朗运动和扩散现象的区别

在这里插入图片描述

注意红色字迹的三个基础公式

对应到论文中的公式

扩散阶段
在这里插入图片描述

reverse 阶段
在这里插入图片描述

注意到这里的 if t>1，最后一步，不需要加扰动噪声了

在这里插入图片描述

$\sigma_t$ 表示了扰动的系数，非确定性项

有可能 $z$ 采样出来的全为0，这样 reverse 的过程变成了一个确定的过程

代码实现

在这里插入图片描述

$\alpha$ 和 $\beta$ 的获取

在这里插入图片描述
$t$ 为 index

在这里插入图片描述

time embedding 操作，不同时间点做不同的去噪操作

在这里插入图片描述

Residual block

time embedding，类似于 transformer 的位置编码

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/429144.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

JDK8到JDK17有哪些吸引人的新特性？

JDK8到JDK17有哪些吸引人的新特性？

作者：京东零售刘一达前言 2006年之后SUN公司决定将JDK进行开源，从此成立了OpenJDK组织进行JDK代码管理。任何人都可以获取该源码，并通过源码构建一个发行版发布到网络上。但是需要一个组织审核来确保构建的发行版是有效的, 这个组织就是J…

阅读更多...

Excel VBA 之Interior 对象设置底色

Excel VBA 之Interior 对象设置底色

Interior 对象代表一个对象的内部针对interior对象，我们用得最多的是它的颜色，下面就来讨论一下。 1.ColorIndex 索引颜色值 Sub 索引颜色值()For i 1 To 56Cells(i, 1).Interior.ColorIndex iCells(i, 2) iNext iFor i 1 To 56Cells(i, 3).Interi…

阅读更多...

算法训练第六十天 | 84.柱状图中最大的矩形

算法训练第六十天 | 84.柱状图中最大的矩形

单调栈part0384.柱状图中最大的矩形题目描述思路暴力解法双指针解法单调栈84.柱状图中最大的矩形题目链接：84.柱状图中最大的矩形参考：https://programmercarl.com/0084.%E6%9F%B1%E7%8A%B6%E5%9B%BE%E4%B8%AD%E6%9C%80%E5%A4%A7%E7%9A%84%E7%9F%A9%E…

阅读更多...

《Kubernetes部署篇：Ubuntu20.04基于containerd二进制部署K8S 1.24.12集群(一主多从)》

《Kubernetes部署篇：Ubuntu20.04基于containerd二进制部署K8S 1.24.12集群(一主多从)》

一、架构图如下图所示： 如下图所示： 二、环境信息 1、部署规划主机名IP地址操作系统内核版本软件说明etcd01192.168.1.62Ubuntu 20.04.5 LTS5.15.0-69-genericetcdetcd02192.168.1.63Ubuntu 20.04.5 LTS5.15.0-69-genericetcdetcd03192.168.1.64Ubunt…

阅读更多...

kettle链接mysql Public Key Retrieval is not allowed

kettle链接mysql Public Key Retrieval is not allowed

kettle 报错信息页面： 出现 Public Key Retrieval 的场景可以概括为在禁用 SSL/TLS 协议传输切当前用户在服务器端没有登录缓存的情况下，客户端没有办法拿到服务器的公钥。具体的场景如下： 新建数据库用户，首次登录；数…

阅读更多...

课程推荐 | 机器视觉与边缘计算应用

课程推荐 | 机器视觉与边缘计算应用

点击蓝字关注我们,让开发变得更有趣文案 | 李擎排版 | 李擎文案来源 | https://www.icourse163.org/course/FUDAN-1456632162OpenVINO™╱ 前言 ╱机器视觉是目前人工智能重要的应用领域，在很多领域都有丰富的成功应用案例。其中深度学习的目标检测算法是非常实用的…

阅读更多...

ubuntu(20.04)-shell脚本（1）-基本概念

ubuntu(20.04)-shell脚本（1）-基本概念

目录 1.概述 2.shell脚本调用形式 3.shell语法初识 3.1 定义以开头：#！/bin/bash 3.2 单个“#”号代表注释当前行 4.变量 4.1 只读变量 4.2 环境变量： env 4.3 预测变量： 4.4 变量扩展： 是否存在，字符串…

阅读更多...

通过JMH框架测试公平锁与非公平锁的性能(附测试代码和源码分析)

通过JMH框架测试公平锁与非公平锁的性能(附测试代码和源码分析)

目录先上测试代码： 上依赖： 输出结果：(注意不要debug运行，直接运行代码，否则报错) 源码-公平锁的 lock 方法： 源码-非公平锁的lock方法： 总结非公平锁和公平锁的两处不同： …

阅读更多...

docker入门之一：docker基础概念与安装

docker入门之一：docker基础概念与安装

1. Docker简单介绍 1.1. 什么是docker？1.2. Docker和传统虚拟机1.3. 为什么使用docker1.4. docker架构 2. Docker安装 2.1. docker版本命名2.2. docker安装2.3. docker卸载2.4. docker镜像加速器 1. Docker简单介绍 1.1. 什么是docker？ google go语言…

阅读更多...

24-Tomcat

24-Tomcat

目录 1.Tomcat是什么？ 2.版本号 3.下载 4.目录介绍 4.1.bin目录 4.2.conf目录 4.3.logs目录 4.4.webapps目录 5.启动服务器 PS：解决Tomcat乱码问题 PS：Tomcat点击启动，控制台一闪而过，啥也没有解决方案 PS…

阅读更多...

【花雕学AI】4月5日，ChatGPT中国财经背景分析：昨天沪指重返3300点，这说明了什么？

【花雕学AI】4月5日，ChatGPT中国财经背景分析：昨天沪指重返3300点，这说明了什么？

在这里插入图片描述附录： 一、ChatGPT是一个可以和你聊天的人工智能程序，它可以用文字回答你的问题，也可以根据你的提示写出文章、歌词、代码等内容。ChatGPT是由一个叫OpenAI的机构开发的，它使用了一种叫做GPT的技术&…

阅读更多...

TCP协议的相关特性(续)

TCP协议的相关特性(续)

TCP协议的相关特性🔎滑动窗口🔎流量控制🔎拥塞控制🔎延时应答🔎捎带应答🔎面向字节流(粘包问题)🔎异常情况🔎总结关于确认应答超时重传, 连接管理请参考: 点击这里 &#x1f50e…

阅读更多...

IT知识百科：什么是基站？

IT知识百科：什么是基站？

一、基站介绍基站（Base Station），也称为基站站点或基站设备，是无线通信网络中的关键设备之一。基站用于与移动设备（如手机、无线网卡等）进行通信和数据传输，实现无线通信覆盖。二、基站的功…

阅读更多...

基于Python机器学习、深度学习技术提升气象、海洋、水文领域实践应用

基于Python机器学习、深度学习技术提升气象、海洋、水文领域实践应用

Python是功能强大、免费、开源，实现面向对象的编程语言，能够在不同操作系统和平台使用，简洁的语法和解释性语言使其成为理想的脚本语言。除了标准库，还有丰富的第三方库，Python在数据处理、科学计算、数学建模、数据挖…

阅读更多...

Web服务器压力测试

Web服务器压力测试

Web服务器压力测试使用WebBench去进行网站的压力测试 1、去github下载项目源码webbench 2、download到本地 3、将压缩包上传到虚拟机上 4、解压，使用命令：unzip 压缩包名 5、 cd WebBench-mask6、构建项目 makemake install7、上述动作完成后&…

阅读更多...

【Vue3】如何用Vue CLI 创建一个Vue3的初始化项目

【Vue3】如何用Vue CLI 创建一个Vue3的初始化项目

第一步、安装Vue Cli npm install -g vue/cli 安装成功后，就可以在命令行工具中，使用vue命令。检测是否安装成功，可以用 vue -V 出现版本号，代表安装成功。第二步、创建项目为了方便管理项目，我先在 github 创建了…

阅读更多...

队列实现图书信息管理（C语言）

队列实现图书信息管理（C语言）

文章目录Queue.hmain.cQueue.c用队列实现一个图书信息管理，这里放一下有哪些文件。（ps：我之前写的是学生信息管理，但是有人说我们的作业是写图书，就该了下内容，没有改文件名）队列是用链表实现的…

阅读更多...

***大论文中插入Visio不失真方法：word插入viso图片方法

***大论文中插入Visio不失真方法：word插入viso图片方法

***大论文中插入Visio不失真方法：word插入viso图片方法1、可以直接导出emf2、如果利用emf导致字符间距过大，可以选择下面方式1、可以直接导出emf 导出emf方法： 打开visio --> 另存为 --> 选择emf格式文件打开word --> 插入图片&a…

阅读更多...

6 计时器（三）

6 计时器（三）

6.4 输出比较演示** 演示1：PWM驱动呼吸灯** 函数解释： 输出比较单元（掌握） void TIM_OC1Init(TIM_TypeDef* TIMx, TIM_OCInitTypeDef* TIM_OCInitStruct); void TIM_OC2Init(TIM_TypeDef* TIMx, TIM_OCInitTypeDef* TIM_OCIni…

阅读更多...

对Redis 的数据结构的更深刻理解

对Redis 的数据结构的更深刻理解

文章目录简单动态字符串SDS与C字符串的区别链表字典哈希算法 —— 添加新键值对的过程rehashrehash一般过程渐进式rehash渐进式rehash的详细步骤跳跃表实现整数集合intset升级步骤升级好处降级压缩列表 ziplistziplistnode连锁更新对象字符串对象列表对象哈希对象编码转换集合对…

阅读更多...

推荐文章

最新文章