diffusion入门

news2024/11/17 16:48:35

1. diffusion model 概念

https://zhuanlan.zhihu.com/p/638442430 这篇博客写得很好,顺便做一点笔记记录一下。
原博客附带的代码也很清晰易懂。

1.1 前向过程

后一个过程等于前一个结果的均值乘上sqrt(1-beta_t), 再加上方差beta_t的噪声。
这样下去可以得到 xt 基于 x0的公式, 也就是只要已知x0, 和每一步的beta_t可以求得任一阶段得 x_t
而且最终x_t接近 正态分布。

在这里插入图片描述

1.2 反向过程

1.2.1 之前我有一个问题:


正向x_t-1 到x_t 过程如下:
乘上一个数,再加噪声
在这里插入图片描述

那么逆向从x_t 到 x_t-1这一步,是不是只需要减去 (x_t-1 到 x_t 添加的噪声) 再 (除以 sqrt(1-beta_t)其实等于sqrt(alpha_t)), 是不是就可以了? 当然是的。
x_t-1 = (x_t - beta_t * I) / sqrt(alpha_t)

但是公式推导的结果是下图这样的:
为什么呢?
因为这个里面的e_t 不是 x_t-1 到 x_t这个过程中添加的高斯噪声,而是从x_0 到 x_t 这个过程 对应的高斯噪声。 所以下面的是正确的。
在这里插入图片描述

所以是不是输入 x_t, t, 让网络预测I_t也是可行的? 感觉也是可行的,只不过

  1. forward 要一次求出所有阶段 x_1 ~ x_T, I_1 ~ I_T.
  2. 输入 x_t, t, 让网络预测各个阶段的 I_t, 这里t = [1,T]
  3. x_t-1 = (x_t - beta_t * I_t) / sqrt(alpha_t) 通过该过程逆向

1.2.2 回到原文

但是我们只知道 添加的噪声是符合正态分布的,不知道具体的数值,所以没办法逆向。
所以利用网络预测 e_t, 然后就可以通过公式求得的每一步的逆向过程来更新图像。
原博客写的更加清晰。

2. 一些改进的策略

参考https://zhuanlan.zhihu.com/p/586936791

  1. 比如 beta的选择:改进后图像变化更均匀
    在这里插入图片描述

  2. 对生成步数的改进:
    原本模型训练的时候是假定在 T个时间步下训练的,在生成图像的时候,也必须从 T 开始遍历到 1 。而论文(https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/2102.09672.pdf)中提出了一种不需要重新训练就可以减少生成步数的方法,从而显著提升生成的速度。

    这个方法简单描述就是,原来是 T 个时间步现在设置一个更小的时间步数 S ,将 S 时间序列中的每一个时间步 s 和 T时间序列中的步数 t 对应起来

3. 相关介绍:

https://zhuanlan.zhihu.com/p/572161541
https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247625397&idx=2&sn=e67b0e7ccf51aeedb4c0ab23310637b5&chksm=e9efe33ede986a28499a27014dcf7b44cbfe5841cf8d95b17f9ab46ab379cb2f237b204e1a9f&mpshare=1&scene=24&srcid=0124Qww3B4k9zexjSusblmGc&sharer_shareinfo=46fe1da3eadc5e0010ece1ac8ce51742&sharer_shareinfo_first=46fe1da3eadc5e0010ece1ac8ce51742&version=4.0.19.6020&platform=win#rd

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1407444.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

EasyCVR视频融合平台铁路抑尘喷洒监控系统视频搭建方案

一、建设背景与需求分析 随着我国铁路建设的迅猛发展,铁路抑尘喷洒设备质量监控系统在技术和管理方面都取得了显著的进步,面临安全压力也随之加大。为了确保铁路运输的安全和稳定,车站监控室、喷洒区域、操作间以及安全防护区域等关键区域都…

08章【文件与IO】

文章目录 File类IO流字节流字符流字节字符转换流缓冲流打印流对象流字节数组流数据流字符串流、管道流、合并流 RandomAccessFileProperties文件操作文件压缩与解压缩装饰者模式常见字符编码New IO File类 File类的基本概念 File类:表示文件和目录路径名的抽象表示…

低功耗设计之Retention cell

SoC芯片在需要休眠时候,可以关掉CPU总线等高速逻辑来降低功耗,但是重新上电唤醒又太慢怎么办?我们可以用retention cell来保存CPU的堆栈等关键寄存器数据,既满足了上电唤醒速度快的需求,也满足了掉电省功耗的要求。景芯…

MODNet 剪枝再思考: 优化计算量的实验历程分享

目录 1 写在前面 2 模型分析 3 遇到问题 4 探索实验一 4.1 第一部分 4.2 第二部分 Error 1 Error 2 4.3 实验结果 ①参数量与计算量 ②模型大小 ③推理时延 5 探索实验二 5.1 LR Branch 5.2 HR Branch 5.2.1 初步分析 5.2.2 第一部分 enc2x 5.2.3 第二部分 en…

【前端web入门第一天】01 开发环境、HTML基本语法文本标签

文章目录: 1. 准备开发环境 1.1 vs Code基本使用 2.HTML文本标签 2.1 标签语法2.2 HTML基本骨架2.3 标签的关系2.4 注释2.5 标题标签2.6 段落标签2.7 换行与水平线标签2.8 文本格式化标签 1. 准备开发环境 VSCode与谷歌浏览器离线版,安装包评论区自提. VSCode默认安装位置:C…

硬件之相机选型

1. 相机成像原理 相机成像原理如图所示: 注: 当物距为无穷远时,像距等于焦距,成像在焦平面上;当物距为无穷无与两倍焦距之间时,像距在焦距与两倍焦距之间,成缩小的实像;当物距等于两…

前端项目打包使用nginx本地服务器运行

1.下载安装nginx nginx: 下载nginx 中文网提供nginx中文文档nginx下载等内容https://nginx.p2hp.com/en/download.html 稳定版就可以,下载完后将下载的压缩包解压 2.修改配置文件 主要修改端口,以及项目所在文件夹,直接放html下就行 server …

基于Java SSM框架实现在线教育资源管理系统项目【项目源码+论文说明】计算机毕业设计

基于java的SSM框架在线教育资源管理系统演示 摘要 随着社会的发展,社会的各行各业都在利用信息化时代的优势。计算机的优势和普及使得各种信息系统的开发成为必需。 在线教育资源管理系统,主要的模块包括管理员;个人中心、学生管理、教师管…

【JVM故障问题排查心得】「Java技术体系方向」Java虚拟机内存优化之虚拟机参数调优原理介绍

Java技术体系方向-JVM虚拟机参数调优原理 内容简介栈上分配与逃逸分析逃逸分析(Escape Analysis)栈上分配基本思想使用场景线程私有对象 虚拟机内存逻辑图JVM内存分配源码:代码总体逻辑 在某些场景使用栈上分配设置JVM运行参数:开启逃逸模式,…

CMS如何调优

业务JVM频繁Full GC如何排查 原则是先止损,再排查。 FGC的原因是对象晋升失败或者并发模式失败,原因都是老年代放不下晋升的对象了。 1.可能是大对象导致的内存泄漏。快速排查方法:观察数据库网络IO是否和FGC时间点吻合,找到对应…

自由落体(C语言刷题)

专栏(刷题):https://blog.csdn.net/2301_79293429/category_12545690.html 这一题直接给我梦回高中😶‍🌫️ //题目理解:小车开始运动的时候小球都开始下落, // 需要知道下落到 小车顶部的时间 和 落地的时间&#xf…

ZXing开源库生成二维码

引言 二维码(QR Code)作为一种快速、高容量、高密度的矩阵条码,已经在各行各业得到广泛应用。ZXing(Zebra Crossing)是一款由Google开源的Java二维码生成和解析库,提供了丰富的功能和易于使用的API。本篇博…

关于一个QT程序的简单破解思路(不需要分析信号和槽的方法,通用所有程序的破解思路)

几年前,公司买了台国产贴片机,里面的主程序是QT编写,运行在WINDOW XP系统上。主程序打开的界面,如图: 我来简单介绍下程序界面,各位读者不需要搞明白功能,只要知道大体的流程即可。 分析主界面: 一、左边的列表: 贴片生产文件,里面包括了贴片时元器件的坐标、飞达…

GPT5?OpenAI 创始人:GPT5 已在训练中,需要更多数据

OpenAI 最近发出征集大规模数据集的呼吁,特别是“今天在互联网上尚未公开轻松获取”的数据集,尤其是长篇写作或任何格式的对话。 GPT-5丨AI浪潮席卷全球,OpenAI 推出GPT-4 后,又于上月26日宣布今年9月、10月将推出GPT-4.5&#xf…

【openlayers】移动视角适应所有点

移动视角适应所有点 连接 chatgpt 代码 // 创建一个地图 var map new ol.Map({target: map, // 指定地图容器的IDlayers: [// 添加你的地图图层// 例如:new ol.layer.Tile({ source: new ol.source.OSM() })],view: new ol.View({center: [0, 0], // 地图初始中…

Java中的HTTPS通信

在Java中实现HTTPS通信,主要涉及到SSL/TLS协议的使用,用于提供数据传输的安全性。下面我们将深入探讨如何使用Java进行HTTPS通信。 一、基本概念 HTTPS,全称为Hypertext Transfer Protocol Secure,是HTTP的安全版本。它使用SSL/…

【JavaEE进阶】 MyBatis使用注解实现增删改查

文章目录 🍃前言🌴传递参数🎋增(Insert)🚩返回主键 🎄删(Delete)🌲改(Update)🌳查(Select)🚩起别名🚩结果映射🚩开启驼峰命名(推荐使用) ⭕总结 &#x1f343…

代课老师是劳务派遣吗

劳务派遣是一种特殊的用工形式,指由劳务派遣机构与派遣劳工签订劳动合同,并支付报酬,把劳动者派向其他用工单位,再由其用工单位向派遣机构支付一笔服务费用的一种用工形式。也就是说,劳务派遣的员工和实际工作的单位没…

谁能做智驾?国内电动车新王者诞生在望

书接上回,我来告诉你们,近来国内科技巨头华为和比亚迪之间,在电动车智能化领域也快开打起来了!你们心里一定有一个问题—这两家公司到底是为什么要较量呢?难道仅仅是想比比看谁技术更强?还是产品谁能卖的更好?其实,…

【Linux】文件周边001之系统文件IO

👀樊梓慕:个人主页 🎥个人专栏:《C语言》《数据结构》《蓝桥杯试题》《LeetCode刷题笔记》《实训项目》《C》《Linux》《算法》 🌝每一个不曾起舞的日子,都是对生命的辜负 目录 前言 1.C语言文件IO 1.1…