DDPM的学习

news2025/1/13 8:08:47

Denoising Model

  • 首先是宏观理解一下

Denoising Model 的输入

  • 去噪很多步,用的是同一个Denoising Model,但是输入图片可能差距很大。解决方法:给Denoising Model多输入一个变量,表示现在的去噪阶段,让Denoising Model根据不同的噪音程度做出不同反应

Denoising Model内部结构

  • 在其内部有一个噪音预测模块,根据输入的图片和去噪阶段,预测这张图片的噪声是什么,得到这个噪声后,让输入图片减去这个噪声,就是这个Denoising Model的输出
  • 为什么要预测噪声呢,如果直接输入图片然后输出去噪后的图片,那这意味着模型可以画那个输出图片了,这是非常困难的,而预测噪音相对来说就比较容易

如何训练Denoising Model

  • 训练Denoising Model就是训练Noise Predicter,那就要有真实的噪音,这样Noise Predicter才能学习如何预测噪音。
  • 这个训练数据是人为创造的(拿一张图片,自己加噪声),这个过程叫Forward Proces(Diffusion Process)
  • 这时候就有Noise Predicter的训练资料了,如下图的input图片和阶段2是Noise Predicter的输入,而它的输出就应该是那个真实的噪声,训练Noise Predicter让它的输出接近这个噪声

对于Text-to-image

  • 还是需要文字标签和图片两种信息的资料

  • 训练集数据集,像midjourney、stable diffusion、DALL都是用的第三个数据集50多亿张训练图片

  • 直接将文字输入到Denoising Model

  • 而Noising Predicter部分也直接加入文字资料

  • 训练部分的修改,也是在去噪过程中将文章资料给Denoising Model,这代表Denoising有三个输入

  • 下面是详细过程

DDPM的算法流程

训练

  1. 首先从数据库得到一个清晰的图片x0
  2. 然后随机从1到T中得到一个t,代表要加噪的程度(真实操作是直接一步到位,不会一步一步添加噪声,直接到这个t的噪音层次)
  3. 然后从标准正态分布中采样一个噪音ε
  4. αt中的t是上面的t,t越大αt越小,αt是0到1之间的值;这里括号内的意思是给x0和ε分别赋权重,然后把两个图片加和在一起;εθ就是Noise Predicter,在εθ输入含噪声图片和t,然后让它输出预测的噪音,再拿真实的噪音减去预测的,最小化这个差值
    • αt是一个用于控制噪声注入量的超参数,是在训练前就设定好的,他是一个逐渐减小的序列,目的是让模型逐渐适应越来越大的噪声。
  • 想象中加噪音是一点一点加的,但实际上是一步到位
  • 真实高斯噪声和模型预测的高斯噪声通过均方误差(MSE)来计算损失,然后更新梯度

生成

  1. 首先从标准正态分布中采样一个高斯噪声
  2. 然后从第T阶段一步一步像原始图像推进
  3. 再采样一个高斯噪声Z用来模拟T-1步的方差,即在生成过程中加入噪音会生成的更好
  4. 第四步的公式,代表生成了第Xt-1阶段的图像,等式右边的第一项是去噪模型生成εθ(高斯噪声),其它都是已知量,再加上Z,形成的新的高斯噪声,从这上面随机采样可得到Xt-1的图片

前向传播

  • 设从数据集得到的图片为X0,在逐渐加噪的过程中,可由Xt-1得到Xt,εt是这一步骤所加的高斯噪声
  • 由Xt-2得到Xt,εt-1和εt分别是两步的高斯噪声,都服从标准正态分布
  • 上面公式先忽略高斯噪声的系数,其实就是两个高斯噪声相加,也就是叠加它们的概率分布,下面是两个正态分布的叠加公式
  • 将εt-1和εt的系数看为一个常数,正态分布乘以一个常数,它的均值μ和标准差σ都乘以这个系数,由于εt-1和εt都服从标准正态分布,所以它们的均值为0标准差为1,所以εt-1和εt和其对应系数表示的正态分布分别为
  • 根据正态分布叠加公式可得综合εt-1和εt正态分布的新的正态分布的均值和标准差,从这个新的正态分布上采样得到的随机数,就等同于之前两个带系数的εt-1和εt正态分布采样的和,也就是直接在这个上采样,就替代了那两个
  • 也就是拿一个标准正态分布,再乘以新的系数,形成新的正态分布,也就是用这个新的正态分布就代替了前面两个
  • 然后可继续将Xt-2换为Xt-3等等重复进行,使用数学归纳法可得
  • 其中的αtαt-1…α1很长,用其它符号代替,可得下面公式,这样就可以从X0一步到Xt,一次把高斯噪声加完

反向传播

贝叶斯定理
  • 现已知男孩抓到娃娃机了,问在抓到的这个娃娃是在公交站那里抓到的概率是多少,在地铁站旁边抓到娃娃的概率是多少
  • 贝叶斯公式
  • P(A)和P(B)是两个随机概率,P(B|A)是A发生情况下B发生的概率,P(A|B)是B发生情况下A发生的概率(也可以理解为在B发生的情况,B的发生是由A发生所引起的概率)
    • 在刚才的例子中P(A)指小明坐公交或地铁的概率,是基于之前的经验称为先验概率prior
    • P(A|B)同样指小明坐公交或地铁的概率,但是是在B事件发生后对先验概率P(A)的修正,所以称为后验概率posterior
    • 上面修正的基础是因为看到了B事件的发生,所以B事件称为证据Evidence
    • P(B|A)表示在A事件发生前提下B事件很有可能发生,所以称为似然Likelihood,它的值可以看作为B事件对A事件的归因力度,即当P(B|A)值越大时,B事件就提供更强的证据支持A事件,所以P(B|A)也可以理解为B事件对A事件的证据强度
反向传播公式推导
  • 由于Xt-1到Xt的加高斯噪声是随机事件,所以从Xt到Xt-1也是一个随机事件,套用贝叶斯公式可得
  • 其中的P(Xt-1)和P(Xt)分别表示Xt-1和Xt时刻的概率,也就是从X0原图得到它们的概率(加高斯噪声可以看做一个随机事件),则改写公式可以写为P(Xt-1|X0),P(Xt|X0),但X0可以认为百分百的事件
  • 为了匹配给另外两项也加上X0的条件,表示在相同的X0条件下,其实可以忽略它们,至此只需要求解右边式子就能得出Xt条件下Xt-1的概率
  • 概率和高斯噪声的转换:P(Xt|Xt-1,X0)对应的高斯噪声如下图所示
    • εt是标准正态分布,它的均值是0,标准差为1,乘以一个系数均值和标准差都要乘,然后再加上一个常数,只需要均值加即可,可得下面新的高斯噪声,这个高斯噪声就是给定Xt-1时刻,对应的Xt时刻概率分布
  • 同理可得其它两项对应的正态分布
  • 当正态分布的均值和方差确定后,就可以把他们写成正态分布的 概率密度函数形式
  • 再将这三个概率密度函数带入到贝叶斯公式中
  • 我们的目标是求解给定Xt条件下Xt-1的概率,实际上它也是正态分布,接下来要做的是将等式右边变换为Xt-1的概率密度函数的形式,最终可以变为下式
  • 所以P(Xt-1|Xt,X0)对应的正态分布如下
  • 我们的最终目标是利用Xt到前一时刻Xt-1的关系,从XT开始不断使用这个关系迭代到直到X0,X0是需要求得的结果,但现在却出现在P(Xt-1|Xt,X0)的概率分布中,说明上式存在问题。
    • 解决方法:之前已经求得了X0到Xt的公式,将这个公式用Xt表示X0,代入上式即可
  • 最后得到下面公式:它表示的就是,对于任意的Xt时刻的图像,都可以认为是从某个X0原图直接加噪得来的,而只要知晓了从X0到Xt加入的高斯噪声ε,就能得到它的前一时刻Xt-1的概率分布
  • P(Xt-1|Xt,X0)的均值可以再化简为如下图
  • 所以去噪模型的输出是下面的东西
  • 上面的P(Xt-1|Xt,X0)的最终化简其实就是生成阶段的那个公式,因为红框内部分是均值,所以要加上一个高斯分布代表考虑了方差
  • 损失就是下面这个,主要就是预测的噪声分布和真实的噪声分布的差最小

    参考资料:李宏毅老师的DDPM
    B站视频:https://www.bilibili.com/video/BV1tz4y1h7q1/?
    deep_thoughts视频:https://www.bilibili.com/video/BV1b541197HX/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1229576.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

硬盘无法格式化怎么办?

许多用户在尝试格式化硬盘、SD卡、USB闪存驱动器时可能会遇到无法格式化硬盘的问题,并且还会伴随着Windows无法完成格式化或格式化未成功完成之类的错误消息弹窗。那么,硬盘无法格式化原因是什么呢?硬盘无法格式化怎么办呢?下面我…

图像分割方法

常见的图像分割方法有以下几种: 1.基于阈值的分割方法 灰度阈值分割法是一种最常用的并行区域技术,它是图像分割中应用数量最多的一类。阈值分割方法实际上是输入图像f到输出图像g的如下变换: 其中,T为阈值;对于物体的…

宝塔站点配置

我这里使用的thinkphp 框架部署的

buildadmin+tp8表格操作(7)表格的事件监听

buildadmin 中的事件都已经在 baTable类中定义好了。我们一般不会去修改,万一我们要在事件上有所操作, 我们可以通过事件的 前置和后置 钩子函数来处理 那么我们是如何使用这些钩子呢? 我们只需要在 创建对象的时候,定义好这些钩…

二进制部署k8s集群-过程中的问题总结(接上篇的部署)

1、kube-apiserver部署过程中的问题 kube-apiserver.conf配置文件更改 2、calico的下载地址 curl https://docs.projectcalico.org/v3.20/manifests/calico.yaml -O 这里如果kubernetes的节点服务器为多网卡配置会产生报错 修改calino.yaml配置文件 解决方法: 调…

YB506AB是一款理电池充、放电管理专用芯片,集成锂电池充电管理和降压DC-DC电路。

YB506AB 锂电转可充电AA/AAA电池专用SOC芯片 概述: YB506AB是一款理电池充、放电管理专用芯片,集成锂电池充电管理和降压DC-DC电路。充电过程满足锂电池三段式滑流/恒流/恒压充电规范,B506内部的线性充电电路采用了恒流可配置模式,可以通过…

概念解析 | 光电神经网络:optoelectronic neural network

注1:本文系“概念解析”系列之一,致力于简洁清晰地解释、辨析复杂而专业的概念。本次辨析的概念是:光电神经网络。 概念解析 | 光电神经网络的原理、挑战与未来 1. 背景介绍 在过去的十年中,深度学习和神经网络在许多领域取得了显著的成就,如图像识别、自然语言处理、医疗…

如何快速将txt类型的日志文件转换为excel表格并进行数据分析报表统计图(如:饼图、折线图、柱状图)?

打开excel创建空白文档 选择一个txt文件 一动下面箭头↑竖线,可以拖拽左右调整要判断转换为一列的数据宽度 根据情况设置不同列的数据格式(每一列可以点击),设置好后点击【完成】 设置单元格数据格式 手动插入第一行为每列数据的…

没收到Win11 23H2正式版的推送怎么升级到23H2

没收到Win11 23H2正式版的推送怎么升级到23H2?用户反映自己没有收到Win11 23H2正式版的更新推送,又想升级为23H2版本。接下来小编给大家详细介绍不同的升级方法,帮助更多的用户完成Win11 23H2系统的更新,升级后就能体验到Win11 23…

【C++】pow函数实现的伽马变换详解和示例

本文通过原理和示例对伽马变换进行详解,并通过改变变换系数展示不同的效果,以帮助大家理解和使用。 原理 伽马变换是一种用于图像增强的技术,它可以用来提高或降低图像的对比度,常用于医学图像处理和计算机视觉等领域。伽马变换…

3D建模基础教程:编辑多边形功能命令快捷方式

一、打开3D软件并创建新模型 首先,打开你的3D建模软件,比如Blender、Maya或3ds Max。然后,创建一个新的3D模型。你可以使用基本几何体来创建模型,也可以导入现有的模型。 二、进入编辑多边形模式 在主工具栏中,找到并…

《深入浅出OCR》实战:基于PGNet的端到端识别

✨专栏介绍: 经过几个月的精心筹备,本作者推出全新系列《深入浅出OCR》专栏,对标最全OCR教程,具体章节如导图所示,将分别从OCR技术发展、方向、概念、算法、论文、数据集等各种角度展开详细介绍。 💙个人主页: GoAI |💚 公众号: GoAI的学习小屋 | 💛交流群: 7049325…

[一周AI简讯]OpenAI宫斗;微软Bing Chat更名Copilot;Youtube测试音乐AI

OpenAI宫斗,奥特曼被解雇,董事会内讧 Sam Altman被解雇,不再担任CEO,董事会的理由是奥特曼在与董事会的沟通中始终不坦诚,阻碍了董事会履行职责的能力。原首席技术官Mira Murati担任新CEO。OpenAI宫斗剧远未结束&…

C语言-求一个整数储存在内存中的二进制中1的个数

#define _CRT_SECURE_NO_WARNINGS #include<stdio.h>int main() {/*求一个整数储存在内存中的二进制中1的个数*/int number;scanf("%d", &number);int i 0;int count 0;for (i 0; i < 32; i){if (1 ((number >> i) & 1)){count;}}printf(…

游戏服务器怎么挑选细节与技巧深度解析

随着数字娱乐的迅速崛起&#xff0c;游戏不仅成为了全球数亿人的休闲爱好&#xff0c;同时也催生了一系列关于游戏体验优化的需求。游戏服务器作为游戏体验的核心支柱&#xff0c;其性能好坏直接影响到玩家的游戏体验。本文章旨在详细探讨游戏服务器的挑选技巧与注意事项&#…

AWS云服务器EC2实例实现ByConity快速部署

1. 前言 亚马逊是全球最大的在线零售商和云计算服务提供商。AWS云服务器在全球范围内都备受推崇&#xff0c;被众多业内人士誉为“云计算服务的行业标准”。在国内&#xff0c;亚马逊AWS也以其卓越的性能和服务满足了众多用户的需求&#xff0c;拥有着较高的市场份额和竞争力。…

opencv将32位深图片合成视频跳帧解决办法

在合成视频时候&#xff0c;大多数的图片都是24位深度的&#xff08;即RGB三通道&#xff0c;一个通道8位&#xff09;&#xff0c;但是也存在少量的32位深的图片&#xff08;RGBA&#xff0c;三个颜色通道加上A这个透明度通道&#xff09;&#xff0c;32位和24位的格式是不一样…

Docker部署MinIO对象存储服务器结合Cpolar实现远程访问

&#x1f525;博客主页&#xff1a; 小羊失眠啦. &#x1f3a5;系列专栏&#xff1a;《C语言》 《数据结构》 《Linux》《Cpolar》 ❤️感谢大家点赞&#x1f44d;收藏⭐评论✍️ 文章目录 前言1. Docker 部署MinIO2. 本地访问MinIO3. Linux安装Cpolar4. 配置MinIO公网地址5. 远…

.NET8.0 AOT 经验分享 - 专项测试各大 ORM 是否支持

AOT 特点 发布和部署本机 AOT 应用具有以下优势&#xff1a; 最大程度减少磁盘占用空间&#xff1a;使用本机 AOT 发布时&#xff0c;将生成一个可执行文件&#xff0c;其中仅包含支持程序所需的外部依赖项的代码。减小的可执行文件大小可能会导致&#xff1a;较小的容器映像&a…

c题目10:求一维数组中最大元素值及其序号

每日小语 如果有一天&#xff0c;你不再寻找爱情&#xff0c;只是去爱&#xff1b;你不再渴望成功&#xff0c;只是去做&#xff1b;你不再追求空泛的成长&#xff0c;只是开始修养自己的性情&#xff1b;你的人生才真正开始。——纪伯伦 自己敲写 这个问题老师上课讲了&…