扩散模型--论文分享篇

news2025/7/4 12:16:53

在这里插入图片描述

定义：输入文本与图像，生成对图像的描述。在这里插入图片描述
所采用的方法：对比学习、基于跨注意力机制的多模态融合

在这里插入图片描述
基于扩散模型的方法：主要介绍的扩散的原理

图像生成任务介绍
GAN
VAE
扩散模型

基于GAN的图像生成，一个生成器与判别器直接的对抗过程，使得生成器生成高质量的数据。

VAE：将数据映射至特征空间，（PCA），对特征空间的特征约束为进行服从高斯分布。
缺点：特征空间无法解释；数据有偏会使得模型过拟合。
在这里插入图片描述
扩散模型：
优点：多步高斯分布刻画数据分布
缺点：迭代步长多

生成模型存在的两个问题：模式崩塌和模型覆盖率低

GAN：模式崩塌，只覆盖其中一个模式。
VAE：模式覆盖准确性不够高。
Diffusion model:以概率来表述我们生成的样式是否符合我们训练的数据。
在这里插入图片描述
文本生成图像
主要基于Stable Diffusion 模型，模型的特点如下：

在特征空间下去生成
条件式引导（文本、语义图）
self-attention(文本+latent关联)

微调图像生成模型，实现小样本、定制化的任务

图像编辑任务

Input：文本方式(将文本中的狗替换为猫)，mask

跨模态注意力机制⭐

如何使得生成的图像更合理

保持原来细节信息
与文本描述要align