定义:输入文本与图像,生成对图像的描述。
所采用的方法:对比学习、基于跨注意力机制的多模态融合
基于扩散模型的方法:主要介绍的扩散的原理
图像生成任务介绍
GAN
VAE
扩散模型
基于GAN的图像生成,一个生成器与判别器直接的对抗过程,使得生成器生成高质量的数据。
VAE:将数据映射至特征空间,(PCA),对特征空间的特征约束为进行服从高斯分布。
缺点:特征空间无法解释;数据有偏会使得模型过拟合。
扩散模型:
优点:多步高斯分布刻画数据分布
缺点:迭代步长多
生成模型存在的两个问题:模式崩塌和模型覆盖率低
GAN:模式崩塌,只覆盖其中一个模式。
VAE:模式覆盖准确性不够高。
Diffusion model:以概率来表述我们生成的样式是否符合我们训练的数据。
文本生成图像
主要基于Stable Diffusion 模型,模型的特点如下:
- 在特征空间下去生成
- 条件式引导(文本、语义图)
- self-attention(文本+latent关联)
微调图像生成模型,实现小样本、定制化的任务
图像编辑任务
Input:文本方式(将文本中的狗替换为猫),mask
跨模态注意力机制⭐
如何使得生成的图像更合理
保持原来细节信息
与文本描述要align
隐空间优化,每一幅图都要Fine tune。
基于Mask的编辑
Mask的定义:产生mask:mask掉位置,使用文本描述定位到图像位置,对位置根据文本编辑
Morphing:给定两个端点,生成一系列的逐渐的过度过程。期待产生一系列过程。