1、stable diffusion
Stable Diffusion 是一种扩散模型,基于对图像的逐步去噪过程训练和生成。它的核心包括以下几个步骤:
- 扩散过程(Diffusion Process)
在训练时,向真实图像逐步添加噪声,最终将其变为纯随机噪声。这是一个正向过程,目的是学习如何将复杂的图像分解成随机噪声。
- 逆扩散过程(Denoising Process)
模型训练的目标是学习从纯噪声中逐步还原出真实图像。这需要一个条件生成模型(如 U-Net),结合特定的条件(如文本描述)对噪声进行逐步去噪。
- 条件输入(Conditioning)
Stable Diffusion 是一个条件生成模型,可以根据输入的文本(通过 CLIP 模型编码的文本嵌入)或其他条件(如已有的图像)生成特定的图像。
- 潜空间表示(Latent Space Representation)
Stable Diffusion 不直接对高分辨率图像操作,而是使用预训练的 VAE(变分自编码器)将图像压缩到潜空间中。生成和操作都发生在这个