U-Net——当卷积遇见了扩散，图像生成便有了光

news2025/7/6 8:54:14

在这里插入图片描述
U-Net原文
LDM介绍

1. 引言

U-net 模型最初由 Olaf Ronneberger 等人在 2015 年提出，主要用于生物医学图像分割。其创新的网络结构，特别是跳跃连接的设计，使其在各种图像处理任务中表现优异。随着深度学习的快速发展，U-net 逐渐被应用于更多领域，尤其是近年来的扩散模型（Diffusion Models），其中 U-net 担任了生成和去噪的重要角色。
在这里插入图片描述

2. U-net 模型简介

U-net 是一种全卷积网络，它的主要特点是具有对称的编码器-解码器结构。编码器通过逐步下采样来提取图像特征，而解码器通过上采样将特征还原到与输入图像相同的尺寸。与传统的卷积神经网络（CNN）相比，U-net 通过引入跳跃连接，将编码器和解码器的相应层直接连接，从而有效保留了低级特征信息。这种结构使得 U-net 在图像分割任务中特别强大。

U-net 的优势：

能够在小数据集上实现高效训练。
结构简单且易于理解。
跳跃连接有助于捕捉图像的细节信息。

U-net 的局限性：

对于大型或复杂数据集，可能需要更多的改进来提升性能。
在某些生成任务中，可能会遇到生成图像质量不高的情况。

3. U-net 模型的网络架构

在这里插入图片描述

U-net 的网络结构可以分为三个主要部分：编码器、解码器和跳跃连接。

编码器：
编码器是 U-net 的下采样路径，它通过多次卷积操作和池化层逐步提取输入图像的高维特征。

解码器：
解码器是上采样路径，通过反卷积（或上采样）将特征映射还原为与原始输入相同的尺寸，同时恢复图像的空间信息。

跳跃连接：
在编码器和解码器之间，U-net 引入了跳跃连接，直接将编码器的特征传递给解码器的相应层。这一机制确保了在图像重建过程中保留低级细节，避免特征信息的丢失。

4. U-net 在扩散模型中的应用

扩散模型简介：
扩散模型是一类生成模型，它通过对图像添加噪声并学习去噪的过程来生成图像。在这种模型中，U-net 通常用于实现去噪器的功能。

U-net 在扩散模型中的作用：
在扩散模型中，U-net 负责学习从噪声数据中提取有用特征，并生成干净的图像。其对称的结构使其能够有效处理扩散过程中生成的高维特征，同时跳跃连接帮助保留原始图像的细节信息，还能够能够减少梯度消失问题，提高模型的训练效率，这使得它非常适合应用在扩散模型中。

在这里插入图片描述

Stable Diffusion 中的 U-net：
Stable Diffusion 是一种基于扩散模型的图像生成技术，其中 U-net 模型经过特别调整，Stable Diffusion中的U-Net在传统的Encoder-Decoder结构基础上，增加了Time Embedding模块，Spatial Transformer(Cross Attention)模块和self-attention模块。这些模块的增加使得U-Net能够更好地处理时间信息和空间信息，提高了图像生成的质量和准确性，从而能够用于高质量以及多任务的图像生成。