机器学习课程学习周报十三

文章目录

机器学习课程学习周报十三
- 摘要
- Abstract
- 一、机器学习部分
- - 1. 文生图模型概述
  - 2. Stable Diffusion概述
  - 3. ControlNet概述
  - 4. 概率论复习（二）
- 总结

摘要

本周的学习内容涵盖了文生图模型、Stable Diffusion、ControlNet以及概率论的复习。文生图模型通过文字编码器、生成模型和隐空间解码器三部分实现，将自然语言转化为图像。Stable Diffusion借助隐扩散模型提高生成效率，并通过条件机制增强可控性。ControlNet通过添加空间条件控制，增强了大型扩散模型的灵活性。最后，对概率论的进一步复习为理解复杂模型奠定了基础。

Abstract

This week’s study covers text-to-image models, Stable Diffusion, ControlNet, and a review of probability theory. Text-to-image models convert natural language into images through three components: text encoder, generative model, and latent space decoder. Stable Diffusion enhances generation efficiency using latent diffusion models and improves controllability through conditional mechanisms. ControlNet introduces spatial conditional control to enhance the flexibility of large diffusion models. Finally, a deeper review of probability theory lays the foundation for understanding complex models.

一、机器学习部分

1. 文生图模型概述

在这里插入图片描述

基本的文生图模型分为3个部分：文字编码器、生成模型以及隐空间解码器部分。文字编码器部分用于将人类理解的自然语言编码为计算机中的向量表达。生成模型部分接受语言描述的向量表达和噪声图的输入，该生成结果为最终图片的压缩版本，该中间产物可以是最终图片在像素空间（pixel space）中的缩略表达，也可以是最终图片在隐空间（latent space）中的压缩表达。隐空间解码器则是将压缩表达的图片从隐空间中解码至人类认知的像素空间中。这三个部分需要分别训练，组合起来后组成了一般的文生图模型。

在这里插入图片描述

文字编码器部分是一种监督学习，首先需利用由文字描述与图片对应成对的数据集训练一个衡量人类自然语言的文字描述与图片对应关系的模型，文字描述与图片分别被编码为其对应在计算机中向量表达,该模型一般利用CLIP Score衡量两者的相似程度。CLIP Score高意味着两者的向量表达之间的距离接近，文字描述与图片的对应关系强，CLIP Score低意味着两者的向量表达之间的距离较远，文字描述与图片的对应关系弱。在文生图模型中，当输入新的文字描述时，文字编码器应能够输出其对应的向量表达。

在这里插入图片描述

生成模型可以是扩散模型、生成式对抗网络模型以及自回归模型，目前主流的研究方向以及本论文讨论的对象是扩散模型。扩散模型由正向过程、逆向过程和采样过程3个主要部分组成。扩散模型的目标是学习一个正向扩散过程，该过程生成给定数据集的概率分布，迭代添加随机的高斯噪声。然后训练去噪预测器，作用于反向去噪过程。去噪预测器通过学习正向扩散过程中被添加高斯噪声的原始图片与步数预测该步中添加的高斯噪声图，将反向去噪过程中输入的原始噪声图迭代去除去噪预测器每一步预测出的高斯噪声图。当完成所有去噪流程后，最终可以或者整个文生图模型生成结果的压缩表达，该结果可能是像素空间中的缩略图，这类的扩散模型有：Imagen模型等。该结果也可能是隐空间中的压缩表达，还需通过隐空间解码器将其映射回像素空间，这类的扩散模型有：DALL·E系列模型，Stable Diffusion等。

在这里插入图片描述

隐空间解码器是一种无监督学习，需要训练一个自编码器或变分自编码器，其训练过程不需要文字描述与图片对应成对的数据集，仅需要单独的图片数据集。这是因为，编码器或变分自编码器中的编码器则能将像素空间中的图片编码至隐空间，而解码器将原图片潜在表示解码映射回像素空间。自编码器的目的是最小化输入和输出图片的重构误差，而变分自编码器的目标是最大化数据的似然概率，同时最小化潜在表示与标准正态分布之间的KL散度。因此，隐空间解码器由自编码器或变分自编码器中的解码器构成，而编码器则还可以作为图生图模型中的输入。

2. Stable Diffusion概述

在这里插入图片描述

Stable Diffusion是一个基于隐扩散模型（LDMs, Latent Diffusion Models）的文生图模型实现。因此，Stable Diffusion也拥有文生图模型的三个基础部分。为了降低训练扩散模型的算力，隐扩散模型使用自编码器学习从原始像素空间映射至低维隐空间的表达以及隐空间表达解码映射至元素像素空间。因此，Stable Diffusion在隐空间中完成正向扩散过程和反向去噪过程的全部流程，极大地提高了图像生成的效率。除此之外，Stable Diffusion在去噪预测器上选择了Unet主干网络，并引入了条件机制，在Unet 模型中使用交叉注意机制（cross-attention，即上图中QKV模块），能够使用其他模态的数据控制图像的生成，这为扩散模型的可控性生成提供了新思路。

3. ControlNet概述

ControlNet是由Oraichain实验室开发的一种向大型预训练的文生图扩散模型添加空间条件控制的神经网络架构，其在可用于生产的大型扩散模型上表现出色。ControlNet向神经网络块注入了额外的条件（如下图）。假设F（X;θ）为训练好的神经块，参数为θ，它将输入特征图x映射为另一个特征图y。为了将ControlNet添加到预训练的神经块中，新的网络架构需要冻结原始块的参数θ，同时将块克隆到可训练的副本中，该副本具有参数θ_c（如下图）。可训练的副本接受外部条件向量c作为输入。当将这种结构应用于像Stable Diffusion这样的大型模型时，锁定参数可以保留使用数十亿张图像预训练的大型模型，而可训练的副本可以重用这种大规模预训练模型，以建立一个深层、稳健且强大的主干网络来处理各种输入条件。

在这里插入图片描述

ControlNet应用于大型预训练扩散模型Stable Diffusion以实现条件机制的控制，Stable Diffusion去噪预测器的主干网络是一个Unet网络，包含12个编码块、1个中间块和12个解码块。在这25个块中，8个块是下采样或上采样卷积层，而其他17个块是主块，每个主块包含4个Resnet层和2个Vision Transformer（ViT）。每个ViT包含几个交叉注意力和自注意力机制。例如，在图9中，“SD Encoder Block A”包含4个ResNet层和2个ViT，而“×3”表示该块重复三次。文本提示使用CLIP文本编码器进行编码，扩散时间步使用带有位置编码的时间编码器进行编码。

在这里插入图片描述

将ControlNet结构应用于Stable Diffusion的Unet编码器（上图），具体而言， ControlNet创建Unet的12个编码块和1个中间块的训练副本。这个12个编码块的训练副本分别分布在4个分辨率（64 × 64,32 × 32,16 × 16,8 × 8）上，每个分辨率复制3次。ControlNet的输出则被分别添加到U-net的12个解码块和1个中间块中。ControlNet的输入条件预处理器主要包含以下几种形式；

Line_Art：虽然Canny一般已经指定了边缘条件，但Line_Art是素描的完美选择，特别是对于控制生成动漫风格的图像。这个类别中可选择的有更多的线条艺术预处理器，例如Line_Art anime(动漫风格的线条)，Line_Art anime denoise (动漫风格的线条但细节较少)，Line_Art realistic(现实风格的线条)和Line_Art coarse(现实风格的线条较重)。

Soft_Edge：类似于Canny边缘检测，但提供了更平滑的过渡。Soft_Edge是理想的图像处理结果，能够实现更平滑的边缘检测，并确保视觉效果更加平滑和自然。

Pose：识别图像中人体的骨骼关键点并实现关键点的有序连接。通过操作姿态参数，可指定生成图像中人体的姿势。

Depth：图像深度预处理器从参考图像中预测深度信息。通过控制对图像内部深度的感知，增加生成图像的三维效果，增强了视觉丰富性。

Normal：该条件为指定曲面的方向的法线贴图。图像像素代表的不是颜色值，而是指定每个像素的方向，即表面所面对的方向。Normal和Depth条件都用于预测图像的3D组成。