ControlNet on Stable Diffusion

news2026/2/13 15:28:35

ControlNet on Stable Diffusion

笔记来源：
1.Adding Conditional Control to Text-to-Image Diffusion Models
2.How to Use OpenPose & ControlNet in Stable Diffusion
3.ControlNet与DreamBooth：生成模型的精细控制与主体保持
4.Introduction to ControlNet for Stable Diffusion
5.Stable Diffusion — ControlNet Clearly Explained!
6.Talented Mr. 1X1: Comprehensive look at 1X1 Convolution in Deep Learning
7.ControlNet-modules-safetensors

下图由笔者参考其他内容整理而成，仅做学习使用

下图中上半部分就是Stable Diffusion的反向扩散过程，下半部分为ControlNet部分，Stable Diffusion的参数frozen，我们只训练ControlNet

condition部分要将图片使用preprocessor（openpose、normalmap、canny）预处理完成后，再用相应网络对其处理，处理结果为符合contronet所能接收的大小的feature map（本质为tensors）

左侧为Stable Diffusion，右侧为ControlNet
Controlnet前半部分直接copy SD Encoder和 Bottleneck 部分，后半部分用zero conv（1×1 conv layer）作解码（上采样）
为了能够让 condition 部分对模型的影响变大，论文中对prompt的组成进行了修改，将原有全部为文字的prompt，修改为一半prompt，一半空字符串
由于zero conv部分初始weight和bias为0，也就是说第一次训练过程，不会对copy来的SD Encoder和 Bottleneck 部分产生任何影响，只有当controlnet进行反向传播时，才会更新参数，这时就会更新SD Encoder和 Bottleneck 部分的参数

笔者个人理解
笔者之前关于SD的文章也提到一张图片对应一个概率分布，SD就是在计算估计关于所有输入图片的一个总的概率分布，这个概率分布如果接近真实概率分布（全世界所有图片的概率分布）生成的图片也就质量越高。SD如果有外来输入（这里的controlnet部分）就会对这个估计的分布有影响，当我们从这个大的概率分布中进行采样时就得到了某张图片（大的概率分布中的某个点）这个图片是在经过外来输入影响的大的概率分布中采样的，也就会符合外来输入的一些特性

了解了大致的原理，我们本地部署看看效果
stable diffusion webui + ControlNet （Extension）部署的过程在网络上相关内容很多，这里就不再展示

下图为ControlNet各个参数的简要说明

下图以Openpose为例，我们首先上传一张原图，随后对一张原图使用preprocessor（这里为openpose_full）进行处理，紧接着使用controlnet_v11将其编码为tensors用于给controlnet输入，点击openpose后的小火花生成人体姿势的估计并形成预览图，最后我们给SD输入prompt和negative prompt，SD就会根据人体姿势估计图和我们提供的文本生成相应姿势的其他人物（文本描述的）