【当前全网最详细】WebUI中使用Instant_ID来控制生成对象面部的用法

news2026/2/15 15:00:49

🎈为什么有这篇文章

中文网络上或者B站很多UP，在讲述WebUI中使用这个controlnet来换脸的时候，要么讲的过于复杂，要么就是没有讲清楚，所以这里整理下详细的使用方法，并记录下生成的内容。

如果懒得看文字可以看同款视频哈：

【AI写真Instant_ID全网最详细教程Stable Diffusion WebUI免费生产力】

🧵准备工作

首先，需要在将webui的本体升级到1.8.0或者更新的版本，这里保证与controlnet的兼容性；

其次，升级controlnet版本到3月6号以后的版本；

升级完成后，controlnet的版本为1.1.441（或者更新的版本应该也可以）。

第三，下载预处理器并放在controlnet的预处理器文件夹中；

预处理器下载地址：

https://huggingface.co/DIAMONIK7777/antelopev2/tree/main

如果你的网络不好可以到我的网盘下载：https://pan.quark.cn/s/34ac9d88ad7c

本地预处理器地址：

第四，下载controlnet模型到本地的controlnet模型文件夹中；

模型下载地址：

ipadapter model
ControlNet model

如果你的网络不好可以到我的网盘下载：https://pan.quark.cn/s/34ac9d88ad7c
然后放在本地的controlnet的模型文件夹下：

🧨图像生成

接下来就是具体的使用方法了。

Instant ID使用ControlNet和IP-Adapter的组合来控制扩散过程中的面部特征。Instant ID 的一项独特设计是，它将来自 ip-adapter识别到的面部特征信息，作为交叉输入传递到 ControlNet的unet网络部分。而如果不使用这个模型，ControlNet的unet网络的cross attention（交叉注意力）输入是提示的文本嵌入。

在webui中具体使用Instant_ID这个controlnet的时候，跟其他的controlnet使用方法不同的是，他需要使用两个模型搭配才能生效，也就是要开启两个controlnet。

并且，两个模型的顺序不能出错。

第一个Controlnet设置：

这里上传的图像是你要参考的脸部特征的信息，也就是生成的最终人物像谁。

采样器是embedding结尾的，模型是一个特定的ip-adapter模型，这俩组合就是提取人物面部特征的。

需要注意的是，官方并没有强制要求选择“更偏向ControlNet”，但是我测试下来，如果不选择这个，生成的图像分辨率会相对低一些，所以建议这么设置。

当然，你可以适当降低控制权重，一定程度上也能提升生成的图像的分辨率。

第二个Controlnet设置：

这里也需要上传一张图像，这张图像是生成图像的人物的面部参考信息。这张图像中人物的姿势和面部表情特征会被参考。

这里的预处理器选择的keypoints结尾的预处理器模型，模型是instant_id_sdxl模型，对，这里仅仅支持sdxl的大模型（也支持sdxl_turbo模型），官方并没有支持sd1.5或者其他的版本。

这两个模型搭配起来，会控制最终生成的图像中，人物面部的占比，面部朝向，面部表情等等面部信息，姿态信息，从实验结果来看，一定程度上会参考，但参考的不多。

这里仍然勾选了“更偏向Controlnet”，也是由于勾选之后，一定程度上可以提升生成图像的分辨率。

至于“完美像素模式”，从实测结果看，勾选不勾选影响并不是很大。

接下来是基础的文生图设置部分；

这里有以下几个重点：

第一，模型必须选择sdxl或者sdxl turbo模型；

第二，CFG Scale这里，也就是提示词引导系数，官方建议是4~5之间，但是实测下来，这个参数的设定其实与你的模型非常相关，如果你是标准的sdxl微调模型，那么这个值在3~4之间可能会更好，否则生成的图像可能会比较模型，如果你的模型是sdxl turbo模型，那么，这个值甚至可以调整到1~1.5，效果也还不错。

第三，迭代步数部分，并不需要太高步数，步数太高反而容易崩，如果是标准模型，20步就差不多，如果是sdxl turbo模型，就按照turbo类通用的7~9步就好了；

第四，宽度和高度，众所周知，1024x1024是默认的最佳分辨率，但是这里如果是1024x1024的话，（估计是原作者训练集的问题），容易生成带水印的图像，所以大家可以稍微错开这个分辨率，比如说使用768x1024等，可以有效规避这个水印的问题；