关于IP-Adapter的十几个模型，到底是干啥用的？

news2026/2/16 2:13:13

🎠背景介绍

IP-Adapter的一系列模型在stable diffusion的实际应用中，越来越被频繁的使用到，用于“换脸”或者“保证角色的一致性”，但是很多朋友在安装或者使用别人的工作流的时候，经常会遇到各种各样的问题，同时因为资源在各种群里转来转去的，发现有很多个版本，所以有些时候比较迷茫，这篇文章简单的介绍下这些模型每个版本到底有什么区别，自己的使用场景应该用哪个，让大家不至于过于迷茫和纠结，并提供下载地址，因为模型实在比较多，所以大家按需下载就好。

🎀网盘下载地址：IP-Adapter 十几个模型的下载地址集合

⛳IP-Adapter系列是干啥的

从git的介绍页面可以看到，这个库是腾讯的AI-Lab实验室建立的，2023/8/16就建立了，之后持续更新，陆续的更新了大大小小一大堆的版本，这是一种有效且轻量级的适配器，可为预训练的文本到图像扩散模型实现“图像提示”功能。

IP-Adapter Git地址

以下是官方的架构图：

可以简单的看出，ip-dapter可以让图片和提示词共同影响U-Net中的每一个层级，所以可以让输入图像的各种图像特征带入到生成结果中，从而实现“IP”的“适配”，emm..非专业人士大概这么理解差不多就够了。

✨到底多少个版本

这个模型的版本的确是比较多，从官方git提供的huggingface下载地址来看：

有两组，分别是IP-Adapter-FaceID系列和IP-Adapter系列，而每一个系列，里边又对应着一堆模型，所以的确是有十几个模型的，大家觉得乱也是满合理的一件事情...十几个模型的controlnet，可能作者都得迷糊...

从当前（2024.3.17）来看：

IP-Adapter 1.5 版本：6个；

IP-Adapter sdxl版本：4个；

IP-Adapter-faceID (1.5+sdxl):7个；

IP-Adapter-faceID 的Lora (1.5+sdxl):5个；

也就是，总计17个版本的adpter模型，另外还有5个faceID对应的lora模型；

🥽先看比较早的IP-Adapter系列：

分为sd1.5版本的模型和sdxl版本的模型，这些在webui或者comfyui中，都是用于controlnet的模型中，这么多版本也是不同是前期不同目的一点点累积起来的，你需要根据自己使用的是1.5还是sdxl的大模型来匹配自己使用的ip-adapter模型，否则一定是会出错的。

那么这些版本到底是什么区别呢？按照官方的解释，如下：

(safetensors版本和bin版本，模型一致，一般下载safetensors后缀的版本就可以。)

SD 1.5 的 IP-Adapter

ip-adapter_sd15.bin：使用 OpenCLIP-ViT-H-14 中的全局图像嵌入作为条件，也就是说不仅仅参考脸部，而是参考政府图片，这件事情与另外一组的faceID系列模型出发点上就不同了；
ip-adapter_sd15_light.bin：与 ip-adapter_sd15 相同，但更兼容文本提示，因为本身ip-adpter是图像和提示词共同影响生成的结果，所以这个模型从理论上提升了文本提示词的影响权重；
ip-adapter-plus_sd15.bin：：使用从OpenCLIP-ViT-H-14模型中提取的图像块嵌入作为条件输入，比 ip-adapter_sd15 更接近参考图像，简单理解就是，有plus用plus，效果更好。
ip-adapter-plus-face_sd15.bin：与 ip-adapter-plus_sd15 相同，但使用裁剪后的人脸图像作为条件，也就意味着人物脸部的影响会更强，而衣服姿势等信息的影响被极大的降低；

SDXL 1.0 的 IP-Adapter

ip-adapter_sdxl.bin：使用 OpenCLIP-ViT-bigG-14 中的全局图像嵌入作为条件；
ip-adapter_sdxl_vit-h.bin：与 ip-adapter_sdxl 相同，但使用 OpenCLIP-ViT-H-14，作者在git中也提到了，两个模型对结果的影响实测下来发现并不大；
ip-adapter-plus_sdxl_vit-h.bin：使用 OpenCLIP-ViT-H-14 中的补丁图像嵌入作为条件，比 ip-adapter_sdxl 和 ip-adapter_sdxl_vit-h 更接近参考图像,同理，有plus用plus；
ip-adapter-plus-face_sdxl_vit-h.bin：与 ip-adapter-plus_sdxl_vit-h 相同，但使用裁剪后的人脸图像作为条件，这个也是增强脸部信息对最终生成画面的影响程度；

🙌IP-Adapter系列模型使用小梦总结（省流版）

根据你自己使用的大模型版本（1.5 还是sdxl）来选择对应的ip-adapter模型，带sd1.5的就是适配1.5版本大模型的，带sdxl的，当然也就是适配sdxl版本的大模型；
尽量使用plus版本，比不带plus的效果要更好；
如果想要仅仅参考输入画面的脸部信息，那么需要选择带face的版本，如果要参考输入的图片的整体（如衣服、姿势等等），选择不带face的版本；

🎡再看比较新的FaceID系列：

哈，又是一堆各种版本各种型号的faceid模型；

https://huggingface.co/h94/IP-Adapter-FaceID

IP-Adapter-FaceID 目前还是实验阶段的模型，使用人脸识别模型中的人脸 ID 嵌入代替 CLIP 图像嵌入，此外，我们使用 LoRA 来提高 ID 一致性。IP-Adapter-FaceID 只需文字提示即可生成以人脸为条件的各种风格图像，比如现在很多人用IP-Adapter来实现照片换脸，大多使用的就是这个系列的ip-adapter模型；

那这一堆模型又是什么区别呢，我们直接进入总结：

🙌IP-Adapter-FaceID系列模型使用小梦总结（省流版）

根据你自己使用的大模型版本（1.5 还是sdxl）来选择对应的ip-adapter-FaceID模型，带sd1.5的就是适配1.5版本大模型的，带sdxl的，当然也就是适配sdxl版本的大模型；
尽量使用plus版本，比不带plus的效果要更好；
除了portrait版本，其他的版本建议搭配相应的lora来使用，效果会更好；
plusV2版本比plus版本多了可控性，可以通过调整controlnet中脸部结构的权重以获得不同的生成；
portrait版本是一个比较特殊的版本，与 IP-Adapter-FaceID 相同，但用于肖像生成，但是不需要lora，也不需要controlnet。具体来说，它接受多个面部图像以增强相似性（默认为 5），也就是参考同一个人物的多张脸部照片来生成图像，保证生成图像与原人物的一致性；

补充portrait版本的官方示例图：

（前两行是国内的人物，所以手工打码了，要不然发不出来哈，感兴趣可以到原网页查看。）