instruct-pix2pix作者团队提出了一种通过人类自然语言指令编辑图像的方法。他们的模型能够接受一张图像和相应的文字指令(也就是prompt),根据指令来编辑图像。作者团队使用两个预训练模型(一个是语言模型GPT-3, 另一个是文本到图像模型Stable Diffusion) 生成大量编辑图像的样例数据,然后基于这些数据训练出InstructPix2Pix模型,能够在推理过程中适用于真实图像和用户提供的指令。由于它在前向传播中执行编辑并且不需要对每个示例进行fine-tine或 inversion,模型仅需几秒钟就可快速完成图片的编辑。
安装instruct-pix2pix插件
instruct-pix2pix 拓展插件地址:
stable-diffusion-webui-instruct-pix2pixhttps://github.com/Klace/stable-diffusion-webui-instruct-pix2pix
打开 WebUI 界面 http://127.0.0.1:7860/
- 点击 "Extensions" 选项卡
- 点击 "Install from URL" 选项卡
- 将 instruct-pix2pix 的git地址粘贴到 "URL for extension's git repository"下面的输入框
- 点击 "Install" 按钮
- 重启 Web UI
安装成功后,插件位于WebUI目录的extensions\stable-diffusion-webui-instruct-pix2pix
下载模型文件
下载 instruct-pix2pix-00-22000.ckpt 模型文件
timbrooks/instruct-pix2pix at mainWe’re on a journey to advance and democratize artificial intelligence through open source and open science.https://huggingface.co/timbrooks/instruct-pix2pix/tree/main将下载的模型放到 models\Stable-diffusion 目录下
- 打开WebUI界面,点击instruct-pix2pix选项卡
- 选择 instruct-pix2pix-00-22000.ckpt 模型
- 拖拽一张图进来,填写Prompt
- 点击生成
CFG 代表 输入文本提示(prompt) 和 原图 在生成过程中的参照权重 这个值决定了生成过程要听从文字指令和原图的程度高低 默认Image CFG:1.5,Text CFG:7.5