AI绘画之三_StableDiffusion_界面操作

news2024/11/15 7:12:21

1 介绍

首先,介绍界面中的重要元素,如图所示:

  1. 基础模型:基础模型是最重要的设置项
  2. 文生图:选项卡列出了各大功能,文生图指通过文字生成图片
  3. 图生图:图生图指通过图片和文字生成图片
  4. 修复照片:用于优化图片,提升精度,常用来修复旧照片
  5. 设置:软件设置,VAE模型可在此设置
  6. 插件:用于安装和管理插件,注意命令行启动时应允许安装插件
  7. 提示词:提示词分为正向提示和负向提示,负向提示用于限制可能的问题
  8. 采样方式:常用 Euler a ,DPM2++2M Karras
  9. 提示词相关性:设置画面与提示词的相关性,一般设为5-10,如果太高,色彩会过于饱和
  10. 扩展模型:设置基础模型的附加模型,Embedding和LoRA模型就在此设置
  11. 生成按钮:按此按钮生成图片

2 文生图 & 图生图

文生图和图生图是 SD 的核心功能,其中图生图也支持识别文字描述,故可将文生图看作图生图的一部分。相对来说图生图功能也更丰富。本部分以图生图为主,讲解具体用法。
在这里插入图片描述

2.1 图生图与文生图的差别

可以看到图生图界面比文生图多了一些控件,主要差别如下:

  • 生成图片之前首先要上传一张基础图片。
  • 反推咒语:Interrogate CLIP / Interrogate DeepBooru 按钮分别支持两种方法从图片中提取提示词,第一次使用时在后台下载模型,时间较长。
  • 子功能又细分为以下六种:
    • img2img:基础的图生图功能,常用于整图风格的改变,比如将相片改成2D效果
    • Sketch:涂鸦功能,可在基础图上绘制颜色,画好主色后,细节直接交给 AI 绘制
    • Inpaint:修改部分图,常用于换衣服,换脸等局部修改
    • Inpaint sketch:用涂鸦方式修改部分图
    • Inpaint upload:上传部分图蒙板,以便更精确地改图
    • Batch:批量改图
  • 重绘幅度(Denosing strength):设置值越大表示对原图重绘幅度越大,相对的提示词影响也越大,0.5为分界点,一般设为 0.5 以上就与原图不太像了。

2.2 提示词

2.2.1 提示词格式

  • 提示词用于描述待生成的图像内容
  • 提示词可支持中文,但不如英文理解的好
  • 多个提示词可用逗号隔开,无需适合英文语法
  • 对提示词加权重:用小括号把关键词括起来(curly hair),这样括号一次就是1.1倍权重,那括两次((curly hair))就是1.1×1.1=1.21倍,以此类推;
  • 对提示词减权重:用中括号把单词括起来,如:[curly hair]
  • 指定权重数值 (关键词:数值):(curly hair:1.3)

2.2.2 正向提示词

  • 设定画质:masterpiece, best quality, Highly detailed,
  • 设定人物:性别,年龄,发型,衣服颜色,样式,身材
  • 设定人物表情&动作:微笑,大笑,酷
  • 设定人物关系:如母亲和女儿
  • 设定画面内其它物品
  • 设定方向:如人物背面
  • 设定背景:背景内容,背景风格
  • 设定风格:水彩画 water painting art,水墨画 ink drawing,漫画风 Anime, 鲜艳 Vivid Colors, 前景实背景虚 Bokeh,素描 Sketch,线图 a line drawing
  • 光感镜头:rayonism,perfect lighting, sharp focus

2.2.3 负向提示词

  • 手指问题,手型问题:bad hands, missing fingers, (too many fingers:1.2)
  • 五官问题:(unclear eyes:1.2)
  • 多出来的胳膊和腿:(missing arms:1.2), (extra legs:1.2),(missing legs:1.2), (extra arms:1.2)
  • 画质问题:(worst quality:2), (low quality:2), blurry

2.2.4 注意

  • 上述提示词只是举例,具体请看参考部分的《提示词词缀使用指南》
  • 从 https://civitai.com/ 点击模型生成的图,可以看到提示和参数,用于参考
  • 虽然可以指定风格,但是生成的具体画质和风格主要看 基础模型 和 LoRA模型 的能力
  • 手指问题如果比较严重,建议使用 ControlNet 的 Openpose+Depth,负向提示词,或者After Detailer插件

3 插件

3.1 sd-webui-controlnet

ControlNet 让用户更精确地绘制姿势动作、面部特征、风格等元素。是 SD 中最重要的插件,没有之一,之前文档里已经介绍了,不再缀述。

3.2 sd-webui-tagcomplete

TagComplete 提供了提示词补全功能。当开始输入提示词时,它会列出与输入相关提示词,也可用’<'呼出Lora等提示词。

3.3 sd-webui-segment-anything

Segment-anything 用于自动抠图,效果非常好,它基于人对世界的认知抠图,而非只考虑颜色,能一键抠出整个人。其用法类似ControlNet,安装之后,在Inpaint界面的下方出现 Segment Anything 折叠界面。
需要下载模型:https://dl.fbaipublicfiles.com/segment_anything/sam_vit_h_4b8939.pth
大小为 2.4G,复制到 extensions/sd-webui-segment-anything/models/sam/ 后即可使用,效果如下:

3.4 adetailer

After Detailer 是一种后处理,可选择不同模型对手和脸精调。一般的操作是:利用随机种子生成图片,当遇到一张图片其它方面都比较满意,但手或脸的细节有问题时,固定该种子,打开 After Detailer 功能,重新生成即可。我试了一下,修手一般,修脸效果不错,具体使用的是 face_yolov8n.pt 模型。

3.5 sd-webui-roop

Roop提供换脸功能,由于我的 SD 安排在 Linux 服务器上,可以"科学",整个操作下来,除了一开始网络不好,进入虚拟环境中安装了一下依赖(requirements.txt),后面安装软件下载模型都是自动完成的,比Windows系统简单得多。
其核心使用了 insightface 模型,具体也在 img2img 的左下方操作。
注意:如果换脸不成功,需要关注一下服务后台的提示信息,可能是网络连接问题,可能是 CodeFormer 问题(如果是CodeFormer问题,将Restore Face设成None即可)。

4 实际应用

下面列举几个最常用的使用场景,以介绍具体的使用方法。

4.1 真人相片变卡通形象

4.1.1 准备

  • 一张照片

4.1.2 SD 操作

  • 大模型选二次元风格模型: Kakigori_V2
  • 选择 img2img->img2img 子类别
  • 上传一张真实照片
  • 点 Interrogate CLIP 按钮,用模型分析图片对应的提示词(此步可省略)
  • 根据自己的对图片的理解和目标修改提示词,尽量用英文
  • 修改 denosing 参数为 0.5(根据效果调整)
  • 多生成几张图片,选取喜欢的
  • 注意:生成图片的风格主要看选择的基础模型风格及提示词

4.2 换头&换衣服&换背景

4.2.1 准备

  • 一张照片

4.2.2 SD 操作

  • 大模型选择真实场景模型: v1-5-pruned-emaonly
  • 选择 img2img->inpaint sketch 子类别
  • 上传一张真实照片
  • 切换颜色,绘制需要修改的区域
  • 填写提示词,比如把衣服换成旗袍:cheongsam(一定要填写)
  • 修改 denosing 参数为 0.5(根据效果调整)
  • 多生成几张图片,选取喜欢的

4.3 老照片修复

4.3.1 准备

  • 模糊的图片

4.3.2 SD 操作

  • 修复二次元的照片选“R-ESRGAN 4x+Anime68”,实物照片选“R-ESRGAN 4x+”
  • 反复测试,如果不清楚,把 GFPGAN 强度拉大

4.4 线稿上色

4.4.1 准备

  • 签字笔画稿
  • PhotoShop简单上色

4.4.2 SD操作

  • 大模型选: kakigori_V2.safetensors
  • 选择 img2img->img2img 子类别
  • 正向提示:sexy lips, blonde hair, blue eyes, green dress, lora:add_detail:2
    引处使用了 Lora:add_detail 用于添加细节
  • 导入待上色的画稿作为基础图
  • Sampling method: DPM++ SDE Karras (更为细腻)
  • Donose strength:0.67
  • 打开 ControlNet 折叠
    • Scribble(Enable)
    • Preprocessfor:canny
    • Model:control_sd15_canny
  • 其它项都使用默认值,生成即可
  • 说明:效果主要依靠大模型和两个Lora模型比较给力,另外使用了 ControlNet 的涂鸦模型,它是自由度最高的填色工具,加入了很多细节。

4.5 原理分析

这是目前很喜欢的一组参数,用于将真人图片转成动漫风格,替换背景,保持表情和动作:

a handsome Asia young man in the forest <lora:add_detail:1> <lora:Pyramid lora_Ghibli_n3_0.7+Pyramid lora_Ghibli_v2_0.3:0.57> rayonism
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 1672545665, Size: 512x512, Model hash: 8eccdfe4b6, Model: deepboys25D_v30, Denoising strength: 0.63, ControlNet 0: "preprocessor: scribble_xdog, model: control_sd15_scribble [fef5e48e], weight: 1, starting/ending: (0, 1), resize mode: Crop and Resize, pixel perfect: False, control mode: Balanced, preprocessor params: (512, 32, 200)", Lora hashes: "add_detail: 7c6bad76eb54, Pyramid lora_Ghibli_n3_0.7+Pyramid lora_Ghibli_v2_0.3: 895eb832de9d", Version: v1.5.1

其核心点如下(按重要性排序):

  • 选了一个2.5D风格的底模,能很好地还原人物,人物形象有特色、统一、稳定,明度精细度均不错
  • 使用了 ControlNet 的 scribble 涂鸦功能 scribble_xdog,这样既可以将 denosing 设大,让画面变化更加丰富,又有效地控制了人物的轮廓和表情变化
  • 提示词对年龄、性别、人种、背景起到了简单的限制作用
  • 使用了光照提示词 rayonism,外加 LoRA: add detail,精细刻画提升了画面质感
  • 背景使用 LoRA:Ghibli 吉卜力风格(类似宫崎骏动画风格)

5 参考

Stable Diffusion 提示词词缀使用指南(Prompt)
Stable Diffusion 图生图(img2img)干货技巧,值得收藏
stable diffusion插件
Stable Diffusion-采样器篇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/902143.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LLM大模型生产部署的12个最佳实践

大型语言模型 (LLM) 彻底改变了自然语言处理和理解领域&#xff0c;实现了跨各个领域的广泛人工智能应用。 然而&#xff0c;在生产中部署 LLM 应用程序也面临着一系列挑战。 从解决自然语言的歧义到管理成本和延迟&#xff0c;有几个因素需要仔细考虑。 推荐&#xff1a;用 NS…

腾讯云轻量应用服务器配置(详细版)

腾讯云轻量应用服务器CPU内存带宽配置高&#xff0c;成本很低&#xff0c;腾讯云百科来详细说下腾讯云服务器从购买、配置到网站上线全流程&#xff0c;包括轻量服务器配置选择、应用镜像选择、重置密码、防火墙开放端口教程等详细教程&#xff1a; 目录 一&#xff1a;注册腾…

jsp 网络社区便利店系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 JSP 网络社区便利店系统是一套完善的java web信息管理系统&#xff0c;对理解JSP java编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5开发&#xff0c;数据库为Mysql5.…

解决Kibana(OpenSearch)某些字段无法搜索问题

背景 最近在OpenSearch查看线上日志的时候&#xff0c;发现某个索引下有些字段无法直接在界面上筛选&#xff0c;搜索到也不高亮&#xff0c;非常的不方便&#xff0c;就像下面这样 字段左侧两个筛选按钮禁用了无法点击&#xff0c;提示 Unindexed fields can not be searched…

Ubuntu系统下搭建QtCreator开发环境详细过程(Qt简介;Linux下安装QtCreator)

关于Qt的相关介绍&#xff0c;可以参考QT从入门到实战x篇&#xff0c;Qt 5.9 C开发指南&#xff0c;对于重复部分&#xff0c;本栏目不做详细介绍。关于Linux的基础&#xff0c;本人将重新整理一个栏目&#xff0c;就叫Linux基础吧&#xff0c;有需要的可以后期关注下。 文章目…

Apache ShenYu 学习笔记一

1、简介 这是一个异步的&#xff0c;高性能的&#xff0c;跨语言的&#xff0c;响应式的 API 网关。 官网文档&#xff1a;Apache ShenYu 介绍 | Apache ShenYu仓库地址&#xff1a;GitHub - apache/shenyu: Apache ShenYu is a Java native API Gateway for service proxy, pr…

和韦老师相约RISC-V交流会​

关注、星标公众号&#xff0c;直达精彩内容 来源&#xff1a;技术让梦想更伟大作者&#xff1a;李肖遥 和韦老师相约RISC-V交流会&#xff0c;最近公司项目有在用xuantie C906的core&#xff0c;一直在使用和学习riscv&#xff0c;正巧有个xuantie主题的训练会&#xff0c;想来…

Component name “Home“ should always be multi-word

错误 解决方案 在根目录找到eslintrc.js文件&#xff0c;配置关闭名称的校验&#xff0c;在该文件中&#xff0c;找到rules进行配置&#xff0c;如下代码&#xff1a; rules: {vue/multi-word-component-names: off, // 关闭名称校验}

查询投稿会议的好用网址

会议伴侣 https://www.myhuiban.com/ 艾思科蓝 https://www.ais.cn/

什么是Eureka?以及Eureka注册服务的搭建

导包 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/POM/4.0.0 htt…

MathType7MAC中文版数学公式编辑器下载安装教程

如今许多之前需要手写的内容都可以在计算机中完成了。以前我们可以通过word输入一些简单的数学公式&#xff0c;但现在通过数学公式编辑器便可以完成几乎所有数学公式的写作。许多简单的数学公式&#xff0c;我们可以使用输入法一个个找到特殊符号并输入&#xff0c;但是对于高…

PHP命名空间结合自动加载spl_autoload_register使用

1、控制器命名空间controller/index.php <?php namespace app\admin\controller; class index {public function test(){echo "运行\admin\controller\index-> test()";} }2、模型命名空间model/index.php <?php namespace app\admin\model; class tes…

C语言入门_Day7 逻辑运算

目录&#xff1a; 前言 1.逻辑运算 2.优先级 3.易错点 4.思维导图 前言 算术运算用来进行数据的计算和处理&#xff1b;比较运算是用来比较不同的数据&#xff0c;进而来决定下一步怎么做&#xff1b;除此以外还有一种运算叫做逻辑运算&#xff0c;它的应用场景也是用来影…

【搭建WebDAV服务手机ES文件浏览器远程访问】

文章目录 1. 安装启用WebDAV2. 安装cpolar3. 配置公网访问地址4. 公网测试连接5. 固定连接公网地址6. 使用固定地址测试连接 有时候我们想通过移动设备访问群晖NAS 中的文件,以满足特殊需求,我们在群辉中开启WebDav服务,结合cpolar内网工具生成的公网地址,通过移动客户端ES文件…

2023腾讯云轻量应用服务器配置表大全2核2G/2核4G/4核8G/8核16G

腾讯云轻量应用服务器&#xff08;TencentCloud Lighthouse&#xff09;是新一代开箱即用、面向轻量应用场景的云服务器产品&#xff0c;助力中小企业和开发者便捷高效的在云端构建网站、Web应用、小程序/小游戏、APP、电商应用、云盘/图床和开发测试环境&#xff0c;相比普通云…

01_Redis单线程与多线程

01——Redis单线程与多线程 一、Redis是单线程还是多线程 在谈Redis的单线程或多线程时&#xff0c;需要根据版本来区分。 在redis 3.x之前&#xff0c;redis是单线程的从redis 4.x开始&#xff0c;redis引入多线程。处理客户端请求时&#xff0c;使用单线程&#xff1b;在异…

二维码智慧门牌管理系统:推动企业办公信息化发展的利器

文章目录 前言一、利用二维码智慧门牌管理系统提升企业管理效率二、实现企业信息互通与协作的新模式三、数据安全性与隐私保障 前言 随着科技的不断发展&#xff0c;中国的行政机构改革不断深化&#xff0c;社会也在快速智能化的进程中不断前进。这背景下&#xff0c;传统的纸…

小程序定位到 胶囊的三个点大概中间

话不多说&#xff0c;先上效果图 这个功能实现思路: 首先先拿到这一张整图(快捷&#xff0c;精确)然后获取整个导航栏高度(自定义导航栏,非自定义导航栏忽略这一步)获取三个点的做偏移量&#xff0c;把高度和偏移量给到一个定位到盒子&#xff0c;这个盒子里就放这个图片&…

终极Shell:Zsh(CentOS7 安装 zsh 及 配置 Oh my zsh)

CentOS7 安装 zsh 及 配置 Oh my zsh 我们在通过Shell操作linux终端时&#xff0c;配置、颜色区分、命令提示大都达不到我们预期的效果或者操作较为繁琐。 今天就来介绍一款终极一个及其好用的类Linux系统中的终端软件,江湖称之为马车中的跑车,跑车中的飞行车,史称『终极 Shell…

Linux设置临时目录路径的解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…