目录
学前视频
0.本章素材
1.图生图是什么
2.图生图能做什么
3.如何使用图生图
4.功能区域
4.1.提示词区域
4.2.图片提示词反推区域
1.CLIP反推
2.DeepBooru 反推
4.3.图片上传区域
4.4.结果图区域
4.5.缩放模式
4.6.重绘幅度
7.结语
8.课后训练
学前视频
stable diffusion图生图教程
0.本章素材
百度网盘 | 夸克地址 | |
anything模型(二次元模型) | 百度网盘 提取码:g5uk | 夸克网盘 提取码:PWLu |
chilloutmix模型(真人模型) | 百度网盘 提取码: qup0 | 夸克网盘 提取码:Ny9P |
案例图 | 夸克网盘 | |
通用提示词 | 夸克网盘 |
1.图生图是什么
简单来说:图生图就是依赖图片和提示词进行二次创作。
2.图生图能做什么
图生图的出现 是为了弥补文生图的不足,因为文生图有个无法避免的问题,就是随机性太大,当你抽卡 抽到一张你喜欢的图片,但是可能某些地方不满足需求,对于文生图而言,是很难进行修正以及修改的。
虽然衣服是实现了白色衬衫,但是背景,人物,发型等都发生了变化,那如果 需求再加上在不改动原图的整体风格的情况下,变更衣服的样式,那么文生图就无法做到了。
而图生图则能实现这种效果,下面,我将图生图的功能实现做出详细讲解
3.如何使用图生图
图生图并不是单纯的直接由图片生成图片,图片只是做主体作用,打个比喻,你要做一道麻辣鸡,鸡就是那个图片,但是 只有鸡是没有办法做成一道菜的,你还得加上各种调料,配菜,才能得到自己想要的料理。同理,图生图也是由文字与图片共同配合完成的,通过文字去控制原本的图片进行二次创作,从而减少图片生成的随机性,更好的满足我们的需求。
4.功能区域
图生图大部分功能都与文生图的一致,需要讲解的点,都已经标出来,如果有哪块在本章未解答,可以去文生图这章翻阅。
4.1.提示词区域
这块区域的用法和文生图的用法是一样的,但是为什么我要特意拿出来讲解,因为 这块 和文生图的使用效果会有一点不一样,这块的提示词 会作用于结果图,而不是对于原图的描述,这里初学者 是很容易混淆的,大多数教程正向提示词都是和原图是有关系的,会让人误解为是对于原图的解释,图生图中无论是正向还是反向提示词 都是对于结果图的引导和规范,例如:
原图是女孩,提示词为1boy,则结果图 会往 男性引导
4.2.图片提示词反推区域
当我们想利用原图进行操作,但是想保留某些特征,让原图和生成图保持相似度时,我们就需要进行提示词编写,此时反推区域就能帮助我们提取原图的特征提示词,例如:
需要注意,反向提示词是不会生成的,还是需要自己进行填写,并且提示词的准确度也并不是百分百,准确度依靠图片中的特征是否足够明显,对于AI生成的图片,图片提示词反推也会更加准确。
1.CLIP反推
生成的提示词更像自然语言,一般是短语形式;
a young woman is posing for a picture in a t - shirt with a mountain scene on it and a quote on the front, Fan Qi, mountains, computer graphics, neo-romanticism
一位年轻女子正在摆姿势拍照,她穿着一件t恤,上面有山景,正面写着一句话:范琦,山,电脑图形,新浪漫主义
2.DeepBooru 反推
DeepBooru 反推注重对于图片进行标签化,生成的大多数是单词,对于二次元图片的反推尤其擅长
1girl, 3d, artist_name, asian, bangs, black_eyes, black_hair, brown_eyes, closed_mouth, indoors, lips, long_hair, looking_at_viewer, nose, photo_(medium), photo_inset, photorealistic, realistic, shirt, short_sleeves, solo, t-shirt, upper_body, white_shirt
女孩,3d,艺术家,亚洲人,刘海,黑眼睛,黑头发,棕色眼睛,闭着嘴,室内,嘴唇,长发,看着观众,鼻子,照片\(medium\),照片插页,逼真的,逼真的,衬衫,短袖,独奏,t恤,上身,白衬衫
两种反推并没有明显的优略之分,CLIP更加容易读懂,DeepBooru则更容易进行修改,但是我个人使用而言,我还是比较喜欢用DeepBooru,因为 多数情况下图片生成需要多次调试,标签化的提示词更容易进行替换和新增,也更好设置权重。
4.3.图片上传区域
可以选择点击上传 或者拖动到上传区域,但是 注意的是,图片名称不要携带中文字符或者空格之类的,当名称携带中文字符时,使用CLIP反推时会报:
TypeError: stat: path should be string, bytes, os.PathLike or integer, not NoneType
使用其他图生图功能时也有可能会出现类似问题,这里再次强调一下,文件和文件夹不要使用中文字符,甚至纯数字命名,最好是使用英文命名,以避免各种奇怪的问题。
4.4.结果图区域
输出结果图的地方,也可以根据结果图 进行 再次修改 ,此时点击 结果图下方的图生图就可以了,这样原图就会变成结果图
4.5.缩放模式
缩放模式其实就是结果图的大小按照什么方式进行调整的,在拖动宽度或者高度时,会出现一个红色的框框,那就是结果图的大小,一般来说通过调整宽度和高度,默认使用拉伸就可以了
4.6.重绘幅度
这个与文生图高清修复的重绘幅度相似,用白话文来解释:就是结果图和原图有多少相似度,重绘幅度越高,结果图和原图越不像,重绘幅度越低,结果图和原图则越相似,当重绘幅度为0时,输出原图,重绘幅度为1时,原图和结果图没有任何关系。可以看出0.6之后结果集和原图的相似度就开始有较大的差距了,建议重绘幅度0.2到0.7即可。
正向提示词:masterpiece, best quality, 1gril,red hair
模型:anything
原图:案例图
5.结语
图生图的第一小节 基础图生图就讲解到这里了,内容不算多,但是需要同学们自己进行实操一下,理解每个功能的作用,接下来,我会讲解图生图中绘图(涂鸦)功能
6.课后训练
-
根据案例图,反推出相关的提示词
-
替换案例图人物的眼睛颜色,发色
-
保留人物特征,动作,以及背景,生成一张对应二次元图片(使用anythiny模型)