【stable diffusion】保姆级入门课程02-Stable diffusion（SD）图生图-基础图生图用法

news2025/4/15 18:32:41

学前视频

0.本章素材

1.图生图是什么

2.图生图能做什么

3.如何使用图生图

4.功能区域

4.1.提示词区域

4.2.图片提示词反推区域

1.CLIP反推

2.DeepBooru 反推

4.3.图片上传区域

4.4.结果图区域

4.5.缩放模式

4.6.重绘幅度

7.结语

8.课后训练

学前视频

stable diffusion图生图教程

0.本章素材

	百度网盘	夸克地址
anything模型(二次元模型)	百度网盘提取码：g5uk	夸克网盘提取码:PWLu
chilloutmix模型(真人模型)	百度网盘提取码： qup0	夸克网盘提取码:Ny9P
案例图		夸克网盘
通用提示词		夸克网盘

1.图生图是什么

简单来说：图生图就是依赖图片和提示词进行二次创作。

2.图生图能做什么

图生图的出现是为了弥补文生图的不足，因为文生图有个无法避免的问题，就是随机性太大，当你抽卡抽到一张你喜欢的图片，但是可能某些地方不满足需求，对于文生图而言，是很难进行修正以及修改的。

虽然衣服是实现了白色衬衫，但是背景，人物，发型等都发生了变化，那如果需求再加上在不改动原图的整体风格的情况下，变更衣服的样式，那么文生图就无法做到了。

而图生图则能实现这种效果，下面，我将图生图的功能实现做出详细讲解

3.如何使用图生图

图生图并不是单纯的直接由图片生成图片，图片只是做主体作用，打个比喻，你要做一道麻辣鸡，鸡就是那个图片，但是只有鸡是没有办法做成一道菜的，你还得加上各种调料，配菜，才能得到自己想要的料理。同理，图生图也是由文字与图片共同配合完成的，通过文字去控制原本的图片进行二次创作，从而减少图片生成的随机性，更好的满足我们的需求。

4.功能区域

图生图大部分功能都与文生图的一致，需要讲解的点，都已经标出来，如果有哪块在本章未解答，可以去文生图这章翻阅。

4.1.提示词区域

这块区域的用法和文生图的用法是一样的，但是为什么我要特意拿出来讲解，因为这块和文生图的使用效果会有一点不一样，这块的提示词会作用于结果图，而不是对于原图的描述，这里初学者是很容易混淆的，大多数教程正向提示词都是和原图是有关系的，会让人误解为是对于原图的解释，图生图中无论是正向还是反向提示词都是对于结果图的引导和规范，例如：

原图是女孩，提示词为1boy，则结果图会往男性引导

4.2.图片提示词反推区域

当我们想利用原图进行操作，但是想保留某些特征，让原图和生成图保持相似度时，我们就需要进行提示词编写，此时反推区域就能帮助我们提取原图的特征提示词，例如：

需要注意，反向提示词是不会生成的，还是需要自己进行填写，并且提示词的准确度也并不是百分百，准确度依靠图片中的特征是否足够明显，对于AI生成的图片，图片提示词反推也会更加准确。

1.CLIP反推

生成的提示词更像自然语言，一般是短语形式;

a young woman is posing for a picture in a t - shirt with a mountain scene on it and a quote on the front, Fan Qi, mountains, computer graphics, neo-romanticism

一位年轻女子正在摆姿势拍照，她穿着一件t恤，上面有山景，正面写着一句话:范琦，山，电脑图形，新浪漫主义

2.DeepBooru 反推

DeepBooru 反推注重对于图片进行标签化，生成的大多数是单词，对于二次元图片的反推尤其擅长

1girl, 3d, artist_name, asian, bangs, black_eyes, black_hair, brown_eyes, closed_mouth, indoors, lips, long_hair, looking_at_viewer, nose, photo_(medium), photo_inset, photorealistic, realistic, shirt, short_sleeves, solo, t-shirt, upper_body, white_shirt

女孩，3d，艺术家，亚洲人，刘海，黑眼睛，黑头发，棕色眼睛，闭着嘴，室内，嘴唇，长发，看着观众，鼻子，照片\(medium\)，照片插页，逼真的，逼真的，衬衫，短袖，独奏，t恤，上身，白衬衫

两种反推并没有明显的优略之分，CLIP更加容易读懂，DeepBooru则更容易进行修改，但是我个人使用而言，我还是比较喜欢用DeepBooru，因为多数情况下图片生成需要多次调试，标签化的提示词更容易进行替换和新增，也更好设置权重。

4.3.图片上传区域

可以选择点击上传或者拖动到上传区域，但是注意的是，图片名称不要携带中文字符或者空格之类的，当名称携带中文字符时，使用CLIP反推时会报：


TypeError: stat: path should be string, bytes, os.PathLike or integer, not NoneType

使用其他图生图功能时也有可能会出现类似问题，这里再次强调一下，文件和文件夹不要使用中文字符，甚至纯数字命名，最好是使用英文命名，以避免各种奇怪的问题。

4.4.结果图区域

输出结果图的地方，也可以根据结果图进行再次修改，此时点击结果图下方的图生图就可以了，这样原图就会变成结果图

4.5.缩放模式

缩放模式其实就是结果图的大小按照什么方式进行调整的，在拖动宽度或者高度时，会出现一个红色的框框，那就是结果图的大小，一般来说通过调整宽度和高度，默认使用拉伸就可以了

4.6.重绘幅度

这个与文生图高清修复的重绘幅度相似，用白话文来解释：就是结果图和原图有多少相似度，重绘幅度越高，结果图和原图越不像，重绘幅度越低，结果图和原图则越相似，当重绘幅度为0时，输出原图，重绘幅度为1时，原图和结果图没有任何关系。可以看出0.6之后结果集和原图的相似度就开始有较大的差距了，建议重绘幅度0.2到0.7即可。