大家有没有这样的困惑:在找模型时,老是会出现一些奇怪的标签,像 sd1.5、sdxl 之类的模型后缀,真让人摸不着头脑,一会儿 1.0,一会儿 1.5,一会儿 XL,完全搞不清楚状况。今天就来给大家好好讲讲,这些让人一头雾水的标签究竟是什么意思。
首先,咱们得先了解一些与 SD 相关的基础知识。Stable Diffusion 是一种基于概率论的生成模型,通过特定算法进行训练的人工智能,它能够通过不断迭代与优化,生成高质量的图像和视频。
这一介绍揭示了 SD 的本质,它是一款持续更新的模型软件。在其发展进程中,SD 从 1.0 版本起不断推陈出新,截至目前,推出的版本号已经达到了3.5。当然关于3.5和flux之间的问题是下一次的内容,这次主要讲的是sd1.5和sdxl的历史。
先讲讲 sd 1.0 的发展历程。Stable Diffusion v1.0 于 2022 年 8 月首次公开发布,随后在一段时间内陆续有一些小版本更新,如 1.0 - 1.4 等。这些版本创新点不多,主要是在改进模型的性能与质量方面下功夫。到了 2022 年 10 月,持续时间较长的 sd1.5 版本模型正式推出。用过 sd 模型的朋友都知道,sd 在生成大尺寸图片时,常常会出现多重身的现象。这是因为模型训练时采用的是 512 * 512 的图片,一旦超出这个规格,AI 就会误判为要生成两张图片,所以才会有多重身的问题。
不得不说,1.5 版本发布的时机相当巧妙。在那段时间,由于 sd 的开源特性,与之匹配的插件层出不穷。因此,尽管 1.5 版本也是用 512 * 512 的图片训练出来的,但在丰富的生态插件助力下,制作较大像素的图片也毫无压力,而且还有各种各样的风格模型,所以 1.5 版本的生态在几个版本中是最为出色的。后续发布的 2.0 - 2.1 两个版本,虽然图片的采样数量持续增加,图片规格也提升到了 768 * 768,但始终难以取代 1.5 版本的地位。
直到 2023 年 8 月,sd 的开发公司又推出了 sdxl 版本的模型。
sdxl 与 sd1.5 存在诸多区别:
- 模型组合差异:sd1.5 的生成模型仅有一个;而 sdxl 的生成模型有两个,能够灵活组合出图。其基础模型为 base 模型(负责潜空间放大),精修模型是 refiner 模型(负责细化放大)。
- 训练参数有别:1.5 模型的训练参数为 9.8 亿,XL 的 base 模型有 35 亿参数,refiner 参数模型更是高达 65 亿。并且 1.5 训练的图片分辨率主要是 512 * 512,XL 的训练图片则是 1024 * 1024。训练参数与图像分辨率的不同,使得 XL 生成的图片分辨率更高,细节也更加丰富。
- 提示词写法优化:sd1.5 主要使用短语提示词,而且需要添加诸如考虑更多提示词各部分权重、提升画质等与图片内容无关的提示词。例如,1.5 版本被人诟病最多的一点就是需要添加更多的 Lora 模型才能生成较好的图片。而 sdxl 既可以用短语也能用句子生成图片,无需质量词,对自然语言的理解能力更强。要知道,以往的 sd 都需要使用者学习各种复杂的提示词,还要善于运用各种插件才能生成可用的图片。用自然语言生成精美图片可是另一个 AI 绘画领域巨头 Midjourney 的看家本领,也是其每月收取 50 美金费用的资本所在,如今这道原本坚固的护城河已逐渐被瓦解。
- sdxl生成的图片展示:
总体而言,使用 sdxl 模型生成图片的良品率还是比较可观的。当然,这个良品率也存在一定的局限性。在生成真实图片时,我觉得用 sdxl 模型生成的底图,再结合 sd 经过调教的真实系 Lora 模型,效果会更好。而在动漫图片方面,借助 sdxl 的自然语言处理能力能够更轻松地得到理想的构图,再搭配动漫画风的模型,就能收获不错的成果。下次再来为大家介绍 sd 目前最为精彩的 sd3.5 大模型以及黑森林推出的 flux 大模型。