Stable Diffusion 免费升级 SDXL 1.0,哪些新特性值得关注?体验如何?5 分钟带你体验!

news2025/1/19 23:08:17

一、引言

7 月 26 日,Stability AI 发布了 SDXL 1.0,号称目前为止,最厉害的开放式图像生成大模型。

它到底有没有网上说的那么炸裂?真的已经实现了像 midjourney 一样 靠嘴出图 的功能吗?相对于之前的版本,增加了哪些新特性?

今天体验了一把,一起来看看!

二、新特性

1、清晰的文字生成

大家都知道,目前的绘画工具,对于文字生成的支持,还不是特别成熟。虽然有一些工具已经可以生成文字了,但生成的总是不太能令人满意。而 SDXL 1.0 在文字生成方面,又向前迈了一步。

比如通过短短一句提示词:a cute cat holds a paper with text "cool",professional photography,就可以生成一只拿着一张写着 “cool” 字样的小猫。

2、更好的理解人体结构

以前的 Stable Diffusino 模型,在生成正确的人体结构方面,存在着明显的问题。比如经常生成多余或者残缺的四肢,以及极度畸形的脸等等。SDXL 1.0 在一定程度上解决了这个问题。

我们都知道,AI 不擅长画手,比如之前为了生成一个正常的手,会加很多的负向提示词、Embedding 或者使用 OpenPose 等插件,而在 SDXL 1.0 中,这些通通都不需要了,或者更确切地说,就算不用这些,生成的人物也比之前的版本也要好很多。

3、自由度大幅提升

在 SDXL 1.0 之前,如果想生成不同风格的图像,必须通过改变大模型或者下载相应的 LoRA 模型来实现,而在 SDXL 1.0 中,可以通过提示词在十余种风格间做无缝切换,包括动漫、摄影、数字插画等等。

4、更短的提示词

在提示词方面,咒语变得更短、更简单了,同时增强了对自然语言的理解,大大降低了我们写提示词的门槛。

  • 之前的提示词,是由一个个单词、词语、逗号等符号组成的词条化的描述,而在 SDXL 1.0 中,可以直接使用自然语言(比如一整个句子)来描述了。
  • 之前的提示词,在描述的时候,除了要写生成主体、场景、环境光线等提示词之外,还需要添加例如 masterpiece、best quality、highres 等画质提示词以及大量的负面提示词。而在 SDXL 1.0 中,这些质量提示词以及负面提示词,都不需要再写了。
  • 对一些概念的理解以及对环境氛围的还原更加到位了。对于概念的理解,官网给出了个例子:比如对于这两个概念 “The Red Square”(一个著名的景点)和 “red square”(一个形状),SDXL 1.0 已经可以区分他俩了。

5、支持更大尺寸和精度的照片

有 Stable Diffusion 出图经验的朋友都知道,之前如果直接生成 1024 x 1024 或更高分辨率的大图,有可能会出现多人多头、肢体错位等的现象,需要使用高清修复或者 Tiled Diffusion 等其他方法才能达到。

而现在,可以直接出 1024 x 1024 或更高分辨率的大图了也不会有问题了。

6、色彩的鲜艳度和准确度

SDXL1.0 在色彩的鲜艳度和准确度上做了很大改进,相对于之前版本,在对比度、光线和阴影上较之前版本更加真实了。

三、如何体验 SDXL 1.0

1、Liblib AI

如果仅仅是为了体验,推荐一个最简单快捷的在线方式:Liblib AI。

Liblib AI 在线出图,一天可以免费出图 300 张,基本满足大部分同学需求。

ps: Liblib AI 在线体验的缺点是,插件少,而且高峰期出图可能会卡。简单体验还是可以,要想深度体验,还是需要使用云部署 Stable Diffusion 或者本地部署 Stable Diffusion 的方式。

Liblib AI 体验步骤很简单,跟着操作,5 分钟搞定!

  1. 在 Liblib AI 中,点 “在线 Stable Diffusion”。

  1. 模型选择带 “SDXL” 的模型,然后输入简单的提示词。

  1. 参数设置。

如果不知道哪个参数出图好,可以直接抄图上的。

采样方法:DPM++ 2M Karras(或其他)

采样步数:30

之前很多时候,我们一般会将采样步数设置成 20,但在 SDXL 中,如果将采样步数设置为 20,会让人感觉图片精细度不够。因此可以将采样步数适当调大一些。

分辨率:1024 x 1024 或其他分辨率。太低可能会影响出图质量。

其他参数:可以默认即可。

  1. 点“生成图片”。

一张使用 SDXL 1.0 生成的图片就出来了,是不是很简单!

2、本地部署

温馨提醒:需要先将本地的 Stable Diffusion WebUI 更新到 1.5.1。

如果之前本地没有部署过 Stable Diffusion WebUI,

Mac 电脑可以参考这篇:Mac 本地部署 Stable Diffusion(超详细,含踩坑点)

Windows 电脑:直接使用秋叶大佬的一键部署安装就可以了。

如果本地已经安装部署过 Stable Diffusion WebUI 了,直接下载下面的两个 SDXL 1.0 的模型,放在 SDW 的根目录/models/Stable-diffusion 目录下即可。

SDXL 1.0 base model 下载

SDXL 1.0 refiner model 下载

这里大家可以发现 SDXL 1.0 有两个模型,一个 base model,一个 refiner model。在使用的时候,先通过 base model 生图,再选择 “发送到图生图”,用 refiner model 进行优化。

第二步使用 refiner model 进行优化的过程,其实相当于通过图生图进行低幅度的重绘来提高图片的画质(这里的重绘幅度不宜设置太高,比如 0.2、0.3 就 ok,也可以根据自己需求)。

当然也可以不进行第二步,只使用 base model 进行图像的生成。

出图方式及具体的参数设置,参照上面 Liblib AI 的方式,这里就不再赘述了。

3、官方提供的方式

Stability AI 官方也提供了几种体验方式:

四、目前的问题

说了半天,SDXL 1.0 多么强大,难道就真的无懈可击了吗?当然不是!

1、一些旧模型、LoRA 模型以及 ControlNet 目前还不支持

比如大部分旧版的模型、LoRA 模型以及 ControlNet 等,用在 SDXL 1.0 上大部分都会失效,因为目前还不支持,需要重新更新才能适配 SDXL 1.0。

另外,SDXL 1.0 只是一个基础大模型,就好比之前的 SD 1.4、SD 1.5,而我们在日常绘画时,往往不会使用这些官方提供的基础模型,而是使用经过这些基础模型进行训练、微调、融合之后的特定模型。

比如我们想画二次元风格的图片,会选择 Cetus-Mix、Counterfeit、AbyssOrangeMix 等二次元风格的大模型,而不会使用官方的基础大模型。

如果我们想画写实风格的图片,会选择 Deliberate、LOFI、Realistic Vision 等大模型,也不会使用官方的基础大模型。

在 SDXL 问世之后,也会涌现出有很多基于 SDXL 训练、微调、融合而成的大模型。目前在 Liblib 等平台上,已经有基于 SDXL 训练的模型了,大家可以试用。而我们日后的绘图,大概率会使用这些基于基础大模型训练、微调、融合而成模型,而不是目前官方提供的 SDXL 的模型。

也就是说,SDXL 1.0 目前只是一个过渡期产品,感兴趣的尝尝鲜、提前了解一些知识还是可以的,但大规模的用于生产,可能还需要一些时间。

2、太耗显存

相对于之前的 Stable Diffusion 版本,明显更耗显存了。官方推荐在 8G 以上的显存显卡上或者云平台上运行。

五、总结

SDXL 1.0 给我们带来最大的好处就是,基本可以实现 靠嘴出图了,使出图方式更加简单

新手小白可以在完全不了解复杂的提示词结构、LoRA、Embedding、扩展插件等知识的情况下,也可以使用自然语言轻松出图了,大大降低了使用门槛

后面肯定还会涌现出一批基于 SDXL 1.0 训练的大模型,到时候肯定会更加惊艳,一起期待一下吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/997245.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【redis进阶】Redis String数据类型为什么不好用

保存1 亿张10字节图片标识,String结构用了 6.4GB 的内存,为什么?如何优化? 数据量多时,比较占空间 存储数量量较多的时候,可以使用list数据结构来替代String,以二级编码的方式将数据存入redis…

[杂谈]-电动汽车有哪些不同类型

电动汽车有哪些不同类型? 文章目录 电动汽车有哪些不同类型?1、概述2、纯电动汽车(BEV)3、燃料电池电动汽车(FCEV)4、插电式混合动力汽车 (PHEV)5、混合动力电动汽车 (HEV)6、轻度混合动力HEV7、…

树形DP()

没有上司的舞会 Ural 大学有 N 名职员,编号为 1∼N。 他们的关系就像一棵以校长为根的树,父节点就是子节点的直接上司。 每个职员有一个快乐指数,用整数 Hi 给出,其中 1≤i≤N。 现在要召开一场周年庆宴会,不过&am…

非结构化数据之XPath学习

1、XPath语法 XPath 是一门在 XML 文档中查找信息的语言。 XPath 可用来在 XML 文档中对元素和属性进行遍历。 <?xml version"1.0" encoding"ISO-8859-1"?> <bookstore> <book><title lang"eng">Harry Potter</t…

实战教程:如何将自己的Python包发布到PyPI上

1. PyPi的用途 Python中我们经常会用到第三方的包&#xff0c;默认情况下&#xff0c;用到的第三方工具包基本都是从Pypi.org里面下载。 我们举个栗子: 如果你希望用Python实现一个金融量化分析工具&#xff0c;目前比较好用的金融数据来源是 Yahoo 和 Google。你可能需要读取…

13-RocketMQ主从同步(HA实现)源码原理

slave每次接收到master发过来的一批commitlog数据时&#xff0c;会看master传过来的这段commitlog的起始端&#xff0c;对应的全局物理偏移量&#xff0c;和slave本地存储的批commitlog数据的最大物理偏移量&#xff0c;是否相等 如果相等&#xff0c;也说明master端没有给sla…

TCP详解之三次握手和四次挥手

TCP详解之三次握手和四次挥手 1. TCP基本认识 1.1 什么是 TCP TCP是面向连接的、可靠的、基于字节流的传输层通信协议。 1.2 TCP协议段格式 我们先来看看TCP首部协议的格式 我们先来介绍一些与本文关联比较大的字段&#xff0c;其他字段不做详细阐述。 序列号&#xff1a…

【javaweb课设源码】图书管理系统SSM Mysql 期末课设

文章目录 简介 简介 本系统使用Javaweb技术制作&#xff0c;数据库为mysql 附带论文报告文档 printf("需要源码&#xff0c;可以baidu学长敲代码")&#xff1b;

input子系统框架、外设驱动开发

一、input子系统基本框架 Linux内核为了两个目的&#xff1a; 简化纯输入类外设&#xff08;如&#xff1a;键盘、鼠标、游戏杆、轨迹球、触摸屏。。。等等&#xff09;的驱动开发统一输入类外设产生的数据格式&#xff08;struct input_event&#xff09;&#xff0c;更加方…

【LeetCode题目详解】第九章 动态规划part10 121. 买卖股票的最佳时机 122.买卖股票的最佳时机II (day49补)

本文章代码以c为例&#xff01; 股票问题是一个动态规划的系列问题 一、力扣第121题&#xff1a;买卖股票的最佳时机 题目&#xff1a; 给定一个数组 prices &#xff0c;它的第 i 个元素 prices[i] 表示一支给定股票第 i 天的价格。 你只能选择 某一天 买入这只股票&#x…

Android学习之路(14) AMS与PMS详解

Android 系统启动流程与 Zygote、SystemServer 在讲解 Zygote 之前&#xff0c;考虑到不同的系统版本源码都不相同&#xff0c;以下分析的源码基于 Android 8.0.0。 init 进程 当系统启动时&#xff0c;init 进程是继 Linux 内核启动后第二个启动的进程&#xff0c;它是在用…

AOP代理中Cglib使用场景

有接口时会使用JDK动态代理 没有接口实现类的情况下使用Cglib进行动态代理

layui手机端使用laydate时间选择器被输入法遮挡的解决方案

在HTML中&#xff0c;你可以使用input元素的readonly属性来禁止用户输入&#xff0c;但是这将完全禁用输入&#xff0c;而不仅仅是禁止弹出输入法。如果你想允许用户在特定条件下输入&#xff0c;你可以使用JavaScript来动态地切换readonly属性。 readonly属性 增加readonly属…

【iOS】MVC

文章目录 前言一、MVC各层职责1.1、controller层1.2、model层1.3、view层 二、总结三、优缺点3.1、优点3.2、缺点 四、代码示例 前言 MVC模式的目的是实现一种动态的程序设计&#xff0c;使后续对程序的修改和扩展简化&#xff0c;并且使程序某一部分的重复利用成为可能。除此…

【交叉熵损失torch.nn.CrossEntropyLoss详解-附代码实现】

CrossEntropyLoss 什么是交叉熵softmax损失计算验证CrossEntropyLoss 输入输出介绍验证代码 什么是交叉熵 交叉熵有很多文章介绍&#xff0c;此处不赘述。只需要知道它是可以衡量真实值和预测值之间的差距的&#xff0c;因而用交叉熵来计算损失的时候&#xff0c;损失是越小越…

【JavaScript手撕代码】new

目录 手写 手写 /* * param {Function} fn 构造函数 * return {*} **/ function myNew(fn, ...args){if(typeof fn ! function){return new TypeError(fn must be a function)}// 先创建一个对象let obj Object.create(fn.prototype)// 通过apply让this指向obj, 并调用执行构…

SHIB去零计划:创新金融未来,打造稳定数字资产新范式

SHIB去零计划&#xff0c;由星火有限公司发起&#xff0c;以区块链去中心化手段解决信任危机&#xff0c;对抗垄断与不公平问题&#xff0c;破解经济制裁&#xff0c;实现稳定数字资产的快速有效、平等互利交易。星火有限公司&#xff0c;一家跨国运营集团&#xff0c;主营业务…

UIStackView入门使用两个问题

项目中横向一排元素&#xff0c;竖向一排元素&#xff0c;可以使用UIStackView。UIStackView的原理不做介绍&#xff0c;这里主要讲两个初次使用容易出现的两个问题。 首先创建一个stackview -(UIStackView*)titleStackView{if(_titleStackView nil){_titleStackView [UISta…

时序分解 | MATLAB实现北方苍鹰优化算法NGO优化VMD信号分量可视化

时序分解 | MATLAB实现北方苍鹰优化算法NGO优化VMD信号分量可视化 目录 时序分解 | MATLAB实现北方苍鹰优化算法NGO优化VMD信号分量可视化效果一览基本介绍程序设计参考资料 效果一览 基本介绍 北方苍鹰优化算法NGO优化VMD&#xff0c;对其分解层数&#xff0c;惩罚因子数做优化…

绝对的搜索利器

苏生不惑第450 篇原创文章&#xff0c;将本公众号设为星标&#xff0c;第一时间看最新文章。 今天分享几个文件搜索利器&#xff0c;下载地址在公众号苏生不惑后台回复2023909&#xff0c;你的小电影要藏不住了。 首先自然是Everything https://www.voidtools.com/zh-cn/&#…