SDXL 1.0 介绍和优缺点总结

news2024/9/23 9:33:53

2023年7月26日:Stability. AI 发布SDXL 1.0,这是对其生成模型的又一次重大更新,带来了突破性的变化。

SDXL 1.0包括两种不同的模型:

sdxml -base-1.0:生成1024 x 1024图像的基本文本到图像模型。基本模型使用OpenCLIP-ViT/G和CLIP-ViT/L进行文本编码。

sdxml -refiner-1.0:一个图像到图像的模型,用于细化基本模型的潜在输出,可以生成更高保真度的图像。细化模型只使用OpenCLIP-ViT/G模型。

SDXL 1.0的refiner是基于OpenCLIP-ViT/G的具有6.6B参数模是目前可用的最强大的开放访问图像模型之一。

base模型在第一阶段创建(有噪声的)结果,然后由专门为最后去噪步骤设计的refiner模型进一步处理(基本模型也可以作为一个模块单独使用),以下是一个官方的样例

这种两阶段架构可以在不牺牲速度或要求过多计算资源的情况下实现更高质量图像的生成。在具有8GB VRAM的消费类gpu上SDXL 1.0应该运行良好。

本文不打算介绍更多的模型相关信息,只介绍一些大家可能忽略的问题:

图像质量

默认情况下,SDXL 1.0可以本地生成1024 x 1024的图像。仅这一点就比以前的版本有了很大的改进。SDXL 1.0特别适合鲜艳和准确的颜色。现在还可以生成图像与适当的照明,阴影和对比度,例如:

 Prompt:
 anime artwork An astronaut riding a white horse . anime style, key visual, vibrant, studio anime, highly detailed
 
 Negative prompt:
 photo, deformed, black and white, realism, disfigured, low contrast

除此之外,内容主体通常被放置在图像的中心,使其成为主要焦点。对于初学者来说,这个功能会更加实用,因为生成的图像可以直接使用了。

SDXL 1.0的基础模型要比SD 1.5和SD 2.1更好,特别是在包含艺术风格的提示时。当以提示时,图像的构图基本保持一致,而艺术风格则有所不同。例如:

 Prompt:
 An astronaut riding a white horse, art by Vincent van Gogh
 
 Negative prompt:
 photo, deformed, black and white, realism, disfigured, low contrast

文本编码器和提示

SDXL 1.0现在使用两种不同的文本编码器对输入提示符进行编码。根据他们的论文,该方法已被证明是有效的模型来理解两个不同概念之间的差异。例如:

The Red Square ——一个著名的地点,red square-特定颜色的形状

SDXL 1.0现在只需要几个单词就可以生成高质量的文本。通过调用某些限定词和长提示来获得美观图像的日子已经过去了。

但是CLIP的77个令牌限制仍然是包含在SDXL 1.0中。

高级控制

组合控件(如T2I和ControlNet)目前还不支持,但是官网已经确定正在开发中。在未来用户应该能够在工作流程中无缝地使用这些功能。

水印

SDXL 1.0内置不可见水印功能。如果输入不正确(接受BGR而不是RGB作为输入),水印特性有时会导致不想要的图像伪影。

在使用某些调度器和VAE (0.9 vs 1.0)时,生成的图像中可能会产生问题。但是其中一些问题的原因是已知,所以将来可能会修复。

另外水印这个事会让鉴别更加简单,依靠AI生成内容的行业可能会有很大的影响。

生态

由于SDXL 1.0基于不同的体系结构,所以现有插件必须重新训练和重新集成他们的工作。因此,必须重新构建整个生态系统,这需要大量的时间和资源。

内存消耗

SDXL 1.0的新架构由一个3.5B参数的基本文本到图像模型和一个6.6B参数的图像到图像精细模型组成。虽然8G的GPU可以使用但是相比以前的模型还是需要更高的内存(VRAM)需要图像生成和微调,更多的参数也意味着更长的推理时间

没有标准流程

《Stable Diffusion》的主要问题之一是没有关于正确操作方式的标准。大多数流行的框架和web都有自己的实现,不能跨不同的平台/框架使用。

所以对于新手来说,在自己的工作中适应和使用它是非常复杂的事情。大多数情况下,相同的提示符和设置会在不同的平台/框架上生成两个不同的图像。

陡峭的学习曲线

SD的学习曲线对于普通用户来说是相当陡峭的,特别是对于没有任何编程知识的美工。并且每次个更新后,以前有效的相同提示符现在不再有效。用户必须重新学习构建提示符的新方法,以及如何使用新更新的工具,这也是一个很大的问题。

结论

Stable Diffusion XL 1.0的发布标志着生成人工智能领域的新时代。这也证明了开源项目对社区和背后的公司都有好处。在短短几个月的时间里,它们取得了很大的进步,未来一定会达到一个新的高度。

并且目前看到的好消息是 AUTOMATIC1111的stable-diffusion-webui已经可以支持sdxl1.0了。

https://avoid.overfit.cn/post/9883a9325ffd45e8bfb84546eb9e1b03
作者:Ng Wai Foong

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/814703.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

详解c++继承与多继承

目录 🚄什么是继承🚉继承的概念🚃继承的定义 🚇继承基类成员访问方式的变化🚆基类和派生类对象赋值转换🚐继承时的作用域🚗派生类的默认成员函数🚓继承、友元、静态成员&#x1f69a…

运维级影像归档与通信系统(PACS)源码

运维级医院PACS系统源码,带演示,带使用手册和操作说明书 ,带三维重建与还原功能,开发环境:VC MSSQL。 一、影像归档与通信系统(PACS)概述 PACS影像归档与通信系统”( Picture Archiving and C…

小型双轮差速底盘灭火功能的实现

1. 功能说明 灭火机器人是一种特殊的机器人,专门用于进行火灾扑救和灭火任务。它们通常具备以下功能和特点: ① 火灾侦测:灭火机器人配备了各种传感器和探测设备,可以检测烟雾、温度升高等火灾迹象。 ② 火灾扑救:灭火…

cadence virtuoso layout MOS串联线在layout中合并(merge)掉

如图,net10合并掉 解决办法: shiftE,取消勾选Abut server,save

第六章应用层

1.应用层概述 应用层是计算机网络体系结构的最顶层,是设计和建立计算机网络的最终目的,也是计算机网络中发展最快的部分。 早期基于文本的应用(电子邮件、远程登录、文件传输、新闻组) 20世纪90年代将因特网带入千家万户的万维网www 当今流行的即时通信…

彻底解决IDEA输出中文乱码问题

本文一共有3种方法,针对的情况是输出中文乱码问题 问题描述 无法正确输出中文字符:(请正确分辨自己是哪一种乱码问题!) 解决方法 1、最容易想到 File -> Settings -> File Encodings下设置编码格式为UTF-8…

安卓:JzvdStd——网络视频播放器

目录 一、JzvdStd介绍 JzvdStd的特点和功能: JzvdStd常用方法: 二、JzvdStd使用 1、补充知识: 例子: MainActivity : VideoPageAdapter : activity_main: video_page: …

如何在C#中处理空值

在任何编程语言中开发应用程序时,经常会遇到空异常或空引用异常。空指针或空引用是指不引用有效的内存位置或对象的指针。这是一个困扰程序员已经很久的问题,自从程序员开始编写程序以来。空值是一个特殊的值,表示没有有效值可用。当将空值赋…

hbuilderx主题色分享-github风格

效果 步骤 hbuilderx总共有三种主题,绿柔主题Default,酷黑主题Monokai,雅黑主题Atom One Dark,修改主题色是基于三种主题之一的,不能直接创建一个新主题,比如下方配置是基于Atom One Dark(对象名为[Atom One Dark]),则当前hbuild…

【Sortable】前端拖拽库 | 简洁 | 实用 | 强大

前言 官网 - http://www.sortablejs.com/index.html中文文档 - https://www.itxst.com/sortablejs/neuinffi.htmlnpm - https://www.npmjs.com/package/sortablejs npm下载 npm i sortablejsumd <script src"https://www.itxst.com/package/sortable/sortable.min.js…

达梦数据库食用说明

环境准备 达梦数据库支持Windows、Linux和Unix操作系统&#xff0c;达梦正式版需要授权&#xff0c;我们学习的话选择试用即可&#xff0c;在本机使用VM安装一个Centos&#xff0c;然后去达梦官网下载适用自己平台的安装包。 本教程使用的是VM安装的centos7.9。所以选择X86架…

伯俊ERP与金蝶云星空对接集成表头表体组合查询连通应付单新增(应付单(伯俊)(KD 应付单)ok)

伯俊ERP与金蝶云星空对接集成表头表体组合查询连通应付单新增(应付单(伯俊)&#xff08;KD 应付单&#xff09;ok) 数据源系统:伯俊ERP 伯俊科技&#xff0c;依托在企业信息化建设方面的领先技术与实践积累&#xff0c;致力于帮助企业实现全渠道一盘货。伯俊提供数字经营的咨询…

经典文献阅读之--NoPe-NeRF(优化无位姿先验的神经辐射场)

0. 简介 在没有预先计算相机姿态的情况下训练神经辐射场&#xff08;NeRF&#xff09;是具有挑战性的。最近在这个方向上的进展表明&#xff0c;在前向场景中可以联合优化NeRF和相机姿态。然而&#xff0c;这些方法在剧烈相机运动时仍然面临困难。我们通过引入无畸变单目深度先…

SZMMSZ5246BT1G 稳压二极管(齐纳Zener二极管)的特性和应用详解

关于齐纳二极管&#xff1a;是一种特殊的二极管&#xff0c;也被称为肖特基二极管&#xff08;Schottky Diode&#xff09;。它是由金属与半导体材料的结合构成的。与普通的PN结二极管不同&#xff0c;齐纳二极管的结由金属与半导体材料组成&#xff0c;而不是两个不同的半导体…

菜单 vue3 h函数创建组件

目录 index/.vue <template><div class"menu_table"><divclass"table_row"v-for"(item, index) in menuList"click"item.disabled ! true && itemClick(item)"><!-- :style"{border-top:item.line…

一文了解DMX512透明屏的工作原理

DMX512透明屏是一种新型的显示屏技术&#xff0c;它采用了DMX512控制协议&#xff0c;可以实现透明显示效果。 DMX512是一种数字控制协议&#xff0c;常用于舞台灯光和音响设备的控制&#xff0c;通过DMX512控制器可以实现对透明屏的亮度、颜色、动画等参数的调节。 DMX512透明…

泛微最新漏洞汇总

泛微 e-cology 前台SQL注入漏洞 app.name"泛微 e-cology 9.0 OA" 验证poc: POST /weaver/weaver.file.FileDownloadForOutDoc HTTP/1.1 Host: {{Hostname}} Accept: */* Accept-Encoding: gzip, deflate Accept-Language: zh-CN,zh;q0.9 Connection: close …

探索前端图片如何携带token进行验证

前言 图片在前端开发中扮演了重要的角色&#xff0c;它们不仅仅是美观的元素&#xff0c;还可以传递信息和激发用户的兴趣。随着应用场景的增多&#xff0c;前端开发人员就需要在图片加载过程中携带验证的信息。如 token&#xff0c;用于身份验证、权限控制等方面。通过在图片的…

揭示C语言中CPU对register变量分配的决策过程

揭示C语言中CPU对register变量分配的决策过程 博主简介一、引言1.1、register变量的定义和用途1.2、CPU对register变量分配的重要性 二、CPU寄存器分配的概述2.1、CPU寄存器的作用和程序执行过程中的角色2.2、不同类型的CPU寄存器&#xff08;通用寄存器、特殊寄存器等&#xf…

redis基础总结(数据类型)

Redis十大数据类型 String String 是redis最基本数据类型,一个key对应一个value. String类型是二进制安全的,意思是Redis的string类型可以包含任何数据,比如jpg图片或者序列化的对象; String类型是最基本的数据类型,一个redis中字符串value最多是512M; String类型在redis底层…