新一代图像合成模型:Stable Diffusion XL(SDXL)上线!

news2025/1/12 16:17:41

几个使用Stable Diffusion XL 1.0生成的图像示例。
几个使用Stable Diffusion XL 1.0生成的图像示例。

新的SDXL 1.0发布允许在本地计算机上运行的高分辨率人工智能图像合成。

周三,Stability AI发布了其下一代开源权重人工智能图像合成模型Stable Diffusion XL 1.0(SDXL)。它可以根据文本描述生成新颖的图像,并生成比之前版本的Stable Diffusion更多细节和更高分辨率的图像。

就像稳定扩散1.4版一样,在去年8月份发布开源版本后引起轰动一样,任何具备适当硬件和技术知识的人都可以免费下载SDXL文件并在自己的机器上本地运行该模型。

本地操作意味着不需要支付访问SDXL模型的费用,几乎没有审查问题,未来业余爱好者可以微调权重文件(包含使模型功能的中性网络数据),以生成特定类型的图像。

一位Reddit用户名为masslevel的用户使用Stable Diffusion XL的beta版本生成的一张图像

一位Reddit用户名为masslevel的用户使用Stable Diffusion XL的beta版本生成的一张图像。

一位Reddit用户名为masslevel的用户使用Stable Diffusion XL的beta版本生成的一张图像。

升级引擎

与其他潜在扩散图像生成器一样,SDXL从随机噪声开始,并根据文本提示的指导“识别”噪声中的图像,并逐步完善图像。但根据Stability的说法,SDXL利用了一个“三倍大的UNet骨干”,比早期的Stable Diffusion模型具有更多的模型参数来完成其技巧。简而言之,这意味着SDXL架构会进行更多的处理来得到最终的图像。

为了生成图像,SDXL利用了一个“专家组合”架构,指导了一个潜在扩散过程。专家组合是指一种方法,其中一个初始单一模型被训练,然后分成专门为不同阶段的生成过程训练的专业模型,从而提高图像质量。在这种情况下,有一个基本的SDXL模型和一个可选的“精炼器”模型,可以在初始生成后运行,使图像看起来更好。

Table Diffusion XL 包含两个可组合的文本编码器。在 Xander Steenbrugge 的这个例子中,大象和章鱼无缝地组合成一个概念
Table Diffusion XL 包含两个可组合的文本编码器。在 Xander Steenbrugge 的这个例子中,大象和章鱼无缝地组合成一个概念。

值得注意的是,SDXL还使用了两种不同的文本编码器来理解书面提示,从而帮助确定模型权重中编码的相关图像。用户可以为每个编码器提供不同的提示,从而产生新颖、高质量的概念组合。

然后,图像细节和尺寸方面有所改进。 虽然 Stable Diffusion 1.5 是在 512×512 像素图像上进行训练的(使之成为最佳的生成图像大小,但缺少小型特征的细节),但 Stable Diffusion 2.x 将其增加到了 768×768。 现在,Stability AI 建议使用 Stable Diffusion XL 生成 1024×1024 像素图像,比 SD 1.5 生成的大小相似的图片具有更高的细节。

本地控制,开放的理念

我们下载了Stable Diffusion XL 1.0模型,并在Windows机器上使用12GB VRAM的RTX 3060 GPU本地运行它。像ComfyUI和AUTOMATIC1111的Stable Diffusion Web UI这样的接口使得这个过程比去年Stable Diffusion首次推出时更加用户友好,但仍需要一些技术调整才能使其正常工作。如果您想尝试它,本教程可以给您指明方向。

总的来说,我们看到了具有梦幻般质量的图像生成,更多地倾向于商业AI图像生成器Midjourney的风格。正如上面提到的那样,SDXL通过提供更大的图像尺寸和更多的细节而闪耀。它似乎也会更忠实地遵循提示,尽管这是可以争议的。

其他值得注意的改进包括比以前的SD模型更好地渲染手部,并且它更擅长在图像中渲染文本。但是,与早期模型一样,生成高质量的图像仍然像拉一个老虎机的杆子一样,希望得到好的结果。专家们发现,仔细提示(以及大量的试错)是获得更好结果的关键。

   使用SDXL 1.0生成的“人手”AI图像。
使用SDXL 1.0生成的“人手”AI图像

在消费级硬件上本地运行时,SDXL也存在缺点,例如比Stable Diffusion 1.x 和 2.x需要更高的内存要求和更慢的生成时间。(在我们的测试平台上,以20个步骤,欧拉祖先,CFG 8渲染一个1024x1024的图像,SD 1.5花费23.3秒,而SDXL 1.0花费了26.4秒。所得到的SDXL图像比SD 1.5图像少了一些重复元素。)

到目前为止,SD模型制作爱好者似乎对缺乏精细调校的LoRA感到遗憾,这些LoRA适用于SD 1.5风格的模型,可以提升美感(比如3D渲染风格)或某些场景的更详细的背景,但他们预计社区很快就会填补这些空白。

在稳定扩散中,社区是关键,因为该模型可以在本地运行而不需要监督。这对于利用该软件制作有趣艺术品的业余合成器群体来说是一种福利。但这也意味着该软件可以用来创建深度伪造、色情以及虚假信息。对于Stability AI来说,一些负面方面和开放性之间的权衡是值得的。

在本月早些时候发布在arXiv上的SDXL技术报告中,Stability抱怨称,“黑匣子”模型(如OpenAI的DALL-E和Midjourney)不允许用户下载权重,“使得评估这些模型的偏见和局限性在公正客观的方式下变得具有挑战性。”他们进一步声称,这些模型的封闭性“阻碍了可重复性,扼杀了创新,并防止社区在这些模型基础上进行进一步的科学和艺术进步。”

这种理想主义可能对那些感到被威胁的艺术家来说并没有多大的安慰,因为技术利用艺术家的作品碎片来训练像SDXL这样的模型,而未经允许,这不会解决版权诉讼的问题。但即便如此,尽管图像合成技术存在道德问题,它仍在朝着前方不断发展,这正是Stable Diffusion爱好者所希望的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/830662.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

有多卷?智慧金融可视化大屏可以这样子

科学技术不断发展,数字化转型不断加快,智慧金融正成为金融业的新引擎。数字孪生、大数据、物联网等新一代信息技术在推动智慧金融更加强调效率、优化精准营销。数据可视化大屏如何为金融单位提供低代码、定制化的服务,让金融单位的数据可视、…

Python编程从入门到实践练习第三章:列表简介

目录 一、字符串1.1 在字符串中使用变量 二、列表2.1 遍历列表练习题代码 2.2 列表元素的插入和删除涉及方法练习题代码 2.3 组织列表涉及方法练习题代码 2.4 索引 参考书:Python从入门到实践(第二版) 一、字符串 1.1 在字符串中使用变量 f…

【力扣】92. 反转链表 II <链表指针>

【力扣】92. 反转链表 II 给你单链表的头指针 head 和两个整数 left 和 right &#xff0c;其中 left < right。请你反转从位置 left 到位置 right 的链表节点&#xff0c;返回反转后的链表。 示例 1 输入&#xff1a;head [1,2,3,4,5], left 2, right 4 输出&#xff…

JVM面试突击1

JVM面试突击 JDK&#xff0c;JRE以及JVM的关系 我们的编译器到底干了什么事&#xff1f; 仅仅是将我们的 .java 文件转换成了 .class 文件&#xff0c;实际上就是文件格式的转换&#xff0c;对等信息转换。 类加载机制是什么&#xff1f; 所谓类加载机制就是 虚拟机把Class文…

Prometheus实现系统监控报警邮件

Prometheus实现系统监控报警邮件 简介 Prometheus将数据采集和报警分成了两个模块。报警规则配置在Prometheus Servers上&#xff0c; 然后发送报警信息到AlertManger&#xff0c;然后我们的AlertManager就来管理这些报警信息&#xff0c;聚合报警信息过后通过email、PagerDu…

怎么迅速做出高端、还会动的数据图表?来看看这五个大数据可视化神器!

什么叫大数据可视化&#xff1f; 其实很简单。大数据可视化就是指通过图表、图形、地图等视觉化方式&#xff0c;将庞大、复杂的大数据集合转化为直观、易于理解和分析的图像展示。 它的目的是帮助人们更好地理解和解释大数据&#xff0c;发现数据中的模式、趋势和关联&#…

CLion中avcodec_receive_frame()问题

1. 介绍 在提取音视频文件中音频的PCM数据时&#xff0c;使用avcodec_receive_frame()函数进行解码时&#xff0c;遇到了一些问题&#xff0c;代码在Visual Studio 2022中运行结果符合预期&#xff0c;但是在CLion中运行时&#xff0c;获取的AVFrame有错误&#xff0c;和VS中获…

谈「效」风生 |“效能指标”,该由谁来定义?

#第5期&#xff1a;效能指标&#xff0c;该由谁来定义&#xff1f;# 回顾上期《「自动化」聊起来简单&#xff0c;做起来难》我们聊了聊如何打造「自动化」的事&#xff0c;这也是真正实现研发效能提升的必要条件。从单点自动化提升效率&#xff0c;到全工具链自动化&#xff…

【Java环境不会搭建?一文带你读懂Windows下安装Java!】

JKD下载网址 —— https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html 1、如果你是32位系统下载 jdk-8u241-windows-i586.exe&#xff08;32位&#xff09;&#xff1b; 2、如果你是64位系统下载 jdk-8u241-windows-x64.exe&#xff08;64位&…

【freespace】HybridNets: End-to-End Perception Network

目录 摘要 1. 介绍 1.1. 背景 1.2. 相关工作 2. 方法 2.1. 网络体系结构 2.2. 编码器 2.3. 译码器 2.4. 损失函数和训练 3. 实验与评估 3.1. 实验设置 3.2. 评价指标 3.3. 成本计算性能 3.4. 多任务性能 4. 结论与展望 摘要 端到端网络在多任务处理中变得越来越重要…

Godot 4 源码分析 - 增加格式化字符串功能

Godot 4的主要字符串类型为String&#xff0c;已经设计得比较完善了&#xff0c;但有一个问题&#xff0c;格式化这块没怎么考虑。 String中有一个format函数&#xff0c;但这个函数只有两个参数&#xff0c;这咋用&#xff1f; String String::format(const Variant &va…

Rocketmq 定时消息源码分析

定时消息定义 生产者将消息投放到broker后&#xff0c;不会马上被消费者消费。需要等待到特定时间才会被消费。 调用链路 producer 将定时消息写入commitLog线程ReputThead 休息1毫秒&#xff0c;读取一次commitlog数据&#xff0c;写入ConsumeQueue和IndexFile线程Scheduled…

所学即所用:方飞将AI技术运用于反偷猎领域

原创 | 文 BFT机器人 方飞&#xff0c;高中毕业于江苏省常州高级中学&#xff0c;于2007年进入清华大学电子工程系攻读学士学位&#xff0c;2011年本科毕业后赴美国南加州大学计算机系攻读博士&#xff0c;主要从事安全博弈研究&#xff0c;师从安全博弈领域的权威专家 Milind…

vxworks文件系统分析

参考https://www.freebuf.com/articles/endpoint/335030.html 测试固件 https://service.tp-link.com.cn/detail_download_7989.html 固件提取 binwalk解压固件&#xff0c;在第一部分即为要分析的二进制文件&#xff0c;可以拖进ida分析 设置为arm小端字节序&#xff0c;点…

爆火的“为i做e”梗,小红书如何成为年轻人的社交货币?

话题浏览超13亿&#xff0c;“新社交密码”抢占用户心智 2023-08-03 草稿临时预览&#xff0c;有效期剩余59分59秒 请勿包含诱导分享&#xff0c;虚假中奖&#xff0c;违法违纪等信息。 爆火的“为i做e”梗、将MBTI写进个人简介、花样百出的MBI梗图 ...... 从去年5月到现在&…

手把手教你安装Eclipse最新版本的详细教程 (非常详细,非常实用)

简介 首先声明此篇文章主要是针对测试菜鸟或者刚刚入门的小伙们或者童鞋们&#xff0c;大佬就没有必要往下看了。 写这篇文章的由来是因为后边要用这个工具&#xff0c;但是由于某些原因有部分小伙伴和童鞋们可能不会安装此工具&#xff0c;为了方便小伙伴们和童鞋们的后续学习…

第五届宁波市卫生健康系统信息化技能竞赛暨赛前培训成功举办 平凯星辰受邀授课

近日&#xff0c; 第五届宁波市卫生健康系统第五届信息化技能竞赛暨赛前培训在宁波饭店成功举办 。本次培训吸引了来自区、县、市属各级医疗单位的信息化相关负责人参与。宁波市卫生信息中心副主任唐玲作主题发言&#xff0c; 平凯星辰作为中国数据库代表厂商&#xff0c;受邀进…

企业级,Pytest自动化测试框架脚本编写总结,看这篇就够了...

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 用到的知识点&…

web爬虫第四弹 - JS逆向入门(猿人学第一题)

0- 前言 爬虫是一门需要实战的学问。 而对于初学者来说&#xff0c;要想学好反爬&#xff0c;js逆向则是敲门砖。今天给大家带来一个js逆向入门实例&#xff0c;接下来我们一步一步来感受下入门的逆向是什么样的。该案例选自猿人学练习题。猿人学第一题 1- 拿到需求 进入页面…

矩阵怎么求导数(学习笔记)

当标量 拓展到向量的时候 需要弄清楚形状 这里 看图大概是不清晰的 先要看清楚谁是向量 y 是向量 x 是标量 求导之后 仍然还是向量 y 是标量 x 是向量 求导之后 仍然还是向量 两个都是向量 求导之后 是矩阵 标量大家都会的 啊 求导 的意义很重要 如图所示 梯度一定指…