字节跳动的 SDXL-LIGHTNING : 体验飞一般的文生图

news2025/2/26 2:29:52

TikTok 的母公司字节跳动推出了最新的文本到图像生成人工智能模型,名为SDXL-Lightning。顾名思义,这个新模型只需很轻量的推理步骤(1,4 或 8 步)即可实现极其快速且高质量的文本到图像生成功能。与原始 SDXL 模型相比,这是一个重大突破,原始 SDXL 模型需要超过 25 个步骤才能达到同等质量。

SDXL-LIGHTNING 简介

虽然 Diffusion 模型在生成任务中取得了出色的结果,但其迭代采样过程既缓慢又计算昂贵。对于实际应用,减少所需的步骤数至关重要。之前的工作尝试了更好的 ODE 求解器、直流和模型蒸馏,但质量在八个或以下的步骤中仍然低于标准。

SDXL 将潜在扩散引入文本到图像的生成,支持高分辨率 1024px 输出。然而,其多步采样进行了 50 多个推论。显然,需要更快的生成速度才能释放扩散模型的全部潜力。这就是 SDXL-Lightning 的用武之地。SDXL-Lightning 通过一步生成 1024 像素来突破界限。

渐进式对抗蒸馏法

SDXL-Lightning 模型同时利用渐进式和对抗性蒸馏。渐进式蒸馏教会学生网络预测密度流上更前方的位置,而对抗性损失则确保学生的预测与教师网络的预测相匹配。

此外,蒸馏过程从 128 步逐步降低到 32 步,再到最后的 1 步,经过多个阶段。在提取具有对抗性损失的模式覆盖率之后,放宽了要求,将质量优先于覆盖率,同时保留整体流程。

这种平衡的方法就是 SDXL-Lightning 能够出色地弥合困扰其他方法的质量保真度权衡的原因。 

SDXL-Lightning 中使用的模型是从 StabilityAI 的稳定扩散 XL 基础中提炼出来的。这确保了生成的图像保持高度的稳定性和连贯性。字节跳动提供了 1 步、2 步、4 步和 8 步蒸馏模型的检查点,每个检查点都有自己独特的生成质量。

  • sdxl_lightning_1step_x0.safetensors
  • sdxl_lightning_2step.safetensors
  • Sdxl_lightning_4step.safetensors
  • sdxl_lightning_8step.safetensors

性能评估

综合评估表明,SDXL-Lightning 为几步文本到图像生成设定了新的最先进技术。定性评估和 CLIP 评分指标均表明,与 LCM、SDXL-Turbo 和原始SDXL模型相比,SDXL-Lightning 可以生成质量更好的图像。

衡量质量和多样性的定量 Fréchet 起始距离 (FID) 分数与其他方法相当。然而,在 299 像素补丁上计算的 FID(评估高分辨率细节)要好得多,与次佳模型相比,得分低 2 倍以上。这验证了 SDXL-Lightning 在 1024 像素图像中生成了极其出色的细节。 

SDXL-LIGHTNING 的配置选项 

检查点可用于 1、2、4 和 8 个推理步骤,允许用户根据需要平衡速度与质量。1 步模型一次生成图像,但质量可能不一致,因此通常建议使用两步或更多步。 

支持两种架构选项——UNet 和 LoRA。 

1. UNET 检查点:2 步、4 步、8 步

UNet 模型使用标准的完整神经网络来调节扩散过程。它们提供最高的图像质量生成,但需要更多内存。BteDance 的 2 步、4 步和 8 步 UNet SDXL-Lightning 模型如下:

  • sdxl_lightning_2step_unet.safetensors
  • sdxl_lightning_4step_unet.safetensors
  • Sdxl_lightning_8step_unet.safetensors

2. LORA 检查点:2 步、4 步、8 步

这些模型还表现出处理不同纵横比的可靠能力,并展示了与现有 LoRA 模块的兼容性,以便在基本模型之间轻松转移。LoRA模型采用轻量级回归方法。图像质量略低于UNet。 

但 SDXL-Lightning 现已将 Loras 更新为 .safetensors 文件。这些更新的 .safetensors 文件提供了改进的稳定性和连贯性,从而产生更加真实和视觉上吸引人的图像。Loras 更新为 .safetensors 很有帮助,因为这些压缩文件可以节省存储空间。

  • sdxl_lightning_2step_lora.safetensors
  • sdxl_lightning_4step_lora.safetensors
  • Sdxl_lightning_8step_lora.safetensors

SDXL-LIGHTNING 与 COMFYUI 

该模型还可以与 ComfyUI 集成,以获得更人性化的体验。无论您选择 1 步、2 步、4 步、8 步 UNet 还是 2 步、4 步、8 步 UNet loras,ComfyUI 都提供了从文本生成图像的简化工作流程。以下是各个 ComfyUi 工作流程的下载链接:

  • ComfyUI 完整的一步工作流程
  • ComfyUI 完整的 UNet 工作流程
  • ComfyUI LoRA 工作流程

SDXL-LIGHTNING图像生成实例

以下实例是本地搭建的服务器运行SDXL-LIGHTNING模型生成,使用的是 sdxl_lightning_4step.safetensors

Prompt: An Asian firefighter with a rugged jawline rushes through the billowing smoke of an autumn blaze.

Prompt: A close-up of an Asian lady with sunglasses.

Prompt: The 90s, a beautiful woman with a radiant smile and long hair, dressed in summer attire.

Prompt: A majestic lion stands proudly on a rock, overlooking the vast African savannah.

Prompt: A monkey making latte art.

Prompt: In a fantastical scene, a creature with a human head and deer body emanates a green light.

Prompt: A delicate porcelain teacup sits on a saucer, its surface adorned with intricate blue patterns.

Prompt: A pickup truck going up a mountain switchback.

Prompt: A tanned woman, dressed in sportswear and sunglasses, climbing a peak with a group during the summer.

Prompt: A dolphin leaps through the waves, set against a backdrop of bright blues and teal hues.

Prompt: A boy jumping off a spaceship.

上手实操视频

本视频是在自己本地搭建的服务器上运行,GPU是NVIDIA RTX-4090。视频未作加速,可以看到,生成图片的速度还是非常快的。

字节跳动SDXL-Lightning文生图模型使用演示

结论

借助 SDXL-Lightning,字节跳动在文本到图像合成方面取得了重大进步。经过 LoRA 训练的模型进一步扩展了即插即用模块的可用性。然而,与其他生成模型一样,传播错误信息或不当内容也存在滥用风险。为了减轻这些担忧,负责任和道德的发展实践是必要的。但总的来说,像 SDXL-Lightning 这样的模型体现了人工智能在计算创造力方面的巨大潜力。其方法也为扩散模型蒸馏研究提供了新的方向。有关更多技术细节,请访问项目 arXiV 论文。

作者个人Blog文章地址:字节跳动的 SDXL-LIGHTNING : 体验飞一般的文生图 - HY's Blog

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1504908.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

嵌入式 Linux 学习

在学习嵌入式 Linux 之前,我们先来了解一下嵌入式 Linux 有哪些东西。 1. 嵌入式 Linux 的组成 嵌入式 Linux 系统,就相当于一套完整的 PC 软件系统。 无论你是 Linux 电脑还是 windows 电脑,它们在软件方面的组成都是类似的。 我们一开电…

.NET高级面试指南专题十六【 装饰器模式介绍,包装对象来包裹原始对象】

装饰器模式(Decorator Pattern)是一种结构型设计模式,用于动态地给对象添加额外的职责,而不改变其原始类的结构。它允许向对象添加行为,而无需生成子类。 实现原理: 装饰器模式通过创建一个包装对象来包裹原…

【数据可视化】动手用matplotlib绘制关联规则网络图

下载文中数据、代码、绘图结果 文章目录 关于数据绘图函数完整可运行的代码运行结果 关于数据 如果想知道本文的关联规则数据是怎么来的,请阅读这篇文章 绘图函数 Python中似乎没有很方便的绘制网络图的函数。 下面是本人自行实现的绘图函数,如果想…

【深度学习笔记】6_9 深度循环神经网络deep-rnn

注:本文为《动手学深度学习》开源内容,部分标注了个人理解,仅为个人学习记录,无抄袭搬运意图 6.9 深度循环神经网络 本章到目前为止介绍的循环神经网络只有一个单向的隐藏层,在深度学习应用里,我们通常会用…

three.js如何实现简易3D机房?(四)点击事件+呼吸灯效果

接上一篇: three.js如何实现简易3D机房?(三)显示信息弹框/标签:http://t.csdnimg.cn/5W2wA 目录 八、点击事件 1.实现效果 2.获取相交点 3.呼吸灯效果 4.添加点击事件 5.问题解决 八、点击事件 1.实现效果 2.…

ChatGPT发不出消息?GPT发不出消息怎么办?

前言 今天发现,很多人的ChatGPT无法发送信息,我就登陆看一下自己的GPT的情况,结果还真的无法发送消息,ChatGPT 无法发送消息,但是能查看历史的对话,不过通过下面的方法解决了。 第一时间先打开官方的网站&a…

Mint_21.3 drawing-area和goocanvas的FB笔记(七)

FreeBASIC gfx 基本 graphics 绘图 8、ScreenControl与屏幕窗口位置设置 FreeBASIC通过自建屏幕窗口摆脱了原来的屏幕模式限制,既然是窗口,在屏幕坐标中就有它的位置。ScreenControl GET_WINDOW_POS x, y 获取窗口左上角的x, y位置;ScreenC…

【REST2SQL】11 基于jwt-go生成token与验证

【REST2SQL】01RDB关系型数据库REST初设计 【REST2SQL】02 GO连接Oracle数据库 【REST2SQL】03 GO读取JSON文件 【REST2SQL】04 REST2SQL第一版Oracle版实现 【REST2SQL】05 GO 操作 达梦 数据库 【REST2SQL】06 GO 跨包接口重构代码 【REST2SQL】07 GO 操作 Mysql 数据库 【RE…

设计模式学习系列 -- 随记

文章目录 前言 一、设计模式是什么? 二、设计模式的历史 三、为什么以及如何学习设计模式? 四、关于模式的争议 一种针对不完善编程语言的蹩脚解决方案 低效的解决方案 不当使用 五、设计模式分类 总结 前言 最近可能工作生活上的稳定慢慢感觉自己丢失…

掌握 Vue3、Vite 和 SCSS 实现一键换肤的魔法步骤

前言 一个网站的换肤效果算是一个比较常见的功能,尤其是在后台管理系统中,我们几乎都能看到他的身影,这里给大家提供一个实现思路。 搭建项目 vitevue3搭建项目这里就不演示了,vite官网里面讲得很清楚。 注:这里使…

浅析开源内存数据库Fastdb

介绍: Fastdb是免费开源内存数据库,其优秀的性能,和简洁的C代码,让我学习使用过程中收益颇多,但是国内中文相关研究的文章相当稀少,外文我查询相当不便。有兴趣的朋友可以通过以下网站访问:Mai…

java-ssm-jsp基于ssm的冰淇淋在线购买网站

java-ssm-jsp基于ssm的冰淇淋在线购买网站 获取源码——》公主号:计算机专业毕设大全

【STM32】HAL库 CubeMX 教程 --- 通用定时器 TIM2 定时

实验目标: 通过CUbeMXHAL,配置TIM2,1s中断一次,闪烁LED。 一、常用型号的TIM时钟频率 1. STM32F103系列: 所有 TIM 的时钟频率都是72MHz;F103C8不带基本定时器,F103RC及以上才带基本定时器。…

react实战——react旅游网

慕课网react实战 搭建项目问题1.按照官网在index.tsx中引入antd出错?2.typescript中如何使用react-router3.react-router3.1 V63.2 V53.3V6实现私有路由 4.函数式组件接收props参数时定义数据接口?5.使用TypeScript开发react项目:6.要使一个组…

探索stable diffusion的奇妙世界--01

目录 1. 理解prompt提示词: 2. Prompt中的技术参数: 3. Prompt中的Negative提示词: 4. Prompt中的特殊元素: 5. Prompt在stable diffusion中的应用: 6. 作品展示: 在AI艺术领域,stable di…

数据结构——线性表顺序表示详解

目录 1.线性表的类型定义 2.基本操作 3.线性表的存储结构 4.补充 1.元素类型说明 2.数组定义​编辑 3.c语言的内存动态分配 4.c的动态存储分配 5.c中的参数传递 引用类型作参数 6.顺序表基本操作的实现 1.线性表的初始化 代码示例: 2.销毁线性表&…

远程连接Linux系统

图形化、命令行 对于操作系统的使用,有2种使用形式: 图形化页面使用操作系统 图形化:使用操作系统提供的图形化页面,以获得图形化反馈的形式去使用操作系统。 以命令的形式使用操作系统 命令行:使用操作系统提供的各…

腾讯云轻量服务器Windows系统使用IIS实现公网直链访问文件

windows方便所以服务器装的windows系统,windows默认不能分享文件直链,只要用IIS建个站点就行了 先弄一台有公网ip的windows系统服务器打开服务器管理器,添加这个 打开IIS右键添加网站 程序池默认,路径选个文件夹作为网站根目录 …

tomcat通过service.bat install方式安装,内存不够了怎么办?

1.通过service.bat安装 安装命令再tomcat的bin目录下,执行命令 .\service.bat install Apache Tomcat 8.5 Tomcat8之后就会在服务里面有个tomcat服务 2. 如何增加tomcat内存呢? 通过service.bat安装肯定再service.bat中配置啊。 再service.bat文件中…

RHCE——一、OpenEuler22.03安装部署及例行性任务

RHCE 一、OpenEuler22.03安装部署及例行性任务 一、网络服务1.准备工作2、RHEL9操作系统的安装部署3、配置并优化OpenEuler22.034、网络配置实验:修改网络配置 二、例行性工作1、 单一执行的例行性任务:at(一次性)at命令详解 2、循…