SD3刚发布不久,最新的SD3-Turbo就来了:只需要4步就能超过MidjourneyV6!

news2025/1/11 23:47:29

StabilityAI刚刚发布了SD3-Turbo的论文:Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation。

SD3-Turbo采用了一种新的蒸馏方法:Latent Adversarial Diffusion Distillation (LADD),与基于像素的ADD(Adversarial Deformation-Driven Diffusion)相比,LADD利用了预训练latent diffusion model的生成特征。这种方法简化了训练过程并提高了性能,使得能够合成高分辨率的多宽高比图像。

将LADD应用于Stable Diffusion 3(8B),得到了SD3-Turbo,这是一个快速的模型,仅使用四步无引导采样就能匹配最先进的文本到图像生成器的性能。此外,这里还系统地研究了它的scaling能力,并展示了LADD在各种应用中的有效性,如图像编辑和图像inpainting。

文章参考自SD3-Turbo来了:只需要4步就能超过MidjourneyV6!,感谢博主的辛苦工作!

图片

LADD架构图如下,ADD(上两行)在像素空间计算了一个蒸馏损失,并在DINOv2特征之上计算了一个对抗性损失,因此需要从潜在空间到像素空间进行较高成本的解码。而在LADD(下一行)中,使用教师模型进行合成数据生成,并使用其特征进行对抗性损失计算,这可以完全在潜在空间中进行训练。

图片

LADD蒸馏方法有很好的scaling能力:

图片

基于LADD的SD3-Turbo超过之前的LCM和SDXL-Lighting:

图片

SD3-Turbo只需要4步,在生成效果上可以匹敌SOTA的模型,如Midjourney V6 和DALL-E 3。

图片

此外,LADD还可以用于图像编辑:

以及图像inpainting:

图片

 感谢你看到这里,也欢迎点击关注下方公众号或者扫描添加下方公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1531426.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

elment-ui el-tabs组件 每次点击后 created方法都会执行2次

先看错误的 日志打印: 错误的代码如下: 正确的日志打印: 正确的代码如下: 前言: 在element-ui的tabs组件中,我们发现每次切换页面,所有的子组件都会重新渲染一次。当子页面需要发送数据请求并且子页面过多时,这样会过多的占用网络资源。这里我们可以使用 v-if 来进行…

HarmonyOS NEXT应用开发之左右拖动切换图片效果案例

介绍 本示例使用滑动手势监听,实时调整左右两侧内容显示区域大小和效果。通过绑定gesture事件中的PanGesture平移手势,实时获取拖动距离。当拖动时,实时地调节左右两个Image组件的宽度,从而成功实现左右拖动切换图片效果的功能。…

python接口自动化测试数据和代码分离解析

common中存放的是整个项目中公共使用的封装方法 从工程目录上可以看到区分 datas中专门存放测试数据(yml文件) cases中专门集中存放测试用例 ... 数据分离的第一步先找到工程项目路径 1 2 3 4 5 6 7 8 9 10 11 12 # -*- encoding: utf-8 -*- """ __Software…

通过docker容器安装zabbix6.4.12图文详解(监控服务器docker容器)

目录 一、相关环境及镜像二、zabbix-server服务端部署1.使用docker创建zabbix-server服务端(1). 创建专用于Zabbix组件容器的网络(2). 启动空的MySQL服务器实例(3). 启动Zabbix Java网关实例(4). 启动Zabbix服务器实例并将实例与创建的MySQL服务器实例链接(5). 启动Zabbix Web界…

深入理解Ubuntu22:探索Linux操作系统的功能与应用

一、linux (一)、安装 1、电脑可以安装双系统,即在一套硬件上只能同时运行一个操作系统,例:C盘安装win,D盘安装linux。 2、虚拟机 虚拟机需要硬件支持,并需开启VT-x. 如:Virtual…

华为OD机试真题-推荐多样性-2024年OD统一考试(C卷)

题目描述: 推荐多样性需要从多个列表中选择元素,一次性要返回N屏数据(窗口数量),每屏展示K个元素(窗口大小),选择策略: 1. 各个列表元素需要做穿插处理,即先从第一个列表中为每屏选择一个元素,再从第二个列表中为每屏选择一个元素,依次类推 2. 每个列表的元素尽量均…

②免费AI软件开发工具测评:通义灵码 VS 码上飞

前言 我又双叒叕来测评了!上次给大家带来的是iFlyCode和CodeFlying两款产品的测评,受到了大家的一致好评~ 今天咱就继续来聊聊,这次我们选的的对象是通义灵码和码上飞,从名字上也能看到出来这两款产品一定是跟软件开发有关系的&…

【c++】c++背景(c++的前世今生)

主页:醋溜马桶圈-CSDN博客 专栏:c_醋溜马桶圈的博客-CSDN博客 gitee:mnxcc (mnxcc) - Gitee.com 目录 1. 什么是C 2. C发展史 3. C的重要性 3.1 语言的使用广泛度 3.2在工作邻域 1. 操作系统以及大型系统软件开发 2. 服务器端开发 3. …

模型部署——RKNN模型量化精度分析及混合量化提高精度

模型部署——RKNN模型量化精度分析及混合量化提高精度(附代码)-CSDN博客 3.1 量化精度分析流程 计算不同情况下,同一层网络输入值的余弦距离,来近似的查看每一层精度损失的情况。具体量化精度分析的流程如下: 3.2 量…

【好用】Star超36.8k,一个的免费通用数据库管理工具

关于数据库管理工具,大家可能都在用SQLyog、Navicat、MySQL-Front、SQL Studio、MySQL Workbench等等,这些管理工具不是不好用,就是要变魔术才可以用,今天 V 哥给大家推荐一个即好用,又免费的可视化通用数据库管理工具…

对JS文件进行压缩未通过,对WXML文件进行压缩未通过 问题解决

问题描述 在使用uniapp 开发微信小程序,进行上架发布时 代码质量栏 出现对JS文件进行压缩未通过,对WXML文件进行压缩未通过 问题。 虽然现实代码上传成功,但是作为一个合格的猿人,肯定是要解决的。那么如何解决呢? …

java-ssm-jsp基于javaweb的宠物猫狗商业系统

java-ssm-jsp基于javaweb的宠物猫狗商业系统 获取源码——》公主号:计算机专业毕设大全 获取源码——》公主号:计算机专业毕设大全

PMP备考心得 | 策略与技巧大揭秘

1.理解考试大纲:首先,你需要熟悉PMP考试的内容和结构。PMI官网提供了详细的考试大纲,包括项目管理的五个过程组(启动、规划、执行、监控、收尾)和十个知识领域; 2.制定学习计划:根据个人的时间…

【Leetcode-73.矩阵置零】

题目: 给定一个 m x n 的矩阵,如果一个元素为 0 ,则将其所在行和列的所有元素都设为 0 。请使用 原地 算法。 示例 1: 输入:matrix [[1,1,1],[1,0,1],[1,1,1]] 输出:[[1,0,1],[0,0,0],[1,0,1]]示例 2&…

白嫖阿里云程序员日历

https://developer.aliyun.com/topic/lingma/activities/202403?taskCode14508&recordId44f3187f7950776f494eec668a62c65f#/?utm_contentm_fission_1 「通义灵码 体验 AI 编码,开 AI 盲盒」 打开链接直接领就行了

基于springboot的社区服务系统的设计与实现

一、系统架构 前端:vuex3 | element-ui 后端:springboot | mybatis-plus 环境:jdk1.8 | mysql | maven | node 二、代码及数据库 三、功能介绍 01. 管理后台-登录 02. 管理后台-首页 03. 管理后台-用户管理 04. 管理后台-业主缴费管理…

编程语言那么多,为什么偏偏是C语言成了大学的必修课?

编程语言那么多,为什么偏偏是C语言成了大学的必修课? 必修JAVA? c#不服 必修Python? JAVA不服 甚至你必修到一半,Python落伍了都有可能。 当年我们还以必修JAVA,JSP为主要论点,然而刚过两年,JSP就成古…

遗传算法 - 函数最优解计算

遗传算法 遗传算法概念 遗传算法的概念是在 1975 年由密切根大学的 J.Holland 提出的,这是一种通过模拟自然进化过程寻找最优解的方法。它遵循达尔文的物竞天择,适者生存的进化准则。基本思想: 初始一个种群,选择种群中适应度高…

Transformer位置编码(Position Embedding)理解

本文主要介绍4种位置编码,分别是NLP发源的transformer、ViT、Sw-Transformer、MAE的Position Embedding 一、NLP transformer 使用的是1d的绝对位置编码,使用sincos将每个token编码为一个向量【硬编码】 Attention Is All You Need 在语言中&#xff0…

Java基础---反射

什么是反射? 反射允许对成员变量,成员方法和构造方法的信息进行编程访问。 这么说可能比较抽象,可以简单理解为:反射就是一个人,可以把类里面的成员变量,成员方法,构造方法都获取出来。 并且可…