新智元 | Stable Diffusion 3技术报告流出,Sora构架再立大功!生图圈开源暴打Midjourney和DALL·E 3?

news2025/1/22 16:55:28

本文来源公众号“新智元”,仅用于学术分享,侵权删,干货满满。

原文链接:Stable Diffusion 3技术报告流出,Sora构架再立大功!生图圈开源暴打Midjourney和DALL·E 3?

【新智元导读】Stability AI放出了号称能暴打闭源模型的Stable Diffusion 3的技术报告,采用DiT构架的新模型在灵活性和性能上都达到了新的高度。

Stability AI在发布了Stable Diffusion 3之后,今天公布了详细的技术报告。

论文深入分析了Stable Diffusion 3的核心技术——改进版的Diffusion模型和一个基于DiT的文生图全新架构!

报告地址:https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

通过人类评价测试,Stable Diffusion 3在字体设计和对提示的精准响应方面,超过了DALL·E 3、Midjourney v6和Ideogram v1。

Stability AI新开发的多模态扩散Transformer(MMDiT)架构,采用了分别针对图像和语言表示的独立权重集,与SD 3的早期版本相比,显著提升了对文本的理解和文字的拼写能力。

性能评估

在人类反馈的基础之上,技术报告将SD 3于大量开源模型SDXL、SDXL Turbo、Stable Cascade、Playground v2.5 和 Pixart-α,以及闭源模型DALL·E 3、Midjourney v6 和 Ideogram v1进行了详细的对比评估。

评估员根据与给定提示的一致性、文本的清晰度以及图像的整体美观度选择了每个模型的最佳输出:

测试结果显示,无论是在遵循提示的准确性、文本的清晰呈现还是图像的视觉美感方面,Stable Diffusion 3都达到或超过了当前文生图生成技术的最高水平。

完全没有针对硬件进行过优化的SD 3模型具有8B参数,能够在24GB显存的RTX 4090消费级GPU上运行,并且在使用50个采样步骤的情况下,生成1024x1024分辨率的图像需耗时34秒。

此外,Stable Diffusion 3在发布时将提供多个版本,参数范围从8亿到80亿,从而能以进一步降低使用的硬件门槛。

架构细节曝光

在文生图的过程中,模型需同时处理文本和图像这两种不同的信息。所以作者将这个新框架称之为MMDiT。

在文本到图像生成的过程中,模型需同时处理文本和图像这两种不同的信息类型。这就是作者将这种新技术称为MMDiT(多模态Diffusion Transformer的简称)的原因。

与Stable Diffusion之前的版本一样,SD 3采用了预训练模型来提取适合的文本和图像的表达形式。

具体而言,他们利用了三种不同的文本编码器——两个CLIP模型和一个T5 ——来处理文本信息,同时使用了一个更为先进的自编码模型来处理图像信息。

SD 3的架构是在Diffusion Transformer(DiT)的基础上建立的。由于文本和图像信息的差异,SD 3为这两种信息各自设置了独立的权重。

这种设计相当于为每种信息类型配备了两个独立的Transformer,但在执行注意力机制时,会将两种信息的数据序列合并,这样就可以在各自的领域内独立工作的同时,能保持够相互参考和融合。

通过这种独特的构架,图像和文本信息之间可以相互流动和交互,从而在生成的结果中提高对内容的整体理解和视觉表现。

而且,这种架构未来还可以轻松扩展到其他包括视频在内的多种模态。

得益于SD 3在遵循提示方面的进步,模型能够精确生成集中于多种不同主题和特性的图像,同时在图像风格上也保持了极高的灵活性。

通过重赋权法改进Rectified Flow

除了推出的全新Diffusion Transformer构架之外,SD 3对于Diffusion模型也进行了重大的改进。

SD 3采用了Rectified Flow(RF)策略,将训练数据和噪声沿着直线轨迹连接起来。

这种方法让模型的推理路径更加直接,因此可以通过更少的步骤完成样本的生成。

作者在训练流程中引入了一种创新的轨迹采样计划,特别增加了对轨迹中间部分的权重,这些部分的预测任务更具挑战性。

通过与其他60种扩散轨迹(例如 LDM、EDM 和 ADM)进行比较,作者发现尽管之前的RF方法在少步骤采样中表现更佳,但随着采样步骤增多,性能会慢慢下降。

为了避免这种情况的出现,作者提出的加权RF方法,就能够持续提升模型性能。

扩展RF Transformer模型

Stability AI训练了多个不同规模的模型,从 15 个模块、450M参数到38个模块、8B参数,发现模型大小和训练步骤都能平滑地降低验证损失。

为了验证这是否意味着模型输出有实质性的改进,他们还评估了自动图像对齐指标和人类偏好评分。

结果表明,这些评估指标与验证损失强相关,说明验证损失是衡量模型整体性能的有效指标。

此外,这种扩展趋势没有达到饱和点,让我们对未来能够进一步提升模型性能持乐观态度。

作者在256 *256像素分辨率下,在4096的批大小下,用不同参数数对模型进行了500k步训练。

上图说明了长时间训练较大模型对样本质量的影响。

上表显示了GenEval的结果。当使用作者提出的训练方法并提高训练图像的分辨率时,最大的模型在大多数类别中都表现出色,在总分上超过了 DALL·E 3。

根据作者对不同构架模型的测试对比,MMDiT效果非常好,超过了DiT,Cross DiT,UViT,MM-DiT。

灵活的文本编码器

通过在推理阶段去除占用大量内存的4.7B参数的T5文本编码器,SD 3的内存需求得到了大幅降低,而性能损失微乎其微。

去除这个文本编码器不会影响图像的视觉美感(不使用T5的胜率为 50%),只会略微降低文本的准确遵循能力(胜率为46%)。

然而,为了充分发挥SD 3在生成文字的能力,作者还是建议使用T5编码器。

因为作者发现在没有它的情况下,排版生成文字的性能会有更大的下降(胜率为 38%)。

网友热议

网友们对Stability AI不断撩拨用户但是不让用的行为显得有些不耐烦了,纷纷催促赶快上线让大家使用。

看了技术报考后,网友说看来现在生图圈子要成第一个开源碾压闭源的赛道了!

参考资料:https://stability.ai/news/stable-diffusion-3-research-paper

THE END!

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1511284.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

chrome浏览器插件content.js和background.js还有popup都是什么,怎么通讯

popup 在用户点击扩展程序图标时(下图中的下载图标),都可以设置弹出一个popup页面。而这个页面中自然是可以包含运行的js脚本的(比如就叫popup.js)。它会在每次点击插件图标——popup页面弹出时,重新载入。…

如何阅读“计算机界三大神书”之一 ——SICP

《计算机程序的构造和解释》(Structure and Interpretation of Computer Programs,简记为SICP)是MIT的基础课教材,出版后引起计算机教育界的广泛关注,对推动全世界大学计算机科学技术教育的发展和成熟产生了很大影响。…

plantUML使用指南之序列图

文章目录 前言一、序列图1.1 语法规则1.1.1 参与者1.1.2 生命线1.1.3 消息1.1.4 自动编号1.1.5 注释1.1.6 其它1.1.7 例子 1.2 如何画好 参考 前言 在软件开发、系统设计和架构文档编写过程中,图形化建模工具扮演着重要的角色。而 PlantUML 作为一种强大且简洁的开…

springboot265基于Spring Boot的库存管理系统

基于Spring Boot库存管理系统 Inventory Meanagement System based on Spring Boot 摘 要 当下,如果还依然使用纸质文档来记录并且管理相关信息,可能会出现很多问题,比如原始文件的丢失,因为采用纸质文档,很容易受潮…

《vtk9 book》 官方web版 第3章 - 计算机图形基础 (3 / 5)

3.8 演员几何 我们已经看到了光照属性如何控制演员的外观,以及相机如何结合变换矩阵将演员投影到图像平面上。剩下的是定义演员的几何形状,以及如何将其定位在世界坐标系中。 建模 计算机图形学研究中的一个重要主题是建模或表示物体的几何形状。…

二分查找【详解】

本期介绍🍖 主要介绍:二分查找的简单思路,为什么必须在有序的前提下才能使用二分查找,该怎么用C程序来实现二分查找,二分查找的局限性👀。 文章目录 1. 题目2. 思路3. 前提条件4. 编写程序 1. 题目 在一个有…

Android Studio开发项目——记账簿应用

项目资源: 百度网盘链接:https://pan.baidu.com/s/1zN9lrIypi1t_QpuoBcdBNQ?pwdxj5h 提取码:xj5h 项目设计内容 1.基本功能描述 电子记账本是一种在线财务管理工具,用于帮助用户记录和管理他们的收入与支出。以下是电…

基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的水果新鲜程度检测系统(深度学习模型+UI界面代码+训练数据集)

摘要:开发水果新鲜程度检测系统对于提高农业产量和食品加工效率具有重大意义。本篇博客详细介绍了如何利用深度学习构建一个水果新鲜程度检测系统,并提供了完整的实现代码。该系统基于强大的YOLOv8算法,并结合了YOLOv7、YOLOv6、YOLOv5的对比…

ChatGPT 结合实际地图实现问答式地图检索功能基于Function calling

ChatGPT 结合实际地图实现问答式地图检索功能基于Function calling ChatGPT结合实际业务,主要是研发多函数调用(Function Calling)功能模块,将自定义函数通过ChatGPT 问答结果,实现对应函数执行,再次将结果…

打卡学习kubernetes——了解kubernetes组成及架构

目录 1 什么是kubernetes 2 kubernetes组件 3 kubernetes架构 1 什么是kubernetes kubernetes是一个旨在自动部署、扩展和运行应用容器的开源平台。目标是构建一个生态系统,提供组件和工具以减轻在公共和私有云中运行应用程序的负担。 kubernetes是&#xff1a…

基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的跌倒检测系统详解(深度学习模型+UI界面代码+训练数据集)

摘要:本研究介绍了一个基于深度学习和YOLOv8算法的跌倒检测系统,并对比分析了包括YOLOv7、YOLOv6、YOLOv5在内的早期版本性能。该系统可在多种媒介如图像、视频文件、实时视频流中准确识别跌倒事件。文内详解了YOLOv8的工作机制,并提供了相应…

一套plm系统大约多少钱?彩虹PLM系统

一套PLM(产品生命周期管理)系统的价格因多个因素而异,包括企业规模、需求复杂性、系统功能、技术支持和厂商选择等。一般来说,面向小型和微型企业的PLM产品,其价位在5万元~15万元左右;面向中型企业的中端PL…

STM32---通用定时器(二)相关实验

写在前面:前面我们学习了基本定时器、通用定时器的相关理论部分,了解到通用定时器的结构框图,总共包含六大模块:时钟源、控制器、时基单元、输入捕获、公共部分以及输出捕获。对相关模块的使用也做详细的讲解。本节我们主要是对上…

力扣刷题日记——L724. 寻找数组的中心下标

1. 前言 今天是力扣刷题日记的第二天,今天依旧是一道简单题啊,慢慢来,先看看题目是什么吧。 2. 题目描述 给你一个整数数组 nums ,请计算数组的 中心下标。 数组 中心下标 是数组的一个下标,其左侧所有元素相加的和…

数据结构入门(3)顺序表和链表

1.线性表 线性表(linear list)是n个具有相同特性的数据元素的有限序列。 线性表是一种在实际中广泛使 用的数据结构,常见的线性表:顺序表、链表、栈、队列、字符串... 线性表在逻辑上是线性结构,也就说是连续的一条直…

汤唯短发造型:保留经典和适合自己的风格,也许才是最重要的

汤唯短发造型:保留经典和适合自己的风格,也许才是最重要的 汤唯短发造型登上Vogue四月刊封面,引发网友热议。#李秘书讲写作#说说是怎么回事? 这次Vogue四月刊的封面大片,汤唯以一头短发亮相,身穿五颜六色的…

Python笔记:函数

Python函数定义规则: 函数代码块以def关键词开头,后接函数标识符名称和圆括号()。任何传入参数和自变量必须放在圆括号中间,圆括号之间可以用于定义参数。return [表达式] 结束函数,选择性地返回一个值给调用方,不带表…

力扣(LeetCode)142.环形链表 II

本博客讲解一道以前大厂面试常考的链表oj题 ——————————————————————— 题目介绍: 给定一个链表的头节点 head ,返回链表开始入环的第一个节点。 如果链表无环,则返回 null。 如果链表中有某个节点,可以通…

【C语言】操作符相关知识点

移位操作符 << 左移操作符 >>右移操作符 左移操作符 移位规则&#xff1a; 左边抛弃、右边补0 右移操作符 移位规则&#xff1a; 首先右移运算分两种&#xff1a; 1.逻辑移位 左边用0填充&#xff0c;右边丢弃 2.算术移位 左边用原该值的符号位填充&#xff0c;…

桥接模式以及在JDBC源码剖析

介绍&#xff1a; 1、桥接模式是指&#xff1a;将实现和抽象放在两个不同类层次中&#xff0c;使两个层次可以独立改变 2、是一种结构型设计模式 3、Bridge模式基于类的最小设计原则&#xff0c;通过使用封装、聚合以及继承等行为让不同的类承担不同的职责。 4、特点&#xff1…