Stable Diffusion 3 发布及其重大改进

news2025/1/22 18:42:05

1. 引言

就在 OpenAI 发布可以生成令人瞠目的视频的 Sora 和谷歌披露支持多达 150 万个Token上下文的 Gemini 1.5 的几天后,Stability AI 最近展示了 Stable Diffusion 3 的预览版。
在这里插入图片描述

闲话少说,我们快来看看吧!

2. 什么是Stable Diffusion 3?

Stable Diffusion 3 Stability AI 最新推出的功能最强大的文本到图像生成的模型。它在处理多文本提示、图像质量甚至文本渲染能力方面都有重大的改进。

目前,该模型套件的参数量从 800M 到 8B 不等。它结合了扩散transformer结构(类似于Sora中的结构)和Flow Matching。

3. Diffusion Transformer Architecture

Diffusion Transformer(DiT)架构代表了一类融合了Transformer技术的新型扩散模型。与通常使用卷积 U-Net 主干网的传统扩散模型不同,DiT 采用Transformer结构对图像的潜在特征表示进行操作。DiT的网络结构如下:
在这里插入图片描述
事实证明,这种架构对于ImageNet等大型数据集上的基于类别条件图像生成任务特别有效,DiTs 在图像质量和生成模型性能方面树立了新的标杆。

4. Flow Matching

Flow Matching (FM)是 一种全新的、无需模拟的连续归一化流量(CNFs)的训练方法,它能以前所未有的规模训练 CNFsFM 的工作原理是对与高斯概率路径(包括扩散路径)兼容的固定条件概率路径向量场进行回归。更多细节,可以读取官方论文。

在这里插入图片描述

这项技术不仅使扩散模型的训练更加稳健,还为使用非扩散概率路径的CNF 进行更快的训练、采样和更好的泛化铺平了道路。

5. SD3新功能

以下是Stable Diffusion 3带来的主要改进:

  • 支持文本渲染
  • 性能提升
  • 多目标提示
  • 更好的图像质量

上述这些改进中,最令人兴奋的功能是它能够渲染文本,类似于 openAI Dall-E 3 和谷歌的Imagen 2Emad Mostaque作为Stability AI的CEO一直在分享使用SD 3 生成的图像,以下是我最喜欢的一些:

Prompt: “Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat”
提示:“一张红色球体放在蓝色立方体上面的照片。后面是一个绿色三角形,右边是一只狗,左边是一只猫”。

在这里插入图片描述
我觉得这张照片有趣的一点是,动物的白色皮毛上有微妙的绿色。不确认的是模型是否可以从训练数据中的绿幕电影场景照片中学到了这种效果。

Prompt: “cinematic photo of a red apple on a table in a classroom, on the blackboard are the words “go big or go home” written in chalk”
提示:"电影照片,教室的桌子上放着一个红苹果,黑板上用粉笔写着 "要么大干,要么回家 “的字样”

在这里插入图片描述

6. 效果对比

我快速比较了 SD3 和 OpenAI 的Dall-E 3生成的图像的效果,这里我使用了SD3官方博客中的提示词。

Prompt: “Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says “Stable Diffusion 3” made out of colorful energy”
提示:“史诗般的动漫作品,一个巫师在夜晚的山顶上向黑暗的天空施放宇宙咒语,咒语上写着 “稳定扩散 3”,由五彩缤纷的能量组成”

在这里插入图片描述
在这里插入图片描述
老实说,我很惊讶 Dall-E 3 在这个提示下一再拒绝呈现文本。自己去试试吧。

7. 总结

本文重点介绍了SD3带来的新的改进,在此说明下,目前SD3还为对公众开放,但是大家可以通过注册来获得Discord服务器的邀请。预览版的目的是提高其质量和安全性,就像其他稳定的扩散版本一样。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1468878.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RHEL9安装Python2.7

RHEL9作为2022年5月新推出的版本,较RHEL8有了很多地方的改进,而且自带很多包,功能非常强大,稳定性和流畅度也较先前版本有了很大的提升。RHEL9自带python3.9,但是过高版本的python不可避免地会导致一些旧版本包地不兼容…

《Docker 简易速速上手小册》第1章 Docker 基础入门(2024 最新版)

文章目录 1.1 Docker 简介与历史1.1.1 Docker 基础知识1.1.2 重点案例:Python Web 应用的 Docker 化1.1.3 拓展案例 1:使用 Docker 进行 Python 数据分析1.1.4 拓展案例 2:Docker 中的 Python 机器学习环境 1.2 安装与配置 Docker1.2.1 重点基…

主机开机正常但是显示器不亮怎么办 电脑故障问题解答

随着科技的不断发展,电脑或许已经是我们日常生活中最常接触的设备之一了。但是设备毕竟是设备,用久了自然会出毛病,开机的时候,主机开了,但是电脑显示屏不亮,这时候我们该怎么处理呢?下面我就来介绍几种解…

ES坑-创建索引使用_下划线-黑马旅游搜不到

学ES的时候,星级过滤无效 找不到数据。 需要 但是我们在创建的时候使用的是keyword 通过研究发现,我们导入数据的时候应该默认的为starName 我get库时候发现有2个字段 所以通过star_name搜索因为都是空数据搜不到,而starName类型为text所以…

MFC由初值终值步长生成数值序列

matlab的冒号运算符可以生成数值序列; 下面来生成自己的数值序列; vc6新建一个对话框工程; 放几个控件;添加成员变量如下; void CMycolonDlg::OnButton1() {// TODO: Add your control notification handler code hereUpdateData(TRUE);double d1, d2;CString str1, …

Qt MDI应用方法:QMdiArea和QMdiSubWindows类

重点: 1.使用MDI应用程序,需要在主窗口的工作区放置一个QMdiArea组件。 并将QMdiArea组件设置成中心窗口 2.MDI有两个显示模式:Tab多页显示模式和子窗口显示模式 子窗口显示模式有两种显示方法:窗口级联展开和平铺展开 窗口级联…

[electron]官方示例解析

官方例子 github链接 main.js const { app, BrowserWindow } require(electron)说句实话这里的语法是有部分看不懂的。导入模块虽然electron有很多模块。但是这里只是用到了app 和 BrowserWindow function createWindow () {// Create the browser window.const mainWindo…

零基础学编程,编程简单学,中文编程工具下载及工具箱进度条构件的用法

一、前言 今天给大家分享的中文编程开发语言工具 进度条构件的用法。 编程入门视频教程链接 https://edu.csdn.net/course/detail/39036 编程工具及实例源码文件下载可以点击最下方官网卡片——软件下载——常用工具下载——编程工具免费版下载及实例源码下载。 进度条 进度…

Javase补充-Arrays类的常用方法汇总

文章目录 一 . 排序方法二 . 查找方法三 . 判断是否相等的方法四 . 拷贝方法五 . 填充方法 一 . 排序方法 我们第一个要介绍的就是sort方法 这个排序实现的底层逻辑应该是十分复杂的,以我们目前的水平体系应该无法理解,我们今天尝试用我们可以理解的一种排序算法,插入排序来模…

Nodejs+vue图书阅读评分个性化推荐系统

此系统设计主要采用的是nodejs语言来进行开发,采用 vue框架技术,对于各个模块设计制作有一定的安全性;数据库方面主要采用的是MySQL来进行开发,其特点是稳定性好,数据库存储容量大,处理能力快等优势&#x…

C#,动态规划(DP)模拟退火(Simulated Annealing)算法与源代码

1 模拟退火 *问题:**给定一个成本函数f:r^n–>r*,找到一个 n 元组,该元组最小化 f 的值。请注意,最小化函数值在算法上等同于最大化(因为我们可以将成本函数重新定义为 1-f)。 很多有微积分/分析背景的人可能都熟悉单变量函数的简单优化。…

Linux---进程间通信(下)

1、System V 共享内存 原理如下图 系统调用接口介绍 int shmget(key_t key, size_t size, int shmflg) 功能:用来创建共享内存 参数 key:这个共享内存段名字,内核用key来标识共享内存size:共享内存大小shmflg:由九个权…

留子厨房开发日志

以下记录了使用go语言框架Beego,Mysql数据库,Redis数据库实现一个点菜/菜谱应用API的全过程。 技术方案 github地址 数据库设计 新建数据库: CREATE DATABASE menu;新建数据表: CREATE TABLE menu ( id int(10) unsigned NOT …

Docker 第十九章 : 阿里云个人镜像仓使用

Docker 第十九章 : 阿里云个人镜像仓使用 本章知识点: 如何创建镜像库,如何设置密码,如何登录与退出个人镜像仓,如何本地打镜像,如何将本地镜像推送到个人镜像库。 背景 在项目YapiDocker部署中,因读取mongo:latest 版本不一致,导致后续执行步骤的异常。遇到此场景…

OpenCV Mat实例详解 六

本文将接着OpenCV Mat实例详解继续介绍OpenCV Mat类的操作符及公有成员函数。 Mat & operator Mat & operator (const Mat &m) 将一个Mat对象赋值个另一个Mat对象。 Mat & operator (const MatExpr &expr) 将一个Mat表达式值赋值给Mat对象 Mat & op…

【高德地图】Android高德地图绘制标记点Marker

📖第4章 Android高德地图绘制标记点Marker ✅绘制默认 Marker✅绘制多个Marker✅绘制自定义 Marker✅Marker点击事件✅Marker动画效果✅Marker拖拽事件✅绘制默认 Infowindow🚩隐藏InfoWindow 弹框 ✅绘制自定义 InfoWindow🚩实现 InfoWindow…

Covalent Network(CQT)与 Movement Labs 达成合作,重新定义 M2 系统区块链数据可用性与性能

Covalent Network(CQT)是行业领先的多链索引器,正在与 Movement Labs 的 M2 展开具有突破性意义的合作。M2 是以太坊上的首个 Move-EVM(MEVM)ZK rollup 。这一战略合作标志着先进的实时数据索引和部署工具,…

Sora - 探索AI视频模型的无限可能

Sora - 探索AI视频模型的无限可能 随着人工智能技术的飞速发展,AI视频模型已成为科技领域的新热点。而在这个浪潮中,OpenAI推出的首个AI视频模型Sora,以其卓越的性能和前瞻性的技术,引领着AI视频领域的创新发展。让我们将一起探讨Sora的技术特点、应用场景以及对未来创作方…

高级RAG:使用RAGAs + LlamaIndex进行RAG评估,包括原理、图和代码

原文地址:Using RAGAs LlamaIndex for RAG evaluation 2024 年 2 月 5 日 如果您已经为实际的业务系统开发了检索增强生成(Retrieval Augmented Generation, RAG)应用程序,那么您可能会关心它的有效性。换句话说,您…

【大数据】Flink 内存管理(三):TaskManager 内存分配(理论篇)

Flink 内存管理(三):TaskManager 内存分配 1.配置 Total Memory2.配置 Heap and Managed Memory2.1 Task (Operator) Heap Memory2.2 Managed Memory 3.配置 Off-Heap Memory(Direct or Native)4.详细内存模型5.Framew…