与Sora同架构的Stable Diffusion 3.0 震撼发布

news2024/12/22 2:22:18

Stability AI 发布了 Stable Diffusion 3,这款图像生成 AI 模型再次刷新了人们的认知。

这款由 Stability AI 倾力打造的文本变图模型,可是迄今为止最强大的“黑科技”!无论你想生成多主题的奇幻场景,还是高精度的风景写真,统统不在话下!

Stability AI 强调了该版本的几个亮点,其中首要的就是文字渲染能力,他们在其官网上一连给了三幅含有文字的图片,不仅文字清晰而且也没有任何拼写错误。

Stability AI 的首席执行官 Mostaque 也在 X(Twitter)上狂炫带有文字的图片:

图片

图片

Stable Diffusion 3.0 中改进的排版是 Stability AI 在新模型中构建的几个改进的结果。

Stability AI 的首席执行官 Mostaque 说:“这归功于 Transformer 架构和额外的文本编码器。现在可以实现完整的句子和一致的风格。”

另一个亮点是“多主题生成”:用一句话,就能描绘出用户脑中的万千世界!

Stability AI 举了一些例子,让 SD3 根据一句含有多个元素的 Prompt 画一幅画:

“一幅画作,描绘了一位宇航员骑着一头穿着芭蕾舞裙的猪,手里还撑着一把粉色雨伞。在猪旁边,一只戴着高顶礼帽的知更鸟静静伫立。画面一角,写着‘Stable Diffusion’。”

图片

“一张照片,画面中有一个红色的球体放在一个蓝色的立方体上面。它们的后面有一个绿色的三角形,右边有一只狗,左边有一只猫。”

图片

其中一个主题元素变化还能不影响其他元素:

,时长00:18

还有一个亮点就是“超高画质”,这简直是细节控的福音,每一张图片都堪称艺术品!例如下面这张变色龙特写照片:

图片

而且生成的漫画和素描,质感也比之前的版本进步了一个台阶:

图片

图片

虽然 Stable Diffusion 3.0 最初被展示为文本转图像生成 AI 技术,但它将成为更广泛应用的基础。Stability AI 近几个月也在开发 3D 图像生成和视频生成功能。

Mostaque 说:“我们制作可以随时随地使用并适应任何需求的开放模型。这是一个跨尺寸的模型系列,将支持我们下一代视觉模型的发展,包括视频、3D 等。”

而且,Stable Video 也正式开放公测了,支持图生视频和文生视频。尽管人们都在关注 Sora,但有人估计至少 Sora 还需要三个月才能开始内测。需要强调的是,这是内测,不同于像 Stable Video 这样的公开测试。

从官网放出的例子来看,生成视频在画面稳定性、运动幅度、画面细节丢失上,效果跟 Sora 不相上下。

图片

有网友试玩了 Stable Video 后发出评论:“越来越期待 Sora 了”。该网友表示,“用自己的照片试用了一下 StableVideo,发现只有没有脸的图才能有比较好的生成结果,有脸的都崩了。”其他网友补充称,有脸的图调低 motion 值也可以得到相对正常的结果,但会很卡顿。

架构变革:采用类似 Sora 模型架构

在过去的一年中,Stability AI 一直在稳步迭代和发布多个图像模型,每个模型都显示出越来越高的复杂性和质量。7 月份发布的 SDXL 大幅改进了 Stable Diffusion 基础模型,现在该公司正寻求更进一步的发展。

新的 Stable Diffusion 3.0 模型旨在提供改进的图像质量和更好的性能,以从多主题提示生成图像。它还将提供比以前的 Stable Diffusion 模型更出色的排版,从而在生成的图像中实现更准确和一致的拼写。过去,排版一直是 Stable Diffusion 的一个弱点,包括 DALL-E 3、Ideogram 和 Midjourney 在最近的版本中也一直在努力解决这个问题。Stability AI 正在构建各种模型大小的 Stable Diffusion 3.0,模型可选择的参数范围在 800M 到 8B 。

Stable Diffusion 3.0 不仅仅是 Stability AI 已经发布的模型的新版本,它实际上基于一种全新的架构。

Emad Mostaque 表示,Stable Diffusion 3 是原始 Stable Diffusion 的正统续作。它采用了类似于 OpenAI 近期发布的 Sora 模型的 Diffusion Transformer 新架构,代表了该领域的最新技术突破。

“Diffusion Transformer”技术在 2022 年首次提出,并在 2023 年进行了改进,现在已经实现了可扩展性。此外,Stable Diffusion 3.0 还采用了“流匹配”技术,这也是另一项改进质量且不会增加太多额外负担的新技术。

Stability AI 一直在尝试多种图像生成方法。本月早些时候,该公司发布了 Stable Cascade 的预览版,它使用 Würstchen 架构来提高性能和准确性。Stable Diffusion 3.0 采取了不同的方法,使用了 Diffusion Transformer。

Mostaque 强调说:“Stable Diffusion 以前没有 Transformer。”

Transformer 是许多生成 AI 革命的基础,被广泛用作文本生成模型的基础。图像生成主要在 Diffusion 模型领域。详细介绍 Diffusion Transformer (DiT) 的研究论文解释说,它是一种新的 Diffusion 模型架构,它用操作潜在图像块的 Transformer 取代了常用的 U-Net 主干。DiT 方法可以更有效地利用计算资源,并且可以超越其他形式的 Diffusion 图像生成。

Stable Diffusion 的另一个重大创新是流匹配 (flow matching)。流匹配的研究论文解释了它是一种训练 Continuous Normalizing Flows (CNFs) 以模拟复杂数据分布的新方法。根据研究人员的说法,使用 Conditional Flow Matching (CFM) 和 optimal transport paths(最佳传输路径),与 diffusion paths 相比,可以实现更快的 training、更有效的采样和更好的性能。

参考链接:

https://venturebeat.com/ai/stable-diffusion-3-0-debuts-new-diffusion-transformation-architecture-to-reinvent-text-to-image-gen-ai/

https://twitter.com/EMostaque

https://stability.ai/news/stable-diffusion-3

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1466179.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RocketMQ高可用架构涉及常用功能整理

RocketMQ高可用架构涉及常用功能整理 1. 集群高可用系统架构和相关组件1.1 架构说明1.2 相关概念说明1.3 消息模型1.3.1 点对点模型1.3.2 发布订阅模型1.3.3 消息过滤 2. rocketmq的核心参数3. rocketmq常用命令4. 事务性4.1 数据写入流程4.2 数据读流程4.3 事务消息 5. 疑问和…

基于Spring Boot的安康旅游网站的设计与实现,计算机毕业设计(带源码+论文)

源码获取地址: 码呢-一个专注于技术分享的博客平台一个专注于技术分享的博客平台,大家以共同学习,乐于分享,拥抱开源的价值观进行学习交流http://www.xmbiao.cn/resource-details/1760645517548793858

每日五道java面试题之spring篇(二)

目录: 第一题 Spring事务传播机制第二题 Spring事务什么时候会失效?第三题 什么是bean的⾃动装配,有哪些⽅式?第四题 Spring中的Bean创建的⽣命周期有哪些步骤?第五题 Spring中Bean是线程安全的吗? 第一题 Spring事务…

排序算法之——选择排序

选择排序 1.1基本思想1.1.1总体思路1.1.2具体思路 1.2图示详解1.3完整代码1.4动图演示1.5时间复杂度1.6空间复杂度 1.1基本思想 1.1.1总体思路 每一次从待排序的数据元素中选出最小(或最大)的一个元素,存放在序列的起始位置,直到全部待排序的数据元素排…

【学习iOS高质量开发】——接口与API设计

文章目录 一、用前缀避免命名空间冲突1.为什么用前缀避免明明冲突2.应当如何避免3.要点 二、提供“全能初始化方法”1.什么是全能初始化方法2.如何重写初始化方法3.一个类有多个全能初始化方法要注意的问题3.要点 三、实现description方法1.什么是description方法2.在descripti…

2024 ,Android 15 预览版来了

日前,Android 15 发布了 Preview 1 预览版,预览计划将从 2024 年 2 月持续到 Android 15 公开发布(预计 10 月),3月是开发者预览版 2,4 月将推出 Beta 1,5 月将推出 Beta 2,6 月的 B…

大模型平民化技术之LORA

1. 引言 在这篇博文中, 我将向大家介绍LoRA技术背后的核心原理以及相应的代码实现。 LoRA 是 Low-Rank Adaptation 或 Low-Rank Adaptors 的首字母缩写词,它提供了一种高效且轻量级的方法,用于微调预先训练好的的大语言模型。这包括 BERT 和…

7-liunx服务器规范

目录 概况liunx日志liunx系统日志syslog函数openlog 可以改变syslog默认输出方式 ,进一步结构化 用户信息进程间的关系会话ps命令查看进程关系 系统资源限制改变工作目录和根目录服务器程序后台话 概况 liunx服务器上有很多细节需要注意 ,这些细节很重要…

C++的deque容器->基本概念、构造函数、赋值操作、大小操作、插入和删除、数据存取、排序

#include<iostream> using namespace std; #include <deque> //deque构造函数 void printDeque(const deque<int>& d) { for (deque<int>::const_iterator it d.begin(); it ! d.end(); it) { //*it 100; 容器中的数据不可以修…

【Java网络编程06】HTTPS原理

1. HTTPS基本概念 HTTPS&#xff1a;HTTPS也是一个应用层协议&#xff0c;它在HTTP协议的基础上引入了一个加密层——SSL协议&#xff0c;区别就在于HTTP协议是基于明文传输的&#xff08;不安全&#xff09;&#xff0c;使用HTTPS加密就能在一定程度上防止数据在传输过程中被…

高级语言期末2012级A卷

1.编写函数&#xff0c;输出任意正整数n的位数&#xff08;n默认为存储十进制的整形变量&#xff09; 例如&#xff1a;正整数13&#xff0c;则输出2,&#xff1b;正整数3088&#xff0c;则输出4 #include <stdio.h>int func(int n) {int count0;while(n>0) {n/10;co…

自学Python第十八天-自动化测试框架(二):DrissionPage、appium

自学Python第十八天-自动化测试框架&#xff08;二&#xff09;&#xff1a;DrissionPage、appium DrissionPage环境和安装配置准备工作简单的使用示例控制浏览器收发数据包模式切换 浏览器模式创建浏览器对象访问页面加载模式none 模式技巧 获取页面信息页面交互查找元素ele()…

【学网攻】 第(30)节 -- 综合实验三

系列文章目录 目录 系列文章目录 文章目录 前言 一、综合实验 二、实验 1.引入 实验目标 实验设备 实验拓扑图 实验配置 文章目录 【学网攻】 第(1)节 -- 认识网络【学网攻】 第(2)节 -- 交换机认识及使用【学网攻】 第(3)节 -- 交换机配置聚合端口【学网攻】 第(4)节…

个人博客系列-环境配置-gitee(2)

注册gitee账户 地址&#xff1a;https://gitee.com/ 此步骤省略 新建仓库 执行以下命令 即可 拉取代码 创建目录 mkdir myCode && cd myCode 登录gitee找到项目&#xff0c;点击克隆&#xff0c;拉取代码 连接远程仓库命令 git remote add origin 仓库地址http…

负载均衡.

简介: 将请求/数据【均匀】分摊到多个操作单元上执行&#xff0c;负载均衡的关键在于【均匀】。 负载均衡的分类: 网络通信分类 四层负载均衡:基于 IP 地址和端口进行请求的转发。七层负载均衡:根据访问用户的 HTTP 请求头、URL 信息将请求转发到特定的主机。 载体维度分类 硬…

证件照(兼容H5,APP,小程序)

证件照由uniappuyui开发完成&#xff0c;并同时兼容H5、App、微信小程序、支付宝小程序&#xff0c;其他端暂未测试。 先看部分效果图吧具体可以下方复制链接体验demo 首页代码 <template><view class""><view class"uy-m-x-30 uy-m-b-20"…

2024移动应用的发展趋势,开发者如何抢占变现先机?

2024年对移动应用市场将是变革之年&#xff0c;社交媒体变现方式的瞬息万变&#xff0c;到人工智能的快速崛起&#xff0c;移动应用市场的换代速度逐渐加快&#xff0c;一些新的机遇也在出现。 data.ai推出的2024全球移动市场预测&#xff1a; •TikTok将打破应用商店支出的所…

Linux中的各类时间 与 find命令的常用参数

之前研究wal日志清理的副产物&#xff0c;wal日志名被修改后文件的哪个时间会变&#xff1f;应该如何删除&#xff1f;由此整理一下Linux中atime、mtime、ctime的区别&#xff0c;以及find的常见用法。 一、 Linux中的各类时间 1. 各类时间的定义 Linux中有三种用于文件时间戳…

基于springboot+vue的桂林旅游景点导游平台(前后端分离)

博主主页&#xff1a;猫头鹰源码 博主简介&#xff1a;Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战&#xff0c;欢迎高校老师\讲师\同行交流合作 ​主要内容&#xff1a;毕业设计(Javaweb项目|小程序|Pyt…

3个精美的wordpress企业网站模板

WordPress企业网站模板 https://www.zhanyes.com/qiye/6305.html WordPress企业官网模板 https://www.zhanyes.com/qiye/6309.html WordPress律师模板 https://www.zhanyes.com/qiye/23.html