Stable Diffusion 3突然发布!与Sora同架构,一切都更逼真了

news2024/9/21 12:41:20

文字终于不乱码了!

足足酝酿一年之多,相比上一代一共进化了三大能力

来,直接上效果!

首先,是开挂的文字渲染能力

且看这黑板上的粉笔字:

Go Big or Go Home (不成功便成仁),这个倒是杀气腾腾啊~

路牌、公交灯牌的霓虹效果:

还有刺绣上“勾”得快要看到针脚的“晚安”:

作品一摆出,网友就大呼:太精确了

以至于有人表示:赶紧把中文也安排上啊

其次,多主题提示能力直接拉满。

什么意思?你尽管一次性往提示词中塞入n多“元素”,Stable Diffusion 3:漏一个算我输。

呐,仔细瞅下图,这里面就有“宇航员”、“穿着芭蕾舞裙的小猪”、“粉色雨伞”、“戴着礼帽的知更鸟”,角落里还有“Stable Diffusion”几个大字(可不是什么水印)。

有了这个能力,一幅作品你想多丰富就有多丰富。

最后,当属图像质量,再次进化了一个度。

光看前面这些图,就被冲击到有没有?!

而各种超清特写,那是再信手拈来不过的了。

心动吗?目前官方已开放排队名单,大伙可以前往官网申请。

咳咳,也不得不说,最近这AI圈可真是相当热闹啊。

有网友直呼,我的电脑已经Hold不住了……

Stable Diffusion 3来了!

全新的Stable Diffusion效果有多好,再给大伙奉送一些。

当然,所有出图均来自官方,比如StabilityAI媒体负责人:

不得不说,文字效果实在最为吸人眼球,各种形式都能呈现得相当清楚和“应景”。

而看到上面这幅图,不得不想到“Midjourney尴尬亮相学术界:为生物学论文乱配图”一事——有了SD3之后,我们是不是可以制作非常专业的学术配图了?

除了这些,SD3的“酒精水墨画”也相当别出心裁:

动漫风格:

again,你可以在上面加清晰的文字了。

由于目前需要排队申请,大伙还不好实际测试摸底。

不过有机智的网友已经用相同的提示词喂给了Midjourney(v 6.0)。

比如开头的那张“红苹果与黑板字”(prompt:cinematic photo of a red apple on a table in a classroom, on the blackboard are the words “go big or go home” written in chalk)

最终Midjourney给出的结果如下:

从这组对比来看,可以说是高下立判——SD3无论是文字拼写还是质量、色彩协调性等方面都更胜一筹。

技术方面,目前,模型可选择的参数范围在800M到8B。

详细的技术报告还未公布,官方目前只透露主要结合了扩散型transformer架构以及flow matching

前者实际上同Sora一样,附上的技术论文正是22年William Peebles同谢赛宁合写的DiT。

DiT首次将Transformer与扩散模型结合到了一起,相关论文被ICCV 2023录用为Oral论文。

在该研究中,研究者训练了潜在扩散模型,用对潜在 patch进行操作的 Transformer 替换常用的 U-Net 主干网络。他们通过以Gflops衡量的前向传递复杂度来分析扩散 Transformer (DiT) 的可扩展性。

而后者flow matching同样也是来自22年,由Meta AI以及魏茨曼科学研究所的科学家完成。

他们提出了基于连续归一化流(CNFs)的生成模型新范式,以及flow matching的概念,这是一种基于回归固定条件概率路径的矢量场的免模拟CNFs的方法。结果发现使用带有扩散路径的flow matching,可以训练出来的模型更稳健和稳定。

不过最近看了这么多视频生成进展,也有网友表示:

你觉得呢?

One More Thing

除此之外,也就在前一天,他们的视频产品Stable Video正式开放公测。

基于SVD1.1(Stable Video Diffusion 1.1),人人可用。

主要支持文生视频和图生视频两个功能。

参考链接:
[1]https://stability.ai/news/stable-diffusion-3
[2]https://arxiv.org/abs/2212.09748
[3]https://arxiv.org/abs/2210.02747
[4]https://twitter.com/pabloaumente/status/1760678508173660543

—完—

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1481716.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023中国PostgreSQL数据库生态大会:洞察前沿趋势,探索无限可能(附核心PPT资料下载)

随着数字化浪潮的推进,数据库技术已成为支撑各行各业数字化转型的核心力量。2023中国PostgreSQL数据库生态大会的召开,无疑为业界提供了一个深入交流、共同探索PostgreSQL数据库技术未来发展趋势的平台。本文将带您走进这场盛会,解析大会的亮…

xsslabs第六关

看一下源码 <!DOCTYPE html><!--STATUS OK--><html> <head> <meta http-equiv"content-type" content"text/html;charsetutf-8"> <script> window.alert function() { confirm("完成的不错&#xff01;…

云呐智能运维包含哪些内容?运维未来的发展方向是什么?

智能运维&#xff08;AIOps&#xff09;是一种使用人工智能应用程序来调节IT操作和维护的实践方式。它结合了大数据和机器学习技术&#xff0c;旨在自动化和改进IT操作和维护任务&#xff0c;如故障检测、因果分析和自动故障修复。以下是智能操作和维护的具体内容、挑战和解决方…

无人售货机管理系统,让零售更智能,更高效

无人自动售货系统强大技术核心优势打造智能售货机系统&#xff0c;其引入物联网、大数据、 云计算等新一代信息技术与自动售货机完美融合&#xff0c;实现传统售货机向智能售货机转型升级。 1.市场前景 据前瞻产业研究院报告显示&#xff0c;中国无人零售行业市场规模自2017年…

Windows的Docker-Desktop安装与问题总结

目录 Docker-Desktop安装步骤 环境配置 Docker-Desktop安装问题总结 问题1&#xff1a;docker-desktop setting界面一直加载转圈 问题2&#xff1a;docker镜像的存储位置变更&#xff08;防止C盘空间不足&#xff09; 参考文献&#xff1a; Docker-Desktop安装步骤 环境…

基YOLOV5实现的AI智能盒子

基于yolov5实现的AI智能盒子框架 开发背景技术实现产品效果源码预览功能介绍 2021-2023是沉淀的几年&#xff0c;经济不景气&#xff0c;各行各业都不太好混&#xff0c;所以这几年也没有太多心思花在csdn上为各大网友写一些技术文章&#xff0c;2024年初&#xff0c;也算是给自…

Entry First Day 入职恩孚第一天

入职第一天&#xff0c;电脑还没配置好就去了工厂。 熟悉了一下设备&#xff0c;切了几个小玩意&#xff0c; hello world 一下。 了解了串行端口的Nodejs的库 https://github.com/serialport/node-serialport&#xff0c;以后要用这个东西和硬件通讯&#xff0c;安装&#…

Linux上搭建并使用ffmpeg(Java)

关于MacOs和Windows系统上使用ffmpeg就不多说了&#xff0c;有很多相关文章&#xff0c;今天给大家分享一个在Linux环境下使用Java语言来使用ffmpeg 一、首先去官网下载一个Linux对应的ffmpeg包 1、进入ffmpeg官网&#xff1a;官网 2、点击左侧导航栏Download 3、选择Linux对…

自动生成多个有规律的python列表

问大家一些问题&#xff0c;平常在我们练习时如果在没有给定数据的情况下&#xff0c;手敲这样一个DataFrame 对象是不是很麻烦&#xff0c;而且容易出错&#xff0c;我想了一个办法让其自动生成&#xff0c;这样就省事省力。 首先这些数据都是有规则的依次递增的例如&#xf…

本届挑战赛冠军方案:基于LLM的多场景智能运维

本文介绍本届挑战赛冠军得主SRE-Copilot团队的参赛方案&#xff1a;基于LLM的多场景智能运维。 基础架构-SRE&#xff0c;负责字节跳动基础架构部门所有组件的SRE工作&#xff0c;沿着成本、稳定性、效率、服务四条主线&#xff0c;致力于打造高扩展、高可用的生产系统。基础架…

林浩然与杨凌芸的Swing组件奇遇记:从按钮到滚动条的UI大冒险

林浩然与杨凌芸的Swing组件奇遇记&#xff1a;从按钮到滚动条的UI大冒险 The Swing Component Odyssey of Lin Haoran and Yang Lingyun: A UI Adventure from Buttons to Scrollbars 在Java王国的一隅&#xff0c;程序员才子林浩然和智慧女神杨凌芸正在进行一场别开生面的UI设…

MySQL 事务原理分析

事务 前提&#xff1a;有并发连接。定义&#xff1a;事务是用户定义的一系列操作&#xff0c;这些操作要么都做&#xff0c;要么都不做&#xff0c;是一个不可分割的单位。目的&#xff1a;事务将数据库从一种一致性状态转换为另一种一致性状态&#xff0c;保证系统始终处于一…

Vue2:路由的两种模式history模式和hash模式

一、情景说明 之前我们写的项目启动后&#xff0c;浏览器访问时&#xff0c;路径中会有个#/&#xff0c;会导致不够美观 因为一般的访问地址都是http://123.123.123.123/aaa/bbb这种形式 这一篇&#xff0c;就来解决这个问题 二、案例 1、hash模式 特点&#xff1a;#/后的…

QMessageBox用法及技巧

一&#xff0e;QMessageBox是什么&#xff1f; QMessageBox类为用户提供了主要的警告信息&#xff0c;用户可以根据需求选择需要的响应&#xff1b; QMessageBox 还提供了一些常用的按钮&#xff0c;例如"确定"、"取消"、"是"、"否"…

redis 面试题

1 redis 如何扩容 Redis 的扩容主要分为两种场景&#xff0c;一种是单实例的内存扩容&#xff08;垂直扩容&#xff09;&#xff0c;另一种是Redis集群的扩容&#xff08;水平扩容&#xff09;。 单实例Redis内存扩容&#xff08;垂直扩容&#xff09; 硬件升级&#xff1a; 垂…

Spring MVC 和 Spring Cloud Gateway不兼容性问题

当启动SpringCloudGateway网关服务的时候&#xff0c;没注意好依赖问题&#xff0c;出现了这个问题&#xff1a; Spring MVC found on classpath, which is incompatible with Spring Cloud Gateway. 解决办法就是&#xff1a;删除SpringMVC的依赖&#xff0c;即下列依赖。 &…

年轻人怎么搞钱?

年轻人想要搞钱&#xff0c;可以考虑以下几个方面&#xff1a; 1. 创业&#xff1a;年轻人可以通过自己的创意&#xff0c;找到一个市场的空缺&#xff0c;开创自己的业务。可以从比较小的项目开始&#xff0c;逐渐扩大范围&#xff0c;积累经验和财富。 2. 投资&#xff1a;…

【C++从0到王者】第四十八站:最短路径

文章目录 一、最短路径二、单源最短路径 -- Dijkstra算法1.单源最短路径问题2.算法思想3.代码实现4.负权值带来的问题 三、单源最短路径 -- Bellman-Ford算法1.算法思想2.算法实现3.SPFA优化4.负权回路 四、多源最短路径 -- Floyd-Warshall算法1.算法思想2.算法实现 一、最短路…

python笔记_数据类型

定义&#xff1a;python的变量在使用前必须赋值&#xff0c;数据类型指的是变量指定的内存数据的类型 string字符串类型使用引号int整型整数float浮点型小数bool布尔值(逻辑)输出true/false A&#xff0c;整数类型 整型字节 1,python的整数有十六进制&#xff0c;十进制&#…

HDSRNet | 入局图像超分,异构动态卷积玩出新花样~

首发AIWalker&#xff0c;欢迎关注~ https://arxiv.org/abs/2402.15704 https://github.com/hellloxiaotian/HDSRNet 卷积神经网络可以通过深度网络架构和给定的输入样本自动学习特征。然而&#xff0c;所获得的模型的鲁棒性在不同的场景中可能具有挑战性。网络架构的差异越大…