Stable Diffusion 3 API 发布!超越Midjourney v6和DALL-E 3

news2024/10/6 4:08:17

Stable Diffusion 3 于 2 月首次宣布作为预览版发布。而今天,StabilityAI 正式推出了 Stable Diffusion 3 和 Stable Diffusion 3 Turbo API 的API接口服务。

Stability AI 称仍在持续改进该模型,并没有说明发布日期。模型还没发布,但API先来了!

官方宣传称SD3模型在文字到图像生成领域的表现达到或超过了DALL-E 3和Midjourney v6等行业领先模型,尤其是在字体和提示遵循方面。

GPT-3.5研究测试: https://hujiaoai.cn

GPT-4研究测试: https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4): https://hiclaude3.com

Stability AI 宣布其开发者平台API现已支持Stable Diffusion 3及其增强版本Stable Diffusion 3 Turbo。现在开发者可以通过这个 API 接口,来快速开发有趣的应用程序了!

与网友们的预期不同的是,这次还有一个 Stable Diffusion 3 Turbo 的型号可供选择,难道这是另一个大招吗?

虽然模型还未开源,但StabilityAI 承诺:

我们致力于开放生成式人工智能,计划在不久的将来对 Stability AI 会员资格开放模型权重,实现自行托管。

接下来就是欣赏Stable Diffusion 3 的艺术时刻:😎

提示: 白色建筑顶上的红色沙发。涂鸦上写着“全城最佳景观”。(A red sofa on top of a white building. Graffiti with the text “the best view in the city”.)

图2.

▲图2.

提示: 拟人化的乌龟坐在纽约地铁上的肖像照片。(Portrait photograph of an anthropomorphic tortoise seated on a New York City subway train.)

图3.

▲图3.

提示: 唯美的粉彩魔幻现实主义,一个男人以复古电视为头,站在沙漠中央,复古的照片。(Aesthetic pastel magical realism, a man with a retro TV for a head, standing in the center of the desert, vintage photo.)

图4.

▲图4.

提示: 一个纸板箱,上面写着“他们说在这里不适合思考”,这个纸板箱很大,放在剧院的舞台上。(A cardboard box with the phrase “they say it's not good to think in here”, the cardboard box is large and sits on a theater stage.)

图5.

▲图5.

与FireworksAI 合作提供可靠API服务

StabilityAI表示,他们已经与市场上最快、最可靠的 API 平台 FireworksAI 合作,提供 Stable Diffusion 3 和 Stable Diffusion 3 Turbo。

在 StabilityAI 的技术文档中我们也可以看到目前的 API 提供商即为 FireworksAI。

借助 Fireworks AI,StabilityAI 将可以提供企业级 API 解决方案,确保 99.9% 的服务可用性。

不过,官网提供的 Pricing 显示,SD3 是比 SD3 Turbo 更好的模型,价格差不多比后者高了 40%!按道理说,Turbo 不是应该更贵吗?🤔

目前的每 1000 credits 的价格是 10 美元,大概可以用来购买 5000 张 SDXL 1.0 的图片,而这大约只能生成 153 张 SD3 或者是 250 张 SD3 Turbo 的照片。

图1.

▲图1.

Stable Diffusion 3 有多强?

在 2 月份发布的论文中,我们已经可以看到 Stable Diffusion 3 在视觉质量、提示跟随和排版生成方面优于当前最先进的文本到图像模型,包括其他开源模型(包括 SDXL,SDXL Turbo,Stable Cascade,Playground v2.5 和 Pixart-α)以及闭源模型(如 DALL・E 3,Midjourney v6 和 Ideogram v1)。

图6.

▲图6.

对比上代模型,SD3 采用了与Sora类似的 Diffusion Transformer 技术,并结合了流匹配(Flow Matching)等多项技术改进,不仅使得系统扩展性更强,还能处理多种类型的输入数据。

图7. Stable Diffusion 3 的总体架构。

▲图7. Stable Diffusion 3 的总体架构。

新的 Multimodal Diffusion Transformer(MMDiT)架构使用独立的权重集合来表示图像和语言,这与以前版本的 Stable Diffusion 相比,提高了文本理解和拼写能力。

在 MMDiT 架构中,文本和图像的表示分别通过预训练模型进行编码。

具体地说,MMDiT 采用了三种不同的文本嵌入器(两个 CLIP 模型和 T5 模型),以及一个改进的自动编码模型来编码图像 token。这些编码器能够将文本和图像输入转换为模型可以理解和处理的格式,为强大的 SD3 模型提供了基础。

网友们怎么看?

StabilityAI 创始人兼 CEO,Emad Mostaque 曾表示,与视频、语言、代码、3D、音频等一样,Stable Diffusion 3 也将会开源。而网友们则是对此次先提供 API 的行为表示不理解。

难道 StabilityAI 也要做下一个 ClosedAI 了?

不过,底下的网友们也对开源和闭源有着更宽容的理解,也希望公司能够在开源和赚钱之前找到一个平衡点,不要彻底成为下一个 ClosedAI(手动狗头)。

最后,送给各位潜在的艺术家hh:

参考资料

[1]https://stability.ai/news/stable-diffusion-3
[2]https://venturebeat.com/ai/stable-diffusion-3-api-now-available-as-stable-assist-effort-looms/
[3]https://twitter.com/StabilityAI/status/1780599024707596508
[4]https://stability.ai/news/stable-diffusion-3-research-paper
[5]https://stability.ai/news/stable-diffusion-3-api

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1606080.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python | Leetcode Python题解之第28题找出字符串中的第一个匹配项的下标

题目: 题解: class Solution:def strStr(self, haystack: str, needle: str) -> int:# Func: 计算偏移表def calShiftMat(st):dic {}for i in range(len(st)-1,-1,-1):if not dic.get(st[i]):dic[st[i]] len(st)-idic["ot"] len(st)1re…

JS-39-underscore01-初识underscore

一、underscore简介 前面我们已经讲过了,JavaScript是函数式编程语言,支持高阶函数和闭包。 函数式编程非常强大,可以写出非常简洁的代码。例如Array的map()和filter()方法: use strict; var a1 [1, 4, 9, 16]; var a2 a1.ma…

数据结构书后习题

p17 1&#xff0c; 个人解答&#xff1a; int DeleteMinElem(SqList &L,int &min) {int j 0;if (L.length 0){printf("error!");return 0;}int min L.data[0];for (int i 1; i < L.length; i){if (L.data[i] < min){min L.data[i];j i;}}L.dat…

电工与电子技术选择题填空题计算题复习题含参考答案

答案&#xff1a;更多答案&#xff0c;请关注【电大搜题】微信公众号 答案&#xff1a;更多答案&#xff0c;请关注【电大搜题】微信公众号 答案&#xff1a;更多答案&#xff0c;请关注【电大搜题】微信公众号 电工与电子技术复习题 一 . 单选题&#xff08;共 33 题&a…

[渗透测试学习] TwoMillion-HackTheBox

TwoMillion-HackTheBox 信息搜集 nmap扫描一下 nmap -sV -v 10.10.11.221扫描结果 PORT STATE SERVICE VERSION 22/tcp open ssh OpenSSH 8.9p1 Ubuntu 3ubuntu0.1 (Ubuntu Linux; protocol 2.0) 80/tcp open http nginx 3851/tcp f…

SAP 技巧:如何查询TCODE的节点路径。

目录 SAP 技巧&#xff1a;如何查询TCODE的节点路径。 步骤一&#xff1a;在命令栏里输入&#xff1a;Search_SAP_Menu 会弹出以上页面&#xff0c;然后输入你想查询的T-code。回车。 步骤二&#xff1a;找到正确路径&#xff0c; SAP 技巧&#xff1a;如何查询TCODE的节点路…

0418WeCross搭建 + Caliper测试TPS

1. 基本信息 虚拟机名称&#xff1a;Pure-Ununtu18.04 WeCross位置&#xff1a;/root/wecross-demo 2. 搭建并启动WeCross 参考官方指导文档 https://wecross.readthedocs.io/zh-cn/v1.2.0/docs/tutorial/demo/demo.html 访问WeCross网页管理平台 http://localhost:8250/s/…

变频超声波驱鸟器,变电站驱鸟

随着春夏季来临&#xff0c;各种鸟类活动也愈发频繁。这一时期&#xff0c;变电站内有很多中大型鸟类&#xff0c;选择在户外架空高压裸导线龙门架、主变进线支撑架等重要设备上筑巢停留&#xff0c;它们筑巢所用的枝干和各类杂物&#xff0c;时常会掉落&#xff0c;引发设备短…

SQL Server Management Studio 显示行号

前言 在使用 SQL Server Management Studio (SSMS) 进行数据库管理和查询时&#xff0c;能够看到代码的行号是非常有用的。这可以帮助您更容易地定位代码错误、讨论特定的代码行&#xff0c;或者在执行长查询时快速找到特定行。在本文中&#xff0c;我将向您展示如何在 SSMS 中…

怎么你出的MES方案像屎一样?

最近在一个群里面&#xff0c;大家普遍感受到制定MES技术方案变得越来越困难&#xff0c;客户也变得越来越挑剔&#xff0c;方案的复杂度也在不断增加。在竞标过程中&#xff0c;各方技术水平的差距变得越来越小&#xff0c;这让人们感到相当困扰。考虑到这一问题&#xff0c;我…

OpenHarmony多媒体-ohos_videocompressor

介绍 videoCompressor是一款ohos高性能视频压缩器。 目前实现的能力&#xff1a; 支持视频压缩 使用本工程 有两种方式可以下载本工程&#xff1a; 开发者如果想要使用本工程,可以使用git命令 git clone https://gitee.com/openharmony-sig/ohos_videocompressor.git --…

U盘文件突然消失?别急,这里有数据恢复的终极攻略!

在日常的工作和生活中&#xff0c;U盘几乎成了我们随身携带的“数据小仓库”&#xff0c;存放着各种重要的文件。然而&#xff0c;就在某一天&#xff0c;你突然发现U盘中的文件神秘失踪&#xff0c;仿佛从未存在过一般。这种突如其来的U盘文件消失&#xff0c;无疑让人措手不及…

docker拉取镜像速度慢

解决办法是配置阿里云镜像加速 在docker desktop的docker engine里添加 "registry-mirrors": ["https://owzy8hoh.mirror.aliyuncs.com"] 修改以后重启docker 参考&#xff1a; 【docker】Windows10系统下安装并配置阿里云镜像加速_docker desktop 配置…

MySQL中InnoDB的行级锁

InnoDB 实现了以下两种类型的行锁。 共享锁&#xff08;S&#xff09;&#xff1a;又称为读锁&#xff0c;简称S锁&#xff0c;共享锁就是多个事务对于同一数据可以共享一把锁&#xff0c;都能访问到数据&#xff0c;但是只能读不能修改。 排他锁&#xff08;X&#xff09;&am…

仿真科普|从设计到研发,CAE仿真技术为汽车智造保驾护航

2024年3月28日&#xff0c;对于汽车产业来说&#xff0c;是历史性的一天&#xff0c;作为近年汽车行业发布会流量最大的一次&#xff0c;小米SU7的发布让整个汽车圈为之沸腾&#xff0c;成功收割全平台热搜。时至今日&#xff0c;小米汽车依然热度不减。 随着“蔚、小、理、特…

利用米家通断器与双控开关改造排风扇,或手动或定时运行

改造前的排风扇接线图如下&#xff1a; 改造要求&#xff1a;实现手动与智能运行两种控制方式&#xff0c;互不影响。 改造后的米家通断器与双控开关接线图如下&#xff1a; 默认米家通断器与双控开关都是关闭状态。

Leetcode 4.18

Leetcode 1.无重复字符的最长子串2.最长回文子串3.整数反转4.字符串转换整数 (atoi)5.正则表达式匹配 1.无重复字符的最长子串 无重复字符的最长子串 滑动窗口&#xff0c;先让右指针右移&#xff0c;如果发现这个子串有元素和右指针当前元素重复。 则&#xff1a; 左指针右移…

OpenHarmony南向开发案例:【智能照相机】

样例简介 本Demo是基于Hi3516开发板&#xff0c;使用OpenHarmony3.0-LTS开发的应用。通过获取摄像头数据&#xff0c;实现预览拍照以及路视频等功能。并且通过后台AI服务识别唤醒词来进行语音控制拍照及录制视频。 应用运行效果图&#xff1a; 此为相机的预览界面。 样例原理…

#无FIFO驱动OV7670基于cubemx(草稿)

1.前言 之前在淘宝买了一个不带FIFO的OV7670&#xff0c;由于比赛和其他事一直搁置&#xff0c;现在有时间于是想玩一玩。我发现网上这个的教程多为标准库&#xff0c;有些甚至利用了DCMI&#xff08;数字摄像头接口&#xff0c;目前已知F4系列是有这个外设的&#xff09;。标…

ant-design-vue Table+Form表单实现表格内置表单验证,可自定义验证规则,触发必填项

代码示例如下&#xff1a; <!-- --> <template><a-button type"primary" style"padding-left: 10px; padding-right: 10px" click"handleAddRow"><template #icon><plus-outlined /></template>新增</…