Stable Diffusion 3 文本生成图像 在线体验 原理分析

news2024/11/25 21:22:28

前言

本文分享使用Stable Diffusion 3实现文本生成图像,可以通过在线网页中免费使用的,也有API等方式访问。

同时结合论文和开源代码进行分析,理解其原理。

Stable Diffusion 3是Stability AI开发的最新、最先进的文本生成图像模型,在图像保真度、多主体处理和文本匹配面取得了显著进步。

利用新的多模态扩散变换器(MMDiT)架构,它具有单独的图像和语言表示的Stable Diffusion 3权重。

目录

前言

1、在线体验Stable Diffusion 3

2、Stable Diffusion 3生成图像

3、Stable Diffusion 3原理分析


1、在线体验Stable Diffusion 3

官网地址:https://stablediffusion3.net/zh-CN

如下图所示,生成的图片还挺清晰的,不错不错 :

点击图片,能看到“提示器”,图像比例,还能下载原图:

当然用中文作为提示词,也是可以的,效果也很不错

不同的画风和场景: 

感觉生成图像很接近真实:

 

“提示词”描述得更详细,会生成更多细节:

2、Stable Diffusion 3生成图像

 思路流程:

  1. 输入提示词,可以中文或英文
  2. 选择模型,包括:Realistic 写实、Tamarin 插画风格、Super Anime 超级动漫、visiCanvas 可视画布、Realistic 写实、Anime 动漫、3D Animation 3D动画
  3. 选择生成图像的数量,默认是1张,可以选择2张或4张
  4. 选择图像的比例,包括1:1、3:4、4:3

比如,如下图所示,选择了Super Anime模型,同时生成两张图像,图像比例是1:1

3、Stable Diffusion 3原理分析

Stable Diffusion3利用扩散变压器(DiT)架构,结合噪声预测和采样技术,生成高质量图像。

  • 该模型使用不同的Stable Diffusion3权重进行图像和语言表示,确保图像内文本生成的精确和连贯。
  • Stable Diffusion3提供从800M到8B参数的模型,以满足各种硬件能力和性能需求。
  • 利用Stable Diffusion3 API,用户可以输入文本提示,模型将其转换为详细准确的图像,严格遵循提供的描述。

开源地址:https://huggingface.co/stabilityai/stable-diffusion-3-medium

论文地址:Scaling Rectified Flow Transformers for High-Resolution Image Synthesis 

模型的关键结构,如下图所示:

主要包括(a)多模态数据的扩散模型框架的组件、(b)MM-DiT块的细节,

 (a)多模态数据的扩散模型框架的组件

  • 1、Caption 输入

    • “Caption”是输入的文本描述,用来指导生成的图像内容。
  • 2、特征提取模型

    • CLIP-G/14 和 CLIP-L/14:这是两种处理文本和图像的模型,它们将文本和图像转化为向量表示。
    • T5 XXL:一个处理文本的模型,把输入的文字转换成向量。
  • 3、合并特征

    • 从这些模型中提取的特征被合并在一起,形成一个大的向量,包含了输入信息的多个方面。
  • 4、噪声潜在变量(Noised Latent)

    • 这是模型生成图像的起点,是一个初始的噪声图像。
  • 5、位置编码(Positional Embedding)

    • 给输入数据添加位置信息,以便模型知道每个数据的位置。
  • 6、MM-DiT 块

    • 这些是模型的核心部分,通过多层处理将噪声图像一步步转换成目标图像。
  • 7、输出处理

    • 最后,将处理后的特征向量转换回图像,输出最终的生成图像。

(b)MM-DiT块(Multimodal Diffusion Transformer)

  • 1、输入

    • 输入为 y 和 x 两个特征向量。
  • 2、SiLU 激活函数和线性层

    • 使用 SiLU(Sigmoid Linear Unit)激活函数和线性层对输入特征进行变换。
  • 3、Layernorm 和调制(Modulation)

    • 使用 Layernorm 进行层归一化。
    • 调制(Modulation)部分通过 α 和 β 参数进行特征调整。
  • 4、Attention 机制

    • 采用 Q(Query)、K(Key)、V(Value)三个矩阵进行注意力计算。
  • 5、MLP(多层感知器)

    • 通过多层感知器对特征进行非线性变换。
  • 6、残差连接(Residual Connections)

    • 使用残差连接来保持信息的流动,避免梯度消失问题。

这个框架通过融合文本和图像特征,使用扩散模型逐步生成高质量的图像。

关键在于多模态 Transformer 块(MM-DiT block),通过注意力机制和非线性变换对特征进行处理,从而在生成过程中保持了数据的复杂性和一致性。

分享完成~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1849322.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux常用命令(16)—awk命令(有相关截图)

写在前面: 最近在学习Linux命令,记录一下学习Linux常用命令的过程,方便以后复习。仅供参考,若有不当的地方,恳请指正。如果对你有帮助,欢迎点赞,关注,收藏,评论&#xf…

秋招突击——6/21——新作{两两交换链表中的节点,K个一组反转链表}

文章目录 引言新做删除有序数组中的重复项个人实现 K 个一组翻转链表个人实现参考代码 总结 引言 上午完全去听讲座了,听了三场,拿了三个讲座单,从九点一直到十二点。笔记本电脑插电才能用,就没带,所以没有进行复习。…

GIT回滚

1. 使用 git revert git revert 命令会创建一个新的提交,这个提交会撤销指定提交的更改。这通常用于公共分支(如 main 或 master),因为它不会重写历史。 git revert HEAD # 撤销最近的提交 # 或者指定一个特定的提交哈希值 …

一句话、10秒,我用Claude 3.5 Sonnet生成了完整的俄罗斯方块!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识…

大模型项目落地时,该如何估算模型所需GPU算力资源

近期公司有大模型项目落地。在前期沟通时,对于算力估算和采购方案许多小伙伴不太了解,在此对相关的算力估算和选择进行一些总结。 不喜欢过程的可以直接 跳到HF上提供的模型计算器 要估算大模型的所需的显卡算力,首先要了解大模型的参数基础知识。 大模型的规模、参数的理解…

没等来百度惊艳的All in AI,却等来了国产之光的盘古大模型 5.0

6月21日,华为开发者大会(HDC 2024)在广东东莞正式开幕。盘古大模型5.0的更新,也是此次HDC2024的另一项重头戏。在过去的一年中,盘古大模型正在疯狂向各行各业渗透。 此次,华为方面展示了他们在具身智能、医…

细说MCU输出两路PWM波形及改变占空比的实现方法

目录 一、硬件及工程 二、建立工程 三、代码修改 四、下载运行 五、改变PWM波形占空比 1、定义两个全局变量 2、启动定时器 3、重写TIM3中断回调函数 六、下载并运行 一、硬件及工程 文章依赖的硬件及工程配置参考本文作者的其他文章:细说ARM MCU的串口接…

win制作git局域网仓库,克隆

仓库目录制作成共享文件 共享目录\USER-20230725LO 然后win使用git克隆\USER-20230725LO\git\wbrj

天马学航——智慧教务系统(移动端)开发日志八

天马学航——智慧教务系统(移动端)开发日志八 日志摘要:完成了对用户主界面的优化,再次优化数据库缓存,使数据库读写分离 优化主界面 优化用户界面,使界面看起来更加亲切贴合 主要源码 build() {Row() {Column({space:30}) {Te…

【Java】已解决java.io.InterruptedIOException异常

文章目录 一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项 已解决java.io.InterruptedIOException异常 在Java中,java.io.InterruptedIOException异常通常与I/O操作被中断有关。这种中断可能由多种因素引起,如线程被中…

发布微信小程序需要icp证吗?

微信小程序需要办理ICP许可证吗? 微信小程序需不需要办理ICP许可证,具体要看你的小程序类目是什么,还要看你的小程序具体是做什么的? 根据《互联网信息服务管理办法》 第四条 国家对经营性互联网信息服务实行许可制度&#xff1b…

超级干货 !数据平滑9大妙招(python版)_python指数平滑预测案例

大家好,对数据进行平滑处理的方法有很多种,具体的选择取决于数据的性质和处理的目的。如果你对Python感兴趣,想要学习pyhton,这里给大家分享一份**Python全套学习资料**,都是我自己学习时整理的,希望可以帮…

体验一下 Claude 3.5 Sonnet

体验一下 Claude 3.5 Sonnet 0. 引言1. Artifacts - 使用 Claude 的新方式2. 体验一下 Claude 3.5 Sonnet 0. 引言 2024年6月21日,Anthropic 推出 Claude 3.5 Sonnet,这是即将推出的 Claude 3.5 型号系列中的第一个版本。 Claude 3.5 Sonnet 提高了行业…

Nature | 解锁大脑运动控制机理!哈佛大学与DeepMind实现「AI大脑」控制虚拟老鼠

近日,哈佛大学的研究人员与谷歌DeepMind AI 实验室合作,开发出了一种虚拟大鼠模型,以研究大脑如何控制真实老鼠的运动。这个创新的模型准确地模拟了在真实大鼠身上观察到的神经活动,可以用于探讨大脑是如何控制动物的运动行为。 …

web系统数据库敏感数据处理

一、前言 web系统数据库中保存的公民信息不允许明文存储,比如手机号,身份证号,收货地址等。 二、处理方式 数据库中密文存储,web通过注解的方式对数据加解密处理,下面是处理方法 1、编写接口 public interface E…

借助AI营销类API,实现自动化的营销流程

借助AI营销类API,企业可以实现自动化的营销流程,提高效率和效果,并节省大量的时间和资源。这些API利用人工智能和机器学习的技术,能够自动化地执行各种营销任务和流程。首先,AI营销类API可以帮助企业实现自动化的市场调…

Linux【实操篇-文件权限和搜索查找类命令】

07 【实操篇-文件权限和搜索查找类命令】 1.文件权限类 1.1 权限管理的重要性 和 Windows 系统不同,Linux 系统为每个文件都添加了很多的属性,最大的作用就是维护数据的安全。举个简单的例子,在你的 Linux 系统中,和系统服务相…

外星人Alienware m18R1 原厂Windows11系统

装后恢复到您开箱的体验界面,包括所有原机所有驱动AWCC、Mydell、office、mcafee等所有预装软件。 最适合您电脑的系统,经厂家手调试最佳状态,性能与功耗直接拉满,体验最原汁原味的系统。 原厂系统下载网址:http://w…

【国际化I18n使用方法】vue2使用i18简单实现多语种切换,刷新保持,动态数据处理

效果图 使用流程 总结就是,安装好插件后,配置几个语言的js文件,每个词都要在每个js内写一遍对应的语言,然后通过切换js文件拿到对应的语言,实现翻译的效果。然后当前使用什么语言保存到本地,这样刷新就可以…

移动端+PC端应用模式的智慧城管综合执法办案平台源码,案件在线办理、当事人信用管理、文书电子送达、沿街店铺分析

城市管理综合执法管理平台实现执法办案、业务全流程在线办理,依托移动端PC端的“两端”应用模式,保障能够通过信息化手段进行日常的执法办案工作,强化执法监督功能。提供了案件在线办理、当事人信用管理、文书电子送达、沿街店铺分析等功能&a…