ComfyUI 使用SD3

news2024/10/7 4:25:54

1 需要更新ComfyUI到最新版本,更新起来也非常方便

或者到目录下 git full即可

2 ComfyUI更新完成后,便是开始下载需要的模型和案例

https://huggingface.co/stabilityai/stable-diffusion-3-medium/tree/main

当然也可以网盘进行下载

SD3 百度网盘 模型下载链接 : https://pan.baidu.com/s/1gRA3ezoP-rUbLAYM07lU6Q 
提取码:5gw6 

差异2-prompt提示词:由于text-encoder模型换成了带有微调T5模型的3个Clip模型组,因此这就导致了当前开源的这一版本的SD3模型输入提示词的方式和之前有了重大差异。原本采用1girl,UHD, realistic, 3D等等关键字形式的prompt全部失去意义,现在SD3正确的打开方式应该是和DALLE3或MJ-V6类似的自然语言描述方式,比如这种prompt:

a female character with long, flowing hair that appears to be made of ethereal, swirling patterns resembling the Northern Lights or Aurora Borealis. The background is dominated by deep blues and purples, creating a mysterious and dramatic atmosphere. The character's face is serene, with pale skin and striking features. She wears a dark-colored outfit with subtle patterns. The overall style of the artwork is reminiscent of fantasy or supernatural genres.

并且,负面提示词也可以基本不需要写一大串,甚至可以完全不写负面提示词。本来负面提示词的存在就是因为之前Clip模型输入长度和理解能力受限才采用的方式,目前因为T5强大的性能,完全可以不需要再使用负面提示词来保证输出质量了。

网上有人整理了部分信息如下

差异1-text-encoder模型:也是我认为这次SD3和之前的SDXL和1.5最核心的差异其实是文本对齐方式不同。从这张测试对比图可以看到上面效果比较好的图片SD3模型和text-encoder模型是分开加载的。我们从之前公布的技术报告可以看到这次SD3的text-encoder模型从原本的Clip模型换成了著名的Google开源的encoder-decoder架构的T5模型,换成T5最大的一个优势在于可以支持更长、更详细的文本作为prompt了。

差异2-prompt提示词:由于text-encoder模型换成了带有微调T5模型的3个Clip模型组,因此这就导致了当前开源的这一版本的SD3模型输入提示词的方式和之前有了重大差异。原本采用1girl,UHD, realistic, 3D等等关键字形式的prompt全部失去意义,现在SD3正确的打开方式应该是和DALLE3或MJ-V6类似的自然语言描述方式,比如这种prompt:

a female character with long, flowing hair that appears to be made of ethereal, swirling patterns resembling the Northern Lights or Aurora Borealis. The background is dominated by deep blues and purples, creating a mysterious and dramatic atmosphere. The character's face is serene, with pale skin and striking features. She wears a dark-colored outfit with subtle patterns. The overall style of the artwork is reminiscent of fantasy or supernatural genres.

并且,负面提示词也可以基本不需要写一大串,甚至可以完全不写负面提示词。本来负面提示词的存在就是因为之前Clip模型输入长度和理解能力受限才采用的方式,目前因为T5强大的性能,完全可以不需要再使用负面提示词来保证输出质量了。

差异3-VAE:SD3模型开源之后,我第一时间去寻找的并非是SD3的基础模型,而是想看看这次重新训练的VAE模型文件到底多大,结果非常让我意外的是,这次SD3的VAE直接内置到了base model里面了,并没有单独提供VAE模型。这样我们也就没办法拿SD3的VAE模型用于其他的训练任务中了

差异4-文本生成能力:如前面所述,因为VAE模型的通道数增加,使得SD3生成带有文字的图片效果大大强于之前SD系列模型,这也是之前Stablity AI重点宣传和介绍的模型能力。当然这还是仅限于生成英文内容而非中文,并且可以预估的未来SD系列模型的中文生成能力也不会太好,这一点恐怕还有指望与开源社区的各路大神来微调训练来解决了。

差异5-多模型集成:与之前SDXL和1.5系列模型还有一个显著区别是这一开源的SD3-2B包括3个不同的模型版本,按照集成模型的类型分别如下:

sd3_medium.safetensors 包括 MMDiT 和 VAE 权重,但不包括任何文本编码器。使用该模型需要配置额外的clip 模型

sd3_medium_incl_clips_t5xxlfp8.safetensors 包含所有必要的权重,包括 T5XXL 文本编码器的 fp8 版本,提供质量和资源需求之间的平衡。所以使用该模型 则不需要额外的clip 信息

sd3_medium_incl_clips.safetensors 包括所有必要的权重,除了 T5XXL 文本编码器。它需要最少的资源,但模型的性能将在没有 T5XXL 文本编码器的情况下有所不同。

也可以看看如下链接的对论文的解读

https://zhuanlan.zhihu.com/p/685447966

提示词的差异

https://www.zhihu.com/question/658752661/answer/3528705649

在实际使用过程中 如下还是要注意对GPU 资源的消耗,基本都超过12GB显存以上了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1818272.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CV每日论文--2024.6.12

1、PGSR: Planar-based Gaussian Splatting for Efficient and High-Fidelity Surface Reconstruction 中文标题:PGSR:基于平面的高斯溅射,用于高效、高保真表面重建 简介:这项研究关注于3D高斯喷洒(3DGS)技术,该技术因其高质量渲…

实体(集)间的联系

在现实世界中实体集不是孤立存在的,它们之间的联系是错综复杂的,所以,在信息世界中不但要关心每一个实体集、属性,还要关心实体集之间的联系。联系分为两类:一类是实体内部的联系,反映的是一部分属性值与另一部分属性值之间的决定关系或依赖关系,即字段间的联系;另一类…

软件许可管理的关键要素

在数字化时代,软件已成为企业和个人日常运营和生活中不可或缺的一部分。然而,随着软件使用的普及,软件许可管理的重要性也日益凸显。有效的软件许可管理不仅能确保企业合法使用软件,还能帮助企业优化成本,提高运营效率…

百问网全志V853开发板启动方式及基础功能测试详解

开发板启动初体验 在后面的操作里,都是通过串口与板子进行“交流”。串口是串行接口的简称,是指数据一位一位地顺序传送,其特点是通信线路简单。 1.上电启动开发板 如3.3所示连接一根12V电源线到电源接口位置,连接一根TypeC线到…

web前端:作业三

1.回到顶部案例(固定定位) <!DOCTYPE html> <html><head><meta charset"utf-8"><title></title><style>#container{height: 5000px;border: 1px solid blue;}#back-button{width: 100px;height: 100px;border: 1px solid…

【Ardiuno】实验ESP32单片机搭建简易Web服务器功能(图文)

今天&#xff0c;小飞鱼继续来测试使用ESP32来实现简易的wifi无线web服务器功能。使用Ardiuno平台编辑器输入以下示例代码&#xff1a; #include <WiFi.h> #include <WiFiClient.h> #include <WebServer.h> #include <ESPmDNS.h>const char* ssid &q…

u-boot启动第一阶段 Start.S

从sram的uboot的第一阶段跳转到ddr下的uboot的第二阶段地址&#xff08;不直接从ram中完成uboot是因为ram空间有限&#xff09; 从start.s中构建异常向量表&#xff0c;然后到lowlevel中&#xff0c;然后完成2到7&#xff0c;之后再再ram中做栈重定位动作&#xff0c;建立mmu&a…

一品威客转亏为盈毛利率仍承压,消费者投诉问题引关注

《港湾商业观察》黄懿 5月21日&#xff0c;厦门一品威客网络科技股份有限公司的实质控股股东EPWK HOLDINGS LTD.(下称“一品威客”)在美国证监会(SEC)更新招股书&#xff0c;股票代码EPWK&#xff0c;拟在美国纳斯达克IPO上市。其于2022年8月12日在美国SEC秘密递表&#xff0c…

docker拉取镜像一直在加载中,且会提示error pulling image configuration

1、增加国内镜像配置 #查看文件内容 sudo vim /etc/docker/daemon.json如果没有该文件&#xff0c;则需要在/etc/docker中创建一个daemon.json 文件 创建文件 vim daemon.json#文件中添加以下json {"registry-mirrors":["https://docker.mirrors.ustc.edu.cn/…

速卖通618大促全攻略:卖家如何借助测评策略实现销量飙升?

速卖通618大促是阿里巴巴集团旗下国际电商平台速卖通每年举办的盛大促销活动&#xff0c;其核心目的在于庆祝中国传统节日端午节&#xff0c;同时借此激发全球消费者的购买欲望。此项活动一般在6月18日及其周边日子展开&#xff0c;速卖通届时会推出一系列优惠措施和促销活动&a…

kotlin之foreach跳出循环

1.创建函数跳出循环。 fun breakTest() {(0..10).forEachIndexed { index, i ->Log.d("test start index$index,i$i")if (index > 7) {return}Log.d("test end index$index,i$i")}}2.通过run语句&#xff0c;将会在if判断语句为true的时候跳出run代…

算法01 递推算法及相关问题详解

目录 递推的概念 训练&#xff1a;斐波那契数列 解析 参考代码 训练&#xff1a;上台阶 参考代码 训练&#xff1a;信封 解析 参考代码 递推的概念 递推是一种处理问题的重要方法。 递推通过对问题的分析&#xff0c;找到问题相邻项之间的关系&#xff08;递推式&a…

用ChatGPT 4o画漂亮的燃尽图代码

把代码给ChatGPT&#xff0c;然后他就会帮我生成出来了。 而且图是动态的&#xff0c;可以调整颜色文字之类的内容 # Given data for Sprint 5 Progress data_sprint_5 {User Story: [BEAN-40, BEAN-42, BEAN-41, BEAN-22, BEAN-33, BEAN-44, BEAN-10, BEAN-26, BEAN-37, BEA…

DETR实现目标检测(一)-训练自己的数据集

1、DETR架构 DETR&#xff08;Detection Transformer&#xff09;是一种新型的目标检测模型&#xff0c;由Facebook AI Research (FAIR) 在2020年提出。DETR的核心思想是将目标检测任务视为一个直接的集合预测问题&#xff0c;而不是传统的两步或多步预测问题。这种方法的创新…

WebGIS开发:你还在纠结的10大问题合集!

问题1&#xff1a;GIS开发到底是学Java还是Python&#xff1f; Java是后端语言&#xff0c;Python更重数据分析和算法。 假设通常说的GIS开发是指Webgis&#xff0c;Web就是指网页端&#xff0c;所以我们说的GIS开发大部分情况下是指网页端的地图可视化开发。 GIS开发需要学…

使用MySQL全文索引实现高效搜索功能

MySQL全文索引是MySQL提供的一种高效的搜索功能&#xff0c;可以快速地搜索文本内容。全文索引可以用于搜索大量文本数据&#xff0c;通常应用在文章、博客、论坛等需要搜索的场景中。 什么是MySQL全文索引 MySQL全文索引是一种用于快速搜索文本内容的索引技术。它可以在存储和…

积累和消耗,人生本质的两件事

人生的本质其实就两件事&#xff0c;消耗和积累。 纵观你身边所有的人&#xff0c;他们做的所有的事&#xff0c;基本都可以分为两类。 一、积累 二、消耗 比如说感情&#xff0c;在我们每一个人的青春回忆里&#xff0c;都或多或少有一段刻骨铭心的感情&#xff0c;有些人的感…

编辑并保存hosts文件

1.以管理员权限打开cmd 2.执行命令 notepad C:\Windows\System32\drivers\etc\hosts 回车后会通过记事本打开hosts文件&#xff0c;然后就可以编辑并保存了。

bat脚本—快速修改网络配置

一、bat编写前注意事项 windows桌面用文本文件打开把批命令输入在文本框中&#xff0c;保存采用ANSI编码&#xff0c;后缀用.bat 可参考博客——bat脚本简介学习原理以及具体创建方式 &#xff08;文件扩展名位置&#xff09; 语法准确性&#xff1a;严格遵循 BAT 脚本的语…

零一科技Yi-VL 6B视觉大模型环境搭建推理

引子 最近看新闻博客说零一科技的Yi-VL-Plus视觉大模型效果很不错&#xff0c;那就想着尝尝鲜。这是第四篇关于视觉大模型的博客。之前有写过一篇零一科技的chat大模型零一科技Yi-34B Chat大模型环境搭建&推理_python部署大模型yi-34b-chat-CSDN博客&#xff0c;感兴趣的童…