老电脑焕发第二春,玩转 Stable Diffusion 3

news2024/10/6 16:20:54

几年前,我头脑一热,配置了一台顶配级消费 PC(RTX 2080 Ti GPU + i9 CPU),打算用来学习 AI。然而,起初我并没有找到合适的切入点。深度学习早期阶段,消费级显卡根本无法承担训练大模型、微调大模型,甚至连运行大模型都很吃力。结果,这台电脑主要用来学习 TensorFlow、Python 编程等基础知识,但最后从入门到放弃。不过,当时配置的 CPU 和内存还不错,用来编译 Chromium 浏览器和 Android 系统也算是物尽其用,唯独显卡几乎闲置。随着 Nvidia 不断推出新显卡,RTX 2080 Ti 显得越来越落伍了。

近年来,AIGC(人工智能生成内容)技术不断进步,大模型的规模越来越大,参数动辄以十亿(Billion)为单位,但对 GPU 的要求却逐渐降低。比如最近发布的 Stable Diffusion 3,仅需 6G 显存就能很好地运行。此外,语音识别、GPT、ChatTTS、Text to Audio、Text to Video 等大模型也能在消费级 GPU 上运行。

目前,以我的资源和实力,进入 AI 行业进行大模型研发不太现实,只能围绕 AI 技术做一些应用,或者体验一下 AIGC。因此,我最近在研究如何在本地部署大模型。

前几天,Stable Diffusion 3 的大模型开源了,我第一时间在电脑上进行了本地部署。下面是我在 Windows 上部署 Stable Diffusion 3 的总结。

ComfyUI

Stability AI 开源了 Stable Diffusion 3 Medium 模型,拥有 20 亿参数。要让模型运行,还需要外围框架和 UI 构建应用。在图像生成领域,常用的有 Stable Diffusion WebUI 和 ComfyUI,以及后起之秀 Fooocus。目前只有 ComfyUI 支持 SD3。

第一眼看到 ComfyUI 的界面,我就被它吸引了。

519d5953932dc32c162313ddf852677d.png

这是一个非常适合程序员使用的交互界面,通过浏览器访问。整个过程以工作流形式组织,非常适合根据需求定制工作流,对于重复性工作,可以反复执行工作流,减少重复劳动。工作流可以以 JSON 文件形式保存和加载,方便交流工作流程。

插件支持是现代软件的标配,ComfyUI 在这方面做得很好,已经建立了良好的生态,社区参与度很高,有专门分享插件和交流工作流的。

安装 ComfyUI

ComfyUI 支持 Windows、Linux 和 Mac OS 系统。我之前主要在 Linux 系统下开发,写的文章也是在 Linux 下部署。但自去年转向开发应用后,发现绝大多数用户使用的是 Windows 系统。虽然也开发过一些信创系统的应用,但推不动。广大网友虽然口头上支持国产系统,但实际行动上还是更倾向于 Windows。这篇文章就讲述如何在 Windows 下部署 Stable Diffusion 3,准确地说是 ComfyUI 在 Windows 系统下的部署,系统版本为 Windows 11 64 位。

ComfyUI 是开源的,可以在 GitHub 上访问:

https://github.com/comfyanonymous/ComfyUI

针对 Windows 系统,ComfyUI 有 Release 包,下载即可使用:

67f8f71bd231026a7aa7dc7b165895b1.png

作为程序员,我更喜欢使用第二种方式,直接 clone 代码库:

git clone https://github.com/comfyanonymous/ComfyUI

安装依赖:

pip install -r requirements.txt

运行:

python main.py

打开浏览器,地址栏输入 http://127.0.0.1:8188/ 就可以看到 ComfyUI 的界面了。

共享 SD-WebUI 资源

由于我之前安装过 SD-WebUI,里面有 Python 虚拟环境、Pip 包以及一些 SD 模型,正好 ComfyUI 也支持与 SD-WebUI 共用一些设施,于是我写了一个 run.bat 脚本:

set VENV_DIR=C:\ai\stable-diffusion-webui\venv
set PYTHON="%VENV_DIR%\Scripts\Python.exe"
echo venv %PYTHON%
%PYTHON% main.py
pause

双击 run.bat 脚本即可启动 ComfyUI。

如果要共用 SD-WebUI 中的模型,将代码中的 extra_model_paths.yaml.example 复制一份,重命名为 extra_model_paths.yaml,然后用文本编辑器编辑。

677ae96ce256d139ba283da9c08c8170.png

替换其中 path/to/stable-diffusion-webui/ 的路径。

如果你希望将 ComfyUI 的模型放在别处,不想放在程序内,还可以去掉下面 comfyui 的注释行,指定一个路径。

如果运行出现错误:

AssertionError: Torch not compiled with CUDA enabled

可能是 PyTorch 的版本问题,解决方法是:

C:\ai\stable-diffusion-webui\venv\Scripts\pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu121

注意 :因为我使用的是 WebUI 的 python 虚拟环境,所以 pip 前面需要带上路径,如果你是使用的系统 python:

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu121

下载模型

模型下载的官方地址是:

https://huggingface.co/stabilityai/stable-diffusion-3-medium

5baac47aa92beec37b1ce08732b6448f.png

模型比较大,如果翻墙不便,可以尝试搜索一下国内的下载站点。

模型下载文件包含三个部分:

  • 模型

  • 文本编码器

  • ComfyUI 工作流

先来看看模型文件,有四个,体积都还不小,到底下哪个呢?还是全部下载?

看看官方对这四个文件的解释:

  • sd3_medium.safetensors 包含 MMDiT 和 VAE 权重,但不包含任何文本编码器。

  • sd3_medium_incl_clips_t5xxlfp16.safetensors 包含所有必要的权重,包括 T5XXL 文本编码器的 fp16 版本。

  • sd3_medium_incl_clips_t5xxlfp8.safetensors 包含所有必要的权重,包括 T5XXL 文本编码器的 fp8 版本,在质量和资源要求之间实现平衡。

  • sd3_medium_incl_clips.safetensors 包含除 T5XXL 文本编码器之外的所有必要权重。它需要的资源很少,但如果没有 T5XXL 文本编码器,模型的性能会有所不同。

如果对 text to image 有所了解的话,就会明白所谓的文本编码器就是指的 CLIP 模型,也就是计算机用来理解文字的模型,这个 CLIP 模型可以包含在 SD 模型内部,也可以作为单独的文件,独立加载。

看看 text_encoders 下的文件,我们可以看到里面有四个 CLIP 模型:

b53eecce47aea28eb761462a0e678cc2.png

目前还没有看到对这四个 CLIP 模型的介绍,不过理解上面对模型的介绍,t5xxl 文本编码器的性能更佳,fp16 版本质量最佳,但对资源的需求更大。

再来看看 comfy_example_workflows 下的文件:

da7955629a37127f145ac77ccd164fe2.png

这下面有三个工作流文件,文件比较小,先下载这三个工作流文件。

在 ComfyUI 中打开 sd3_medium_example_workflow_basic.json 文件:

89a3700885000b7c6527c23bd9fcb240.png

可以看到,这个工作流加载了三个 CLIP 模型(为什么要 3 个?)和一个基础模型。那我们就下载这四个模型吧。

  • sd3_medium.safetensors

  • clip_g.safetensors

  • clip_l.safetensors

  • t5xxl_fp8_e4m3fn.safetensors

这几个模型总共有十几个 G,慢慢下载吧。

下载完毕后,将 clip_g.safetensors、clip_l.safetensors、t5xxl_fp8_e4m3fn.safetensors 丢到 ComfyUI 的 models\clip 下,sd3_medium.safetensors 丢到 ComfyUI 的  models\checkpoints 下。

执行基础的工作流

在 ComfyUI 中打开上一个步骤中下载的 sd3_medium_example_workflow_basic.json 文件。需要注意这个工作流中的 checkpoint 名称是带有路径的,替换成 sd3_medium.safetensors 即可。

Ctrl + 回车 快捷键,即可生成一张漂亮的图。整个过程还是相当快,生成的质量也还不错。

给大家看看我在完全没有修改工作流所生成的图。

0442180da9e3bf96000f01d3d78a1c3c.png

5255b94de7a8c33215d6f6f1abdbc82f.png

这是我初次使用 ComfyUI,还需要继续摸索,希望能用 ComfyUI 和 SD3 生成理想的图片。敬请关注!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1830908.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

优思学院|精益管理是什么?3大问题帮你彻底搞懂

有一位朋友他喜欢投资,他偶然看中了一家公司,从公司的一些新闻稿中表示他们因为实施了“精益管理”(Lean Management),因此每股盈余(EPS)长期稳定增长,甚至在行业内的重要指标——库…

微信小游戏备案 之 游戏内容介绍编写实例

微信小游戏备案 之 游戏内容介绍编写实例 前言一,编写规范二,内容填写2.1 本游戏不涉及2.2 游戏场景2.3 游戏玩法2.4 功能系统2.5 主要特点三,小结前言 对于游戏开发者来说,微信小游戏备案是让游戏合法上线的重要步骤,而其中游戏内容介绍的编写尤为关键。下面为大家提供一…

Python实现管线建模 - 3.同心变径管

往期回顾 Python实现管线建模 || 1.圆直管、方管https://blog.csdn.net/Xxy9426/article/details/138836778?spm1001.2014.3001.5501 对依赖库的补充 随着后续内容的深入,我发现单纯靠trimesh库已经无法完成后续的建模(涉及到多个几何体拼接或者是创建…

Prometheus+Grafana监控MySQL

一、准备 grafana服务器:192.168.48.136Prometheus服务器:192.168.48.136被监控服务器:192.168.48.134、192.168.48.135查看时间是否同步 二、安装prometheus server 【2.1】安装 # 解压安装包 tar -zxvf prometheus-2.52.0.linux-amd64.t…

安卓删除文件恢复,3个技巧轻松解决,让你的数据失而复得

如今,手机数据的重要性不言而喻。无论是工作文档、个人照片还是其他珍贵的资料,一旦丢失,都可能带来不小的困扰。而当我们不小心删除了手机中的文件时,焦虑和无助感更加强烈。但幸运的是,随着技术的不断进步&#xff0…

Unity接入PS5手柄和Xbox手柄以及Android平台的(以及不同平台分析)

Unity接入PS5手柄和Xbox手柄以及Android平台的(以及不同平台分析) 介绍Unity手柄小知识PC端和编辑器上的摇杆事件和滑动事件PS5手柄Xbox手柄北通手柄 安卓环境下(安卓手机或者安卓模拟器)PS5手柄Xbox手柄北通手柄 总结 介绍 最近…

高中数学:数列-等比数列

一、概念 二、通项公式 1、与函数的关系 类似一个指数函数 2、重要性质 三、求和公式 错位相减法 四、练习 例题1 例题2

基于机器学习的变频器故障诊断方法(MATLAB,Python)

变频器故障数据由MATLAB Simulink生成。 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from sklearn.neighbors import KNeighborsClassifier from sklearn.svm import SVC from sklearn.ensemble import RandomForestClass…

折叠手机鼻祖倒下了,折叠屏手机或完蛋,苹果早有先见之明

柔宇即将倒下,这家率先开发出折叠屏技术的企业未能挽救它自己,而对于折叠手机行业来说,这么多年过去,折叠手机也仍然是绝对的少数派,或许折叠手机也快要寿终正寝了。 柔宇开发的折叠手机为外折叠,弯曲部分无…

【UIDynamic-动力学-UICollisionBehavior-碰撞行为-与引用View碰撞-与另一个item发生碰撞 Objective-C语言】

一、接下来,我们来说这个碰撞啊, 1.把之前的代码备份一份,改个名字,叫做“02-碰撞-与引用View碰撞” 首先呢,把重力的这些属性,先删了, 让它先有重力,先command + R, 当我们点击屏幕的时候,它有重力,所以自然会往下落, 但是呢,好像感觉,超出了控制器的View了以后…

React+TS前台项目实战(九)-- 全局常用组件弹窗Dialog封装

文章目录 前言Dialog公共弹窗组件1. 功能分析2. 代码详细注释3. 使用方式4. 效果展示 总结 前言 今天这篇主要讲全局公共弹窗Dialog组件封装,将用到上篇封装的模态框Modal组件。有时在前台项目中,偶尔要用到一两个常用的组件,如 弹窗&#x…

建筑工程软件Revit中复杂大模型如何实现Web端轻量化?| HOOPS技术应用

建筑信息模型( BIM)技术在建筑工程中扮演着越来越重要的角色,而Autodesk Revit作为主流的BIM软件,被广泛应用于设计、施工和管理。然而,Revit生成的复杂大模型常常由于数据量庞大而难以直接在Web端展示和操作。这时&am…

爬虫初学篇——看完这些还怕自己入门不了?

初次学习爬虫,知识笔记小分享 学scrapy框架可看:孤寒者博主的【Python爬虫必备—>Scrapy框架快速入门篇——上】 目录🌟 一、🍉基础知识二、🍉http协议:三、🍉解析网页(1) xpath的用…

分类预测 | Matlab实现GWO-CNN-SVM灰狼冰算法优化卷积支持向量机分类预测

分类预测 | Matlab实现GWO-CNN-SVM灰狼冰算法优化卷积支持向量机分类预测 目录 分类预测 | Matlab实现GWO-CNN-SVM灰狼冰算法优化卷积支持向量机分类预测分类效果基本描述程序设计参考资料 分类效果 基本描述 1.Matlab实现GWO-CNN-SVM灰狼冰算法优化卷积支持向量机分类预测&…

java之sql注入审计

1 基础环境搭建 1.1 mysql数据库搭建 phpStudy是一个PHP调试环境的程序集成包,PHPMysqlApache。 通过phpstduy下载与安装指 定版本的mysql数据库【可以同时下载多个版本,便于应对不对的系统及复现漏洞便捷切换多个版本】 完成下载后,启动…

无人机比赛有哪些?

无人机比赛项目可是多种多样,精彩纷呈呢! 常见的比赛项目包括S形绕桩赛、平台起降赛、应用航拍、投掷物品和定点飞行等。这些项目不仅考验无人机的性能,更考验飞行员的操控技巧。 在S形绕桩赛中,飞行员需要操控无人机快速而准确…

大数据SQL格式化规范及示例

无论是数据仓库开发还是数据分析,编写清晰易读的SQL是一项基本的技能。本文将分享几个SQL格式的规范和示例,旨在提高SQL的可读性和可维护性。 虽然这些规范没有严格的标准,但统一的格式可以帮助减少理解和维护SQL代码的时间。不管团队其他人…

5G智能运维趋势

随着5G技术的普及,网络运维面临着前所未有的复杂性和数据量挑战。智能运维通过人工智能、大数据分析、自动化工具等技术,为5G网络提供了高效的管理和优化手段。在网络性能优化、故障预测与管理、资源动态调度、安全管理和网络切片管理等方面,…

一些激活函数

一些激活函数 摘要激活函数分类sigmoidTanhSoftsignSoftmaxReLUSoftplusNoisy ReLULeaky ReLUPReluELUSELUSwishGELUGLUGEGLUMishMaxout 摘要 本篇博客对一些激活函数进行总结,以便加深理解和记忆 激活函数分类 饱和激活函数:sigmoid、tanh… 非饱和激…

欣九康诊疗系统助力诊所向数字化转型

数字化已经成为各行各业转型的重点方向,而为了不被时代所淘汰,医疗机构也势必要紧跟潮流,本人作为门诊部的负责人深知医疗机构要想实现数字化转型那么拥有一款便捷实用的医疗平台是必不可少的,近几年,随着国家大力支持…