【AI绘画教程】Stable Diffusion 1.5 vs 2

news2025/1/15 6:35:43

在本文中,我们将总结稳定扩散 1 与稳定扩散 2 辩论中的所有要点。我们将在第一部分中查看这些差异存在的实际原因,但如果您想直接了解实际差异,您可以跳下否定提示部分。让我们开始吧!

在这里插入图片描述

Stable Diffusion 2.1 发布与1.5相比,2.1旨在解决2.0的许多相对缺点。本文的内容与理解 Stable Diffusion 1 与 2 仍然相关,但读者应确保额外阅读附加的 Stable Diffusion 2.1 部分以了解全貌。

OpenCLIP

Stable Diffusion 2 所做的最重要的转变是替换了文本编码器。Stable Diffusion 1 使用 OpenAI 的 CLIP,这是一个开源模型,可以学习标题描述图像的程度。虽然模型本身是开源的,但训练 CLIP 的数据集很重要,它不是公开的

Stable Diffusion 2 改用 OpenCLIP,这是 CLIP 的开源版本,它是使用已知数据集训练的——LAION-5B 的一个美学子集,可以过滤掉 NSFW 图像。Stability AI表示,OpenCLIP“大大提高了生成图像的质量”,事实上,在指标上优于未发布的CLIP版本。

为什么这很重要

撇开这些模型的相对性能不谈,从 CLIP 到 OpenCLIP 的转变是 Stable Diffusion 1 和 Stable Diffusion 2 之间许多差异的根源

特别是,许多 Stable Diffusion 2 的用户声称它不能像 Stable Diffusion 1 那样代表名人或艺术风格,尽管 Stable Diffusion 2 的训练数据没有被故意过滤以删除艺术家。这种差异源于这样一个事实,即CLIP的训练数据比LAION数据集有更多的名人和艺术家。由于CLIP的数据集不向公众开放,因此无法仅使用LAION数据集恢复相同的功能。换言之,Stable Diffusion 1 的许多规范提示方法对于 Stable Diffusion 2 来说几乎已经过时了。

这意味着什么

这种向完全开源、开放数据模型的改变标志着 Stable Diffusion 故事的重要转变。对 Stable Diffusion 2 进行微调并构建人们希望看到的功能将落在开源社区的肩上,但这实际上是 Stable Diffusion ab initio 的意图——一个由社区驱动的、完全开放的项目。虽然一些用户目前可能对 Stable Diffusion 2 的相对性能感到失望,但 StabilityAI 团队已经花费了超过 100 万 A100 小时来构建一个坚实的基础。

此外,虽然创建者没有明确提及,但这种从使用 CLIP 的转变可能会为项目贡献者提供一些保护,防止潜在的责任问题,考虑到即将到来的知识产权诉讼浪潮,这很重要。

考虑到这个背景,现在是时候讨论 Stable Diffusion 1 和 2 之间的实际区别了。

Negative Prompts

我们首先检查负面提示,与 SD 1 相比,它似乎对 Stable Diffusion(SD) 2 的强劲性能更重要,如下所示:

在这里插入图片描述
现在让我们更详细地看一下负面提示。

Simple Prompt

首先,我们将提示“无边池”提供给 Stable Diffusion 1.5 和 Stable Diffusion 2,没有负面提示。显示了每个模型的三张图像,其中每列对应于不同的随机种子。

在这里插入图片描述

prompt: "infinity pool"
size: 512x512
guidance scale: 12
steps: 50
sampler: DDIM

正如我们所看到的,Stable Diffusion 1.5 总体上似乎比 Stable Diffusion 2 表现更好。在SD 2中,最左边的图像有一个贴片,与图像不匹配,而最右边的图像几乎是不连贯的。

现在,我们以相同的方式从相同的起始噪声生成图像,这次使用负提示。我们添加了否定提示“丑陋、平铺、画得不好的手、画得不好的脚、画得不好的脸、出框、突变、突变、额外的四肢、额外的腿、额外的手臂、毁容、变形、斗鸡眼、身体出框、模糊、糟糕的艺术、糟糕的解剖学、模糊、文本、水印、颗粒状”(ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, mutation, mutated, extra limbs, extra legs, extra arms, disfigured, deformed, cross-eye, body out of frame, blurry, bad art, bad anatomy, blurred, text, watermark, grainy),这是 Emad Mostaque 使用的否定提示。

添加否定提示后,SD 1.5 通常表现更好,尽管中间图像的标题对齐方式可能较差。对于 SD 2,改进更为剧烈,尽管整体性能仍然不如 SD 1.5

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1932044.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数字化转型“破局”:低代码开发平台如何缩短开发交付周期,提升效率

日新月异的数字时代,各行业正经历着前所未有的变革与转型。随着大数据、云计算、人工智能等技术的不断成熟与融合,数字化转型的步伐愈发坚定而迅速,成为企业转型升级、实现可持续发展的必由之路。然而,传统的软件开发模式受限于高…

35.UART(通用异步收发传输器)-RS232(2)

(1)RS232接收模块visio框图: (2)接收模块Verilog代码编写: /* 常见波特率: 4800、9600、14400、115200 在系统时钟为50MHz时,对应计数为: (1/4800) * 10^9 /20 -1 10416 …

如何防止漏洞攻击

随着信息技术的日新月异,企业在日常运营中对网络和数字化系统的依赖日益加深。然而,这种高度依赖也伴随着网络安全威胁的急剧增长,对企业的核心资产与数据构成了严峻挑战。为了有效捍卫企业利益,确保运营无忧,积极构建…

Monaco 使用 DocumentHighlightProvider

Monaco 中有一个文字高亮的功能,就是选中一个单词,会高亮文字文档中所有出现该单词的位置,效果如下: Monaco 默认就有这个功能,可以根据具体需求进行定制。通过 registerDocumentHighlightProvider 进行注册 实现 pro…

无人机之图传距离的决定因素

一、发射功率:图传设备的发射功率越大,信号能够传播的距离就越远 二、工作频段:不同频段具有不同的传播特性,一些频段在相同条件下可能具有更远的传输距离。 三、天线性能:优质的天线可以增强信号的发送和接收能力&a…

9.11和9.9哪个数更大?所有模型测试

目录 通义千问2.5 通义千问2_0.5b kimi 智谱清言 ​编辑讯飞星火 秘塔搜索 文言一心 豆包 腾讯元宝 海螺AI ChatGPT 3.5 Gemini 1.0 通义千问72B Claude-3 天工AI 参赛选手:讯飞星火、文言一心、腾讯元宝、海螺AI、通义千问72B、天工AI、 通义千问2…

实验七:图像的复原处理

一、实验目的 熟悉常见的噪声及其概率密度函数。熟悉在实际应用中比较重要的图像复原技术,会对退化图像进行复原处理。二、实验原理 1. 图像复原技术,说简单点,同图像增强那样,是为了以某种预定义的方式来改进图像。在具体操作过程中用流程图表示,其过程就如下面所示: 2…

git查看历史记录方法

0 Preface/Foreword 1 git reflog git reflog显示所有的操作,不仅仅是commit,也包括git pull,checout等动作。 1.1 查看本地和远程仓库的区别 远程仓库:中间的提交是直接在web端编辑 远程仓库:最新的提交是在本地编…

在golang中Sprintf和Printf 的区别

最近一直在学习golang这个编程语言,我们这里做一个笔记就是 Sprintf和Printf 的区别 fmt.Sprintf 根据格式化参数生成格式化的字符串并返回该字符串。 fmt.Printf 根据格式化参数生成格式化的字符串并写入标准输出。由上面就可以知道,fmt.Sprintf返回的…

爬虫(二)——爬虫的伪装

前言 本文是爬虫系列的第二篇文章,主要讲解关于爬虫的简单伪装,以及如何爬取B站的视频。建议先看完上一篇文章,再来看这一篇文章。要注意的是,本文介绍的方法只能爬取免费视频,会员视频是无法爬取的哦。 爬虫的伪装 …

leetcode-三数之和

视频:https://www.bilibili.com/video/BV1bP411c7oJ/?spm_id_from333.788&vd_sourcedd84879fcf1be72f360461b01ecab0d6 从两数之和开始,排序后的两数之和,利用好升序的性质,可以将时间复杂度从on2降到on; class Solution …

MongoDB常用命令大全,概述、备份恢复

文章目录 一、MongoDB简介二、服务启动停止、连接三、数据库相关四、集合操作五、文档操作六、数据备份与恢复/导入导出数据6.1 mongodump备份数据库6.2 mongorestore还原数据库6.3 mongoexport导出表 或 表中部分字段6.4 mongoimport导入表 或 表中部分字段 七、其他常用命令八…

Qt 4.8.7 + MSVC 中文乱码问题深入分析

此问题很常见,然而网上关于此问题的分析大多不够深刻,甚至有错误;加之Qt5又更改了一些编码策略,而很多文章并未提及版本问题,或是就算提了,读者也不重视。这些因素很容易让读者产生误导。今日我彻底研究透了…

成像光谱遥感技术中的AI革命:ChatGPT

遥感技术主要通过卫星和飞机从远处观察和测量我们的环境,是理解和监测地球物理、化学和生物系统的基石。ChatGPT是由OpenAI开发的最先进的语言模型,在理解和生成人类语言方面表现出了非凡的能力,ChatGPT在遥感中的应用,人工智能在…

AI第二课堂第一次笔记

conda的使用 在输入cmd进入终端后,使用命令 conda create -n env_name python3.10 创建环境 命令 conda activate env_name 打开环境,如:使用 conda deactivate退出指令 2.python一些常见操作 python中的文件打开与关闭 调开源的库 p…

spring框架(ioc控制反转 aop面向切面编程)

目录 服务端三层开发: spring框架(ioc控制反转 aop面向切面编程) 1、Spring框架的优点 什么是事物? 2、Spring的IOC核心技术 什么是ioc? 代码举例:(详细流程见笔记) **applic…

一些简单的基本知识(与C基本一致)

一、注释 1.单行注释://(快捷键:ctrlshift?,可以选择多行) 2.多行注释:/* 文本 */ 二、变量 变量的作用是给一段内存空间起名,方便操作内存中的数据。 通过赋予某数据的…

肯德基蛋挞咖啡?品牌为何热衷于研发“奇葩”新品

想喝蛋挞的风还是吹到了咖啡这里... 是的,它来了,它带着新品走来了。前不久,肯德基旗下的肯悦咖啡推出了一款“蛋挞dirty”,就是把除去蛋挞的芯,留下蛋挞皮皮献给咖啡,成功变成了可以吃的咖啡或者说是可以…

Java面试题--JVM大厂篇之深入解析JVM中的Serial GC:工作原理与代际区别

目录 引言: 正文: 一、Serial GC工作原理 年轻代垃圾回收(Minor GC): 老年代垃圾回收(Major GC或Full GC): 二、年轻代和老年代的区别 年轻代(Young Generation&a…

Java 中的正则表达式

转义字符由反斜杠\x组成,用于实现特殊功能当想取消这些特殊功能时可以在前面加上反斜杠\ 例如在Java中当\出现时是转义字符的一部分,具有特殊意义,前面加一个反斜可以取消其特殊意义,表示1个普通的反斜杠\,\\\\表示2个…