稳定扩散 img2img 的工作原理

news2024/12/23 23:23:45
在线工具推荐: Three.js AI纹理开发包  -  YOLO合成数据生成器  -  GLTF/GLB在线编辑  -  3D模型格式在线转换  -  3D数字孪生场景编辑器

在本教程中,我将介绍:

  1. 这种技术在实践中有用的几种方式当您提供输入图像时,模型内部实际发生的情况。

1. 如何使用

1.1. 涂鸦艺术

我见过一些艺术家利用这一点,首先创建他们想要的艺术品的“涂鸦”(即他们试图制作的低质量版本),然后通过 Stable Diffusion 提供它来创造更高质量和不同风格的东西。

Reddit 用户和艺术家 TheZakMan 在这里分享了他的工作流程示例:

(你会在他的帖子中发现,他还将结果带回 Photoshop 进行一些额外的绘画,然后再次通过 Stable Diffusion 发送!

我发现这种方法的一个警告是,如果你不是艺术家,场景的背景可能更难绘制,而且将涂鸦的背景留白/空并期望模型填充它是行不通的。

1.2. 现有艺术的新艺术

我喜欢采取的另一种方法是找到一件我喜欢的人造艺术品(通常在 DeviantArt 上),然后首先通过“图像到提示”工具(一个完全不同的主题!)来输入它,例如这个简单的、基于 Web 的(而且免费!img2prompt 工具:

这里最初的艺术作品被一位名叫苏安的概念艺术家称为“蒸汽朋克空中站”,在这里的艺术站上。

该工具给了我以下文本提示:

a painting of a train station with people walking around, a detailed matte painting by Tyler Edlin, cgsociety, fantastic realism, steampunk, matte drawing, concept art

我通过 img2img 输入了这个提示(除了我用“蒸汽朋克飞艇站”替换了“火车站”)和最初的艺术作品,并生成了 15 张图像。结果看起来很棒——这是我的最爱之一:

您还可以控制输出与输入图像的相似程度;下面是一个更接近原始示例的示例:

1.3. 镜像布局

在这两种方法中,img2img 似乎是控制要生成的图像整体布局的好方法。

提供初始图像意味着您的更多世代应该坚持您所追求的构图。

也许这也使模型更容易理解图像应该是什么?

2. 它是如何工作的

2.1. 去除噪声

在 Stable Diffusion 的正常文本到图像运行中,我们向模型提供一些随机噪声。不过,该模型假设此输入实际上是一件刚刚添加了一堆噪声的艺术品。

因此,使用文本提示作为(假定的)原始图像外观的“提示”来源,它会尽最大努力从静态中恢复图像。它通过一堆步骤(例如,50 个)执行此操作,每次逐渐消除更多的噪音。

使用 img2img,我们实际上将真实图像(您提供的图像)埋在一堆噪音下。这会导致 Stable Diffusion “恢复”看起来更接近您提供的东西。

2.2. 图像/噪声强度参数

有一个参数允许您控制输出与输入的相似程度。不同的工具使用不同的名称,但它的值介于 0.0 - 1.0 之间,值越高,输出与输入的偏差越大

其工作方式是,我们将通过多个步骤将噪声添加回输入图像,就像最初训练稳定扩散模型一样。

为了便于说明,我们假设我们正在运行 50 个步骤的扩散。

此图像强度参数仅对应于我们将添加到图像的 50 个噪声步长的百分比。

例如,如果将该值设置为 0.8,那么我们将向图像添加 40 个“切片”噪声,然后将噪声图像扩散 40 步。

为了说明这一点,我将使用来自 Kiss 乐队的 Gene Simmons 的这张图片作为我的输入图片,并提供一个主题为“弹吉他的异形”的提示(如果您不熟悉,“异形”指的是外星人电影系列中的外星人)。

如果我们将该值设置为 0.8,我们将增加 40 步噪声。

添加 40 步噪点使我的眼睛完全无法察觉原始图像,但请放心,它仍然足以影响扩散过程!

旁注:代码增加了 1 步的偏移量,因此实际上是 41 步,但我省略了该细节以避免混淆。

以下是 0.5 的值(25 个噪声步长)的样子——您可以开始识别噪声中的原始图像。不过,我发现在如此低的值下,结果往往质量较低。

下面是全套中间噪声图像的图示。它非常大,所以你需要单独打开它仔细看看。

我还发现将噪声时间表图与这些图像进行比较很有趣——您可以看到模型如何在这些早期步骤中对图像进行最戏剧性的修改。

(上面的图是 num_steps=20,而不是 50,但我认为你只要看到一般形状就明白了)

2.3. 噪声强度 = 1.0

一个常见的误解是,将值设置为 1.0 会完全破坏原始图像,但事实并非如此——原始图像仍然参与其中,并且仍然对输出有一定的影响。

在下面的示例中,将强度设置为 1.0 时,您可以看到原始图像的证据:

  • 它用另一艘飞艇取代了左上角的飞艇。
  • 时钟和柱子被山峰所取代。
  • 天空的形状和位置大致相同。
  • 在我生成的所有示例中,右手边都有一个大型结构或飞艇。

事实上,我的经验是,1.0 的强度实际上会生成一些最好的图像!我认为你可以把它看作是给予模特最大的艺术许可,这似乎是它表现最好的地方。

这是我最喜欢的 Xenomorph 结果,强度为 1.0(这与那幅巨型插图的右上角的图像相同):

“一个站在舞台上弹奏 stratocaster 吉他的 Xenomorph,由 giger、Zdzisław Beksiński、greg rutkowski 伸出舌头”

转载:稳定扩散 img2img 的工作原理 (mvrlink.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1207327.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第二章 (导数与微分)

导数简介 路程与时间关系函数 就是 速度与时间关系函数 的 原函数。 路程与时间关系函数 求导 (或者叫导函数) —————求导—————> 就是 vt关系的导数 求导得到》导函数 导函数积分 得到 原函数 你一开始速度为0,然后速度不断…

绘图软件 OmniGraffle mac中文版特点说明

OmniGraffle mac是一款图形绘制和图表设计软件,主要面向 macOS 和 iOS 平台。它适用于用户创建流程图、组织结构图、原型设计、网站线框图、地图等各种类型的图形。该软件的界面直观,用户友好,让用户能够轻松地创建和编辑复杂的图形。 OmniGr…

计算图片中两个任意形状多边形相交部分的大小

一张图片中两个任意多边形相交的面积计算方法。本文参考https://blog.csdn.net/PanYHHH/article/details/110940428;加了一个简单的示例,也对代码做了一点清淅化。原博客中还有其他链接,是C代码,没有看原理,但以下代码…

漏洞复现--IP-guard flexpaper RCE

免责声明: 文章中涉及的漏洞均已修复,敏感信息均已做打码处理,文章仅做经验分享用途,切勿当真,未授权的攻击属于非法行为!文章中敏感信息均已做多层打马处理。传播、利用本文章所提供的信息而造成的任何直…

亚马逊、Shein、lazada自养号测评如何解决支付和环境问题?

年底旺季,平台风控都会大规模持续升级,针对风控升级如果测评环境没有进行相对应的更新可能会导致大批量砍单,或者F号,严重的店铺还会被关联。有人以为是支付卡的问题,也有人觉得是IP被关联了。其实他们讲的也没错&…

Vue computed 计算属性

1.计算属性的相关知识 概念 :基于现有的数据,计算出来的新属性。依赖数据的变化,自动重新计算。 语法: ① 声明在 computed 配置项 中,一个计算属性对应一个函数 ② 使用起来和普通属性一样使用 {{ 计算属性名 …

从搜索到社交,跨境电商独立站引流全攻略!

不少跨境电商卖家除了入驻电商平台外,还会搭建自己的独立站,独立站相对于其他平台,限制比较少,而且操作也是比较自由,但是也有卖家在做独立站的时候,不知道要怎么做引流。现在为卖家们分享独立站引流方法&a…

跟踪工作时间如何使企业节省资金?

企业主都希望自己的员工每天都为公司的利益而高效工作。 但随着公司的发展壮大,要了解每个人都在做什么、把时间花在哪就变得更加困难了。而不清楚员工每天在做什么可能会容易造成公司运营效率低下且浪费。 为了确保这种情况不会发生,企业主可以让员工…

2023年【汽车驾驶员(高级)】复审模拟考试及汽车驾驶员(高级)实操考试视频

题库来源:安全生产模拟考试一点通公众号小程序 汽车驾驶员(高级)复审模拟考试参考答案及汽车驾驶员(高级)考试试题解析是安全生产模拟考试一点通题库老师及汽车驾驶员(高级)操作证已考过的学员…

一起学docker系列之一为什么要学习docker--从混乱到协调:Docker在开发和运维中的崭露头角

目录 1 常见的开发场景2 保持环境一致性的传统做法3 Docker与传统容器虚拟机的比较3.1 虚拟化技术3.2 资源消耗3.3 启动时间3.4 管理和部署3.5 隔离3.6 移植性 4 Docker技术的优势5 结语 1 常见的开发场景 在软件开发中,开发人员和运维人员之间的合作是至关重要的。…

sqlserver查询时去除1900-01-01

在下图示例中“chk_date”字段在数据中显示的是默认时间,如何将这个时间在SQL查询时设为空? cast(nullif(a.chk_date,) as datetime) 确认日期 以上是我的方法。 select chk_date as 日期 from Ixa_payment_req 运行结果是:1900-01-01 00:0…

java导出excel思路

1、构建导出的数据模型, 这个模型可以自己画,也可以读取一个自己制作好的模板,根据模板填充数据,然后flush到一个新的excel文件。 1)、自己画 GetMapping("/exportTemplate") public void exportTemp…

交直流钳式电流探头的功能介绍

有三种常用技术可用于测量电流,包括串联电阻测量法(也称为分流电阻测量法)、电流互感器测量法和电流探头测量法。这些方法都要求被测电流通过测量传感器,因此它们属于侵入式测量技术。 电流探头是一种非侵入性技术,可以用来测量导线电流&…

Android面试官の小抄,可能是东半球最好的

面试官的小抄,Android面试&进阶一网打尽,让一部分人先学起来 背景 作为一名客户端开发者,能够明显的感觉到小程序这些年对原生市场带来的压迫感,比如现在的创业公司都是小程序探路,成熟了再推进客户端&#xff0…

管理类联考——数学——汇总篇——知识点突破——代数——函数、方程——记忆——一元二次函数

——一元二次函数——【图像→交点】 ——【 a x 2 b x c y ax^2bxcy ax2bxcy二次函数核心在于“图像”:整体可以由: 图像(形状,上下,交点) ⟹ \Longrightarrow ⟹ △ △ △ ⟹ \Longrightarrow ⟹ 抛…

青少年编程学习 等级考试 信奥赛NOI/蓝桥杯/NOC/GESP等比赛资料合集

一、博主愚见 在当今信息技术高速发展的时代,编程已经成为了一种必备的技能。随着社会对于科技人才的需求不断增加,青少年编程学习正逐渐成为一种趋势。为了更好地帮助青少年学习编程,提升他们的技能和素质,博主结合自身多年从事青…

景联文科技:驾驭数据浪潮,赋能AI产业——全球领先的数据标注解决方案供应商

根据IDC相关数据统计,全球数据量正在经历爆炸式增长,预计将从2016年的16.1ZB猛增至2025年的163ZB,其中大部分是非结构化数据,被直接利用,必须通过数据标注转化为AI可识别的格式,才能最大限度地发挥其应用价…

桶装水订水小程序app,线上预约订水更便捷

桶装水订水小程序app,线上预约订水更便捷。设置好地址,一键订水,工作人员送水到家。还能配送新鲜果蔬,绿色健康有保证。送水软件手机版,提供各种品牌桶装水,在线发起订水服务,由服务人员送水到家…

Mysql词法分析实验(二)

表名叫select123能不能创建一个表? 在 MySQL 中,可以创建一个名为 select123 的表,但由于 SELECT 是 MySQL 的一个保留关键字,通常建议避免使用它作为表名的一部分,以防止潜在的解析错误或混淆。如果确实需要使用这样…

MySQL被攻击后创建数据库报错1044 - Access denied for user ‘root‘@‘%‘ to database ‘xxx‘

MySQL被攻击后创建数据库报错1044 - Access denied for user root% to database xxx 一、问题二、解决过程1、正常过程2、踩坑(已经解决问题的可以不看) 一、问题 最近数据库被攻击了,业务数据库都没了 还好也不是有重要数据,但再…