AI图像放大工具,图片放大无所不能

news2024/9/22 7:20:54

AI图像放大工具,如ESRGAN,对于提高由Stable Diffusion生成的AI图像质量至关重要。它们被广泛使用,以至于许多Stable Diffusion的图形用户界面(GUI)都内置了支持。

在这里,我们将学习什么是图像放大器,它们如何工作,以及如何使用它们。

为什么我们需要图像放大器?

Stable Diffusion v1的默认图像大小是512×512像素。**按照今天的标准来看,这相当低。**以iPhone 12为例。它的相机可以产生1200万像素的图像——即4032×3024像素。它的屏幕显示2532×1170像素,所以一个没有被放大的Stable Diffusion的质量是比较差的,不适合在现代的应用中使用。

另外,如果图片的分辨率太低的话,图片就缺少很多细节,使用起来也有诸多不便。

为什么我们不能使用传统的放大器?

传统放大器当然可以使用,但结果不会那么好。

用于调整图像大小的传统算法,如最近邻插值和Lanczos插值,因为仅使用图像的像素值而受到批评。它们通过仅使用图像的像素值执行数学运算来扩大画布并填充新的像素。然而,如果图像本身有损坏或扭曲,这些算法就无法准确填充缺失的信息。

AI放大器是如何工作的?

AI放大器是使用大量数据训练的神经网络模型。它们可以在放大图像的同时填充细节。

在训练过程中,图像被人为地损坏以模拟现实世界的退化。然后训练AI放大器模型以恢复原始图像。

大量的先验知识被嵌入到模型中。它可以填充缺失的信息。这就像人类不需要详细研究一个人的面孔就能记住它一样。我们主要关注几个关键特征。

如何使用AI放大器?

让我们来了解如何在AUTOMATIC1111 WebUI for Stable Diffusion中使用AI放大器。

转到Extras页面,并选择Single Image

上传你想要放大的图像到source

设置Resize因子。许多AI放大器可以原生地将图像放大4倍。所以4是一个很好的选择。如果你不希望图像那么大,可以将其设置为较低的值,比如2。

如果你的图像是512×512像素,2倍放大是1024×1024像素,4倍放大是2048×2048像素。

选择R-ESRGAN 4x+,这是一个适用于大多数图像的AI放大器。

Generate开始放大。

完成后,放大后的图像将出现在右侧的输出窗口中。右键单击图像以保存。

image-20240702223759941

可以看到页面上还有一个upscaler 2的选项,这意味着你可以把两个放大器混合使用。

后面的Upscaler 2 visibility是用来控制使用upscaler 2模型进行放大的比例。

0表示完全不是用,1表示只使用upscaler 2。

AI放大器选项

让我们来了解一些值得注意的AI放大器选项。

LDSR

Latent Diffusion Super Resolution (LDSR)放大器最初与Stable Diffusion 1.4一起发布。它是一个训练用于执行放大任务的潜在扩散模型。尽管它提供了卓越的质量,但它非常慢。我不建议使用它。

ESRGAN 4x

Enhanced Super-Resolution Generative Adversarial Networks (ESRGAN)是一个放大网络,赢得了2018年感知图像恢复和操作挑战赛。它是之前SRGAN模型的增强版。它倾向于保留细节并产生清晰锐利的图像。ESRGAN是许多其他放大器的基础模型。

R-ESRGAN 4x

Real-ESRGAN (R-ESRGAN)是对ESRGAN的增强,可以恢复各种现实世界的图像。它模拟了从相机镜头和数字压缩的各种扭曲程度。

与ESRGAN相比,它倾向于产生更平滑的图像。

R-ESRGAN在处理现实照片图像时表现最佳。

安装新的放大器

要在AUTOMATIC1111 GUI中安装新的放大器,只需要从放大模型数据库下载一个模型并将其放入文件夹中。

stable-diffusion-webui/models/ESRGAN

重新启动GUI。你的放大器现在应该可以在放大器下拉菜单中选择。

放大图像的例子

使用AUTOMATIC1111中的Extras只是一个非常简单的图片放大的例子。

如果你想是用放大的同时来进行一些细节增强,那么我们可以考虑使用SD Upscale来进行这种复杂案例的修改。

SD Upscale是AUTOMATIC1111附带的一个脚本,它使用放大器进行放大,然后使用图像到图像来增强细节。

下面具体的使用步骤:

第1步。 导航到Img2img页面。

第2步。 将图像上传到img2img画布上。(或者,使用Send to Img2img按钮将图像发送到img2img画布)

第3步。 在底部的Script下拉菜单中,选择SD Upscale

第4步。Scale factor设置为4以放大到原始大小的4倍。

第5步。 将去噪强度设置在0.1和0.3之间。越高,图像变化越大。

第6步。sampling steps的数量设置为100。更高的步骤可以改善细节。

第7步。 你可以使用原始提示和负面提示。如果没有,使用“highly detailed”作为提示。

第8步。Generate

image-20240702230413261

再来看下对比效果:

image-20240702231025766

效果不错,还增加了一些细节效果。

SD Upscale脚本有助于改善细节并减少放大伪影。

txt2img页面上的Hires Fix

还有一种图像放大的方式就是在txt2img中的Hires Fix。

你可以在txt2img页面上选择放大每个生成的图像。为此,你只需要勾选Hires fix

勾选框下将出现额外的选项。这些选项类似于使用SD Upscale脚本。

整个Hires. fix过程你可以理解为我们在图像进行放大后,再基于该图像进行了二次生成。

这个Hires steps就是我们二次生成时的步数,如果数值保持为0,就代表和原有图像生成时的步数相同。

image-20240702231920492

Hires fix会在你生成图片的同时放大所有生成的图片。

所以它会减慢图像的生成速度。

建议的做法先生成图片,然后把挑选好的图片发到img2img进行SD放大。

ControlNet Tile Upscale

上面的SD Upscale还可以跟ControlNet Tile一起使用,从而达到在放大的过程中得到更好的细节。

具体而言,就是在img2img中开启controlNet:

image-20240702233140548

Control type选择Tile。

preprocessor选择tile_resample。

Model选择control_***tile。

同时开启SD Upscale,点击生成即可。

可能会耗时比较久,但是效果应该是最好的。

点我查看更多精彩内容:www.flydean.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2102876.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《Class-Agnostic Counting》CVPR2018

概述 摘要:这篇论文提出了一种用于对象计数的模型,该模型能够计算任何类别的对象,而不需要针对特定对象类别进行设计。作者将计数问题表述为一个匹配问题,利用图像中自然存在的自相似性属性。论文的贡献包括:提出了一…

无人机+应用综合实训室解决方案

随着无人机技术的飞速发展,其在航拍、农业、环境监测、物流运输等多个领域展现出巨大的应用潜力。为了满足职业院校及企业对无人机应用技术型人才的培养需求,唯众紧跟市场趋势,推出了全面且详尽的《无人机应用综合实训室解决方案》。本方案旨…

springboot中的请求过滤filter与拦截interceptor分析

首先我们要定义一个类,实现标准的过滤器 import lombok.extern.slf4j.Slf4j;import javax.servlet.*; import javax.servlet.annotation.WebFilter; import java.io.IOException;WebFilter("/*") Slf4j public class AuthFilter implements Filter {Overr…

Java框架第三课(Spring IOC与Aop)核心

目录 一.关于Spring (1)什么是Spring (2)IOC解释 (3)Aop解释 (4)"一站式"解释 二.Spring框架的搭建(以Hello World为例) ​编辑 三.Spring框架的IOC (1)IOC基于xml配置 (2)基于注解配置 (3)xml文件配置和注解配置的优缺点 四.Spring集成Mybatis (1)Spring集…

作为导师,亲眼目睹带的研究生在实验室打游戏,是种怎样的体验?

作为导师,看到自己的研究生在实验室打游戏,这种体验可能会引发多种情绪和反应,取决于具体的情境和导师的管理风格。以下是几种可能的体验和思考: 失望与不满:如果学生经常在实验室打游戏,而不是专注于科研…

Linux驱动.之驱动开发思维,设备,驱动,总线分析思想,驱动的分类(字符设备,块设备,网络设备)

在stm32,裸机开发时,偏底层,跟寄存器打交道,有些MCU提供了库,库也还是操作寄存器的,通过配置寄存器, 配置各种工作模式,时钟,等等,交换数据等等。 Linux下驱…

什么是串口服务器?

1.什么是串口服务器? 了解串口服务器之前,我们需要先了解什么串口。 串口:又叫串行数据接口,主要是用来表示传递各种的数据的通信接口,通常指COM口。一般分为RS232、RS422、与RS485三种。RS232接口:采用全…

包装类 ---- java

思维导图: 在 Java 中,自动装箱(autoboxing)和拆箱(unboxing)是一种自动将基本数据类型和对应的包装类进行转换的机制。 一:基本数据类型和对应的包装类 二:装箱和拆箱 int i 10;/…

Spring Boot 3.3新特性解析:CDS支持与Base64配置

前言 Spring Boot 3.3.0 已经发布,其中包含对 CDS支持与Base64配置。 CDS(Class Data Sharing)是一项JVM功能,允许在多个JVM实例之间共享类元数据,从而减少应用程序的启动时间和内存占用。Spring Boot 3.3提供了对CD…

Web前端全栈Vue3项目实战:‌从零到一的完整指南

Web前端全栈Vue3项目实战:‌从零到一的完整指南 在当今的前端开发领域,‌Vue.js 凭借其简洁、‌易学且高效的特点,‌成为了众多开发者的首选框架。‌随着 Vue 3 的发布,‌其在性能、‌类型支持以及组合式 API 等方面的提升&#…

Influxdb简介

InfluxDB 是一个开源的、专门为处理时序数据(Time Series Data)设计的数据库管理系统。它由 InfluxData 开发,旨在高效地存储和查询大量的时序数据,如监控数据、传感器数据、日志、指标和事件等。

图论(1)

一、无序对的定义 无序对中的两元素不分先后 无序积是无序对的集合 无序对里面的元素交换位置还是之前的无序对 二、图 三、图的表示 1、图的表示法 有集合表示法、画图表示法、矩阵表示法 集合表示法:把所有边写在一个集合里,所有点写在一个集合里…

C语言:常用技巧汇总

一、字符串存储在数组中 int main() {char* arr[7] {"xiaoming","zhangsan","李四"};printf("%s\n", arr[0]);printf("%s\n", arr[2]);return 0; } 二、scanf()函数用法 2.1 scanf()输入字符串 int main() {char arr[10…

沸点 | LDBC 第18届 TUC 会议召开,专家孙宇熙受邀参加并发表演讲

图数据管理领域国际权威组织LDBC(Linked Data Benchmark Council)于8月30日至31日在广州举办了第18届LDBC TUC会议。作为图数据库领域的创新引领者,嬴图受邀参加此次盛会,国际高性能计算与存储系统专家、大数据专家、图专家及嬴图…

国赛数模C题模型(五)

熵权法 原理介绍 熵权法:(1)熵:指标的信息熵。信息熵描述所有可能发生事件的不确定性。 ​ (2)权:指标的权重,描述指标的重要程度。 ​ (3)熵权法&#xff1…

Java实现加密(六)国密SM2算法

目录 一、SM2 简介1.1 概述1.2 国密与国际密的对应关系1.3 优势1.4 ECC加密算法 vs RSA加密算法二、SM2 应用场景2.1 数据加密2.2 密钥协商2.3 数字签名三、Java 实现 SM2 的两种方式3.1 Maven 依赖3.2 实现方式一1)SM2Utils.java2)SignatureSM2Util.java3)Param.java4)测试…

界面控件DevExpress中文教程:如何使用AI扩展Excel计算?

DevExpress WinForms拥有180组件和UI库,能为Windows Forms平台创建具有影响力的业务解决方案。DevExpress WinForms能完美构建流畅、美观且易于使用的应用程序,无论是Office风格的界面,还是分析处理大批量的业务数据,它都能轻松胜…

人工智能 | Mistral 大语言模型

Mistral AI Mistral AI team Mistral AI 是一家销售人工智能产品的法国公司。它由 Meta Platforms 和 Google DeepMind 的前员工于 2023 年 4 月创立。该公司于 2023 年 10 月筹集了 3.85 亿欧元,2023 年 12 月估值超过 20 亿美元 Mistral.AI 愿景与使命 我们是一…

Linux动态链接库

一、背景 我们使用Linux的过程中,例如安装程序或者部署一些如Python等,可能会遇到过如下动态链接库(共享库)报错: ImportError: libcrypto.so.10: cannot open shared object file: No such file or directory $"./lib/python3.8/lib/python3.8/ss…

同三维TM6-6 有线6级联会议麦克风详情介绍

同三维TM6-6 有线6级联会议麦克风 信息通讯类智能阵列麦克风 有线传输,强抗干扰、可级联、长续航、低延时 6个麦克风级联,通过3.5音频线级联, 可以同时使用3.5mm LINE IN/OUT、USB有线连接PC端,每条音频线是3米,可应用在视频会…