图像生成技术的颠覆性进展——从GAN到Aura SR V2

news2024/9/21 16:46:20

image.png

欢迎来到我们的科技专栏!最近,文本到图像合成技术的成功引起了全球的轰动,激发了公众的无限想象力。从技术角度看,这也标志着在设计生成图像模型的架构上发生了巨大的变化。曾经,生成对抗网络(GANs)是事实上的首选技术,例如StyleGAN。然而,随着DALL-E 3自回归和扩散模型的出现,这些新模型一夜之间成为大规模生成模型的新标准。

GAN的局限性与GigaGAN的诞生

这种快速的转变引发了一个基本问题:我们能否扩展GANs以从大数据集(如ImageNet)中受益?研究发现,单纯增加StyleGAN架构的容量会迅速变得不稳定。就在这时,GigaGAN项目应运而生。在GigaGAN项目的基础上,我们迎来了一个令人惊叹的模型——Aura SR。

Aura SR的初版与改进

我在一个多月前已经介绍过这个模型的第一个版本,如果你有兴趣,可以查看那段内容。我对这个模型印象深刻,用简单的话来说,这个模型可以 显著提高图像的分辨率。现在,他们发布了这个模型的第二个版本。

Aura SR基于Adobe的GigaGAN论文,使用了Lucy Train的实现作为起点。GigaGAN上采样器专为生成图像设计,缺乏在训练期间的降解预处理,因此第一个版本的Aura SR无法在不产生伪影的情况下放大压缩的JPG图像。新版本解决了这个问题,并进一步提高了图像质量。

新版本的技术突破

我将演示如何在本地安装并放大一些图像,包括本地图片和来自URL的在线图片。新版本还解决了第一个版本的一个局限:第一个版本往往会添加过多的细节。研究人员发现,这个问题是由于训练数据和测试数据之间的不匹配引起的。为了应对这一问题,他们增加了训练数据的分辨率,使用256像素的图块训练1024像素的图像,从而使训练过程更接近模型在推理时的使用方式。

解决推理过程中的接缝问题

另一个重要改进是解决了推理过程中出现的接缝问题。接缝是因为在推理过程中使用了非重叠的图块。虽然对于某些图像来说,接缝并不明显,但对于许多图像来说,这是一个大问题。为了解决这个问题,他们升级了推理库Aura,并引入了一种新的推理方法——upscale 4X overlap。这种方法进行两次重叠图块的推理,并平均结果以改进接缝问题。

灵活的架构与未来展望

Aura SR的第二个版本使用了与第一个版本相同的架构,因此应该可以无缝替换。如果你已经按照我之前的视频安装了第一个版本,只需替换模型库和名称即可,无需更改其他设置。顺便说一下,他们已经在开发第三个版本,预计将提供更高的分辨率和更多的人脸图像,以及全新的架构。让我们拭目以待!

安装与演示

首先,让我们进入终端。我正在运行Ubuntu 22.04.1,让我们创建一个虚拟环境来安装所有必要的软件包。我将其命名为or_SR,使用Python版本3.11。安装和激活环境需要一些时间,一旦完成,我们将安装一些前置条件,包括torch和torchvision。所有前置条件安装完成后,我们将安装Jupyter Notebook以便在下载模型后进行操作。

Jupyter Notebook启动后,我们将导入必要的库并下载模型。然后,我们将定义一个简单的Python函数,从URL下载图像。接下来,我们将下载一张图像并使用新增加的upscale 4X overlap方法放大图像。

image.png

图像放大效果展示

让我们先展示原图,这是一张略微模糊的图像。接下来,我们运行代码,看看分辨率如何提高。你会看到,图像的质量和分辨率明显提高,尤其是眼睛部分。

然后,我们尝试放大本地的几张图像。首先展示的是一张缩略图,放大后图像更加清晰,文字也更加鲜明。接下来,我们尝试放大一张模糊的图像,结果显示出车门上的人物,分辨率和其他细节也显著提高。

总结与展望

Aura SR V2无疑是一个令人惊叹的模型,甚至第一个版本也已经非常出色。期待第三个版本带来的新架构和更高的分辨率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1977318.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Material-UI】详解安装指南

文章目录 一、默认安装1.1 Peer Dependencies 二、使用styled-components三、Roboto字体3.1 使用Fontsource3.2 使用Google Web Fonts 四、图标4.1 使用Google Web Fonts 五、CDN安装六、总结 Material-UI是全球最受欢迎的React UI框架之一。它提供了丰富的组件和高度可定制的主…

CSDN 的 Markdown 编辑器图片居中对齐和设置图片大小的方法

图片对齐方式 加在文件格式后面 #pic_center #pic_left #pic_right例如: 居中对齐 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/eb16b0a5bc414b9888ab73f3c74a8acb.png#pic_center)左对齐 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direc…

AI答题应用平台相关面试题

目录 1、请介绍整个系统后端的架构设计,有哪些模块以及各模块之间的关系? 2、你在项目中是如何设计库表的?可以从字段、索引、关联等方面回答。 3、为什么使用策略模式来封装不同的应用评分算法?它有哪些好处?具体如…

Elasticsearch 的DSL查询,聚合查询与多维度数据统计

文章目录 搜索聚合高阶概念 搜索 即从一个索引下按照特定的字段或关键词搜索出符合用户预期的一个或者一堆cocument,然后根据文档的相关度得分,在返回的结果集里并根据得分对这些文档进行一定的排序。 聚合 根据业务需求,对文档中的某个或…

【源码+文档+调试讲解】营业厅宽带系统设计与实现

摘 要 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本营业厅宽带系统就是在这样的大环境下诞生,其可以帮助管理者在短时间内处理完毕庞大的数据信息&…

Action部署在线上写文章

原文:https://blog.c12th.cn/archives/32.html 前言 之前分别出了 Hexo 和 Hugo 的 Action搭建教程,相当于伪动态,可以在线上写文章了;不过对于喜欢魔改的同学就不太友好了qwq 教程 github.dev 确保在配置过程中能访问Github &…

学工系统学生家庭情况登记功能概述

智慧校园学工系统中的“学生家庭情况”模块主要用于收集和管理学生的家庭背景信息,以便学校更好地了解学生的情况,并据此提供相应的支持和服务。该模块通常包括以下几个方面: 基本信息录入:支持录入学生的家庭成员信息&#xff0c…

ocaml精解【1】

文章目录 概述简介一、基本概述二、开发工具三、语言特性四、应用场景五、未来展望 windows下安装基础 参考文献 概述 简介 OCaml(Objective Caml)是Caml编程语言的主要实现,由Xavier Leroy、Jrme Vouillon、Damien Doligez、Didier Rmy等人…

一款免费强大的电脑锁屏工具,中文绿色免安装

这款软件主要特点是锁屏后不显示密码输入框,直接输入密码即可解锁。 ScreenBlur是一款功能强大的电脑屏幕锁软件,主要用于保护用户的隐私和数据安全。该软件的主要功能包括自动锁屏、隐藏桌面、加密锁机等。 功能特点 自动锁屏:用户可以设…

C语言之unsigned long long与struct相互转换实例(五十六)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 新书发布:《Android系统多媒体进阶实战》🚀 优质专栏: Audio工程师进阶系列…

数学希腊符号

1、Α α alpha /a:lf/ 阿尔法 2、Β β beta /bet/ 贝塔 3、Γ γ gamma /ga:m/ 伽马 4、Δ δ delta /delt/ 德尔塔 5、Ε ε epsilon /epsilon/ 伊普西龙 6、Ζ ζ zeta /zat/ 截塔 7、Η η eta /eit/ 艾塔 8、Θ θ thet /θit/ 西塔 9、Ι ι iot /aiot/ 约塔 10、Κ κ …

ADHD儿童康复的灯塔,专业与爱共筑希望之桥

在自闭症及注意缺陷多动障碍(ADHD)儿童教育领域,专业的康复学校扮演着至关重要的角色。这些学校不仅为孩子们提供科学的康复训练,还致力于帮助他们融入社会,实现自我价值。 以星启帆自闭症儿童康复机构为例&#xff0c…

【系统架构设计师】二十四、安全架构设计理论与实践③

目录 五、网络安全体系架构设计 5.1 OSI安全架构 5.2 认证框架 5.3 访问控制框架 5.4 机密性框架 5.5 完整性框架 5.6 抗抵赖框架 往期推荐 五、网络安全体系架构设计 5.1 OSI安全架构 OSI定义了7层协议,其中除第5层(会话层)外,每一层均能提供相…

NetAssist免费下载使用

这种TCPUDP的局域网工具有很多,但是找起来很麻烦,在微信小程序里面发现了一个“TCPUDP局域网小助手”的工具,打开即用非常方便, 打开之后长这样 能下载电脑端NetAssist

使用RK Docker环境编译RK SDK

文章目录 前言Docker介绍实验环境获取RK Docker镜像加载RK Docker镜像使用RK Docker环境编译SDK其它 前言 作为一名嵌入式Linux的学习者,目前编译各种平台,用的都是同一个编译机(Ubuntu虚拟机)。之前一直在折腾全志,所…

GraphRag本地测试

测试环境:win10 python3.11.9 graphRAG的安装还是很简单的,直接pip pip install graphrag 但要注意,官方说了需要 python3.10-3.12 安装完成后,建立一个文件夹,存放你的知识数据,目前graphRAG仅支持txt和…

Mysql错误:InnoDB: page_cleaner

今天一大早就收到同事昨晚发过来的信息:某省份的充电桩在昨晚22点到23点期间大量挂单即充电不能结算。首先想到的就是订单服务挂了,可查了数据一切正常。所以继续早跑,等上班回公司再查查原因。 来到公司查看了昨晚的项目日记情况&#xff0c…

使用Markdown画图

大部分 Markdown 编辑器的画图功能都是基于 mermaid 的,因此我们先介绍下它。 ‍ 什么是 mermaid ​ ‍ mermaid 是一个开源的项目,旨在通过纯文本的形式来画图,支持流程图,时序图,甘特图,类图&#x…

Arduino PID库 (1)– 简介

Arduino PID库 (1)– 简介 pid内容索引-CSDN博客pid术语及整定原则参考:手把手教你看懂并理解Arduino PID控制库——引子)库的改进QuickPID-sTune库 原文地址 随着新的Arduino PID库的发布,最后一个库虽然很可靠,但…

浅谈AC自动机算法(c++)

文章目录 自动机一些简单的自动机: AC 自动机字典树构建失配指针构建指针 [HNOI2006] 最短母串问题题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 提示思路AC代码 「一本通 2.4 例 1」Keywords SearchAC代码 自动机 自动机是什么? 自动机的作…