欢迎来到我们的科技专栏!最近,文本到图像合成技术的成功引起了全球的轰动,激发了公众的无限想象力。从技术角度看,这也标志着在设计生成图像模型的架构上发生了巨大的变化。曾经,生成对抗网络(GANs)是事实上的首选技术,例如StyleGAN。然而,随着DALL-E 3自回归和扩散模型的出现,这些新模型一夜之间成为大规模生成模型的新标准。
GAN的局限性与GigaGAN的诞生
这种快速的转变引发了一个基本问题:我们能否扩展GANs以从大数据集(如ImageNet)中受益?研究发现,单纯增加StyleGAN架构的容量会迅速变得不稳定。就在这时,GigaGAN项目应运而生。在GigaGAN项目的基础上,我们迎来了一个令人惊叹的模型——Aura SR。
Aura SR的初版与改进
我在一个多月前已经介绍过这个模型的第一个版本,如果你有兴趣,可以查看那段内容。我对这个模型印象深刻,用简单的话来说,这个模型可以 显著提高图像的分辨率。现在,他们发布了这个模型的第二个版本。
Aura SR基于Adobe的GigaGAN论文,使用了Lucy Train的实现作为起点。GigaGAN上采样器专为生成图像设计,缺乏在训练期间的降解预处理,因此第一个版本的Aura SR无法在不产生伪影的情况下放大压缩的JPG图像。新版本解决了这个问题,并进一步提高了图像质量。
新版本的技术突破
我将演示如何在本地安装并放大一些图像,包括本地图片和来自URL的在线图片。新版本还解决了第一个版本的一个局限:第一个版本往往会添加过多的细节。研究人员发现,这个问题是由于训练数据和测试数据之间的不匹配引起的。为了应对这一问题,他们增加了训练数据的分辨率,使用256像素的图块训练1024像素的图像,从而使训练过程更接近模型在推理时的使用方式。
解决推理过程中的接缝问题
另一个重要改进是解决了推理过程中出现的接缝问题。接缝是因为在推理过程中使用了非重叠的图块。虽然对于某些图像来说,接缝并不明显,但对于许多图像来说,这是一个大问题。为了解决这个问题,他们升级了推理库Aura,并引入了一种新的推理方法——upscale 4X overlap。这种方法进行两次重叠图块的推理,并平均结果以改进接缝问题。
灵活的架构与未来展望
Aura SR的第二个版本使用了与第一个版本相同的架构,因此应该可以无缝替换。如果你已经按照我之前的视频安装了第一个版本,只需替换模型库和名称即可,无需更改其他设置。顺便说一下,他们已经在开发第三个版本,预计将提供更高的分辨率和更多的人脸图像,以及全新的架构。让我们拭目以待!
安装与演示
首先,让我们进入终端。我正在运行Ubuntu 22.04.1,让我们创建一个虚拟环境来安装所有必要的软件包。我将其命名为or_SR,使用Python版本3.11。安装和激活环境需要一些时间,一旦完成,我们将安装一些前置条件,包括torch和torchvision。所有前置条件安装完成后,我们将安装Jupyter Notebook以便在下载模型后进行操作。
Jupyter Notebook启动后,我们将导入必要的库并下载模型。然后,我们将定义一个简单的Python函数,从URL下载图像。接下来,我们将下载一张图像并使用新增加的upscale 4X overlap方法放大图像。
图像放大效果展示
让我们先展示原图,这是一张略微模糊的图像。接下来,我们运行代码,看看分辨率如何提高。你会看到,图像的质量和分辨率明显提高,尤其是眼睛部分。
然后,我们尝试放大本地的几张图像。首先展示的是一张缩略图,放大后图像更加清晰,文字也更加鲜明。接下来,我们尝试放大一张模糊的图像,结果显示出车门上的人物,分辨率和其他细节也显著提高。
总结与展望
Aura SR V2无疑是一个令人惊叹的模型,甚至第一个版本也已经非常出色。期待第三个版本带来的新架构和更高的分辨率。