图像生成技术的颠覆性进展—

图像生成技术的颠覆性进展——从GAN到Aura SR V2

news2025/4/26 19:02:07

欢迎来到我们的科技专栏！最近，文本到图像合成技术的成功引起了全球的轰动，激发了公众的无限想象力。从技术角度看，这也标志着在设计生成图像模型的架构上发生了巨大的变化。曾经，生成对抗网络（GANs）是事实上的首选技术，例如StyleGAN。然而，随着DALL-E 3自回归和扩散模型的出现，这些新模型一夜之间成为大规模生成模型的新标准。

GAN的局限性与GigaGAN的诞生

这种快速的转变引发了一个基本问题：我们能否扩展GANs以从大数据集（如ImageNet）中受益？研究发现，单纯增加StyleGAN架构的容量会迅速变得不稳定。就在这时，GigaGAN项目应运而生。在GigaGAN项目的基础上，我们迎来了一个令人惊叹的模型——Aura SR。

Aura SR的初版与改进

我在一个多月前已经介绍过这个模型的第一个版本，如果你有兴趣，可以查看那段内容。我对这个模型印象深刻，用简单的话来说，这个模型可以显著提高图像的分辨率。现在，他们发布了这个模型的第二个版本。

Aura SR基于Adobe的GigaGAN论文，使用了Lucy Train的实现作为起点。GigaGAN上采样器专为生成图像设计，缺乏在训练期间的降解预处理，因此第一个版本的Aura SR无法在不产生伪影的情况下放大压缩的JPG图像。新版本解决了这个问题，并进一步提高了图像质量。

新版本的技术突破

我将演示如何在本地安装并放大一些图像，包括本地图片和来自URL的在线图片。新版本还解决了第一个版本的一个局限：第一个版本往往会添加过多的细节。研究人员发现，这个问题是由于训练数据和测试数据之间的不匹配引起的。为了应对这一问题，他们增加了训练数据的分辨率，使用256像素的图块训练1024像素的图像，从而使训练过程更接近模型在推理时的使用方式。

解决推理过程中的接缝问题

另一个重要改进是解决了推理过程中出现的接缝问题。接缝是因为在推理过程中使用了非重叠的图块。虽然对于某些图像来说，接缝并不明显，但对于许多图像来说，这是一个大问题。为了解决这个问题，他们升级了推理库Aura，并引入了一种新的推理方法——upscale 4X overlap。这种方法进行两次重叠图块的推理，并平均结果以改进接缝问题。

灵活的架构与未来展望

Aura SR的第二个版本使用了与第一个版本相同的架构，因此应该可以无缝替换。如果你已经按照我之前的视频安装了第一个版本，只需替换模型库和名称即可，无需更改其他设置。顺便说一下，他们已经在开发第三个版本，预计将提供更高的分辨率和更多的人脸图像，以及全新的架构。让我们拭目以待！

安装与演示

首先，让我们进入终端。我正在运行Ubuntu 22.04.1，让我们创建一个虚拟环境来安装所有必要的软件包。我将其命名为or_SR，使用Python版本3.11。安装和激活环境需要一些时间，一旦完成，我们将安装一些前置条件，包括torch和torchvision。所有前置条件安装完成后，我们将安装Jupyter Notebook以便在下载模型后进行操作。

Jupyter Notebook启动后，我们将导入必要的库并下载模型。然后，我们将定义一个简单的Python函数，从URL下载图像。接下来，我们将下载一张图像并使用新增加的upscale 4X overlap方法放大图像。