CVPR2021 | VQGAN+:Taming Transformers for High-Resolution Image Synthesis

news2025/1/6 19:16:38

原文标题:Taming Transformers for High-Resolution Image Synthesis

主页:Taming Transformers for High-Resolution Image Synthesis

代码:https://github.com/CompVis/taming-transformers

transformer比CNN缺少了归纳偏置和局部性,但是更具表现力,但对于长序列(高分辨率图像),在计算上是不可性的。作者就是解决这个问题:使用cnn来学习图像成分的上下文信息,利用transformer在高分辨率图像中有效地建模它们的组件。

一、问题提出

transformer倾向于学习卷积结构,因此提出了一个问题:每次训练视觉模型时,是否必须从头开始重新学习关于图像的局部结构和规律性的一切,或者能否在保持transformer的灵活性的同时有效地编码归纳图像偏差? 假设,低层次的图像结构可以通过局部连接(即卷积架构)很好地描述,而这种结构假设在更高的语义级别上不再有效。CNN不仅表现出强烈的局部偏差,而且还通过在所有位置上使用共享权重而偏向于空间不变性。如果需要对输入进行更全面的理解,那么它们就无效了

这些组合中的远程交互需要transformer结构来对其组成可视部分的分布进行建模。利用对抗来确保局部部件字典捕获感知上重要的局部结构,以减少使用transformer建模低级统计数据的需要。

由于注意机制依赖于序列中所有元素对之间的内积计算,其计算复杂度随序列长度的增加呈二次增长。虽然考虑所有元素之间的相互作用的能力是变压器有效地学习远程相互作用的原因,但这也是transformer迅速变得不可行的原因,特别是在图像上,其中序列长度本身与分辨率成二次比例。现有工作虽然能减轻这种,但是分辨率超过64像素仍然非常昂贵。

二、模型结构

高分辨率图像合成需要一个能够理解图像全局组成的模型,使其能够生成局部真实的以及全局一致的模式。因此,不是用像素来表示图像,而是将其表示为来自码本的感知丰富的图像成分的组合。

1、Learning an Effective Codebook of Image Constituents for Use in Transformers

复杂度不建立在单个像素上,而是使用学习表示的离散码本的方法,这样任何图像x∈R(H×W×3)都可以用码本项zq的空间集合表示,直接结合cnn的归纳偏差,并结合神经离散表示学习的思想,有一个Encoder和Decoder,然后就是VQVAE:

潜在空间:

重构为:

损失为:

Learning a Perceptually Rich Codebook

使用transformer将图像表示为潜在图像成分的分布,这要求突破压缩的极限并学习丰富的codebook,使用鉴别器和感知损失来在增加压缩率的情况下保持良好的感知质量。更具体地说,用感知损失L2,并引入了一种对抗训练过程,该训练过程具有基于patches的鉴别器D,旨在区分真实图像和重建图像:

最优压缩模型Q* = {E*, G*, Z*}的完整目标如下:

Lrec为感知重构损失,∇GL[·]表示其输入为解码器最后一层L的梯度,δ = 10−6用于数值稳定性。

2、Learning the Composition of Images with Transformers

Latent Transformers

有了E和G,根据它们编码的codebook索引来表示图像。图像x的量化编码由zq = q(E(x)),然后通过将每个code替换为其在码本Z中的最近邻code的索引来获得:

在s中选择某种指标排序后,图像生成可以表述为自回归下一指标预测:给定索引s,transformer自回归下一个索引:

因此回归损失为:

Conditioned Synthesis

提供用于合成示例的附加信息来控制生成过程。这个信息,我们称之为c,可以是描述整个图像类的单个标签,甚至是另一个图像本身。接下来的任务是在给定信息c的情况下学习序列的可能性:

如果条件信息c具有空间范围,首先学习另一个VQGAN,再次获得基于索引的表示:

由于变压器的自回归结构,可以简单地将r前置到s,并将负对数似然p(si|s<i, r)。

Generating High-Resolution Images

transformer的attention机制限制了其输入的序列s的长度h·w。虽然可以调整VQGAN的下采样块m的数量,以将大小为h × w的图像减少到h = h/(2^m) × w ,但重构质量的退化超过了临界值m,这取决于所考虑的数据集。为了生成百万像素级别的图像,必须在训练期间对图像进行分段和裁剪,以将s的长度限制在最大可行的大小。为了对图像进行采样,以如图3所示的滑动窗口方式使用transformer:

三、Experiments

1、Attention Is All You Need in the Latent Space

使用了各种条件和无条件任务,并比较了基于transformer的方法和卷积方法之间的性能。用m = 4个下采样块训练一个VQGAN。

比较不同数据集{ ImageNet (IN) , Restricted ImageNet (RIN)上的无条件图像建模结果} 和模型大小的Transformer和PixelSNAIL架构。对于所有设置,Transformer在NLL方面优于PixelSNAIL。这既适用于在固定时间比较NLL (PixelSNAIL训练速度大约快2倍),也适用于训练固定step:

在训练相同时间的情况下,Transformer在所有任务中的表现都优于PixelSNAIL,在训练相同步数的情况下,差距甚至会进一步扩大。

2、A Unified Model for Image Synthesis Tasks

在条件情况下,使用附加信息c,如类标签或分割映射,目标是学习图像的分布,图像大小为256 × 256,latent size 16 × 16

1)Semantic image synthesis、Structure-to-image、Pose-guided synthesis、 Stochastic superresolution、Class-conditional image synthesis:

第一行:ImageNet上无条件训练的完成情况。第二行:RIN上的深度到图像。第三行:ADE20K的语义引导合成。第四行:DeepFashion上的姿势引导人物生成。最后一行:RIN上的类条件样本。

图5:从S-FLCKR上的语义布局生成的样本。尺寸从上到下:1280 × 832, 1024 × 416和1280 × 240像素。

图6:上:RIN上的深度到图像,第二行:IN上的随机超分辨率,第三和第四行:S-FLCKR上的语义合成,下:IN上的边缘引导合成。生成的图像在368 × 496和1024 × 576之间变化

2)High-Resolution Synthesis

这种方法原则上可以用于生成任意比例和大小的图像,前提是数据集的图像统计数据近似空间不变或空间信息可用。通过将该方法应用于S-FLCKR上的语义布局的图像生成,可以获得令人印象深刻的结果,其中可以在m = 5时学习强大的VQGAN,因此其codebook和条件信息为转换器提供了足够的背景,用于百万像素范围内的图像生成

3、Building Context-Rich Vocabularies

在训练中,总是裁剪图像以获得大小为16 × 16的transformer输入,即在第一阶段对具有因子f的图像建模时,使用大小为16f × 16f的裁剪

在FacesHQ上无条件合成人脸的结果。对于中间值f = 8,图像的整体结构可以近似,但不一致的面部特征,如半胡须的脸和图像的不同部分的观点出现。只有我们f = 16的完整设置才能合成高保真样本。

为了定量评估方法的有效性,比较了直接在像素上训练变压器和在给定固定计算预算的VQGAN潜在代码上训练变压器的结果。在CIFAR10上学习512 RGB值的字典,以直接在像素空间上操作,并在VQGAN上训练相同的transformer架构,其潜在code大小为16 × 16 = 256。观察到fid提高了18.63%,图像采样速度加快了14.08倍。
 

4、Quantitative Comparison to Existing Models

比较FID,语义合成:

无条件人脸合成(模型使用的参数比VQVAE-2少10倍):

虽然一些任务专用的GAN模型报告了更好的FID分数,但该方法提供了一个统一的模型,可以在广泛的任务中良好地工作,同时保留编码和重建图像的能力。因此,它弥合了纯粹对抗性方法和基于可能性的方法之间的差距。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/80321.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

音视频编解码经典问题汇总(1)

前言&#xff1a; 大家好&#xff0c;今天给大家分享的内容是关于平时在做音频编解码会遇到的一些问题&#xff0c;比如说&#xff1a;解码播放的时候&#xff0c;播不出来解码播放的时候&#xff0c;画面有条纹编码的时候&#xff0c;修改分辨率大小&#xff0c;没有反应这三个…

【NumPy 数组副本 vs 视图、NumPy 数组形状、重塑、迭代】

&#x1f935;‍♂️ 个人主页老虎也淘气 个人主页 ✍&#x1f3fb;作者简介&#xff1a;Python学习者 &#x1f40b; 希望大家多多支持我们一起进步&#xff01;&#x1f604; 如果文章对你有帮助的话&#xff0c; 欢迎评论 &#x1f4ac;点赞&#x1f44d;&#x1f3fb; 收藏…

实验五 进程通信-管道通信

1. 函数int pipe(int fd[2])创建一个管道&#xff0c;管道两端可分别用描述字fd[0]以及fd[1]来描述。需要注意的是&#xff0c;管道的两端是固定了任务的。即一端只能用于读&#xff0c;由描述字fd[0]表示&#xff0c;称其为管道读端&#xff1b;另一端则只能用于写&#xff0c…

我失业了?| ChatGPT生信分析初体验

最近ChatGPT火的一塌糊涂&#xff0c;作为在生物医学和计算机科学领域夹缝求生的边缘摇摆人&#xff0c;也来蹭一波热度。ChatGPT是一个预训练的语言模型&#xff0c;由OpenAI训练。它可以用来生成自然语言文本&#xff0c;并且可以进行对话。它基于Transformer架构&#xff0c…

OAuth2.0的四种授权方式

前言 OAuth 简单理解就是一种授权机制&#xff0c;它是在客户端和资源所有者之间的授权层&#xff0c;用来分离两种不同的角色。在资源所有者同意并向客户端颁发令牌后&#xff0c;客户端携带令牌可以访问资源所有者的资源。 OAuth2.0 是 OAuth 协议的一个版本&#xff0c;有…

【计算机毕业设计】77.旅游资源网站源码

一、系统截图&#xff08;需要演示视频可以私聊&#xff09; 摘 要 本论文主要论述了如何使用JAVA语言开发一个旅游资源网站 &#xff0c;本系统将严格按照软件开发流程进行各个阶段的工作&#xff0c;采用B/S架构&#xff0c;面向对象编程思想进行项目开发。在引言中&#xf…

MATLB|分布式能源的选址与定容IEEE30节点实现

&#x1f4a5;&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️❤️&#x1f4a5;&#x1f4a5;&#x1f4a5;&#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清…

Jmeter(四):请求默认值元件应用,模拟http请求实战,正则表达式提取器元件讲解

Jmeter(7)&#xff1a;jmeter请求默认值元件应用 HTTP请求默认值 在公司内部进行测试的时候&#xff0c;一般测试环境访问的接口地址&#xff08;服务器名称 或IP&#xff09;、端口、协议一般都是不变的&#xff0c;但http请求取样器每个请求都要求写一遍 这些信息&#xff0…

购物网站系统

视频如下 go网站前台:关于我们、联系我们、公告信息、商品类型、商品信息、商品评论管理员: 1、管理关于我们、联系我们 2、增删改查公告类型、公告信息 3增删改查商品类型、商品信息 4、查看注册用户信息 5、查看用户充值信息 6、查看回复用户咨询 7、查看下单信息 8、发货、查…

微信支付API3 APP【统一下单 APIV3】

官方参考资料 签名&#xff1a;签名生成-接口规则 | 微信支付商户平台文档中心 签名生成&#xff1a;签名生成 - WechatPay-API-v3 统一下单接口&#xff1a;微信支付-开发者文档 如何查看证书序列号&#xff1a;证书相关 - WechatPay-API-v3 私钥和证书&#xff1a;私钥和…

EXCEL基础:数据透视表(按年龄分组统计与统计各部门的工资情况)

【按年龄分组进行统计】&#xff1a; 如下为原始数据&#xff0c;最后就是年龄字段&#xff1a; 选择数据单元格&#xff0c;在新表里插入【数据透视表】&#xff0c;若数据透视表的【字段列表】没有显示&#xff0c;可以按照1标注那里勾选&#xff0c; 按照2处的列、行和统计…

Pytorch:使用官网提供数据集的相关参数设置,以CIFAR10为例进行说明

文章目录前言一、Dataset定义-组成分类二、获取数据集1.参数说明2.相关Demo前言 本文记录笔者关于Dataset的相关学习记录&#xff0c;以Pytorch官网文档为主进行学习 一、Dataset 定义-组成 所谓Dataset&#xff0c;指的是我们在学习神经网络中要接触的数据集&#xff0c;一…

[附源码]Python计算机毕业设计SSM基于的楼盘销售系统的设计与实现(程序+LW)

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

关于近期虚拟化学习遇到的问题总结

一、关于Intel VT-x/EPT. 不使用虚拟化的Intel VT-x/EPT 因为需要在Linux中使用kvm做虚拟化因此需要开放宿主虚拟机的虚拟权限 但是打开报错 首先想要开启虚拟化&#xff0c;你的cpu是一定要支持虚拟化的 如何查看呢&#xff0c;可以ctrlaltdel打开任务管理器 点击性能 可以看…

电子加速器原理与应用

辐射单位 射线能量ϵ\epsilonϵ&#xff0c;单位eVeVeV ϵhν\epsilon h\nuϵhν&#xff0c;普朗克常数hhh&#xff0c;电磁波频率ν\nuν 电子伏特eVeVeV&#xff1a;一个电子&#xff08;电量为1.610C&#xff09;经过1VVV的电位差加速后获得的动能。 1eV1.610−19J1.610−…

计及碳捕集电厂低碳特性的含风电电力系统源–荷多时间尺度调度方法(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

[附源码]Python计算机毕业设计SSM基于的楼盘销售管理系统(程序+LW)

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

Java基本微信小程序的适老化老人健康预警系统 springboot+vue

随着信息技术和网络技术的飞速发展&#xff0c;人类已进入全新信息化时代&#xff0c;传统管理技术已无法高效&#xff0c;便捷地管理信息。为了迎合时代需求&#xff0c;优化管理效率&#xff0c;各种各样的管理系统应运而生&#xff0c;各行各业相继进入信息管理时代&#xf…

LinkedList(Java8)个人理解

问题&#xff1a;LinkedList 的 Node 怎么理解&#xff1f; Node 是 LinkedList 的私有静态内部类&#xff0c;作为链表结构的基本元素&#xff0c;可以看作是链条上的一个节&#xff08;结&#xff09;点。一个 node 对象中除了存储元素的值外&#xff0c;还存储着前一个 nod…

【软件测试】测试员vs测试工程师,你是测试员还是测试工程师?

目录&#xff1a;导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09;前言 不是什么时候&#…