【GigaGAN论文总结】Scaling up GANs for Text-to-Image Synthesis

news2025/1/20 5:52:14

【GigaGAN论文总结】Scaling up GANs for Text-to-Image Synthesis

  • 1、论点
  • 2、贡献
  • 3、方法概览
    • Sample-adaptive kernel selection
    • Interleaving attention with convolution
    • Generator design
    • Discriminator design
      • Multi-scale input, multi-scale output adversarial loss
      • Matching-aware loss
      • CLIP contrastive loss
      • Vision-aided adversarial loss
    • GAN-based upsampler
  • 生成的一些图片

全文在这:https://blog.csdn.net/qq_45934285/article/details/130614710?spm=1001.2014.3001.5501

1、论点

因为扩散和自回归模型的训练目标简单,稳定等特点。现在超大模型、数据和计算资源现在都用于扩散和自回归模型。作者在这篇工作中探讨——GANs是否可以继续扩大规模并可能从这些资源中获益,或者它们已经停滞不前了?是什么阻止了它们进一步扩展,我们能否克服这些障碍?

模型优点缺点
扩散模型1.训练目标简单
2.训练稳定
1.计算成本高
2.慢
3.慢从而导致交互性差
GAN1.高效
2.擅长于建模单个或多个对象类
1.训练过程不稳定
2.多样性较差的缺点使得GANs难以扩展并应用于新的域。
自回归模型1.训练目标简单
2.训练稳定
1.计算成本高
2.慢
3.慢从而导致交互性差

十亿参数GigaGAN 的实现,是Adobe 的新 SOTA GAN,其证明GAN仍然是文本生成图像的可行选择之一。(比之前的GANs参数大,但是对于目前的大模型而言还是不够,不过其关于模型大小还未达到质量饱和。)

在最近的DALL·E 2、Imagen、Stable Diffusion等等出现之后,相较于diffusion model和AR模型,GANs已经不被大家青睐,作者想证明一下大规模GAN模型在大数据集上的表现依然可行。
并给出了GAN模型的卖点:

  1. 更快的生成速度(在推理时间上要快几个数量级,合成512px图像只需要0.13秒。)
  2. 生成高分辨率图片(可以合成高分辨率的图像,例如,在3.66秒内合成1600万像素的图像。)
  3. 平滑的内插和样式混合。(利用不同的prompt连续的编辑图像。)

2、贡献

  1. 将GAN的分数刷过diffusion(FID更小,但是效果不一定好,在开发世界的文本条件生成还是不如DALL-E 2等。但这是第一个基于GAN的文生图大模型);
  2. 提出了提高stylegan规模的方法: 保留一组过滤器,并采用特定于样本的线性组合;
  3. 重提了多尺度训练利用低分辨率信息;
  4. 提出了两阶段的GigaGAN模型,其中第二阶段可以做为很好的插值器(超分网络);
  5. StyleGAN的 W − s p a c e \mathcal{W}-space Wspace技术可以迁移到GigaGAN,并且GigaGAN有文本控制生成能力。

3、方法概览

总的来看利用了CLIP的预训练模型,attention layers T来提取文本嵌入得到 t l o c a l t_{local} tlocal t g l o b a l t_{global} tglobal
使用交叉注意将局部文本描述符输入到生成器。
全局文本描述符和潜在代码z被输入到样式映射网络M以产生样式代码w。
样式代码w使用样式自适应内核选择来调制主生成器,如右图所示。
该生成器通过将中间特征转换为RGB图像,输出高分辨率到低分辨率的图像金字塔。(空间分辨率分别为 { S i } i = 0 L − 1 = { 64 , 32 , 16 , 8 , 4 } \{S_i\}^{L−1}_{i=0} =\{64, 32, 16, 8, 4\} {Si}i=0L1={64,32,16,8,4})
为了实现更高的容量,还在每个尺度上使用多个注意和卷积层。
最后还使用了一个单独的上采样器模型,这在图中没有显示。
在这里插入图片描述
生成器生成过程是x=G(z,c),z是latent code,c是text-conditioning signal。
作者认为限制GANs开放式文本条件生成的原因是对与卷积层的依赖,故根据输入条件动态的选择卷积滤波器和利用注意力机制来获取long-range依赖或许能有帮助。

Sample-adaptive kernel selection

在这里插入图片描述
基于文本条件动态创建卷积核,style vector w=M(z, c)通过一个affine layer然后对这个Filter Bank以Softmax方式预测一组平均权重,然后得到这个Selected Filter。
在这里插入图片描述
得到的Selected Filter K 与经过另一个affine layer的w进行权重的解调制得到Modulated weights,将之与滤波器组每一层的特征 f ∈ R C i n \mathrm{f}\in \mathbb{R}^{C_{in}} fRCin进行卷积操作得到一个新的滤波器 g a d a c o n v ( f , w ) g_{adaconv}(f,w) gadaconv(f,w)
在这里插入图片描述

Interleaving attention with convolution

提出卷积的局限,将注意力机制与卷积结合,简单加attention到卷积的backbone会导致训练崩溃,这里有一些trick,用L2-distance代替原来attention logits的点积。(self-attention)

cross-attention是使用每个输入特征张量作为query,,文本嵌入作为注意机制的key和value。

Generator design

生成器生成的图片x,依据style code w和 t l o c a l t_{local} tlocal来进行生成,这里的 t l o c a l t_{local} tlocal是利用cross-attention融入生成器的,而style code w则是利用Sample-adaptive kernel selection融入生成器。
在这里插入图片描述
在这里插入图片描述

Discriminator design

在这里插入图片描述
我们的鉴别器由两个分支组成,分别用于图像处理和文本条件 t D t_D tD处理。
文本分支处理类似于生成器的文本处理。
图像分支接收图像金字塔(高分辨率到低分辨率),并对每个图像尺度做出独立的预测。
此外,对下采样层的所有后续尺度进行预测,使其成为一个多尺度输入、多尺度输出(MS-I/O)鉴别器。

一次性对整个生成图像的金字塔进行预测是不可行的,因为限制了生成器对其最初的低分辨率输出进行调整。这里鉴别器是鉴别一个等差序列,即对于 x i x_i xi,预测 i < j ≤ L i<j≤L i<jL的真假,注意 x 0 x_0 x0是最大的图片。(有助于提高稳定性)

还利用了特征提取器 ϕ \phi ϕ每一层由self-attention和stride为2的convolution组成,来提取不同尺度上的特征。(这可以将图像金字塔上的低分辨率图像特征注入中间层的高分辨率图像)

Multi-scale input, multi-scale output adversarial loss

总的来说,训练目标包括鉴别器损失,以及匹配损失,以使得鉴别器考虑条件作用:
在这里插入图片描述
其中 V G A N \mathcal{V}_{GAN} VGAN为标准的非饱和non-saturating GAN损失。
为了计算鉴别器输出,训练了预测器 ψ ψ ψ,它使用文本特征 t D t_D tD来调制图像特征 ϕ ( x ) \phi (x) ϕ(x):

其中 ψ j ψ_j ψj为四层1×1调制卷积, C o n v 1 × 1 Conv_{1×1} Conv1×1为跳跃连接skip connection,显式保持无条件预测分支。

Matching-aware loss

为了让鉴别器考虑条件,将x与一个随机的、独立的采样条件 c ^ \hat{c} c^匹配,并将它们表示为fake pair:
在这里插入图片描述
其中(x, c)和 c ^ \hat{c} c^分别从 p d a t a p_{data} pdata中采样
这种方法可以明显提高性能

CLIP contrastive loss

利用现成的预训练模型作为损失函数,对比交叉熵损失contrastive cross-entropy loss:
在这里插入图片描述
其中 { c n } = { c 0 , . . . } \{c_n\} = \{c_0, . ..\} {cn}={c0...}是从训练数据中采样的字幕captions。
CLIP的contrastive cross-entropy loss目的是为了对图像和文本之间进行对齐

Vision-aided adversarial loss

最后,构建了一个额外的鉴别器,使用CLIP模型作为骨干,称为Vision-Aided GAN。
冻结CLIP图像编码器,从中间层提取特征,并通过一个3 × 3 conv层的简单网络对其进行处理,以做出真实/虚假的预测。
最终训练函数是 V ( G , D ) = L M S − I / O ( G , D ) + L C L I P ( G ) + L V i s i o n ( G ) \mathcal{V}(G,D) = \mathcal{L}_{MS-I/O}(G,D) + \mathcal{L}_{CLIP}(G) + \mathcal{L}_{Vision}(G) V(G,D)=LMSI/O(G,D)+LCLIP(G)+LVision(G)
在这里插入图片描述

GAN-based upsampler

在高分辨率下比扩散模型效率高,因为在高分辨率下,扩散模型不能承担与基模型一样多的采样步骤。

生成的一些图片

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/527716.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

高性能ADC/DAC FMC子卡推出-FMC164

FMC164 子卡集成 4 通道 1Gsps 采样率&#xff0c;16 位 高性能ADC采样&#xff0c;板载4 通道1.25Gsps 16 位DA。板载时钟芯片 HMC7044&#xff0c;可以提供 JESD204B所需要的各种时钟。具有同步/触发功能&#xff0c;模拟信号采用 SSMC 射频连接器输入和输出。板载时钟芯片为…

ant-design实现树的穿梭框,穿梭后右侧是已选树(二)

根据上一篇目标一&#xff0c;进一步实现树的穿梭框 主要内容: 基于ant-design树的穿梭框&#xff0c;实现穿梭后右侧是已选树&#xff0c;&#xff08;当前antd右侧只有一个层级&#xff09; 理想的树的穿梭框&#xff1a; 左边是完整的树&#xff0c;右边是已选的树&#x…

Java面试知识点(全)- DB mysql面试知识点

[Java面试知识点(全) 导航&#xff1a; https://nanxiang.blog.csdn.net/article/details/130640392 注&#xff1a;随时更新 SQL优化 r m y s q l q u e r y ( " S E L E C T u s e r n a m e F R O M u s e r W H E R E s i g n u p d a t e > ′ r mysql_query(…

美国原油CFD价格波动受到哪些因素影响?

经过多年的发展&#xff0c;石油技术已经从煤炭转向原油作为主要能源&#xff0c;这种商品用于各种产品&#xff0c;包括汽油、塑料、药品等。因此&#xff0c;它的价值很高&#xff0c;美国原油CFD价格变动时全世界都在关注。对于交易者来说&#xff0c;美国原油CFD价格波动性…

从零开始Vue3+Element Plus的后台管理系统(五)——尝试多种图标ICON方案iconify

iconfont是过去使用较多的图标方案&#xff0c;后来更倾向于使用SVG&#xff0c;因为SVG更灵活兼容性更好。在最近的几个Vue2项目中&#xff0c;因为强调功能弱化设计所以直接用Element UI自带的图标即可满足需求。 Element Plus的图标库相对Element UI更加丰富&#xff0c;然…

flac格式如何转mp3?这几种方法快收藏起来吧

将FLAC格式转换为MP3格式&#xff0c;可以使用一些转换工具&#xff0c;如优速音频处理器等&#xff0c;也可以使用其他专业音频转换软件。FLAC是一种无损音频编码格式&#xff0c;通常用于保留原始音频质量&#xff0c;但相应的文件大小较大。而MP3是一种有损压缩音频编码格式…

MFC类继承实现CEdit自绘文字颜色,边框,背景色

效果 新建一个继承于CEdit的类CMyEdit 在他的窗体OnNcPaint函数中实现绘制边框,它所响应的消息是WM_NCPAINT void CMyEdit::OnNcPaint() {// TODO: 在此处添加消息处理程序代码// 不为绘图消息调用 CEdit::OnNcPaint()////执行默认的窗体处理过程Default();

linux环境安装使用FastDFS,FastDHT详解

01-简介 GitHub&#xff1a;happyfish100 (YuQing) GitHub FastDFS高性能的分布式文件系统&#xff0c;主要功能包含文件的存储、同步、访问&#xff08;上传和下载&#xff09;&#xff0c;特别适用于以文件为主体的网络站点&#xff08;图片分享和视频分享&#xff09;。 Fa…

2023年Java面试正确姿势(1000+面试题附答案解析)

前言 2023 跳槽不迷茫&#xff0c;大家可以先收藏再看&#xff0c;后续跳槽都能用上的&#xff01; 一键获取最新java文档。 Java程序员绝大部分工作的时间都是增删改查&#xff0c;很多人觉得这项工作没什么技术含量&#xff0c;任何一件事情都要站在不同的角度去考虑&#xf…

shell的数组

数组定义方法 方法一&#xff1a;数组名&#xff08; value0 value1 value2 ...&#xff09; 方法二&#xff1a;数组名&#xff08;[0]value [1]value [2]value...&#xff09; 方法三&#xff1a;列表名"value0 value1 value2 ..." 数组名&#xff08;$列表名&…

【WLAN从入门到精通-基础篇】

WLAN定义和基本架构 本文参考https://forum.huawei.com/enterprise/zh/thread/580888898454831104 1. WLAN定义 WLAN的全称是Wireless Local Area Network&#xff0c;中文含义是无线局域网&#xff0c;WLAN的定义有广义和狭义两种&#xff1a;广义上讲WLAN是以各种无线电波…

使用Kotlin函数式编程技术构建强大的 Android 应用程序

使用Kotlin函数式编程技术构建强大的 Android 应用程序 Kotlin 是一种现代的多用途编程语言&#xff0c;在 Android 应用程序开发人员中迅速流行起来。Kotlin 有别于其他编程语言的关键特性之一是它对函数式编程的强大支持。Kotlin 函数式编程允许开发人员编写更清晰、更简洁、…

本地生活服务:老将、新秀同台竞技

配图来自Canva可画 本地生活服务领域又热闹起来了。 事实上&#xff0c;本地生活服务一直为各路玩家所看好。最近几年&#xff0c;互联网大厂频频布局本地生活服务领域&#xff0c;其中抖音、快手等短视频平台更是持续加大在本地生活服务领域的布局力度。 前不久&#xff0c…

Grafana系列-统一展示-10-Explore Jaeger

系列文章 Grafana 系列文章 Explore Jaeger 你可以通过Explore查询和显示 Jaeger 的 trace。有 3 种方法: Query by searchQuery by trace IDUpload a JSON trace file Query by search 要使用该方法: 从 Query 类型选择器中选择 Search。填写搜索表格&#xff1a;(和 J…

2023第十三届中国数字营销与电商创新峰会 嘉宾揭晓

2023第十三届中国数字营销与电商创新峰会将于7月6日-7日在上海召开。 本次峰会将通过七大热点主题帮助品牌主突破模式能力&#xff0c;回归初心、精耕细作&#xff0c;实现可持续增长&#xff1b;提升产品能力&#xff0c;实现可持续长期增长&#xff1b;优化营销能力&#xf…

HTTP第11讲——HTTP的特点

灵活可扩展 首先&#xff0c; HTTP 协议是一个“灵活可扩展”的传输协议。 HTTP 协议最初诞生的时候就比较简单&#xff0c;本着开放的精神只规定了报文的基本格式&#xff0c;比如用空格分隔单词&#xff0c;用换行分隔字段&#xff0c;“headerbody”等&#xff0c;报文里的…

分析车载蓝牙通话只有前喇叭声音,后面喇叭无声背后原因

车载蓝牙通话只有前喇叭声音&#xff0c;后面喇叭无声背后原因 大家有没有注意到车载蓝牙连接后通话的时候只有前喇叭的有声音&#xff0c;后面喇叭没声音呢&#xff1f;特别是后装的车载多媒体上基本都是这样&#xff0c;细思下为什么这样的原因&#xff0c; 采访后装车载技术…

【软考备战·五月模考】希赛网五月模考软件设计师上午题

文章目录 一、成绩报告二、错题总结第一题第二题第三题第四题第五题第六题第七题第八题第九题第十题第十一题第十二题 三、知识查缺 题目及解析来源&#xff1a;2023上半年软考-模考大赛 一、成绩报告 二、错题总结 第一题 解析&#xff1a; 瀑布模型 中各个活动按 线性顺序 连…

【Spring全家桶系列】AspectJ表达式的书写与SpringAOP下的五种通知类型

⭐️前面的话⭐️ 本文已经收录到《Spring框架全家桶系列》专栏&#xff0c;本文将介绍AspectJ表达式的书写与SpringAOP下的五种通知类型。 &#x1f4d2;博客主页&#xff1a;未见花闻的博客主页 &#x1f389;欢迎关注&#x1f50e;点赞&#x1f44d;收藏⭐️留言&#x1f4…

基于ArcGIS实现陕西省1:250000比例尺地形图分幅和编号

1地形图的分幅与编号原理 我国1:1000000地形图的分幅采用国际1:1000000地图分幅标准&#xff0c;而其他比例尺地形图分幅以1:1000000比例尺地形图为基准进行分幅。每幅1:1000000地形图范围是经差6、纬差4&#xff1b;纬度60~ 76之间经差12、纬差4&#xff1b;纬度76~ 88之间经…