论文解读StyleGAN系列——StyleGANv3

news2025/1/11 23:00:42

论文:Alias-Free Generative Adversarial Networks(2021.06)
作者:Tero Karras, Miika Aittala, Samuli Laine, Erik Härkönen, Janne Hellsten, Jaakko Lehtinen, Timo Aila
链接:https://arxiv.org/abs/2106.12423
代码:https://nvlabs.github.io/stylegan3


其他StyleGAN系列论文解读:
PGGAN、StyleGANv1、StyleGANv2、StyleGANv3


文章目录

  • 1、算法概述
  • 2、背景知识
  • 3、StyleGANv3细节
    • 3.1 Fourier features and baseline simplifications (configs B-D)
    • 3.2 Step-by-step redesign motivated by continuous interpretation
  • 4、实验


1、算法概述

作者发现stylegan2及以前的生成网络生成的图片,都有像素粘连现象,即某些区域像素严重依赖上一层或者周边像素。这种现象在生成图片中表现为,例如,细节似乎粘在图像坐标上,而不是被描绘物体的表面。这种问题其实是gan网络一个普遍存在的问题,即粗糙特征(GAN的浅层网络的输出特征)主要控制了精细特征(GAN的深层网络的输出特征)的存在与否,并没有精细控制它们的出现的精确位置。


2、背景知识

在现实世界中,不同尺度的细节往往会发生层次上的转换。例如,移动头部会导致鼻子移动,鼻子上的皮肤毛孔也会随之移动。典型GAN发生器的结构与此类似:通过上采样层对粗糙的低分辨率特征进行分层细化,通过卷积进行局部混合,并通过非线性引入新的细节。但是作者观察到,尽管存在这种表面上的相似性,但当前的GAN架构并没有以自然的分层方式合成图像,相反,很多细节似乎都是固定在像素坐标上的。这种“纹理粘滞”现象在潜在的插值中清晰可见。如下图所示:
在这里插入图片描述
作者从连续信号采样定理出发讨论如何从离散信号恢复出连续信号的角度(连续信号的等变性)过渡到探讨网络层的连续表示和离散表示,进一步认为产生这种像素粘连现象的原因在于目前的生成器网络结构中所采用的卷积+激活+上采样等结构引起的,而这样的结构无法做到有效的等变性。


3、StyleGANv3细节

下图是stylegan3基于stylegan2的基础上一步步改进的实验结果:
在这里插入图片描述

3.1 Fourier features and baseline simplifications (configs B-D)

为了方便输入z0的精确连续平移和旋转,作者用傅里叶特征替换StyleGAN2中学习到的输入常数。
其次,作者删除了每个像素的噪声输入,因为它们与自然变换层次结构的目标非常不一致,即每个特征的精确亚像素位置完全继承自底层的粗特征。第三,作者减小映射网络(mapping network)深度,并禁用混合正则化和路径长度正则化,而且还去掉了输出跳过连接。

3.2 Step-by-step redesign motivated by continuous interpretation

  • Boundaries and upsampling (config E)
    作者的理论假设特征映射的空间范围是无限的,通过在目标画布周围保持固定大小的边距来近似,在每层之后裁剪到这个扩展的画布上。这种显式扩展是必要的,因为已知边界填充会将绝对图像坐标泄漏到内部表示中。在实践中,作者发现只需向外扩展10个像素的边框就足够了,进一步增加对结果没有明显影响。对于上采样操作,作者用理想低通滤波器来代替双线性上采样。
    改进后的boundaries和upsampling得到了更好的平移不变性,但是FID变差了。
  • Filtered nonlinearities (config F)
    这是一个工程上的优化,对于网络中的非线性滤波,比如leaky ReLU或者其他激活函数,这些是存在于m倍上采样和m倍下采样之间的操作,可以合并在一起,但是使用深度学习框架自带的语句,执行效率不高,所以作者实现了一个自定义CUDA内核合并了这些操作(图4b),这直接带来了10倍的训练速度和可观的内存节省。
    在这里插入图片描述
  • Non-critical sampling (config G)
    为了抑制像素粘连现象,作者简单地将截止频率降低,从而确保所有混叠频率都在阻带,作者认为高频细节确实重要,但只仅仅在高分辨率下才是,对于低分辨率下(浅层),可以丢掉高频细节,因为作者认为浅层中高频细节并不重要。
  • Transformed Fourier features (config H)
    为了应对每层的全局变换能力有限的问题,作者引入一个可学习的仿射层,该层输出输入傅里叶特征的全局平移和旋转参数(图4b)。该层初始化以执行恒等变换,但随着时间的推移,在有益的情况下学习使用该机制。在配置H中,这稍微改善了FID。
  • Flexible layer specifications (config T)
    虽然提高了平移不变性,但是一些可见的伪影仍然存在。这是因为滤波器的衰减对于最低分辨率的层来说仍然是不够的,而这些层往往在其带宽限制附近有丰富的频率信息,这就需要有非常强的衰减来完全消除混叠。跳频在最低分辨率层中较高,以最大化提高阻带的衰减;在最高分辨率层中较低,以允许匹配训练数据的高频细节。
  • Rotation equivariance (config R)
    为了使网络获得旋转不变性的能力,作者采用了两个改进方式:
    1、 将所有层上的3×3卷积替换为1×1,并通过将特征映射的数量增加一倍来补偿减少的容量。在这个配置中,只有上采样和下采样操作在像素之间传播信息。
    2、 将基于sinc的下采样滤波器替换为使用相同Kaiser方案构建的基于径向对称jinc的下采样滤波器。
    这些改进在不损害FID的情况下改善了EQ-R,而且每层的可训练参数减少了56%。

4、实验

作者在6个数据集上给出了stylegan2和stylegan3-T,stylegan3-R的结果,结果表明作者所提的stylegan3相比于stylegan2在FID评估标准下还是具有很大的竞争力的,而stylegan3-T和stylegan3-R在FID上表现差不多,都表现出很好的平移不变性。
在这里插入图片描述
消融实验:略

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1896222.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

高效使用 Guzzle:POST 请求与请求体参数的最佳实践

介绍 在现代爬虫技术中,高效发送 HTTP 请求并处理响应数据是关键步骤之一。Guzzle 是一个强大的 PHP HTTP 客户端,广泛应用于发送同步和异步请求。本文将介绍如何使用 Guzzle 发送 POST 请求,特别是如何传递请求体参数,并结合代理…

Windows 网络发现是什么意思?如何启用?

什么是 Windows 网络发现 Windows 网络发现是一项使计算机能够在本地网络中发现并与其他设备通信的功能。通过网络发现,用户可以在网络上轻松找到和访问其他计算机、打印机和共享资源。这对于家庭网络和小型办公室环境尤为重要,因为它简化了设备互联和资…

【RAG检索增强生成】MaxKB:构建企业级知识库问答系统(Ollama+Qwen2)

目录 引言1、MaxKB概述1.1 定义与目标1.2 特点与优势 2、MaxKB原理3、MaxKB架构4、基于MaxKBOllamaQwen2搭建本地知识库4.1 环境准备4.2 部署MaxKB4.3 部署Ollama4.4 部署运行qwen24.5 知识库配置4.5.1登录 MaxKB 系统4.5.2上传文档4.5.3设置分段规则 4.6 模型配置4.7 创建应用…

pytest-yaml-sanmu(七):使用fixture返回值

fixture 是 pytest 中非常重要的功能,大部分项目都可能会用到 fixture。 pytest 的内置标记 usefixtures 可以帮助用例自动的使用 fixture 1. 创建 fixture pytest 中的 fixtures 大致有两个用途 在用例执行之前、执行之后,自动的执行 通过 fixture …

如何在Qt使用uchardet库

如何在 Qt 中使用 uchardet 库 文章目录 如何在 Qt 中使用 uchardet 库一、简介二、uchardet库的下载三、在Qt中直接调用四、编译成库文件后调用4.1 编译工具下载4.2 uchardet源码编译4.3 测试编译文件4.4 Qt中使用 五、一些小问题5.1 测试文件存在的问题5.2 uchardet库相关 六…

Linux关于文件的高级命令

tree命令 tree命令用于以树状图的形式显示目录结构。它可以帮助用户快速了解目录和文件的层次关系,非常适合用于浏览和理解大型文件系统的结构。 基础用法 显示当前目录的树状结构:tree 显示指定目录的树状结构:tree 指定目录路径 tree命…

比尔・盖茨谈AI市场狂热现象;腾讯推出TransAgents文学翻译框架

🦉 AI新闻 🚀 比尔・盖茨谈AI市场狂热现象 摘要:微软联合创始人比尔・盖茨在《下一个伟大的构想》播客节目中表示,目前AI市场的狂热程度远超互联网泡沫,准入门槛低,融资额巨大,处于前所未见的…

大华设备接入GB28181视频汇聚管理平台EasyCVR安防监控系统的具体操作步骤

智慧城市/视频汇聚/安防监控平台EasyCVR兼容性强,支持多协议接入,包括国标GB/T 28181协议、GA/T 1400协议、部标JT808协议、RTMP、RTSP/Onvif协议、海康Ehome、海康SDK、大华SDK、华为SDK、宇视SDK、乐橙SDK、萤石云SDK等,并能对外分发RTMP、…

高效批量调整视频色彩:一键实现视频饱和与色度优化,提升视觉体验

在数字时代,视频已成为我们记录生活、分享故事的重要工具。然而,你是否曾因为视频色彩不够饱满、色度不够鲜明而感到困扰?今天,我要为你介绍一款神奇的软件——它能让你的视频色彩焕然一新,提升视觉体验,它…

uniapp+vue3+echarts编写微信小程序

uniappvue3echarts编写微信小程序 记录一下自己uniapp使用echarts开发图表,之前网上找了很多,本以为应该是挺常见的使用方式,没想到引入之路居然这么坎坷,在Dcloud插件市场,使用最多的:echarts-for-wx 但是…

前端面试题5(前端常见的加密方式)

前端常见的加密方式 在前端进行数据加密主要是为了保护用户的隐私和提升数据传输的安全性。前端数据加密可以采用多种方法,以下是一些常见的加密技术和方法: 1. HTTPS 虽然不是直接的前端加密技术,但HTTPS是保障前端与后端数据传输安全的基…

icopppppppppppppppppppp

写文章 深入理解Windows异步机制:IOCP的工作原理与应用 ​ 目录 收起 一、IOCP简介 二、IOCP工作流程 三、IOCP的使用 四、IOCP案例实战 五、常见问题和解答 Windows异步机制中的IOCP(Input/Output Completion Port)是一种高效的异步…

Linux Static Keys和jump label机制

文章目录 前言一、asm goto二、API使用2.1 低版本API2.2 高版本API 三、jump label四、源码分析4.1 数据结构4.2 static_key_false4.3 jump_label_init4.4 __jump_label_transform4.5 static_key_slow_inc/dec 五、__jump_table节5.1 内核5.2 内核模块 六、修改内存代码6.1 x86…

RAG 工业落地方案框架(Qanything、RAGFlow、FastGPT、智谱RAG)细节比对!CVPR自动驾驶最in挑战赛赛道,全球冠军被算力选手夺走了

RAG 工业落地方案框架(Qanything、RAGFlow、FastGPT、智谱RAG)细节比对!CVPR自动驾驶最in挑战赛赛道,全球冠军被算力选手夺走了。 本文详细比较了四种 RAG 工业落地方案 ——Qanything、RAGFlow、FastGPT 和智谱 RAG,重…

2. 创建kvm虚拟机

创建kvm虚拟机 一、创建kvm虚拟机1、virt-manager 图形化工具2、virt-install 命令行工具3、查看虚拟机 一、创建kvm虚拟机 1、virt-manager 图形化工具 2、virt-install 命令行工具 [rootlocalhost ~]# virt-install --namevm02_centos79 \ > --graphics vnc,listen0.0.0…

AI产品经理能力模型的重点素质:人文素养和灵魂境界

在AI产品经理的能力模型中,我最想提的差异化关键点,就是“人文素养和灵魂境界”。 1 为什么“人文素养和灵魂境界”非常重要? 一、“人文素养和灵魂境界”如何影响AI产品设计? 例1:面对一个具体的AI场景&#xff0…

android deep links即scheme uri跳转以及googlePlay跳转配置

对于googlePlay的Custom URL就是googlePlay上APP网址: https://play.google.com/store/apps/details?idcom.yourapp如果是国内一些应用,则考虑market://包名等方式,自行百度。 对于Android URI Scheme: 首先需要在Manifest xm…

AR视频技术与EasyDSS流媒体视频管理平台:打造沉浸式视频体验

随着增强现实(AR)技术的飞速发展,其在各个领域的应用日益广泛。这项技术通过实时计算摄影机影像的位置及角度,将虚拟信息叠加到真实世界中,为用户带来超越现实的感官体验。AR视频技术不仅极大地丰富了我们的视觉体验&a…

Cortex-A510——内核及汇编

Cortex-A510——内核及汇编 小狼http://blog.csdn.net/xiaolangyangyang 1、异常等级 2、异常等级切换 同步异常: 1、SVC/HVC/SMC; 2、MMU引发的异常(内核态EL1发生,发生后不会进行异常等级切换…

边界无限陈佩文:红蓝对抗安全演练常态化的各方分析

虽然常态化演练尚未正式开始,但我们仍然希望对各方的表现进行一些分析和预测,以辅助我们对市场的判断和决策。同时,也希望通过这些初步的见解,抛砖引玉,引发更多有价值的讨论和观点。 “船停在码头是最安全的&#xf…