Transforming the Latent Space of StyleGAN for Real Face Editing翻译

news2024/11/19 19:17:08

点击下载论文

摘要

      尽管最近在使用StyleGAN进行语义处理方面取得了进展,但真实人脸的语义编辑仍然具有挑战性。W空间和W+空间之间的差距要求在重构质量和编辑质量之间进行权衡。为了解决这个问题,我们建议通过用基于注意力的transformers替换StyleGAN映射网络中的全连接层来扩展潜在空间。这种简单有效的技术将上述两个空间整合起来,并将它们转换为一个新的潜在空间,称为W++。我们改进后的StyleGAN保持了原始StyleGAN的到目前为止最好的生成质量,并具有适度更好的多样性。但更重要的是,所提出的W++空间在重构质量和编辑质量方面都取得了优异的性能。尽管有这些显著的优势,由于其与W/W+空间的结构相似性,我们的W++空间支持现有的反演算法和编辑方法,且只需进行了少量的修改。在FFHQ数据集上的大量实验证明,我们提出的W++空间显然比以前的W/W+空间更适合于真实面部编辑。代码公开在这里,点击查看代码

引言

      生成对抗网络(GAN)[1]的巨大成功彻底改变了数据驱动图像生成领域,并引发了重大的研究关注。特别是对于人脸合成,当前最先进的架构StyleGAN[2,3]通过首先将潜在代码映射到逐层样式代码,然后将其送到每个卷积层,生成高分辨率(即1024×1024像素)、照片逼真的图像。通过添加自适应实例归一化(AdaIN)或他的改进技术称为权重解调的,这种样式代码S直接控制各种尺度的图像特征。大量后续工作[4,5,6,7,8]进一步探索了中间潜在空间中表现出的不同属性(粗糙、中等和精细)的分离,以实现语义可控的人脸生成。然而,这种操纵能力并不直接应用到真实人脸上。
      为了缓解这一问题,[4、5、9、10、11、12、13]采用了“先反转后编辑”的方法。首先将真实图像投影到StyleGAN的潜在空间中。然后通过在反转的潜码上执行语义上有意义的编辑来获得新的潜码。然而,W空间中的投影潜码不足以准确的复现原始图像。扩展的潜在空间W+已被证明比反演[14]方法更有效。但在W+空间中编辑潜在代码是出了名的不行,因为它们脱离了语义上有意义的特征。相反,W空间中的潜码不受此问题的影响,因此有利于编辑质量。不幸的是,W空间和W+空间之间的这种差异要求在重构精度和操作自然度之间达成妥协。
      在本文中,我们对StyleGAN架构进行了简单但至关重要的增强,它扩展了潜在空间的维度,以实现更好的真实面部编辑。我们通过将映射网络M中的全连接层替换为基于注意力的transformer结构[15]来实现这一点。该修改过的映射网络M0将Z空间中的随机输入向量映射到名为W++的新的中间潜在空间。新的W++空间具有与W+空间相同的维度,但其比W空间大得多,因此实现了更精细的重构质量。与W+空间中的潜码不同,所提出的W++空间中的潜码在操作之后不会脱离语义上有意义的特征,因为它们在训练期间直接用于图像合成。因此,我们的W++空间具有更好的编辑质量。此外,我们的增强型StyleGAN保持了原始StyleGAN的最好的性能,并在生成多样性方面有适度的提高。最后,我们提出的W++空间很容易与现有的反演算法和编辑方法一起使用,且只需要进行少量调整。
在这里插入图片描述
图6   根据不同潜在空间中的年龄属性操作真实人脸。给定要编辑的真实图像,我们首先使用StyleGAN投射器[3]将其反转回潜在空间,然后使用InterFaceGAN[4,5]操作潜在代码。我们的结果(用红色框高亮显示)对于远距离操纵具有相当强的鲁棒性。
       为了证明我们W++空间的卓越兼容性,我们分别应用了几种常用的反演和编辑方法。对于反演任务,我们选择StyleGAN的投射器[3]来表示基于优化的方法,选择pixel2style2pixel(pSp)[16]来表示基于学习的方法。对于编辑任务,我们从单属性操作的InterfaceGAN[4,5]开始。受条件GAN(cGAN)[17]思想的启发,我们提出了一种基于cGAN的真实人脸属性编辑的想法(pipeline这里翻译成思路、思想较好)。与传统的cGAN不同,我们的思路(见图6)是使用预训练模型提取的属性作为条件信息。另一个区别是,我们的判别器在没有任何条件信息的情况下学会区分真和假图像,因此与naive GAN中的判别器一样。
       我们的贡献归结如下:

  • 我们提出了增强StyleGAN模型即使用基于注意力机制的transformers替换在StyleGAN的映射网络中的全连接层。这种增强保持了最好的生成质量并适度提高了生成多样性。
  • 我们提出的潜在空间W++在重构质量和编辑质量方面都取得了较好的性能。
  • 我们的新W++空间与现有的反演和编辑算法都具有良好的兼容性。只需要做一些小改动。

2、相关工作

       接下来,我们简要介绍一下有关以真实面部编辑为主题的现有文献。“先反转后编辑”方法已成为这一活跃研究领域的实际标准。在第一反转步骤中,将给定图像投影回StyleGAN的潜空间,并且反转的潜码可以通过生成器真实地重构输入图像。然后通过在潜在空间上沿着在语义上有意义的方向改变旧的潜在码来获得新的潜在码。

2.1、GAN反演算法

       Xia等人[18]最近的调查提供了对GAN反演算法的详尽概述。现有方法可分为三大类:基于优化的、基于学习的和混合方法。
       基于优化的算法迭代地改进潜码来缩小与给定图像之间的误差。原始StyleGANv2[3]使用附加的渐变噪声并提出在W空间中嵌入图像,从而以较差的重构为代价实现更好的编辑。相反,Image2StyleGAN和Image2StyleGAN+[14,9]将图像嵌入到扩展的W+空间中,这有效地优化了每个尺度的单独样式。这种方法为了编辑质量牺牲了重建质量。为了找到更好的平衡,PIE[12]和StyleGAN2Encoder[19]采用了两阶段编码过程,该过程首先将图像嵌入W空间,然后通过在W+空间中优化来细化其初始潜码。
       基于学习的方法[20,16,21]旨在训练一个将图像映射到潜在空间的编码器网络。与基于优化的算法相比,基于学习的方法具有计算复杂度低的优点,但重建质量较差。
       诸如[10]的混合类型结合了上述两种技术,其中首先使用编码器网络来获得近似潜码,然后通过优化来改进该潜码。

2.2、潜空间操作

       由于其近似线性,StyleGAN的潜空间一直是语义操作的主要目标。监督方法在语义注解的监督下查找与给定二进制标记属性(例如年轻与年老)变化对应的线性方向。StyleRig[22]利用预训练的3DMM来找到操纵信息和面部操纵之间的映射关系。StyleFlow[11]通过学习W+空间中不同向量之间的变换来修改一组预定属性。InterfaceGAN[4,5]训练线性支持向量机(SVM)对基于语义标签的潜码进行分类,并使用每个超平面的法向量作为所选属性的潜在方向。
       为了以无监督的方式操作属性,GANSpace[6]对采样数据执行PCA操作,以找到潜空间中的主方向。相反,Collins等人[7]使用k均值聚类发现了局部语义和潜码部件之间的联系。最后,SeFa[23]是一种封闭形式的因子分解方法,它计算可解释的方向,而无需任何类型的训练或优化。

2.3、其他空间

       最近,与此同时的其他论文[24, 25, 26]提出:通过探索其他空间来解决这个“重建编辑”的难题。
       尽管取得了令人满意的权衡,[24]未能消除在两个不同的潜在空间中执行重建和编辑所导致的根本冲突。他们提出的P空间是通过反转StyleGAN映射网络中的最后一个Leaky ReLU层从W空间转换而来的,而P+空间是通过与从W空间扩展到W+空间方式类似的级联操作从P空间扩展的。
       与潜在空间不同,[25,26]研究了所有可能的风格向量所跨越的风格空间。然而,正如[26]中所指出的,与W+空间相比,风格空间实现了更差的操纵自然度和更接近的重建。不幸的是,这甚至加剧了我们正在努力解决的问题。

3、方法

3.1、动机

       必须牺牲重建质量或编辑质量的根本原因是,这两种操作最适合在两个独立的潜在空间中进行。原始StyleGAN在图像生成期间对所有不同的尺度使用相同的样式向量,这基本上将中间潜在空间W的尺寸限制为1×512。通过遍历W空间,我们可以找到语义上有意义的编辑方向。另一方面,在反转期间,这种限制被解除,这将W+空间的尺寸扩大到k×512(k是样式代码的个数)。这种额外的灵活性允许更可靠的恢复,但也会打乱所有编辑方向。为了解决这一矛盾,我们需要将输入空间Z扩展到维数为k×512,进而扩展中间潜空间W。但我们如何实现这一点?(为了简化和一致性,我们将图像分辨率固定为256×256,因此将k值设置为14,用于以下分析)。
       一个简单的解决方案是将映射网络中全连接层的维度从512扩展到7168(等于14×512)。虽然以这种方式让中间潜空间的维度得以连续增加,但计算成本也呈平方增长。全连接层的FLOP估计为512×512。扩展的全连接层的FLOP估计为7168×7168,是原始FLOP的196倍。当k达到18时,它以1024×1024的分辨率增长到324倍。
在这里插入图片描述
图2   在训练期间,不同StyleGAN模型在256×256分辨率下的FID评分曲线。具有14个独立映射网络的StyleGAN在迭代250K时达到最佳分数5.97。我们增强的StyleGAN模型在迭代230K时获得了最佳FID分数4.67。
       另一种可能的解决方案是为每个层使用单独的映射网络,这避免了上面计算复杂度爆炸的发生。这意味着14个独立的映射网络各自创建了不同的样式向量。由于每个新的映射网络在结构上都与原始映射网络相同,因此这种方法将计算复杂度的增长限制为线性增长。然而,如图2所示,FID指标表明生成质量显著变差。这种退化的主要原因是样式向量之间没有任何相关性。在原始StyleGAN中,通过向合成网络中的所有层投送相同的样式向量,确保了跨尺度的全局特征的一致性。然而,使用完全独立的映射网络来计算样式向量完全禁止了这种相关性。

3.2、W++空间

       该问题的理想解决方案应满足以下两个条件:(i)计算成本的有限增长;(ii)风格向量之间的某种程度的相关性。基于注意力的transformer结构[15]自然的满足这两个条件。
在这里插入图片描述
图1   (a) 模型总览。虽然原始StyleGAN[3]向每个卷积层提供相同的样式代码,但我们使用Transformer重新设计了StyleGAN映射网络的架构,以便向不同的层提供不同的样式代码。我们说明了分辨率为256×256的结构。(b)我们提出的映射网络的示例。我们省略了一些标准层,这些标准层对我们的体系结构来说是不必要的,以避免混淆说明。
       图1(b)详细说明了我们的映射网络。我们遵循transformer的原始设计,具有多头自注意力和简单的位置全连接前馈网络。潜码z从输入潜空间Z中随机采样。除了其尺寸被放大到14×512之外,该Z空间几乎与原始StyleGAN中的对应空间相同。然后,添加一个固定1D位置嵌入以保留每个样式向量的层索引[27]。查询(q)、键(k)和值(v)都来自相同的潜码Z通过单独的线性变换与位置嵌入拼接在一起。根据Karras等人[2]对映射网络深度的消融研究,8是最佳选择。因此,我们通过堆叠8个transformers来实现映射网络。这个网络的输出形成了我们新的潜在空间W++。
       计算代价。在我们的例子中,transformer的整体计算复杂度由线性变换而不是相似性计算所控制。每个线性变换以 O ( k d 2 ) O(kd^2) O(kd2)为界。其中维数d为512,样式编码k是14。我们还添加了压缩比c作为减少总计算的技巧,这将复杂性降低到 O ( k ( d c ) 2 ) O(k(\frac{d}{c})^2) O(k(cd)2);实际上,我们将c的值设置为4。总之,我们的W++空间为映射网络带来了大约五分之一的计算成本增加。然而,考虑到StyleGAN的大部分计算负担都落在合成网络和判别器上,这种扩展对整个模型的影响有限。
       样式相关性。相同输入(查询和键)的两个线性变换之间的余弦相似度由自注意模块计算。然后将该相似度矩阵与作为输入的另一线性变换的值相乘。因此,我们的W++空间中的潜码基本上是Z空间中沿k(=14)维度的输入潜码的加权和。所有系数都在训练阶段学习。因此,原始StyleGAN的映射网络是我们的一个特殊情况,其中k维中任意两个元素之间的相关性被严格限制到1之内。使用14个独立的映射网络是在频谱的另一端,因为相关性等于0。根据输入值,我们的相关系数在训练后落在[0,1]内,并且对于不同的对有所不同。
       如图1(a)所示,输出潜码沿k维被划分为14个不同的样式代码。每个带有512维的样式编码被投送到不同尺度的合成网络的不同层中。没有对原始styleGAN 架构进行任何更改,以适应所提出的W++空间。

4、实验(略)

5、结论

       在这项工作中,我们提出升级StyleGAN架构,将其映射网络替换为8个基于注意力的transformers。此修改将其原始潜在空间转换为称为W++的新的潜在空间。我们的StyleGAN模型保持了目前最好的生成质量,并适度提高了生成多样性。然而,与先前的W或W+空间不同,我们提出的W++空间在重建质量和编辑质量方面都获得了优异的性能。此外,它支持现有的反演算法和编辑方法,只需进行少量调整。在FFHQ数据集上的实验清楚地证明了我们方法的优点。
       我们的工作有一些局限性,我们留给未来的工作。尽管我们提出的W++空间通过扩展原始潜空间获得了出色的重建质量,但反转图像看起来仍然与输入的真实图像略有不同。这种差异会对真实图像的编辑质量产生不利影响。今后,我们希望缩小这一差距。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/110727.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深入剖析Arthas源码

一. 前言 Arthas 相信大家已经不陌生了,肯定用过太多次了,平时说到 Arthas 的时候都知道是基于Java Agent的,那么他具体是怎么实现呢,今天就一起来看看。 首先 Arthas 是在 GitHub 开源的,我们可以直接去 GitHub 上获…

智能表格软件-FineReport JS实现自定义按钮快速给参数赋指定范围值

1. 概述 1.1 预期效果 周报、月报、季报、年报中有参数查询时,每次都需要手动选择,比较繁琐,所以就需要一种快速筛选的方法,只需点击某个按钮,就能准确定位到合适的时间范围,如下图所示: 1.2 实…

JMeter+Ant+Jenkins接口自动化测试框架

一:简介 大致思路:Jmeter可以做接口测试,也能做压力测试,而且是开源软件;Ant是基于Java的构建工具,完成脚本执行并收集结果生成报告,可以跨平台,Jenkins是持续集成工具。将这三者结合起来可以搭…

Hive+Spark离线数仓工业项目实战--环境构建(3)

项目环境配置 根据需求实现项目环境配置 实施 - 注意:所有软件Docker、Hadoop、Hive、Spark、Sqoop都已经装好,不需要额外安装配置,启动即可 配置网络:如果你的VM Nat网络不是88网段,请按照以下修改 - 修改Linux虚拟…

数据改版 | CnOpenData中国工业企业基本信息扩展数据

CnOpenData中国工业企业基本信息扩展数据 一、数据简介 拉动中国经济的三个产业中,工业企业占有特殊的地位,是推动国内经济发展的重要产业。工业是最主要的物质生产部门,为居民生活、各行业的经济活动提供物质产品,这一重要作用是…

vm虚拟机安装VMware Tools弹出‘安装程序无法自动安装

问题出现原因 这个问题是由于微软从2019年12月3日已将Windows驱动程序签名更改为使用SHA-2算法, 不支持SHA-2代码签名的旧版Windows系统将无法通过驱动程序签名验证。 也就是说你的win7或者Windows Server 2008 系统中缺少使用新算法的签名,原来的SHA-…

数据库如何加密连接

文章目录1. 前言2. 如何加密?3. 使用Druid实现加密4. 生成密文5. 添加加密配置6. 隐藏问题7. 开发环境替换公钥8. 生产环境替换公钥9. 运行原理10. 总结1. 前言 现在无论是公司的项目还是个人的项目,都会选择将源码托管在Git服务器(Gitee&am…

熬不过“冬天”,又一跨境电商平台关停

熬不过“冬天”!又一跨境电商平台关停据相关媒体报道,京东旗下跨境电商服务平台Joybuy于2022年11月4日宣布将进行“业务升级”,而后该平台的所有交易活动已经停止。据Egain News报道,“业务升级”的说法很大可能只是关停的一种“委…

【JavaEE】Cookie 和 Session

努力经营当下,直至未来明朗! 文章目录【Cookie和Session】相关方法1. HttpServletRequest类的相关方法2. HttpServletRespon类的相关方法3. HttpSession类中相关的方法:4. Cookie类中相关的方法:写一个模拟登录的案例上传文件Serv…

开源工具系列1:Cloud Custodian

对云安全的检测中,最重要的一个组成部分就是对配置的验证,今天来介绍一个开源的规则检测引擎项目,Cloud Custodian。 一、Cloud Custodian 是什么 Cloud Custodian 是用于管理公有云帐户和资源的规则引擎。规则策略用简单的 YAML 格式&#x…

【TypeScript】class类型讲解

目录 class类型 构造函数 class类的继承 可见修饰符 只读修饰符 class类型 TypeScript支持ES引入的class关键字,并为其添加了类型注解和其他语法(例如:可见性修饰符)。 class person {// 声明初始值,可省略类型注解(TS类型推论为strin…

艾美捷超氧化物歧化酶检测试剂盒,活性检测说明

细胞和细胞外环境中大量的超氧化物歧化酶(SOD)对于预防与氧化应激相关的疾病至关重要。SOD突变约占家族性肌萎缩侧索硬化症(ALS)病例的20%。SOD在预防其他神经退行性疾病(如阿尔茨海默氏症、帕金森氏症和亨廷顿舞蹈症&…

美丽田园ipo上市,它的底气从何而来?

美丽田园医疗健康产业有限公司(简称美丽田园),中国最大的传统美容服务提供商,成立近三十年来,一直致力于美与健康的发展,坚持系统化标准化管理和美与健康一站式服务,为顾客提供舒适的美与健康新体验。近日,…

Matter理论介绍-通用-1-04:桥接器-其他功能

【源码、文档、软件、硬件、技术交流、技术支持,入口见文末】 【所有相关IDE、SDK和例程源码均可从群文件免费获取,免安装,解压即用】 持续更新中,欢迎关注! 一、桥接器的配置流程 我们已经知道,桥接器和…

【QT】PySide6安装与运用

一、什么是PyQt 简单来说,PyQt就是用Python重构的Qt,一个强大的,创建跨平台GUI(Graphical User Interface)的工具包。开发者为Phil Thompson。 二、PySide与PyQt PyQt和PySide都是基于Python语言对Qt的实现,PyQt的推出时间要比…

paddle nlp taskflow 全家桶 包括代码生成与AIGC图片生成 一起探索paddle nlp 开包即用的能力吧

paddle nlp作为自然语言处理领域的全家桶,具有很多的不错的开箱即用的nlp能力。今天我们来一起看看基于paddle nlp中taskflow开箱即用的能力有哪些。 第一步先升级aistudio中的paddlenlp 保持最新版本。 pip install -U paddlenlpLooking in indexes: https://pypi…

ERP外网访问,快解析助力企业远程办公

ERP系统是现代信息技术和先进管理经验的有效结合,实现对企业经营活动的自动、完整的记录,替代重复劳动,对企业人力资源、物流、资金流、票据流和信息流等的科学管理,实现业务管理数据和财务数据高度统一,实现对企业业务…

论文导读 | 正则路径查询

前言 正则路径查询(Regular Path Query, RPQ)为带标签的图数据上重要的查询类型之一,旨在找出由至少一条满足条件的路径相连接的结点对,其中需满足的条件以正则表达式表达。当前对 RPQ 的研究以提升查询效率为目的,主…

php项目管理系统 。集产品管理、项目管理、质量管理、文档管理、 组织管理和事务管理于一体,是一款专业的研发项目管理软件

介绍 一款国产的项目管理软件。它集产品管理、项目管理、质量管理、文档管理、 组织管理和事务管理于一体,是一款专业的研发项目管理软件,完整地覆盖了项目管理的核心流程。 管理思想注重实效,功能完备丰富,操作简洁高效&#x…

【Python】基础知识(列表,元组)

目录列表和元组列表创建列表访问下标切片操作遍历列表元素新增元素查找元素删除元素连接列表元组写在前面🍎:码字不易,如果对你有帮助的话,给个三连或者关注一下吧🍰,感谢支持!📣列表…