论文理解与笔记【CVPR_2022】Region-Aware Face Swapping
- 论文的缩写全拼:
- 一、贡献
- 二、介绍
- 三、提出问题,也是论文解决的问题
- 四、具体实现方案
- 五、实验
- 六、最终感想和总结
论文地址:传送门或者传送门2
先看看效果:
论文的缩写全拼:
Local Facial Region-Aware (FRA)
局部面部区域感知
Global Source Feature-Adaptive (SFA)
全局资源特征自适应
Face Mask Predictor (FMP)
面部掩盖预测器
Region-Aware Identity Tokenizer (RAT)
区域感知身份标记器
Region-Aware Identity Projector (RAP)
区域感知身份投影仪
一、贡献
higher quality, better identity-consistency, and fewer artifacts.
此文章换脸比SOTA有更高的质量、更好的身份一致性和更少的伪影。
有关SOTA的介绍查看:SOTA的介绍
主要三个贡献:
- We propose a novel Region-Aware Face Swapping (RAFSwap) network, which consists of a novel FRA branch to augment local identity-relevant features by introducing the Transformer to effectively model misaligned cross-scale semantic interaction,and a novel SFA branch to further complement global identity-relevant cues for generating identity-consistent swapped faces.
我们提出了一种新颖的区域感知人脸交换 (RAFSwap) 网络,该网络由一个新颖的FRA分支组成,通过引入转换器来有效地建模未对齐的跨尺度语义交互,从而增强本地身份相关特征,以及一个新颖的SFA分支,以进一步补充全局身份相关的提示,以生成身份一致的交换面孔。 - We propose a FMP module incorporated with Style-GAN2 to predict identity-relevant soft facial masks in an unsupervised manner that is more practical.
我们提出了一个与StyleGAN2结合的FMP模块,以更实用的无监督方式预测与身份相关的软面膜。 - Abundant experiments qualitatively and quantitatively demonstrate the superiority of our method for generating more identity-consistent high-resolution swapped faces over SOTA methods.
大量的实验定性和定量地证明了我们的方法在生成更多同一性一致的高分辨率交换面方面优于SOTA方法。
二、介绍
Face swapping aims at transferring the identity of the source identity to the target identity while keeping the identity-irrelevant attributes of the target face unchanged.
人脸交换旨在将源身份的身份转换为目标身份,同时保持目标人脸与身份无关的属性不变。
一个好的换脸图片应该是满足两个条件:
- 能够精确的获取原图片的身份相关的信息,细节的如嘴唇、鼻子、眉毛和眼睛(FRA),全局一些的如皮肤纹理,面部成分的相对距离(SFA)(身份无关的信息不要,如背景和遮挡background and occlusions,光线分布以及发型,刘海以及白头发)
- 能够保留目标图片身份无关的信息(FMP)(如背景和遮挡,光线)
三、提出问题,也是论文解决的问题
-
1.How to maintain identity consistency with the source identity, including local and global
facial details.
如何保持与源身份的身份一致性,包括本地和全局面部细节。
几乎所有当前的方法仅在全局特征表示上执行特征交互,而不建模与身份相关的局部区域,例如嘴唇、鼻子、眉毛和眼睛,这将限制模型表达身份一致性的能力。 -
2.How to generate high-resolution swapped faces while keeping the identity-irrelevant details consistent with the target face under the GAN inversion framework, e.g., background and occlusions.
如何在 GAN 反转框架下生成高分辨率交换人脸,同时保持与目标人脸无关的身份无关细节,例如背景和遮挡。
最近的工作利用 StyleGAN2作为强大的解码器,但未能保持目标面部与身份无关的属性的一致性。 -
近期相关工作的问题:
However, the identity vector produced by the face recognition network is naturally not well-disentangled,which inevitably includes some identity-irrelevant information of the source face, e.g., background, light distribution,and hairstyle.
然而,人脸识别网络产生的身份向量自然没有很好的解开,其中不可避免地包含一些与源人脸身份无关的信息,例如背景、光线分布和发型。
(就是将与源人脸身份无关的信息如背景、光线分布和发型生成到结果图像之中去了。) -
导致的结果:
This wrong information will be further injected into the target feature in a global manner via AdaIN,
resulting in low-quality generation results.
这些错误信息会进一步通过 AdaIN 以全局方式注入到目标特征中,导致生成结果质量低下。
(不能很好的保留原始图像的身份信息) -
论文采取的解决方案:
To better preserve the identity consistency of the generated face,we explicitly model the local facial features besides global representation to perform feature interaction more finely,which also excludes the influence of the identity-irrelevant area of the source face at the same time.
为了更好地保持生成人脸的身份一致性,我们除了全局表示之外,还对局部面部特征进行了显式建模,以更精细地执行特征交互,这也同时排除了源人脸的身份无关区域的影响。 -
更具体的方案
- local Facial Region-Aware (FRA) branch to model identity-relevant feature interaction between source and target faces, which employs a Region-Aware Identity Tokenizer (RAT), transformer layers [31], and a Region-Aware Identity Projector (RAP) to realize misaligned cross-scale semantic interaction, i.e., lips, nose, brows, and eyes.
(用FRA并采用RAT,transformer layers和RAP来完成嘴唇、鼻子、眉毛和眼睛的交互。) - global Source Feature-Adaptive (SFA) branch to complement global identity-relevant cues, e.g., skin wrinkle, for more identity-consistent results.
(用SFA补充全局的身份相关细节,如皮肤纹理) - we design a Face Mask Predictor(FMP) to predict identity-relevant soft facial mask in an un-
supervised manner, i.e., without using specific mask supervision.
FMP incorporated with StyleGAN2 is pro-posed to preserve the background and occlusions of the target unsupervisedly.
(FMP用于保留目标图片的身份无关信息如背景和遮挡)
四、具体实现方案
先看图片:
有四个部分:
- 3.1. Facial Region-Aware Branch
1.Region-Aware Identity Tokenizer.
2.Transformer Layers.
3.Region-Aware Identity Projector. - 3.2. Source Feature-Adaptive Branch
- 3.3. Face Mask Predictor
- 3.4. Objective Functio
Identity Loss.
Reconstruction Loss.
Perceptual Loss.
最终是三个损失函数的综合。
五、实验
六、最终感想和总结
- 没有开源的代码,复现不了;
- 优化思路是值得借鉴的,图像质量是否变好,与原图片的身份一致性的优化以及目标图片与身份无关的特征保留的是否很好;
- 如作者所言,还可以将工作运用到化妆的转移工作(makeup transfer),即将优化的思路运用到不同的领域;
- 善于发现先前工作的不足和问题所在,进而找出优化的方法和思路。