论文阅读【PAMI_2022】FSGANv2: Improved Subject Agnostic Face Swapping and Reenactment

news2024/11/16 6:43:42

论文阅读【PAMI_2022】FSGANv2: Improved Subject Agnostic Face Swapping and Reenactment

  • 论文的缩写全拼
  • 一、摘要(问题,贡献,效果)
  • 二、引言(idea)
  • 三、方法(FSGAN)
    • 1.Detection and tracking
    • 2.Generator architecture
    • 3.Training losses
      • 1.Domain specific perceptual loss
      • 2.Reconstruction loss
      • 3.Adversarial loss
    • 4.Face Segmentation
    • 5.Face reenactment
      • 1.Landmarks transformer
      • 2.Landmarks heatmaps
      • 3.Training

在这里插入图片描述

论文地址:https://arxiv.org/abs/2202.12972
项目地址:https://github.com/YuvalNirkin/fsgan
将源图片的身份信息交换到目标视频中,保持表情和姿势不变。
We present Face Swapping GAN (FSGAN) for face swapping and reenactment.
我们提出了用于面部交换和再现的面部交换GAN (FSGAN)。

论文的缩写全拼

英文中文
the dual-shot face detector (DSFD)双镜头人脸探测器

一、摘要(问题,贡献,效果)

一、贡献
Unlike previous work, we offer a subject agnostic swapping scheme that can be applied to pairs of faces without requiring training on those faces.
与以前的工作不同,我们提供了一种与主题无关的交换方案,该方案可以应用于成对的面孔,而无需对这些面孔进行训练
We derive a novel iterative deep learning–based approach for face reenactment which adjusts significant pose and expression variations that can be applied to a single image or a video sequence.
我们推导了一种新颖的基于迭代深度学习的人脸再现方法,该方法可调整可应用于单个图像或视频序列的显着姿势和表情变化。
For video sequences, we introduce a continuous interpolation of the face views based on reenactment, Delaunay Triangulation,and barycentric coordinates. Occluded face regions are handled by a face completion network.
对于视频序列,我们基于再现,Delaunay三角剖分和重心坐标引入人脸视图的连续插值。
遮挡的面部区域由面部完成网络处理。
Finally, we use a face blending network for seamless blending of the two faces while preserving the target skin color and lighting conditions.
最后,我们使用面部混合网络来无缝混合两个面部,同时保留目标肤色和照明条件。

二、效果
This network uses a novel Poisson blending loss combining Poisson optimization with a perceptual loss. We compare our approach to existing state-of-the-art systems and show our results to be both qualitatively and quantitatively superior.
该网络使用新颖的Poisson混合损失,将Poisson优化与感知损失相结合。我们将我们的方法与现有的最先进的系统进行了比较,并证明我们的结果在质量和数量上都优越。
This work describes extensions of the FSGAN method, proposed in an earlier conference version of our work [1], as well as additional experiments and results.
这项工作描述了在我们工作的早期会议版本 [1] 中提出的FSGAN方法的扩展,以及其他实验和结果。

索引术语
Face Swapping, Face Reenactment, Deep Learning
换脸、重现脸、深度学习

摘要没有提及现有方法存在的问题,应该是文章提出了一种更优的面部交换和再现方法。

二、引言(idea)

方法介绍
Face Swapping面部交换是面部从源图像到目标图像的视觉变换,使得所得到的图像无缝地替换出现在目标图像中的面部,如图1所示。
Face Reenactment面部再现 (也称为面部转移或伪造) 利用一个视频中的控制面部的面部运动和表情来引导出现在另一个视频或图像中的第二面部的运动和变形 (图1)。

idea
Most contemporary works proposed methods for either swapping or reenactment, but rarely both, relying on underlying 3D face representations to transfer the face appearance.
大多数当代作品都提出了用于交换或重演的方法,但很少有两者结合的。依赖于底层3D面部表示来转移面部外观。

方法
Face shapes were estimated from the input image, or kept fixed. The 3D shape was then aligned with the input images and used as a proxy to transfer the image appearance (swapping) or controlling the facial expression and viewpoint (reenactment).
面部形状是根据输入图像或保持固定。然后将3D形状与输入图像对齐,并用作代理以传输图像外观 (交换) 或控制面部表情和视点 (再现)。

问题
Some methods applied domain separation in latent feature spaces[26], [27], [28], to decompose the identity component of
a face from the other traits, such as pose and expression.
一些方法在潜在特征空间中应用域分离[26], [27], [28],将面部的身份成分从其他特征 (例如姿势和表情) 中分解出来。
The identity is encoded as the manifestation of latent feature vectors, resulting in significant information loss and limiting the quality of the synthesized images.
身份被编码为潜在特征向量的表现形式,从而导致大量信息丢失并限制了合成图像的质量
Subject-specific approaches [13], [23], [25], [29] are particularly trained for each subject or pair of subjects to be swapped or reenacted.
特定于主题的方法 [13],[23],[25],[29] 特别针对要交换或重新制定的每个主题或一对主题进行了训练。
Thus, requiring significant training sets per subject, to achieve reasonable results, limiting their potential usage.
因此,每个受试者需要大量的训练集,以获得合理的结果,从而限制了它们的潜在使用。
A major concern shared by previous face synthesis schemes, particularly the 3D-based methods, is that they all require particular care to handle partially occluded faces.
以前的面部合成方案 (尤其是基于3d的方法) 共同关心的主要问题是,它们都需要特别注意以处理部分遮挡的面部。

对于先前工作的提升
We provide a means for interpolating between face landmarks without relying on 3D information using a face
landmarks transformer network.
我们提供了一种使用人脸地标变压器网络在不依靠3D信息的情况下在人脸地标之间进行插值的方法。
We improve the inpainting generator by adding symmetry and face landmarks cues.
我们通过添加对称性和面部地标提示来改进修补生成器。
We completely revise the preprocessing pipeline and add a postprocessing step, to reduce the jittering and saturation artifacts of our previous method.
我们完全修改了预处理管道,并添加了后处理步骤,以减少先前方法的抖动和饱和伪影。
Finally, we show additional qualitative and quantitative experiments with a new metric for comparing expressions.
最后,我们展示了使用新的度量来比较表达式的其他定性和定量实验。

总结的主要贡献
1.A face landmarks transformer network for interpolating between face landmarks without 3D information.
一种用于在没有3D信息的面界标之间进行插值的面界标transformer 网络。
2.Improved inpainting generator that utilizes symmetry and face landmarks cues.
改进的修补生成器,利用对称性和面部地标提示。
3.A demonstration of an additional use case for the new face reenactment method for pose-only face reenactment.
演示了用于仅姿势面部再现的新面部再现方法的附加用例。
4.Completely revised preprocessing and an additional postprocessing step for reducing hittering and saturation artifacts.
完全修订的预处理和额外的后处理步骤,用于减少打乱和饱和伪影。
5.Introduction of a new metric for facial expression comparison.
介绍了一种新的面部表情比较指标。
6.Additional quantitative and qualitative experiments and ablation studies using new metrics.
使用新指标进行额外的定量和定性实验以及消融研究。

三、方法(FSGAN)

先看图overview:
在这里插入图片描述

Is是source face images,Fs ∈ Is
It是target face images,Ft ∈ It

目标是基于It,并且Ft被Fs无缝的取代,同时保持相同的姿势和表情。
Gr是The recurrent reenactment generator(循环再现生成器)

  • 输入:热图编码Ft的面部地标(heatmaps encoding the facial landmarks of Ft
  • 输出:重新制定的图像,Ir(the reenacted image, Ir)它还计算Sr

Sr即Fr的分割面具。(segmentation mask)
同理St即It的分割面具。
Fr表示Fs具有与Ft相同的姿势和表情。
Gs是the segmentation generator(分段生成器)

  • 功能:计算Ft的面部和头发的分割面具。

考虑到重新制定的图像,Ir,可能会丢失面部部分。
Gc是The inpainting generator (修复生成器)或完成生成器(completion generators)

  • 功能:基于St对 F r的缺失部分进行修复,以估计完成的重新制定面,Fc

Fc是the completed reenacted face(完整的重新制作的脸)
Gb是混合生成器(The blending generator)

  • 功能:利用分割面具St对将Fc与Ft混合。

其中Gs基于U-Net [50],采用双线性插值进行上采样,
Gr, Gc, and Gb基于pix2pixHD体系结构 [21],使用了粗到精生成器和多尺度鉴别器。

1.Detection and tracking

使用在WLFW数据集上训练的2D面部标志 [55] 跟踪面部表情,每个面部包含98个点。在我们之前的工作中,我们使用了68个点的2D和3D地标 [56]。

2.Generator architecture

在这里插入图片描述
在这里插入图片描述

3.Training losses

1.Domain specific perceptual loss

其中
F i ∈ R C i × H i × W i F_i\in \mathbb{R}^{C_i\times H_i\times W_i} FiRCi×Hi×Wi
作为VGG-19网络第i层的特征图

感知损失函数如下:
在这里插入图片描述
其中其中Ci是通道数,Hi和Wi是高度和宽度尺寸。

2.Reconstruction loss

虽然感知损失 (如第3.3.1节) 很好地捕获了高频,但仅使用该损失训练的生成器通常会产生具有不准确颜色的图像,这与低频图像内容的错误重建相对应。
在这里插入图片描述
overall loss:
在这里插入图片描述

3.Adversarial loss

在这里插入图片描述
discriminator有很多个。

4.Face Segmentation

Gs输出包括三个部分:背景、脸和头发。

5.Face reenactment

A single iteration of our proposed face reenactment method.
在这里插入图片描述

1.Landmarks transformer

2.Landmarks heatmaps

3.Training

待补充

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/349647.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

node学习-3:服务器渲染和客户端渲染

1. 概念 一.服务端渲染,后端嵌套模板,后端渲染模板,SSR(后端把页面组装好) 做好静态页面,动态效果 把前端代码提供给后端,后端则把静态html以及里面的假数据给删除掉 通过模板进行动态生成h…

8个让你收入翻倍的高质量免费网站

毕业几年了,如果你的月薪不到1w,还是做着重复机械的动作,现在马上往下看,今天分享6个资源网站让你的收入暴增,尤其是最后一个。每天花一个小时,让你工资翻倍,从此在职场横着走,再也不…

GEE学习笔记 八十三:【GEE之Python版教程十三】几何图形

遥感分析中用到的数据主要就是这两大类:矢量数据和栅格数据。在Google Earth Eninge中,它为我们讲这两类数据封装成为了以下几类数据。 下面几节内容我会依次讲解相关内容的详细信息,这一节先讲一下几何图形ee.geometry。 学习任何新的东西首…

设计模式之抽象工厂模式(C++)

作者:翟天保Steven 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处 一、抽象工厂模式是什么? 抽象工厂模式是一种创建型的软件设计模式,该模式相当于升级版的工厂模式。 如果…

采集知乎评论

声明 本文章中所有内容仅供学习交流,抓包内容、敏感网址、数据接口均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系我立即删除! excel保存效果图: 首先我们找一个评论比较多的帖子,如下图所示有874条评论 点击评论…

算法刷刷刷| 回溯篇| 组合问题大集合

77.组合 给定两个整数 n 和 k,返回范围 [1, n] 中所有可能的 k 个数的组合。 你可以按 任何顺序 返回答案。 输入:n 4, k 2 输出: [[2,4], [3,4], [2,3], [1,2], [1,3], [1,4],] import java.util.ArrayList; import java.util.List;clas…

可靠、稳定、安全,龙蜥云原生容器镜像正式发布!

文/云原生 SIG01背景随着云原生的蓬勃发展,越来越多的企业在自己的生产或者测试环境使用云原生技术,而容器镜像正是云原生技术中应用的实际运行环境。一个好的容器运行环境即容器镜像会真正关系到应用的体验、演进和维护。那么选择一个好的容器镜像需要考…

Flink实时同步MySQL与Doris数据

参考: 技术解析|Doris Connector 结合 Flink CDC 实现 MySQL 分库分表 Exactly Once 精准接入-阿里云开发者社区 逻辑图: 1. Flink环境: https://flink.apache.org/zh/ 下载flink-1.15.1 wget https://dlcdn.apache.org/flink…

并发编程之synchronized详解

目录 设计同步器的意义 如何解决线程并发安全问题? synchronized原理详解 synchronized底层原理 Monitor监视器锁 什么是monitor? 对象的内存布局 对象头 对象头分析工具 锁的膨胀升级过程 偏向锁 轻量级锁 自旋锁 锁消除 逃逸分析 设…

RabbitMQ学习(七):交换器

〇、前言在之前的内容中,我们创建了一个工作队列。我们假设的是工作队列背后,每个任务都恰好交付给一个消 费者(工作进程)。在今天的内容中,我们将做一些完全不同的事情——我们将消息传达给多个消费者。这种模式 称为 “发布/订阅”。为了说…

横板格斗类游戏实战:核心玩法介绍(一)

第一章讲解了横板格斗类游戏框架主要涉及到的一些模块设计与技术原理,本章节开始讲解横板格斗类游戏的玩法,美术资源与游戏的数值策划。我们以主要的截图为示意图,来把整个横板格斗类游戏的核心玩法和要实现的功能大致列一遍。对啦&#xff0…

QGIS中进行批量坡向计算

QGIS中进行坡向计算1. 坡向计算中的Z因子(垂直单位与水平单位的比值)2. 坡向计算步骤坡度计算的姊妹篇–坡向计算来了 1. 坡向计算中的Z因子(垂直单位与水平单位的比值) z 因子是一个转换因子,当输入表面的垂直坐标&…

BFC到底是什么?如何理解

BFC到底是什么? BFC全称:Block Formatting Context, 名为“块级格式化上下文”。 W3C官方解释:BFC 它决定了元素如何对其内容进行定位,以及与其他元素的关系和相互作用,当涉及到可视化布局时,B…

IMU调试方案

1.IMU 型号 QMI8658C IMU英文数据手册 参照连线与数据手册使用 类似的惯导模块开发https://www.cnblogs.com/rockyching2009/p/15071669.html 微雪 https://www.waveshare.net/wiki/RP2040-LCD-1.28 micro python :https://docs.micropython.org/en/latest/esp32/t…

ArcGIS API for JavaScript 4.15系列(7)——Dojo中的Ajax请求操作

1、前言 作为重要的前后端交互技术,Ajax被广泛应用于Web项目中。无论是jQuery时代的$.ajax还是Vue时代下的axios,它们都对Ajax做了良好的封装处理。而Dojo也不例外,开发者使用dojo/request模块可以轻松实现Ajax相关操作,下面开始…

UNP 简介

目录 从一个简单的时间获取客户端开始 socket 指定服务器 IP 地址与端口 与服务器建立连接并读取数据 简单的时间获取服务端 Unix 标准 从一个简单的时间获取客户端开始 接下来,将从一个使用 TCP 连接的获取时间的客户端开始。 // 以下代码与 UNP intro/dayt…

后台管理项目重构为vue3.0

目录前言:为什么要重构项目?重构的目的具体案例下载项目一. 为什么要重构后台管理项目二. 安装项目所需的vue3.0 插件三. 具体代码重构四. 在更改中遇到的bug总结前言: 我们平常玩的游戏有时需要更新出新的内容,我们的项目也需要…

组件化、模块化、集中式、分布式、服务化、面向服务的架构、微服务架构

目录 1.组件化与模块化 1.1.组件化 2.模块化 2.1.模块化和组件化的区别 3.集中式与分布式 3.1.集中式 3.2.分布式 4.服务化 5.面向服务的架构 5.1.什么是SOA 5.2.实现SOA 5.3.面向对象和面向服务的对比 6.微服务架构 6.1.SOA和微服务 7.总结 最近最火的词是什么…

1月份 GameFi 行业报告

Jan. 2023, DanielData Source: January Monthly GameFi Report在经历了艰难的一年之后,1 月是对加密货币市场最有利的月份。虽然可以说的大部分内容适用于其他看涨周期,但有几个统计数据令 1 月在区块链领域非常有趣。例如&#…

花3个月面过京东测开岗,拿个20K不过分吧?

背景介绍 计算机专业,代码能力一般,之前有过两段实习以及一个学校项目经历。第一份实习是大二暑期在深圳的一家互联网公司做前端开发,第二份实习由于大三暑假回国的时间比较短(小于两个月),于是找的实习是在…