文章目录
- 摘要
- 问题
- 3. 算法:
- 3.1 基于点的交互式操作
- 3.2 运动监督
- 3.3 点跟踪
- 4. 实验
- 4.1 质量评估
- 4.2 量化评估
- 4.3 讨论
- 结论
论文: 《Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold》
github: https://github.com/XingangPan/DragGAN
摘要
用户想要灵活控制姿态、形状、表情以及生成目标布局。现有方法:GAN通过有标定训练集实现、或者先验3D模型,这缺少灵活度、精确度及泛化性。本文提出DragGAN,主要包括两部分:
1、基于特征的运动监督,驱动点运动到目标位置;
2、点跟踪方法利用生成器特征定位点。
即使对一些有挑战场景,比如遮挡
问题
DragGAN主要解决两个问题:
- 移动点到目标位置;
- 跟踪点的位置;
DragGAN基于观点:
GAN的特征空间具有足够区分度,可用于运动监督以及精确点跟踪。
3. 算法:
3.1 基于点的交互式操作
图像控制流程如图2所示,对于依据隐向量
w
w
w及GAN生成图片
I
I
I,用户可输入一系列处理点
p
i
p_i
pi记忆对应目标点
t
i
t_i
ti,目标是移动图中目标,使得处理点的语义位置达到对应目标点。
如图2,优化过程分为两步:运动监督及点跟踪。强制处理点移动到目标点的损失函数用于优化隐向量
w
w
w,得到新的隐向量
w
‘
w‘
w‘及新图片
I
’
I’
I’,每次优化仅运动一小步,具体步长是不清楚的,因此需要通过跟踪模块,更新处理点位置。这个过程持续30-200轮迭代。
3.2 运动监督
作者提出运动监督损失不依赖于额外的神经网络,由于生成器中间特征已经具有差异性,作者选取StyleGAN2第六个block的特征,作者将其resize到与输出图片尺寸一致。如图3,移动处理点
p
p
p至
t
t
t,损失函数如式1,
二值mask M用于保证保证feimask区域不变;隐向量 w w w可在 W W W空间优化也可在 W + W+ W+空间优化, W + W+ W+空间更易在离群数据上操纵, W + W+ W+表示StyleGAN2各个层使用不同隐向量 w w w, W W W表示各个层使用相同隐向量 w w w。实验发现图像空间属性受 w w w前六层影响,因此只更新 w w w的前六层。
3.3 点跟踪
通过运动监督模块更新
w
w
w为
w
‘
w‘
w‘,得到新特征图
F
’
F’
F’,新图片
I
‘
I‘
I‘,但无法提供处理点在新图
I
’
I’
I’中位置,点跟踪用于更新处理点
p
p
p。常规点跟踪方案为光流或粒子视频方法,但是不够高效或者产生累计误差,尤其是在GAN生成伪影时。
作者认为GAN的特征捕获稠密点一致性信息,因此可通过最邻近搜寻寻找处理点,如式2,
4. 实验
4.1 质量评估
图4作者比较DragGAN与UserControllableLT,DragGAN结果更加自然,移动更加准确;
图6作者与PIPs、RAFT比较点跟踪方法,作者所提方法更加准确。
**真实图片操纵。**通过反向GAN编码真实图片至StyleGAN的隐空间,也可操纵真实图像,如图5、13
4.2 量化评估
人脸操纵。
作者通过StyleGAN生成两人脸,利用现有工具预测人脸关键点,通过DragGAN将图1人脸关键点迁移至图2人脸关键点位置,计算迁移后图片人脸关键点与图2中人脸关键点距离,以此为评估指标。结果如表1,可视化结果如图7。
成对图像重构。
作者利用StyleGAN生成图片
I
1
I_1
I1及
I
2
I_2
I2,在光流区域随机采样32个点作为用户输入
U
U
U,目标为利用
I
1
I_1
I1及
U
U
U重构
I
2
I_2
I2,量化结果如表2所示。
消融实验
作者比较不同层特征对运动监督、点跟踪的影响,如图3所示,StyleGAN第6个block特征表现最佳。
4.3 讨论
图8展示可移动区域mask的影响。
图9展示OOD数据的图像操纵。
限制:
图14a展示一些限制,对于一些偏离训练集分布的姿态容易产生伪影。
如图14b、c,对于一些缺少结构信息信息的处理点,跟踪时会出现偏移。
结论
作者提出DragGAN,一种交互式基于点的图像编辑方法,可以依据用户输入操纵图像。这归因于两点:
a. 隐向量优化模块,将处理点移动至目标点;
b. 点跟踪模块准确跟踪处理点轨迹。
DragGAN超越现有基于GAN的图像操纵方法,同时开拓新方向,利用生成先验进行图像操纵。