【数字人】3、LIA | 使用隐式空间来实现视频驱动单张图数字人生成（ICLR 2022）

news2025/7/6 0:51:39

在这里插入图片描述

文章目录

- 一、背景
- 二、方法
- - 2.1 latent motion representation
  - 2.2 latent code driven image animation
  - 2.3 学习方式
  - 2.4 推理
- 三、效果
- - 3.1 数据集
  - 3.2 训练细节
  - 3.3 评估
  - 3.4 定性效果
  - 3.5 定量效果
  - 3.6 消融实验
  - 3.7 失败示例

论文：Latent Image Animator: Learning to Animate Images via Latent Space Navigation

代码：https://github.com/wyhsirius/LIA

出处：ICLR 2022

一、背景

现有的 image animation 方法一般都使用计算机图形学、语义 map、人体关键点、3D meshs、光流等，这些方法的 gt 需要提前提取出来，在实际使用中会受限。对没见过的人物表现很差。

自监督方法将原始的视频作为输入，使用预测的密集光流场来控制输入图片的运动，这样虽然能够避免对领域知识或标记 gt 的需求，能够提升在任意图像上测试的性能。但这些方法需要明确的结构表达来作为运动指引。其他的先验信息如关键点等，也会使用一个额外的网络来进行端到端训练，作为预测光流场过程的中间特征。虽然这样不需要提前提取 gt label，但也会提升复杂度。

在本文中，为了降低复杂度，作者剔除了额外的分支，而是使用隐空间。本文方法受启发于 GAN、styleGAN、BigGAN

作者提出了 LIA（Latent Image Animate），主要由自编码器构成，通过隐空间来引导对图像的驱动

作者引入了 Linear Motion Decomposition (LMD) ，通过线性组合一系列可学习的运动方向和大小，来表达隐空间中的路径。也就是将这一系列都限制为正交基，每个向量都表示一个基础的视觉变换。

且在 LIA 中，在一个 encoder-generator 结构中的 motion 和 appearance 是解耦的，没有使用分开的网络结构，这样能降低计算量。

二、方法

Self-supervised image animation 的目标将 driving video 的运动迁移到 source image 上，让 source image 按照 driving video 的运动方式动起来

如图 2 所示，本文的想法是通过隐空间来引导运动系数的建模，整个大体过程如图 2 所示

在训练过程中，需要同时输入 source 和 driving image，driving image 是从 video 中随机采样的。两个图像都会编码到隐空间，用于表达运动变化，training 目标是使用学习到的 motion transformation 和 source image 来重建 driving image
在测试过程中，driving video 中的每一帧都会顺序的被处理，来驱动 source subject

在这里插入图片描述

框架结构如图 3 所示，整个模型是自编码器的结构，由两个主要的网络构成

encoder E：是第一步，也就是对 source image 和 driving image 进行编码，编码到隐空间，
generator G：是第二步，也就是当获得了 target latent code 后，G 会 decode

在这里插入图片描述

2.1 latent motion representation

给定 source image $x_s$ 和 driving image $x_d$ ：

latent motion representation 也是整个过程的第一步：

学习一个 latent code $z_{s \to d}~ Z \in R^N$ 来表达从 $x_s$ 到 $x_d$ 的 motion transformation，由于这两个图片都有不确定性，直接学习 $z_{s \to d}$ 的话比较难，因为需要模型去捕捉非常复杂的运动。所以，在此处假设有一个 reference image $x_r$ ，motion transfer 的过程被建模为 $x_s \to x_r \to x_d$ ，而不是直接学习 $z_{s \to d}$ 。因此，将 $z_{s \to d}$ 作为 latent space 的 target point，起始点为 $z_{s \to r}$ ，线性路径为 $w_{r \to d}$ ：

在这里插入图片描述

reference image 如何生成：

在这里插入图片描述

$x_r$ 到底表达的是什么：

如图 5 所示， $x_r$ 表达的是 $x_s$ 的 canonical pose，

在这里插入图片描述

如何学习 $w_{r \to d}$ ：LMD（Linear Motion Decomposition）

首先，学习一组 motion directions $D_m=\{d_1, ... , d_M\}$ 来在 latent space 表达任意的 path，且限制 $D_m$ 作为正交基，其中每个向量都表示运动方向 $d_i$ ，且其中每两个向量两两之间都是正交的
然后，将 $D_m$ 中的每个基都和向量 $A_{r \to d}=\{a_1, ..., a_M\}$ 进行结合， $a_i$ 表示 $d_i$ 的模值，所以在 latent 空间中的每一个 linear path 都可以使用如下的线性组合来表示，且每个 $d_i$ 都表示一个基， $a_i$ 表示步长。 $A_{r \to d}$ 是通过映射 $z_{d \to r}$ 得到的，是 $x_d$ 经过 E 后的输出。
最后，latent motion representation 如下， $D_m$ 中的向量都是可学习的

$D_m$ 中的方向表示什么：表示点头（d8）、眨眼（d6）、面部表情（d19、d7）等

在这里插入图片描述

2.2 latent code driven image animation

得到了 $z_{s \to d}$ 后，就是第二步了，即使用 G 来解码出 flow filed $\phi_{s \to d}$ 并 warp $x_s$

G 包含两部分，且为了学习多尺度特征， G 使用了一个残差结构：

flow field 生成器 $G_f$ ：包含 N 个 model 来不同 layer 的生成金字塔的 flow fields $\phi_{s \to d}=\{\phi_i\}_1^N$ 。从 E 中会获得多尺度 source features $x_s^{enc}=\{x_i^{enc}\}_1^N$ ，然后会在 $G_f$ 中进行 warp
- 如果直接基于 $\phi_{s \to d}$ 来 warp source feature，不能很充分且精确的来重建 driving image，因为在一些位置上会有遮挡，为了更好的预测这些遮挡位置的像素，需要对 warped feature map 进行修复，所以，在 $G_f$ 中也根据 $\{\phi_i\}_1^N$ 预测了 multi-scale mask ${m_i\}_1^N$ ，可以 mask 出需要修复的区域
- 每个残差模型中都有：
```
  	![在这里插入图片描述](https://img-blog.csdnimg.cn/45d30238ed51419893f36c5ee667cded.png)
```
- 所以，输出共三个通道，前两个通道是 $\phi_i$ ，最后一个通道是 $m_i$
refinement network $G_r$ ：基于上面得到的修复后的 feature map $f(x_i')$ 和上一个 $G_r$ 得到的上采样后的 image $g(x_{i-1})$ ，可以得到每个模块的 RGB 图像

2.3 学习方式

作者使用 self-supervised 的方法来重建 $x_d$ ，使用了 3 个 loss：

reconstruction loss：重建 loss，用于最小化 $x_d$ 和 $x_{s \to d}$ 的 pixel-wise $L_1$ 距离
perceptual loss：感知 loss，用于最小化感知特征 loss，使用的是 VGG19-based $L_{vgg}$ ，衡量 real 和 generated images 的多尺度的 feature map 的距离，尺度分别为 256/128/64/32
adversarial loss：对抗 loss，为了生成更真实的结果，作者在 $x_{s \to d}$ 上使用了不饱和的对抗 loss $L_{adv}$