概述

论文名称： Efficient Geometry-aware 3D Generative Adversarial Networks
Project page: https://github.com/NVlabs/eg3d

任务： 从一堆单视角的2D图像中生成有效的三维表达。
途径：

混合的显式与隐式三维表达；
dual-discremination的训练策略，以保持神经渲染之间的一致性。
为生成器引入 pose-based的条件，能够解耦与pose相关的特性（比如面部表达）

其他优势：
从神经渲染过程中解耦特征生成，这使得能够直接应用SOTA的2D CNN特征生成器。可以实现在各种3D场景内的泛化，同时也可以在3D多视角一致的神经体渲染过程中受益。
【为什么2D CNN特征生成器可以实现泛化，和从多视角一致的渲染过程中收益？】

Tri-Plane 表达

在这里插入图片描述
期望一种表达能力强、效率高的3D数据表达。
本节先一个 single-scene over-fitting (SSO)的实验中进行说明，而后再讨论其如何被引入到GAN框架中。
在 "tri-plane"的表达中，首先将显式的特征，归到三个轴正交的特征平面上，每一个特征平面的size都是 $N * N * C$ ，显然， $N$ 是空间分辨率， $C$ 是特征通道数。
进而，可以通过将任何一个三维点 $\in \mathbb{R}^3$ 投影到三个特征平面上，获取其对应的特征向量 $F_{xy}, F_{xz}, F_{yz} )$ （可通过双线性插值的方式），而后，再将获取的三个特征向量进行累加，即得到所谓的 “aggreated 3D Features” $\mathbf{F}$ 。
再引入一个小型的MLP，将这个 $\mathbf{F}$ 输出为颜色与密度。
这种 tri-plane的表达，最大的优势在于效率（decoder变得比较小；将大部分的表达能力都转移给了显式的特征）。

验证 tri-plane 表达

为了验证这种表达的能力，使用一种通用的新视角合成的实验设置。即，直接去优化 planes的特征以及decoder的权重，以fit 360°的视角（Tanks & Temples 数据集）。

实验设定：

特征平面： $N = 512$ ， $C = 48$
decoder: 四层MLP，128个隐藏单元，一个傅里叶特征编码。

对比对象：
一个dense feature volume(具有相同的capacity)，具体使用了一个SOTA的全隐式表达网络。

实验效果：
在这里插入图片描述

3D GAN 框架

训练一个3D GAN，但是不需要显式的3D结构或者多视图监督。
对每一张训练图片都关联上相机内外参（通过现成的pose-detectors）。
整体网络结构为：在这里插入图片描述

与SSO中的设定不同，planes中的feature并不是由多张输入图直接进行优化的，而是会根据GAN的设定进行了一定程度的修改 —— 基于StyleGAN2的backbone，生成了tri-plane的特征（channels = 32），且并不是生成一个RGB图，而是生成一个32通道的特征图（给定相机pose）。而后，接入一个“super-resolution”模块，以进行上采样与refine。输出的结果将被一个稍做改动的StyleGN2 discriminator进行判别。

整个网络通过一种端到端的方式进行训练（随机初始化），使用 non-saturating GAN 损失函数，以及 R1 regularization (借鉴了StyleGAN2的训练机制)。

为了加速训练，使用了两阶段的训练策略，第一阶段使用一个较低的分辨率：一个reduced ( $64^2$ )的神经渲染分辨率，第二阶段进行短暂微调，并以 full( $128^2$ ) 神经渲染分辨率进行训练。

CNN生成器backbone以及渲染

特征backbone使用的是StyleGAN2 CNN生成器。

首先，随机的潜在编码和相机参数会经过一个映射网络，生成一个中间的潜在编码。然后，这个中间的潜在编码会调制一个独立的合成网络的卷积核。

修改了StyleGAN2的CNN backbone，使得其生成 $256 * 256 * 96$ 的特征图，而不是三通道的RGB图片。这些特征图进一步地reshape成三个 32通道的planes。StyleGAN的表达给网络提供了一个well-behaved的latent space，这个latent space能够较好地达成 style-mixing以及latent-space interpolation.

decoder只使用一个隐藏层，隐藏层有64个units，以及softplus 激活函数。这个MLP没有使用位置编码，坐标输入，或者视角输入。输出为一个标量体密度 $\sigma$ 以及一个32通道的特征，名为 $C o l or$ 。这两个输出进一步地被喂入 Volume Rendering模块（借鉴了参考文献[45]），以生成2D的feature map。

在本文的大部分实验中，渲染的特征图 $I_{F}$ 为32通道，分辨率为 $128^2$ ，每条ray上采样 $96$ 个sample（“…with 96 total depth samples per ray.”）。

超分

尽管tri-plane的表达已经很高效，但是处理高分辨率图片仍然比较困难。
因此，引入了一个超分模块。

超分模块由两个StyleGAN2调制的卷积层块组成。

为了减少纹理粘连的问题，作者禁用了每个像素的噪声输入，并重复使用了模型的映射网络来调制这些层。

Dual discrimination

在标准的2D GAN训练过程中，渲染结果最终由一个2D卷积分辨器进行分辨。
我们主要基于StyleGAN2做了两个修改。
首先，为了避免生成图像的多视角不一致，将一张渲染的特征图 $I_{F}$ 的前三个通道设计成低分辨率的RGB图 $I_{RGB}$ 。

直觉上来看，dual discremination而后会去尽可能地确保 $I_{RGB}$ 与超分图像 $I_{RGB}^{+}$ 高度相似。实现方式是：将 $I_{RGB}$ 上采样到和 $I_{RGB}^{+}$ 同分辨率，并将两张图像concat，得到一个六通道的图像。这个六通道的图像将会被送到判别器去。

Dual discrimination同时也鼓励了超分后的图像与神经渲染得到的图像尽可能地一致：
在这里插入图片描述
GAN使用条件策略来让鉴别器了解生成图像的相机姿态。具体来说，我们将**渲染相机的内部和外部矩阵（统称为P）**作为条件标签传递给鉴别器，这是从StyleGAN2-ADA中采用的条件策略。我们发现，这种条件引入了额外的信息，可以指导生成器学习正确的3D先验知识。