论文地址
代码地址
摘要:
以前的肖像生成方法大致分为两类:2D GAN和3D感知GAN。2D GAN可以生成高保真的肖像,但具有低的视觉一致性。3D感知GAN方法可以保持视觉一致性,但其生成的图像不具有局部可编辑性。为了克服这些限制,我们提出了FENeRF,这是一种3D感知生成器,可以生成视觉一致且局部可编辑的肖像。我们的方法使用两个解耦的潜在编码在具有共享几何体空间对齐的3D体中生成相应的面部语义和纹理。得益于这样的潜在的3D表征,FENeRF可以一起渲染边界对齐的图像和语义掩模,并使用语义掩模通过反GAN来编辑3D体积。我们进一步表明,这种3D表征可以从广泛可用的单眼图像和语义掩模对中学习。此外,我们揭示了一起学习语义和纹理有助于生成更精细的几何体。我们的实验表明,FENeRF在各种人脸编辑任务中优于目前最好的方法。
1、引言
基于生成对抗网络的真实感照片合成是计算机视觉和图形学中的一个重要问题。特别是,合成高保真和可编辑的肖像近年来获得了相当大的关注。已经提出了两类主要的方法:2D GAN图像生成和3D感知图像合成技术。
尽管2D GAN方法在合成高度逼真甚至局部可编辑的图像方面取得了巨大成功但它们都忽略了3D场景下的投影或渲染过程,这对于视觉一致性来说是至关重要。因此,当改变生成肖像的视角时,它们会产生不可避免的伪影。为了克服这一问题,神经辐射场(NeRF)[35]已经探索并开发3D感知图像合成技术。一些其他方法[3,44]采用普通的NeRF生成器来合成不可编辑的并且结果可能是模糊的视角自由的肖像。Niemeyer等人[37]使用体积渲染技术首先生成视觉一致的2D特征图,然后使用额外的2D解码器获得最终的高度逼真的图像。然而,这种方法会受到由2D卷积和镜像对称问题引入的额外的视觉相关伪影的影响。为此,CIPS-3D[53]用隐式神经表征(INR)网络代替2D卷积。不幸的是,所有现有的3D感知GAN在生成自由视角肖像上都不支持交互式局部编辑。
在本文中,我们提出了一种生成器,它可以严格的生成视觉一致的肖像,同时支持交互式局部编辑。我们采用噪声体积方案。生成器将去耦的形状和纹理潜在编码作为输入,并生成3D体积,其中面部语义和纹理通过共享几何体在空间上对齐。由于在生成纹理体积时利用了可学习的3D位置特征嵌入,因此在合成的肖像中保留了更多细节。
由于缺乏合适的、大规模的3D训练数据,直接学习这种3D体积表示非常困难。一种可能的解决方案是使用多视角图像[4]。然而,少量的训练数据不能表现出3D语义体的再现能力。为了克服这个问题,我们使用了具有成对语义掩码的单眼图像,这是非常有用的。具体而言,使用颜色和语义判别器来监督NeRF生成器的训练。颜色判别器聚焦于图像细节,因此提高了图像的保真度。语义判别器将一对图像和语义图作为输入,以增强3D体积中相应内容的对齐能力。得益于空间对齐的3D表征,我们可以使用语义图通过反GAN来局部和灵活地编辑3D体积。此外,这里的一个观点是,同时学习语义和纹理表征有助于以生成更精确的3D几何形状。
为了说明所提出方法的有效性,我们在两个广泛使用的公开数据集:CelebMask HQ和FFHQ上进行了评估。如实验所示,FENeRF生成器在几个方面优于现有技术的方法。此外,它还支持各种下游任务。为了便于进一步研究,我们将在验收后发布代码和模型。综上所述,我们的主要贡献如下:
1、我们提出了第一个局部可编辑和具有严格视觉一致的肖像图像生成器,此生成器得益于3D表征在语义、几何和纹理空间上的对齐的。
2、我们使用成对的单眼图像和语义图来训练生成器,而不需要多视图或3D数据。这确保了数据的多样性并增强了生成器的表征能力。
3、在实验中,我们发现一起学习语义和纹理体可以帮助生成更精细的3D几何体。
2、相关工作
神经隐式表征 最近,神经隐式场景表征以其空间连续性和存储效率促进了各种3D感知任务的爆发,如3D重建和新视角合成。[33,34,39]为代表的将场景、对象作为约束字段或带符号的距离函数,需要3D数据进行监控。[35]以mlp的权重作为建模场景的神经辐射场。通过体绘制的可微数值积分,NeRF可以只在具有姿势的图像上训练。各种后续工作者将NeRF扩展到训练和测试更快[8,13,17,43,49]、自由姿势[26,31]、动态场景[5,50]和虚拟动画[15,27,41]的模型上。[52]使用语义分割渲染器扩展了NeRF,并提高了语义解释的性能。在这项工作中,我们构建了与神经辐射场对齐的生成语义场。我们不关注场景语义理解,而是利用面部纹理和语义的空间对齐来实现语义引导的属性编辑。EditNeRF[29]通过将2D涂鸦传播到3D空间来编辑通用对象,然而,它只支持对形状和颜色的简单修改,而FENeRF则在神经辐射场中处理复杂的面部变形和外观纹理的细节,这对面部编辑任务至关重要。
使用2D GAN进行人脸图像编辑 生成对抗网络(GAN)广泛应用于逼真的照片的人脸编辑。受图像到图像翻译的启发,条件GAN将条件语义掩码[11,19,40,55]或手写草图[6,7,25]作为交互式编辑人脸图像的条件。SPADE[40]利用有效的空间自适应归一化来合成给定输入语义布局的逼真的人脸图像。SEAN[55]进一步实现了基于语义区域的样式和更灵活的面部编辑。为了在可解释的语义参数(例如姿势、表情、光照)中提供3D的显式控制,最近的几种方法基于3D引导将图像生成空间分解为多个特定属性[4,24,46]。SofGAN提出了一个语义约束字段来渲染视图一致的语义图,该语义图为图像合成提供了几何约束。然而,SofGAN仍然缺乏对3D几何的解释,需要大量的语义标记3D扫描来训练语义渲染。相反,我们的FENeRF以对抗的方式进行端到端训练,没有任何3D数据或多视角图像。此外,我们还表明我们的语义渲染具有更好的视觉一致性。
3D感知的图像合成 尽管深度对抗模型在图像生成方面取得了巨大突破[9,19,21,22,40,46,55],但这些方法主要在2D空间中操作形状和纹理,而不了解对象和场景的3D性质,导致姿态控制能力有限。为此,3D图像合成方法通过显式相机控制将图像生成提升为3D。早期方法[12,36,54]利用显式体积元素或体积表示,因此分辨率有限。最近,神经隐式场景表征被集成到生成对抗模型中,并实现了更好的存储效率和多视角一致性[2,3,10,14,37,38,44,53]。特别是π-GAN[3]以纠缠几何和纹理的全局潜码为条件,呈现基于siren的神经辐射场。然而,GRAF[44]和Giraffe[37]在全局层面脱离了纹理和几何体的控制。同时期的工作[2,10,14,38,53]展示了令人印象深刻的图像生成质量,但仍然不支持交互式用户局部编辑功能。相比之下,我们的FENeRF拥有纹理和几何体上的全局独立样式以及局部面部属性编辑,同时保持视觉一致性。
3、方法
3.1、局部可编辑NeRF生成器
我们的目标是在3D空间中实现语义引导的面部编辑。主要挑战是:1)我们需要在图像生成过程中分离形状和纹理。2) 语义图必须与3D空间中的几何体和纹理严格对齐。为此,FENeRF利用了两个独立的潜在代码。形状潜码是控制几何和语义的。纹理代码控制纹理体积的外观。此外,我们利用所提出的生成器中的三头架构来单独编码语义和纹理,这些语义和纹理与密度体积中描述的底层几何体对齐。我们的生成器公式如下:
G
:
(
x
,
d
,
z
s
,
z
t
,
e
c
o
o
r
d
)
↦
(
σ
,
c
,
s
)
,
(
1
)
G : (\mathrm {x, d, z_s, z_t, e_{coord}) \mapsto (σ, c, s}), \quad\quad\quad\quad\quad(1)
G:(x,d,zs,zt,ecoord)↦(σ,c,s),(1)
图二 FENeRF的整体流程。我们的生成器以解纠缠的潜在代码Zs和Zt为条件产生空间对齐的密度、语义和纹理场。位置特征嵌入
e
c
o
o
r
d
e_{coord}
ecoord还与视图方向一起被注入到网络中进行颜色预测,以在生成的图像中保留高频细节。通过共享相同的密度,可以渲染对齐的rgb图像和语义图。最后,向两个鉴别器
D
s
D_s
Ds和
D
c
D_c
Dc是由语义图/图像对和真/假图像对作为输入,并分别使用对抗目标
L
D
s
L_{D_s}
LDs和
L
D
c
L_{D_c}
LDc进行训练。
如图2所示,所提出的生成器被参数化后作为多层感知器(MLP)。其将3D点坐标
x
=
(
x
,
y
,
z
)
\mathrm x=(x,y,z)
x=(x,y,z)、观察方向
d
=
(
θ
,
ϕ
)
\mathrm d=(\theta,\phi)
d=(θ,ϕ)和可学习的位置特征嵌入
e
c
o
o
r
d
e_{coord}
ecoord作为输入。然后以形状潜编码
z
s
\mathrm z_s
zs为条件生成视角不变的密度
σ
∈
R
+
\sigma \in \Bbb R^+
σ∈R+和语义标签
s
r
∈
R
k
s_r \in \Bbb R^k
sr∈Rk。同理视觉相关的颜色
c
r
∈
R
3
c_r \in \Bbb R^3
cr∈R3是以纹理编码
z
c
\mathrm z_c
zc为条件的
我们还利用映射网络将采样编码映射到中间潜在空间
W
\mathcal W
W,并输出频率γ和相移β,通过特征线性调制控制生成器,如[3,42]所示:
Φ
(
x
)
=
W
n
(
ϕ
n
−
1
◦
ϕ
n
−
2
◦
.
.
.
◦
ϕ
0
)
(
x
)
+
b
n
(
2
)
Φ(x) = \mathrm W_n(\phi_{n-1} ◦ \phi_{n-2}◦ ... ◦ \phi_0)(\mathrm x) + b_n \quad\quad\quad\quad\quad(2)
Φ(x)=Wn(ϕn−1◦ϕn−2◦...◦ϕ0)(x)+bn(2)
x
i
↦
ϕ
i
(
x
i
)
=
s
i
n
(
γ
i
⋅
(
W
i
x
i
+
b
i
)
+
β
i
)
,
(
3
)
\mathrm x_i \mapsto \phi_i(\mathrm x_i) = \mathrm{sin(γ_i · (W_ix_i + b_i) + β_i), }\quad\quad\quad\quad\quad(3)
xi↦ϕi(xi)=sin(γi⋅(Wixi+bi)+βi),(3)其中
ϕ
i
:
R
M
i
↦
R
N
i
\phi_i:\Bbb R^{M_i}\mapsto\Bbb R^{N_i}
ϕi:RMi↦RNi是网络的第i层。输入
x
i
∈
R
M
i
\mathrm x_i \in \Bbb R^{M_i}
xi∈RMi是由权重矩阵
W
i
∈
R
N
i
×
M
i
\mathrm W_i \in \Bbb R^{N_i \times M_i}
Wi∈RNi×Mi和偏置
b
i
∈
R
M
i
b_i\in\Bbb R^{M_i}
bi∈RMi变换后在经过sin非线性变换得到的。
图11 在
e
c
o
o
r
d
e_{coord}
ecoord上的消融实验。子图(a)到( c)是三种
e
c
o
o
r
d
e_{coord}
ecoord变量的生成图像的细节。我们放大合成的嘴以获得更清晰的观察。(d)说明了(b)和(c )中
e
c
o
o
r
d
e_{coord}
ecoord注入的位置
然而,利用基于siren的网络只能生成缺乏细节的图像。因此,我们引入了可学习的3D特征网格来补偿高频图像细节。具体而言,为了预测具有2D视图方向d的3D点x的颜色,我们通过双三次插值从特征网格中采样局部特征向量
e
c
o
o
r
d
x
e^x_{coord}
ecoordx,然后将其作为附加输入填充到颜色分支中。如图11所示,它有助于保留更细粒度的图像细节。
一旦生成了语义、密度和颜色场,我们就可以通过立体渲染将它们从任意相机姿态渲染成语义图和肖像图像。对于每个3D点,我们首先查询其颜色c、语义标签s和体积密度σ。为了获得像素颜色
C
r
C_r
Cr和语义标签概率
S
r
S_r
Sr,使用经典的立体绘制过程来累积射线中所有样本的值。渲染方程式如下:
C
(
r
)
=
∫
t
n
t
f
T
(
t
)
σ
(
r
(
t
)
)
c
(
r
(
t
)
,
d
)
d
t
,
(
4
)
C(\mathrm r) = \int^{t_f}_{t_n} T(t)σ(\mathrm r(t))\mathrm c(\mathrm r(t), \mathrm d)dt, \quad\quad\quad\quad\quad(4)
C(r)=∫tntfT(t)σ(r(t))c(r(t),d)dt,(4)
S
(
r
)
=
∫
t
n
t
f
T
(
t
)
σ
(
r
(
t
)
)
s
(
r
(
t
)
,
d
)
d
t
,
(
4
)
S(\mathrm r) = \int^{t_f}_{t_n} T(t)σ(\mathrm r(t))\mathrm s(\mathrm r(t), \mathrm d)dt, \quad\quad\quad\quad\quad(4)
S(r)=∫tntfT(t)σ(r(t))s(r(t),d)dt,(4)其中:
T
(
t
)
=
e
x
p
(
−
∫
t
n
t
σ
(
r
(
s
)
)
d
s
)
T(t) = exp(-\int^t_{t_n}\sigma(\mathrm r(s))ds)
T(t)=exp(−∫tntσ(r(s))ds)。在实践中,我们根据NeRF[35]以离散形式近似方程4和方程5。注意,语义、密度和纹理这三个分支共享相同的中间特征,输出密度也在颜色和语义渲染过程中共享,以确保生成的语义、密度与纹理在3D空间中精确对齐。
3.2、判别器
为了学习无监督的3D表示,我们设计了两个判别器Dc和Ds,他们都被带有leaky ReLU激活函数的CNN参数化了。Dc辨别生成的肖像的真实度。除了人脸图像之外,语义掩码也被用作Ds的输入。这是为了鼓励人脸外观和语义的对齐。此外,我们追加两个Dc通道来预测相机姿态,然后使用采样的姿势来校正预测的相机姿态并计算校正损失。
3.3、训练
在训练期间,我们随机采样相机姿态
ξ
∼
p
ξ
ξ\sim p_ξ
ξ∼pξ和浅编码
z
s
,
z
t
∼
N
(
0
,
I
)
z_s, z_t\sim\mathcal N(0,I)
zs,zt∼N(0,I)。我们将相机姿态设置为近似的高斯分布,并根据[3,37,44]先验设置姿态范围。摄影机位置在以对象为中心的球体表面上采样,并且摄影机始终面向原点。我们的培训损失由三部分组成:
L
D
c
=
E
z
s
,
z
t
∼
N
,
ξ
∼
p
ξ
[
f
(
D
c
(
x
c
)
)
]
+
E
I
∼
p
i
[
f
(
(
−
D
c
(
I
)
)
+
λ
c
∣
∣
∇
D
c
(
I
)
∣
∣
2
]
,
(
6
)
\mathcal L_{D_c} =\Bbb E_{z_s,z_t}∼\mathcal N,ξ∼p_ξ [f(D_c(\mathrm x_c))]+\Bbb E_{\mathrm I∼p_i} [f((-D_c(\mathrm I))+λ_c||\nabla D_c(\mathrm I)||^2], \quad\quad\quad(6)
LDc=Ezs,zt∼N,ξ∼pξ[f(Dc(xc))]+EI∼pi[f((−Dc(I))+λc∣∣∇Dc(I)∣∣2],(6)
L
D
s
=
E
z
s
,
z
t
∼
N
,
ξ
∼
p
ξ
[
f
(
D
s
(
x
s
,
x
c
)
)
]
+
E
I
∼
p
i
,
L
∼
p
l
[
f
(
−
D
s
(
L
,
I
)
+
λ
s
∣
∣
∇
D
s
(
L
,
I
)
∣
∣
2
]
,
(
7
)
\mathcal L_{D_s} =\Bbb E_{z_s,z_t}∼\mathcal N,ξ∼p_ξ [f(D_s(\mathrm x_s,\mathrm x_c))]+\Bbb E_{\mathrm I∼p_i,\mathrm L∼p_l} [f(-D_s(\mathrm{L, I})+λ_s||\nabla D_s(\mathrm{L, I})||^2], \quad\quad\quad(7)
LDs=Ezs,zt∼N,ξ∼pξ[f(Ds(xs,xc))]+EI∼pi,L∼pl[f(−Ds(L,I)+λs∣∣∇Ds(L,I)∣∣2],(7)
L
G
=
E
z
s
,
z
t
∼
N
,
ξ
∼
p
ξ
[
f
(
D
c
(
x
c
)
)
]
+
E
z
s
,
z
t
∼
N
,
ξ
∼
p
ξ
[
f
(
−
D
s
(
x
s
x
c
)
)
]
+
λ
p
∣
∣
ξ
^
−
ξ
∣
∣
,
(
8
)
\mathcal L_G =\Bbb E_{z_s,z_t}∼\mathcal N,ξ∼p_ξ [f(D_c(\mathrm x_c))]+\Bbb E_{\mathrm z_s,z_t}∼\mathcal N,ξ∼p_ξ [f(-D_s(\mathrm{x_s x_c}))]+λ_p||\hat ξ-ξ||, \quad\quad\quad(8)
LG=Ezs,zt∼N,ξ∼pξ[f(Dc(xc))]+Ezs,zt∼N,ξ∼pξ[f(−Ds(xsxc))]+λp∣∣ξ^−ξ∣∣,(8)其中
f
(
t
)
=
=
−
l
o
g
(
1
+
e
x
p
(
(
−
t
)
)
,
λ
c
,
λ
s
,
λ
p
=
10
f(t) = =-log(1 + exp((-t)), λ_c, λ_s, λ_p = 10
f(t)==−log(1+exp((−t)),λc,λs,λp=10并且
p
i
,
p
l
p_i , p_l
pi,pl表示真图I和语义图L在数据集中的分布。图像判别器Dc、语义判别器Ds和生成器G的目标分别是最小化
L
D
c
、
L
D
s
和
L
G
\mathcal L_{D_c}、\mathcal L_{D_s}和\mathcal L_G
LDc、LDs和LG。等式7中所示的
L
D
\mathcal L_D
LD用于区分成对的图像和语义图,并增强它们的空间对齐能力。当用
L
G
\mathcal L_G
LG训练生成器G时,我们停止了从Ds到颜色分支的梯度反向传播,因为梯度增强纹理匹配语义,并导致精细的图像细节的丢失。我们采用非饱和GAN损失和R1梯度惩罚[32]。此外,我们应用相机姿态校正损失(等式8的最后一项)来惩罚相机姿势
ξ
^
\hat ξ
ξ^之间的距离。ξ被分别投送到生成器和用于预测的判别器。这种损失迫使所有3D人脸处于相同的标准姿势,并鼓励可靠的3D人脸几何结构以避免姿势漂移。
图3 与π-GAN在几何解释上的比较。π-GAN无法学习精确的几何形状(例如面部边界、头发、背景)并有严重的伪影。相比之下,得益于语义指导,FENeRF生成准确、平滑的几何形状,而无需任何特定的正则化。更重要的是,FENeRF实现了生成的3D人脸与背景的清晰分离。
总之,我们的方法构建了一个生成隐式表征,该表征在空间对齐的3D体中联合编码面部几何、纹理和语义特征。我们为更精细的获取图像细节引入了可学习的特征网格。辅助鉴别器通过将成对合成的图像和语义图作为输入来进一步强制这种对齐能力。此外,我们注意到语义渲染显著提高了合成的面部几何体的质量,如图3所示。
4、实验(略)
5、局限
一个已知的限制是,因为计算成本高昂的光线投射和体积集成,我们的生成器无法生成高清人像图像。此外,反GAN是进行3D体局部编辑的有效方法,但是相反的迭代优化是低效的。因此,实时自由视角人像编辑仍然是一个公开的问题。
6、结论:
在本文中,我们提出了第一个基于隐式场景表征的本地可编辑3D感知人脸生成器FENeRF。为了使用语义图作为编辑界面,我们引入了一个语义辐射场,该场通过共享几何体在3D空间中隐式地对齐面部语义和纹理特征。我们展示了FENeRF实现了包括风格混合、风格迁移、面部属性编辑在内的花式应用,并进一步将其推到具有显式相机控制的3D自由视觉方式。我们希望我们的工作将为可编辑的3D感知生成网络提供一个有前景的研究方向。对于未来的工作,我们计划提高合成自由视角肖像的分辨率,并研究特定的3D感知反GAN方法。