基于NeRF的三维视觉年度进展报告

清华大学：刘烨斌

原文链接：【NeRF大总结】基于NeRF的三维视觉年度进展报告–清华大学刘烨斌 (by 小样本视觉与智能)

文章目录

基于NeRF的三维视觉年度进展报告
- 01 背景介绍
- - NeRF
  - NeRF与三维视觉
  - 三维表征与可微渲染
  - 背景价值
- 02 基于NeRF的研究进展
- - 效率优化
  - - 01 利用稀疏几何表达
    - 02 体素化
    - 03 体素压缩（哈希表）
    - 04 体素分解
    - 05 体素分解（4D推广）
  - 动态建模
  - - 01 动态前景感知
    - 02 体素化
  - 人体重建与化身生成
  - - 01 动态人体化身
    - 02 人与物体、场景交互
    - 03 数字人生成
  - 人脸重建与化身生成
  - - 01 稀疏视点重建
    - 02 人脸化身生成
  - 可泛化NeRF重建
  - - 01 基于扩散模型重建
  - 3D生成
  - - 01 3D GAN类别对象生成
    - 02 3D GAN类别对象生成（三平面改进）
    - 03 3D GAN类别对象生成（超分辨）
    - 04 通用3D对象生成（2D升维）
    - 类别对象3D生成（原生3D）
  - 3D 编辑
  - - 01 物体/场景NeRF的编辑
    - 02 基于GAN的NeRF编辑
    - 03 基于Diffusion的NeRF编辑
  - 4D生成与编辑
  - - 基于Diffusion动态NeRF生成与编辑
  - 光影编辑
  - 表征增强
  - 场景建模
- 03 NeRF年度发展趋势
- - 趋势1: 高质量动态建模
  - 趋势2: 与大模型的结合
  - 趋势3: 更丰富的信息嵌入
  - 趋势4: 应用到其他领域
- 04 NeRF研究的展望

01 背景介绍

NeRF

NeRF：基于可微体渲染和神经场三维表征的新视角合成方法。

Fig 1. 不同场景的自由视角渲染

NeRF的两个核心要素：

隐式神经场：用基于坐标的全连接网络标识颜色场与体密度场
体渲染公式：将颜色场合体密度场渲染为图像

Fig 2. NeRF核心流程. 更详细的流程参见[1]

NeRF与三维视觉

NeRF的核心优化手段：端到端可微渲染（紧致-高效的三维视觉信息表达）

从更本质的角度建立了二维图像与三维世界的联系

Fig 3. NeRF建模了视觉成像机理，更接近视觉世界本质

三维表征与可微渲染

Fig 4. NeRF与传统三维表征方法的对比。

背景价值

应用场景包括：

三维内容生成与编辑
机器人视觉定位与导航
三维重建与渲染
真实感可驱动数字人
城市级别街景地图
物理模拟
……

自2020年被提出以来，NeRF已经成为三维视觉领域的基本研究范式之一，推动了三维视觉的重建、渲染、定位、生成、理解等任务的发展。

02 基于NeRF的研究进展

效率优化

研究动机：朴素的NeRF训练时间长，渲染时间长。其计算瓶颈在于：复杂度 = 单个采样点网络查询时间x采样点数量

01 利用稀疏几何表达

解决思路：利用稀疏几何表达（稀疏体素、八叉树、曲面等）排除对积分无贡献的采样区域，减少采样数。

NSVF，SNeRG，Plenoxels，Plenoctrees：删去无几何区域体素，细化物体表面附近体素，得到稀疏体素或八叉树表达。
MobileNeRF: 将NeRF提取到三角网格曲面的稀疏几何上，可利用光栅化在移动端实时渲染。

02 体素化

解决思路：利用体素空间存储高维特征或轻量化网络，实现低复杂度查询。

KiloNeRF：空间体素化，每个体素用轻量网络，显著降低运算量并加渲染约数千倍。
DVGO: 通过体素网格低密度初始化、插值后激活等训练策略直接优化体素表达的NeRF密度场与颜色特征场，实现分钟级别的训练收敛。

03 体素压缩（哈希表）

解决思路：
使用哈希技术压缩高分辨率的体素网格存储

InstantNGP： 建立多尺度体素网格存储高维特征，将高分辨率网格用哈希压缩，可在低复杂度的条件下实现高分辨率与快速渲染。

04 体素分解

解决思路：体素网格分解为低维平面网格表达，空间占用降为平方级。

EG3D: 将三维坐标对应的体素特征定义为三个正交投影平面的特征。
TensoRF：将体素网格分解为向量-平面张量积形式的低秩张量之和。
MeRF： 低分辨率体素+高分辨率平面投影

05 体素分解（4D推广）

解决思路：沿用3D->2D的分解思路，进行4D->2D的分解

Tensor4D: 4D 网格 -> 3个3D网格 -> 3x3=9个2D网格
HumanRF：4D网格 -> 4个3D网格与1D网格的张量积，其中3D网格使用哈希压缩。
HexPlane，K-Planes： 4D网格->(x,y,z,t)坐标两两组合得到6个2D网格。

动态建模

研究动机：扩展NeRF表征非静止内容，运行对动态场景进行新视点合成。
早期工作：D-NeRF，Nerfies，Hyper-NeRF。
解决思路：将动态场景建模为标准空间和变形场，利用变形场将不同帧观测到的外观信息映射到标准空间，实现外观与运动信息的解耦。

现有局限和改进方向：

01 动态前景感知

研究动机：对于单目相机拍摄的含较大运动变形的真实场景，现有基于变形场的动态表征方法无法准确解耦物体的运动，难以恢复高质量动态纹理。

解决思路：
通过改变表征或引入额外的信息来增强NeRF对于动态前景的感知能力。

FSDNeRF： 构建隐式速度场的表征方法，引入单目预测帧间光流信息，为速度场施加时间域正则化。
Nerfplayer： 设计实时域相关的动态残差NeRF，减少运动信息与动态纹理的耦合。
RoDynRF： 引入动态NeRF显示建模前景分割，并通过联合相机位姿优化增强合成外观质量。

02 体素化

解决思路：
使用体素存储高维特征或轻量级网络，实现分钟级别动态建模和高清实时渲染。

TineuVox： 将标准空间NeRF改造为基于体素的显示表征，利用多尺度特征采样策略确保优化过程中体素全局感知能力。
Fourier Plenoctrees: 结合离散傅里叶变换，使用FT参数建模逐帧体素辐射参数
Dynamic MLP masps：：由体素级别局部轻量网络组合表征3D场景，结合2D超参数卷积网络高效生成逐帧MLP网络参数。

人体重建与化身生成

研究动机：动态NERF建模方法难以适用于人体大范围运动的场景。
早期工作：以人体参数化模型SMPL为先验，建立帧间大尺度骨架运动联系，同时优化非刚性变形场与标准姿势下的NeRF

01 动态人体化身

近期路线：更高质量的可驱动数字人，关注动态衣服细节的建模。

Remelli et al.: 引入额外图像驱动信号，提供更丰富的外观信息。
AvatarRex: 提出局部神经辐射场以及局部特征块以编码细粒度人体衣物细节。
PoseVocab： 提出姿势表征库以编码不同姿态下的人体外观高频变化。

02 人与物体、场景交互

解决方案：

Instant-NVR： 结合非刚性跟踪以及Instant-NGP实现人和物体NeRF的在线重建。
HOSNeRF： 引入状态隐编码以表征人和物体、场景的不同交互状态。
Hou et al. 引入人和物体的隐编码以解耦人和物体的接触关系，合成新姿态下人和物体的交互。

03 数字人生成

解决方法：SMPL+NERF+（GAN/Diffusion）

AvatarCLIP: 以CLIP为先验，分别生成静态数字人已经运动序列。
EVA3D：提出组合式人体NERF，在标准空间中学习三维人体GAN.
DreamAvatar: 以Stable Diffusion为先验，约束基于NeRF渲染的图像满足语义输入。

人脸重建与化身生成

01 稀疏视点重建

研究动机：稀疏视点人脸重建，NeRF容易过拟合到每个视点，新视点合成出现伪影。

解决方案：引入人脸大数据，关键点和人脸模板等先验，优化NeRF重建质量。

LP3D（静态+实时）：使用EG3D生成的人脸数据训练，输入单图像，推理三平面表达的NeRF。
HAvatar（动态化身）： 采用3DMM投影的三平面神经辐射场约束，实现高质量人头动态化身。
NeRSemble（动态）：引入3DMM表情参数，构建带表情语义空间变形场，拟合复杂表情动态。

02 人脸化身生成

研究动机：动态NeRF重建方法，无法通过音视频对人脸模型进行后续表情，嘴型驱动。
近期研究：引入预训练模型扩展到到单图像重建；更好的NeRF表达方式和表情表达方式。

Huang et al.: 从语音学习隐式表情参数，相比于传统3DMM表情，具备更强的表达能力。
OTAvatar： 无需视频作为训练，仅输入单帧图像，通过预训练EG3D生成可驱动NeRF模型。

可泛化NeRF重建

01 基于扩散模型重建

研究动机：朴素的NeRF需要对每个物体或者场景进行密集的拍摄以及独立的训练，因此希望实现从稀疏视点图像中直接推荐得到NeRF。

早期工作：从大规模数据中学习图像特征空间对齐的NeRF。

近期路线：基于扩散模型的单图像NeRF重建

ReRDi： 从预训练的latent diffusion model中获得输入图像的语义信息，并约束新视点渲染图像符合语义信息。
GeNVS： 提出3D-aware扩散模型，以体渲染得到的特征图为条件进行去噪过程。
Make-It-3D： 提出NeRF到点云的两阶段优化方法，进一步提升纹理质量。

3D生成

研究动机：利用大规模2D图像先验，获得对象的生成式先验模型，以支持稀疏视点重建和各类编辑任务。
近期路线：类别对象3D生成-> GAN,通用对象3D生成 -> Diffusion

01 3D GAN类别对象生成

研究动机： NeRF具有可微渲染的特点，可以从2D图片的监督中优化网络参数，因此将NeRF与GAN结合，构建生成式神经辐射场，学习3D内容生成。

解决方法：基于神经辐射场的MLP网络，利用GAN的对抗式训练策略从2D图片中学习生成式神经辐射场，通过随机噪声产生隐式编码控制其几何与纹理。

02 3D GAN类别对象生成（三平面改进）

研究动机:3D GAN受限于MLP的显存消耗和表达能力，生成结果分辨率低.

解决方案和创新性: 提出基于三平面的三维表达，将神经辐射场的高频信号存储在三平面上从而轻量化MLP网络，在不损失表达能力的同时，大大降低显存消耗和提升渲染速率，利用高效的2D styleGAN生成具有高频细节的triplane，从而提升生成质量;利用2D超分辨提高渲染分辨率

03 3D GAN类别对象生成（超分辨）

研究动机:2D超分辨网络将视角信息和图像特征耦合，破坏了三维一致性

解决方案和创新性:用3D超分辨代替2D超分辨

Gram-hd : 在神经辐射场中设置一组隐式曲面流形，并对曲面流形进行超分。
Mimic3D :通过让生成器的3D渲染分支合成的图像模仿其2D超分辨率分支生成的图像，使3DGAN能够生成高质量的图像，同时保持其严格的3D一致性。

04 通用3D对象生成（2D升维）

研究动机:2D生成式大模型具有强大的文本生成图片能力;NeRF具有表征连续复杂三维对象的能力，并且其渲染方式一种可微逆渲染，因此可通过2D监督反向优化辐射场的网络参数，实现通用物
体或场景的三维生成。

解决方案:将预训练 2D生成式大模型作为先验，利用得分蒸馏采样(SDS )损失，最小化NeRF可
微渲染图与扩散模型生成图像之间分布的KL散度，优化NeRF参数，实现文本到三维的生成。代表工作: Dreamfusion, Magic3D , Fantasia3D

研究动机:得分蒸馏采样(SDS )的优化目标是让单个NeRF的渲染图满足给定文本下预训练模型的图片分布的似然最大值，使得该NeRF被优化成符合该图片分布的某个最值:生成的三维模型过饱和、过平滑，且缺少多样性

解决方案:给定文本下预训练模型的图片分布对应一组(大于等于一)NeRF的分布，从概率角度下对NeRF参数进行变分推断。变分得分蒸馏采样(VSD)将优化的目标从单点的NeRF改为NeRF的分布;用粒子建模 NeRF的分布，通过迭代优化这些粒子使得其渲染图片分布接近预训练模型的分布，因此生成的三维模型的多样性和细节质量更高。

类别对象3D生成（原生3D）

研究动机: 利用Diffusion优化NeRF的方法(2D升维)费时(小时级);神经辐射场中的MLP网络没有显式的结构，无法直接基于diffusion对其进行优化;3D diffusion所需的内存存储与计算开销几乎无法承受，

解决方案:构建具有三维感知的扩散模型：将神经辐射场表征为显式的三平面结构(Rodin,NFD,SSDNeRF)，体素网格(DiffRF)，通过学习神经辐射场的去噪过程，可以直接从噪声中生成神经辐射场，无需优化。目前仅支持类别对象生成。

3D 编辑

01 物体/场景NeRF的编辑

研究动机: 传统神经辐射场拟合或生成场景或物体，无法对其编辑。

解决方案:利用不同的网络和隐含向量解耦形状和外观;用户在二维渲染图片上编辑，利用网络和隐含向量进行反向传播优化或前向编辑。

早期工作 : EditNeRF, NeRF-Editing,NeuMesh ，ARF

02 基于GAN的NeRF编辑

研究动机: PiGAN,GRAF等3D GAN生成丰富的三维人脸，但无法对其进行细粒度编辑。

解决方案:将外部信号映射到神经辐射场，对其特征进行编辑。

IDE3D:提出一个几何和材质解耦的生成式神经语义场，通过在几何分支网络中额外输出语义mask，对齐三维语义和几何;编辑原理是2D语义图编辑映射到语义场，从而编辑三维语义和与其对齐的几何。
Next3D:提出了一个基于神经纹理贴图的动态三平面表达，驱动表情信号会通过神经纹理光栅化，引起平面特征形变，进而渲染具有相应表情的图像。

代表工作:IDE3D, NeRFaceEditing,AnifaceGAN, Next3D