NeRF：从二维图像到三维重建【初识！原理通俗讲解】

news2025/1/17 6:14:36

NeRF：从二维图像到三维重建

反渲染（Inverse Rendering）可以理解为成像渲染的反过程，是指从一组二维图像重建三维场景的过程，这在计算机视觉和图形学中具有重要意义。NeRF（Neural Radiance Fields）是一种先进的三维重建神经网络方法，能够从一组二维图像生成高质量的三维场景。本文将详细介绍NeRF的各个方面，包括输入前处理、模型结构、体渲染、反渲染的概念及其应用。

在这里插入图片描述

输入的前处理

为了从二维图像生成用于NeRF模型的粒子，需要进行一系列的前处理步骤：

光线投射（Ray Casting）：将每个像素的光线从相机的视点投射到三维空间中。这些光线通过相机的内参和外参计算得到。
采样点生成：沿着每条光线均匀地生成采样点。例如，从近平面到远平面之间生成64个均匀分布的采样点。
输入预处理：每个采样点的三维坐标和视角方向作为NeRF模型的输入。

（如图a所示，黑色的点就是粗均匀采样的点）

在这里插入图片描述

模型结构

NeRF模型由两个类似的全连接神经网络组成：粗模型（Coarse Model）和细模型（Fine Model）。

粗模型（Coarse Model）：

输入：位置编码后的三维点坐标 $\gamma(\mathbf{x})$ 和视角方向 $\gamma(\mathbf{d})$ 。
网络结构：包含8层，每层256个单元，激活函数为ReLU。在第4层之后，将中间特征与原始输入拼接（skip connection）。
输出：体积密度(不透明度) $\sigma$ 和颜色 $\mathbf{c} \in (RGB)$ 。

细模型（Fine Model）：

输入：来自粗模型的重要性采样点，位置编码后的三维点坐标 $\gamma(\mathbf{x})$ 和视角方向 $\gamma(\mathbf{d})$ 。
网络结构：与粗模型相似的多层感知机结构，但处理的是更加细化的采样点。

(粗细模型的结构是一样的，只是尺寸不太一样，粗模型处理的是64个采样点的输入，而细模型处理的是64+128=192个采样点的输入。其中，128是在粗模型中输出为高密度的地方进行二次采样的，也就是说这个地方有东西，多采样，重建效果更好）

在这里插入图片描述

粒子的前期均匀采样与细模型的二次采样

前期均匀采样：
- 在粗模型中，将光线在场景中的每个视点均匀采样，得到一组样本点。
细模型的二次采样：
- 根据粗模型的输出，通过重要性采样在光线上进行二次采样，得到更多高密度区域的样本点，然后输入细模型进行更精细的重建。

位置编码（Positional Encoding）

为了捕捉高频信息，NeRF对输入的三维位置和视角方向进行位置编码。位置编码的公式如下：
$\gamma(p) = (\sin(2^0 \pi p), \cos(2^0 \pi p), \ldots, \sin(2^{L-1} \pi p), \cos(2^{L-1} \pi p))$
其中， $p$ 是位置或方向， $L$ 是编码的频率数量。

体渲染（Volume Rendering）

NeRF采用体渲染技术来合成最终图像。对于一条光线，计算其在场景中的颜色和透明度，并对其进行积分：
$C(\mathbf{r}) = \int_{t_n}^{t_f} T(t) \sigma(\mathbf{r}(t)) \mathbf{c}(\mathbf{r}(t), \mathbf{d}) \, dt$
其中，透过率 ( T(t) ) 表示光线从眼睛到深度 ( t ) 位置的光线强度衰减。

损失函数（Loss）

NeRF的训练目标是最小化合成图像与真实图像之间的差异，使用的损失函数是均方误差（MSE）：
$\mathcal{L} = \frac{1}{N} \sum_{i=1}^{N} \| \hat{C}(\mathbf{r}_i) - C(\mathbf{r}_i) \|^2$
其中，( \hat{C}(\mathbf{r}_i) ) 是合成图像，( C(\mathbf{r}_i) ) 是真实图像。