NeRF: Representing Scenes asNeural Radiance Fields for View Synthesis 论文解读

news2025/2/22 3:37:49

一、导言

二、NeRF

1、渲染和反渲染

2、NeRF的基本原理

3、采样点

4、位置编码

5、NeRF网络结构

6、体渲染

三、分层采样

1、均匀采样

2、基于σ的采样

四、损失函数

一、导言

该论文来自于ECCV2020，主要提到一种NeRF的方法来合成复杂场景下的新视角图像，通过将场景表示为连续的5D神经辐射场函数，通过输入5D坐标，输出场景中采样点的体密度和颜色信息，使用体渲染技术渲染出新的视角图像。

（1）提出了一种新的场景表示方法NeRF。

（2）通过使用位置编码来使得MLP理解更高频的函数

（3）采用分层采样来提高采样点的利用率，减少无用采样点的数量。

二、NeRF

1、渲染和反渲染

渲染：将三维信息（包括几何形状、材质属性、光源信息、相机参数），转变为特定视角下的二维图像。

反渲染：通过大量二维图像推断出三维信息中的几何形状、材质属性、光源信息。这也是三维重建中的重要步骤。

下图为NeRF工作的图示：（通过输入同一物体的大量图片，生成该物体的一个隐式神经辐射场NeRF来存储相关信息，并渲染出不同视角下的新2维图像，NeRF并不懂得物体的真实三维结构，也不能估计出物体各表面的真实三维坐标，貌似有一个技术叫表面重建可以做）

2、NeRF的基本原理

NeRF通过已知视角的图片，提取采样点的位置和观测角度 $(x,y,z,\theta ,\phi)$ 作为输入，并通过神经网络输出所对应一组采样点的颜色和不透明度 $(R,G,B,\sigma)$ ，而三维模型的信息就隐式存储在了神经网络中，并且由于只能针对单一物体的图片作为输入，该神经网络（权重）就只能表示这个三维模型的信息。

对于 $(\theta ,\phi)$ 分别为摄像机的俯仰角和偏航角，来自于极坐标系。

对于不透明度σ，或者叫做体密度，体密度与物体的材质有关，对于空气和物体的体密度一定是不同的，空气的不透明度几乎为0。

在论文中定义不透明度为，体密度为射线在位置x处无限小粒子处终止的微分概率。

3、采样点

从下图可以看到对于一张2维图像，经过一道光线（由人眼/相机发出的虚拟的射线，人眼视角）穿过整个物体，，按照一定的距离分段，可以得到若干采样点。

这些采样点有些还没有经过物体，所以他的不透明度σ几乎为0，有些点刚好穿过物体表面此时不透明度σ最大，但理论上一道光线会穿过物体两次，一次在正面一次在背面，那么就会产生两个不透明度的波峰，但由NeRF模型合成不同人眼视角下的图片过程中，我们不应该把这两个波峰都进行渲染，因为人眼看不到背面，所以在后续计算中通过指数函数的方法，指考虑第一个波峰，而尽量忽略第二个即以后的波峰。