【NeRF及其代码NeRF-Pytorch实现】

news2026/3/14 18:04:07

文章目录

模型输入和输出
NeRF-Pytorch代码
参考

在没有仔细学习过NeRF之前，对于NeRF的直观感受是，它是对某个场景三维模型的一个拟合，并且实现了一个渲染的效果，即输入相机位姿信息，输出对应位姿信息的渲染图像。
NeRF训练的过程实际上是三维重建/反渲染的过程，即通过渲染的图片来得到三维模型的隐式表达。而NeRF模型训练完成之后的推理过程是渲染过程。

模型输入和输出

直观理解的网络
实际实现的细节
输入（理解层面是相机位姿，实际是采样点的位置和观测角度）：5D的相机位姿信息 $\theta, \phi)$ ，其中包括了相机的三维位置以及角度（包括俯仰角和方位角）。但是在实际代码实现过程中使用两个(x, y, z)来代替5D的位姿信息，并且使用了位置编码（用于增强）的方式来编码6D坐标，最后得到63维+27维的输入。并且作者认为采样点不透明度与观测角度无关，只与采样点位置有关，所以采用了分开输入的方式，只使用相机坐标63维来预测不透明度，并在随后的层中cat进代表相机方向的坐标27维。
输出：NeRF采用体积雾的渲染方式，NeRF模型的直接输出为采样点的颜色RGB以及不透明度信息，通过后处理（体积渲染进行积分，后面会提到）的方式得到最终渲染好的图像。
NeRF模型直接输出的含义：一段采样点上的RGBA值，在射线方向上进行积分得到最终一个像素点颜色值（体积雾渲染）。
位置编码（增强高频信息）：对于位置xyz坐标（对于两个不同的位置坐标都采用了位置编码，但是所使用的项数不同，相机位置使用10，而相机方向的坐标使用4），文章采用了位置编码的方式，具体而言，对于每个维度，使用cos和sin来编码，并且对于每个cos和sin，都是用了十项，所以输入维度变成 $3 + (10 + 10) * 3 = 63$
训练资料：一个像素+一个相机位姿，而不是一张图+一个相机位姿。一个batch包含很多不同位置像素+位姿。
体积渲染：其中特定的积分方式考虑了遮挡问题（主要考虑第一个波峰的贡献）。采样点个数也是一个超参数。
分层采样