中文标题:分析并提升神经辐射场
提出问题
- 把NeRF生成的视角图像投影到一个球模型上(体密度在球面上为1,其余为零),这个模型可以很好解释训练集(左2),但是一旦推广到其他视角(右2),球模型就无法得到正确的颜色(右1)。(这里的球模型上的点在不同方向上有不同的颜色)
- 对于一个任意的、不正确的形状,我们可以表明存在一系列的辐射场,它可以完美地解释训练图像,但却不能很好地推广到新的测试视图。
创新点
- 提出了一种新的空间参数化方案,我们称之为倒球面参数化,它允许NeRF处理一类新的无界场景。
- 假设有两个相关因素影响了NeRF:1)不正确的几何形状迫使辐射场具有更高的内在复杂性(即更高的频率),而相比之下,2)NeRF的特定MLP结构隐含地编码了表面反射率的平滑BRDF。
论文分析
- 为什么NeRF可以避免这种退化解?
- 因素1:当σ偏离了正确的形状时,c通常必须相对于d成为一个高频函数,才能重建输入的图像。对于正确的形状,表面光场通常会更平滑(实际上,对于兰伯特材料是恒定的)。在有限的容量MLP下,不正确形状所需的更高复杂度更难表示。
- 因素2: 特别地,NeRF的特定MLP结构编码了一个隐式的先验,有利于光滑的表面反射函数,其中c在任何给定的表面点x上相对于d是光滑的(线性)。这个MLP结构,将场景位置x和观看方向d不对称:d注入到网络接近MLP,这意味着有更少的MLP参数,以及更少的非线性激活,参与创建视图依赖的影响。此外,用于编码观察方向的傅里叶特征只包含低频分量。换句话说,对于一个固定的x,辐射c(x,d)对d有有限的表达性。
- 如果将NeRF的输入(x,d)同时输入网络,效果变差。
算法简介
- 倒置球面参数化:高的动态深度范围导致了NeRF的体积场景表示中严重的分辨率问题,因为为了合成逼真的图像,在等式中的在前景和背景区域都需要足够的分辨率,这对于根据三维空间的欧氏参数化来简单地采样点来实现是具有挑战性的。
- 我们用倒球参数化来解决这个限制,便于自由视角合成。我们首先分区场景分成两个空间,一个内部单元球和外部体积由一个反向的球覆盖内部体积的补充(见图6插图和图7的真实场景以这种方式建模)。内部空间包含前景和所有摄像机,而外部卷包含环境的其余部分。
- 对于一个3D点 ( x , y , z ) , r = x 2 + y 2 + z 2 > 1 (x,y,z), r = \sqrt{x^2+y^2+z^2} > 1 (x,y,z),r=x2+y2+z2>1 时单位球外的一点,可以被重参数为 ( x ′ , y ′ , z ′ , 1 / r ) , x ′ + y ′ + z ′ = 1 ( 0 < 1 / r < 1 ) , , x ′ , y ′ , z ′ ∈ [ − 1 , 1 ] (x',y',z',1/r), x'+y'+z' = 1(0<1/r<1),,x',y',z' \in [-1,1] (x′,y′,z′,1/r),x′+y′+z′=1(0<1/r<1),,x′,y′,z′∈[−1,1]。
- 与欧几里得空间不同,物体可以与原点保持无限的距离,重参数化的四重数中的所有数字都是有界的。
- 这不仅提高了数值的稳定性,而且还尊重了更远的物体应该得到更低的分辨率的事实。
- 因此,渲染公式可以改写为:
- ( 0 , t ′ ) (0,t') (0,t′)属于球内, ( t ′ , ∞ ) (t',∞) (t′,∞)为球外。
参考文献:
[1] Zhang K, Riegler G, Snavely N, et al. Nerf++: Analyzing and improving neural radiance fields[J]. arXiv preprint arXiv:2010.07492, 2020.