MINE: Towards Continuous Depth MPI with NeRF for Novel View Synthesis

MINE: Towards Continuous Depth MPI with NeRF for Novel View Synthesis：利用NeRF实现新视图合成的连续深度MPI
摘要：在论文中，提出了MINE，通过从单个图像进行密集3D重建来执行新的视图合成和深度估计。通过引入神经辐射场（NeRF）对多平面图像（MPI）进行连续深度概括。给定单个图像作为输入，MINE在相机视锥中的任意深度，预测出一个四通道的图像预测（RGB和体积密度），这种预测实际上是对输入图片的视锥的三维重建，以及对被遮挡内容的填充。然后，可以使用可微分渲染将重建和修复的相机视锥体渲染为新的RGB或深度视图。

MPI（多平面图像）是新视角合成任务中非常重要的一个方法分支，它是一个由同一场景的其他图像视图监督的深度网络，用于将RGB图像提升为RGB和alpha值的多个平面，每个平面表达场景在某个深度中的内容。
在计算机图形学中，一个RGB颜色模型的真彩图形，用由红、绿、蓝三个色彩信息通道合成的，每个通道用了8位色彩深度，共计24位，包含了所有彩色信息。为实现图形的透明效果，采取在图形文件的处理与存储中附加上另一个8位信息的方法，这个附加的代表图形中各个像素点透明度的通道信息就被叫做Alpha通道。MPI中每一层代表一个深度值，像素固定在该深度，利用α通道编码可见性。
在平面上执行单应性变换和积分来渲染新视图，对于新视角生成简要由下图给出，
在这里插入图片描述
MPI无法有效地表示连续的三维空间，是离散固定的，其深度分辨率受离散平面数量的限制，因此MPIs无法转换为其他3D表示，如网格、点云等。
神经辐射场（NeRF），以使用多层感知器（MLP）从图像中恢复3D信息。MLP将3D位置和2D观看方向作为输入，以预测该查询位置处的RGB和体积占用密度。尽管NeRF产生了高质量的3D结构和新颖的视图，但必须对每个场景进行训练，即一个MLP仅代表一个场景，泛化性差。
基于两者的优缺点，论文提出了将MPI推广到类似于NeRF的连续3D表示的MINE。输入图像首先被馈送到编码器网络以获得图像特征。然后解码器网络接收这些图像特征和任意深度作为输入，以产生平行于输入相机的4通道（即RGB和体积密度值）平面，由于平面深度是任意的，因此MINE可以在全3D空间中有效地重建相机平截头体。方法预测任意给定深度的RGB-σ图像平面，从而允许场景的连续/密集3D重建。

1、3D表示

1.1 平面神经辐射场

从相机坐标系到图像坐标系,属于透视投影，
坐标系总结：https://blog.csdn.net/MengYa_Dream/article/details/120233806
在这里插入图片描述

利用透视几何体来表示相机平截头体,图像平面上的像素坐标为[x,y]^T ∈R²，针孔相机的内参为K∈R^3×3 ，在相机视锥中的3D点坐标为[x,y,z]^T，z是该点相对相机原点的深度，所以下图是像素坐标转换为相机坐标的公式，得到的是相机坐标在这里插入图片描述
在具有不同深度值z∈[zn，zf]的相机视锥体内对任意数量的平面进行采样，每个平面由该平面上每个点 [ x , y ] ^T∈ R ² 的RGB值 c_z : [ x , y ]^T→ R³ 和体积密度 σ_z : [ x , y ] ^T →R⁺ 组成。
体积密度的定义与NeRF中的相同，表示射线在某点处终止于无穷小粒子的微分概率。深度范围内的相机视锥体是连续重建的，因为在任意位置的RGB和σ值是通过在深度z处对平面进行采样并查询c_z和σ_z得到的，论文中称为平面神经辐射场，因为使用的是平面而不是射线来表示相机视锥体。

1.2 体渲染

c和σ是连续的二维函数，表示截头体中的每个可能位置。在实践中，在两个方面离散平面辐射场
1、视椎体由N个平面组成{c_zi ，σ _zi∣i=1，⋅⋅⋅，N}
2、每个平面 ( c_zi ， σ_zi )简化为深度为zi的4通道图像平面
离散化只是为了方便渲染。离散化表示仍然能够在任何3D位置获取RGBσ值，a）每个平面可以位于任意深度zi∈[zn，zf]，b）每个4通道平面上的子像素采样微不足道。

pipeline 在这里插入图片描述
体渲染公式与NeRF相同

以上公式由NeRF中对点的积分，I 变成了从近平面到远平面的的累计透射率的映射，T_i（x，y）表示光线从（x，x，z₁）行进到（x，y，z_i）而不撞击任何物体的概率。另外δ_zi由以下公式表示，是平面 i + 1 到 i 的距离在这里插入图片描述
渲染输入图像需要{（c_zi，σ_zi，zi）|i=1，··，N}的集合。（c_zi，σ_zi）是网络的输出，它将I_src和d_i=1/z_i作为输入。在透视几何中对视差{d_i=1/z_i}进行采样，进而实现在空间中[z_n,z_f]中进行分层抽样。[dn，df]被划分为N个均匀间隔的箱，并且从每个箱均匀地抽取样本，即
在这里插入图片描述
采样策略确保我们的网络在训练期间暴露于截头体中的每个深度值，从而学习连续（c_zi，σ_zi）。输入图像的深度图也可以与渲染的类似方式体现，

新视角生成
如果需要生成新视角，那么相机需要先进行旋转平移到达新的世界坐标中，新视角生成有三步
1、应用单应性变形W（.）以建立源像素坐标[x_s，y_s]>和目标像素坐标[x_t，y_t]>之间的对应关系。这里的单应性变换公式与MVSNet中的类似，公式如下
在这里插入图片描述
n是平行平面（c_zi，σ_zi）相对于源相机的法向量，

2、体积渲染依赖于每个位置的密度σ，以及沿射线的每个点之间的距离。计算在这里插入图片描述
假设一条从目标相机原来开始，并在像素坐标[x_t,y_t]^T 处与目标图像相交的光线，该光线在相对于源相机的像素坐标W_zi（x_t，y_t）处与（c_zi，σ_zi）平面相交，类似的，光线在源相机像素坐标W_zi+1（x_t，y_t）处与（c_zi+1，σ_zi+1）平面相交。δ^’_zi（x_t，y_t）表示两个交点之间的欧几里得距离
3、将c， σ， δ替换为 c’， σ’， δ’，应用渲染公式，可得到一个新的视图。

2、网络以及训练设计

离散化的平面辐射场需要一组深度样本{z_i|i=1，··，N}和4通道图像{（c_zi，σ_zi）|i=1、··，N}。根据等式对深度样本{z_i}或视差样本{d_i=1/z_i}进行随机采样。
编码器-解码器结构
4通道图像{（c_zi，σ_zi）}是来自网络的预测，该网络将单个图像和{z_i}作为输入。编码器将图像作为输入并生成一系列特征图，使用Resnet-50作为编码器。解码器将特征图和单个视差值di＝1/zi作为输入，并生成4通道图像（c_zi，σ_zi）。在训练和推理中，编码器对每个图像（或每一小批图像）只运行一次，而解码器运行N次以生成平面的离散集合{（c_zi，σ_zi）|i=1，···，N}。

差异编码
直接将di送到解码器中会产生较差的性能，利用NeRF中的方法，将位置编码R→R^L 在这里插入图片描述

3、RGB视频监控

使用多视图图像或RGB视频训练网络，在训练过程中，将一个输入图像I_src输入到网络中，然后根据新视图相机旋转 R和缩放校准的相机平移 t’ 渲染到（I_tgt，Z_tgt）核心监督是通过将“I_tgt”与地面真相目标图像I_tgt进行比较

3.1规模校准

深度尺度在尺度因子s∈R⁺之前是模糊的，因为系统的输入是单个图像。相机视锥重建的范围[z_n，z_f]被预定义为超参数，将其设置为z_n=1，z_f=1000。不缩放3D表示，而是在训练和推理时将相机平移t缩放为t’.
为了解决比例因子s，在来自运动恢复结构（SfM）的稀疏3D点和系统的合成深度图之间执行比例校准。
对每个视频使用COLMAP运行SfM，以获得每个图像的稀疏点集Ps＝{（x_j，y_j，z_j）}。这里的坐标遵循相同的透视几何，即[x_j，y_j]>是图像上的像素坐标，而z_j是对应的3D点的深度。源图像输入网络中，并使用公式渲染预测深度图后，通过以下公式估计比例在这里插入图片描述
校准平移由t’=t·s给出

3.2 损失函数

损失函数中有四个项：RGB L1损失L_L1、RGB SSIM损失L_ssim、边缘感知视差图平滑度损失L_smooth和可选稀疏视差损失L_d。在这里插入图片描述
前面都是加权各自损失项的超参数
RGB L1 and SSIM loss.
鼓励合成的目标图像与真值 I_tgt匹配。两个图像都是大小为 H × W 的3通道RGB图像。

Edge-aware disparity map smoothness loss
对合成的视差图施加一个边缘感知的平滑损失，以惩罚原始图像平滑位置上的视差的剧烈变化，并正确对齐视差图和原始图像中的边缘在这里插入图片描述
其中∂x 和 ∂y 是图像梯度D*是是均值归一化视差

Sparse disparity loss
在采用 SfM 对输入图像/视频进行预处理以解决尺度模糊的情况下，利用稀疏视差损失来促进深度/视差预测。这是可选的，特别是在KITTI等尺度固定为s = 1的数据集中，不需要SfM，稀疏视差损失也不适用。遵循对数视差样式，需要缩放视差图，因为平移 t 是用 s 校准的。平移和深度应该一起校准。

https://baijiahao.baidu.com/s?id=1713128720220339281&wfr=spider&for=pc