MINE: Towards Continuous Depth MPI with NeRF for Novel View Synthesis:利用NeRF实现新视图合成的连续深度MPI
摘要:在论文中,提出了MINE,通过从单个图像进行密集3D重建来执行新的视图合成和深度估计。通过引入神经辐射场(NeRF)对多平面图像(MPI)进行连续深度概括。给定单个图像作为输入,MINE在相机视锥中的任意深度,预测出一个四通道的图像预测 (RGB和体积密度),这种预测实际上是对输入图片的视锥的三维重建,以及对被遮挡内容的填充。然后,可以使用可微分渲染将重建和修复的相机视锥体渲染为新的RGB或深度视图。
MPI(多平面图像)是新视角合成任务中非常重要的一个方法分支,它是一个由同一场景的其他图像视图监督的深度网络,用于将RGB图像提升为RGB和alpha值的多个平面,每个平面表达场景在某个深度中的内容。
在计算机图形学中,一个RGB颜色模型的真彩图形,用由红、绿、蓝三个色彩信息通道合成的,每个通道用了8位色彩深度,共计24位,包含了所有彩色信息。为实现图形的透明效果,采取在图形文件的处理与存储中附加上另一个8位信息的方法,这个附加的代表图形中各个像素点透明度的通道信息就被叫做Alpha通道。MPI中每一层代表一个深度值,像素固定在该深度,利用α通道编码可见性。
在平面上执行单应性变换和积分来渲染新视图,对于新视角生成简要由下图给出,
MPI无法有效地表示连续的三维空间,是离散固定的,其深度分辨率受离散平面数量的限制,因此MPIs无法转换为其他3D表示,如网格、点云等。
神经辐射场(NeRF),以使用多层感知器(MLP)从图像中恢复3D信息。MLP将3D位置和2D观看方向作为输入,以预测该查询位置处的RGB和体积占用密度。尽管NeRF产生了高质量的3D结构和新颖的视图,但必须对每个场景进行训练,即一个MLP仅代表一个场景,泛化性差。
基于两者的优缺点,论文提出了将MPI推广到类似于NeRF的连续3D表示的MINE。输入图像首先被馈送到编码器网络以获得图像特征。然后解码器网络接收这些图像特征和任意深度作为输入,以产生平行于输入相机的4通道(即RGB和体积密度值)平面,由于平面深度是任意的,因此MINE可以在全3D空间中有效地重建相机平截头体。方法预测任意给定深度的RGB-σ图像平面,从而允许场景的连续/密集3D重建。
1、3D表示
1.1 平面神经辐射场
从相机坐标系到图像坐标系,属于透视投影,
坐标系总结:https://blog.csdn.net/MengYa_Dream/article/details/120233806
利用透视几何体来表示相机平截头体,图像平面上的像素坐标为[x,y]T ∈R²,针孔相机的内参为K∈R3×3 ,在相机视锥中的3D点坐标为[x,y,z]T,z是该点相对相机原点的深度,所以下图是像素坐标转换为相机坐标的公式,得到的是相机坐标
在具有不同深度值z∈[zn,zf]的相机视锥体内对任意数量的平面进行采样,每个平面由该平面上每个点 [ x , y ] T∈ R 2 的RGB值 cz : [ x , y ]T→ R3 和体积密度 σz : [ x , y ] T →R+ 组成。
体积密度的定义与NeRF中的相同,表示射线在某点处终止于无穷小粒子的微分概率。深度范围内的相机视锥体是连续重建的,因为在任意位置的RGB和σ值是通过在深度z处对平面进行采样并查询cz和σz得到的,论文中称为平面神经辐射场,因为使用的是平面而不是射线来表示相机视锥体。
1.2 体渲染
c和σ是连续的二维函数,表示截头体中的每个可能位置。在实践中,在两个方面离散平面辐射场
1、视椎体由N个平面组成{czi ,σ zi∣i=1,⋅⋅⋅,N}
2、每个平面 ( czi , σzi )简化为深度为zi的4通道图像平面
离散化只是为了方便渲染。离散化表示仍然能够在任何3D位置获取RGBσ值,a)每个平面可以位于任意深度zi∈[zn,zf],b)每个4通道平面上的子像素采样微不足道。
pipeline
体渲染公式与NeRF相同
以上公式由NeRF中对点的积分,I 变成了从近平面到远平面的的累计透射率的映射,Ti(x,y)表示光线从(x,x,z1)行进到(x,y,zi)而不撞击任何物体的概率。另外δzi由以下公式表示,是平面 i + 1 到 i 的距离
渲染输入图像需要{(czi,σzi,zi)|i=1,··,N}的集合。(czi,σzi)是网络的输出,它将Isrc和di=1/zi作为输入。在透视几何中对视差{di=1/zi}进行采样,进而实现在空间中[zn,zf]中进行分层抽样。[dn,df]被划分为N个均匀间隔的箱,并且从每个箱均匀地抽取样本,即
采样策略确保我们的网络在训练期间暴露于截头体中的每个深度值,从而学习连续(czi,σzi)。输入图像的深度图也可以与渲染的类似方式体现,
新视角生成
如果需要生成新视角,那么相机需要先进行旋转平移到达新的世界坐标中,新视角生成有三步
1、应用单应性变形W(.)以建立源像素坐标[xs,ys]>和目标像素坐标[xt,yt]>之间的对应关系。这里的单应性变换公式与MVSNet中的类似,公式如下
n是平行平面(czi,σzi)相对于源相机的法向量,
2、体积渲染依赖于每个位置的密度σ,以及沿射线的每个点之间的距离。计算
假设一条从目标相机原来开始,并在像素坐标[xt,yt]T 处与目标图像相交的光线,该光线在相对于源相机的像素坐标Wzi(xt,yt)处与(czi,σzi)平面相交,类似的,光线在源相机像素坐标Wzi+1(xt,yt)处与(czi+1,σzi+1)平面相交。δ’zi(xt,yt)表示两个交点之间的欧几里得距离
3、将c, σ, δ替换为 c’, σ’, δ’,应用渲染公式,可得到一个新的视图。
2、网络以及训练设计
离散化的平面辐射场需要一组深度样本{zi|i=1,··,N}和4通道图像{(czi,σzi)|i=1、··,N}。根据等式对深度样本{zi}或视差样本{di=1/zi}进行随机采样。
编码器-解码器结构
4通道图像{(czi,σzi)}是来自网络的预测,该网络将单个图像和{zi}作为输入。编码器将图像作为输入并生成一系列特征图,使用Resnet-50作为编码器。解码器将特征图和单个视差值di=1/zi作为输入,并生成4通道图像(czi,σzi)。在训练和推理中,编码器对每个图像(或每一小批图像)只运行一次,而解码器运行N次以生成平面的离散集合{(czi,σzi)|i=1,···,N}。
差异编码
直接将di送到解码器中会产生较差的性能,利用NeRF中的方法,将位置编码R→RL
3、RGB视频监控
使用多视图图像或RGB视频训练网络,在训练过程中,将一个输入图像Isrc输入到网络中,然后根据新视图相机旋转 R和缩放校准的相机平移 t’ 渲染到 (Itgt,Ztgt)核心监督是通过将“Itgt”与地面真相目标图像Itgt进行比较
3.1规模校准
深度尺度在尺度因子s∈R+之前是模糊的,因为系统的输入是单个图像。相机视锥重建的范围[zn,zf]被预定义为超参数,将其设置为zn=1,zf=1000。不缩放3D表示,而是在训练和推理时将相机平移t缩放为t’.
为了解决比例因子s,在来自运动恢复结构(SfM)的稀疏3D点和系统的合成深度图之间执行比例校准。
对每个视频使用COLMAP运行SfM,以获得每个图像的稀疏点集Ps={(xj,yj,zj)}。这里的坐标遵循相同的透视几何,即[xj,yj]>是图像上的像素坐标,而zj是对应的3D点的深度。源图像输入网络中,并使用公式渲染预测深度图后,通过以下公式估计比例
校准平移由t’=t·s给出
3.2 损失函数
损失函数中有四个项:RGB L1损失LL1、RGB SSIM损失Lssim、边缘感知视差图平滑度损失Lsmooth和可选稀疏视差损失Ld。
前面都是加权各自损失项的超参数
RGB L1 and SSIM loss.
鼓励合成的目标图像与真值 Itgt匹配。两个图像都是大小为 H × W 的3通道RGB图像。
Edge-aware disparity map smoothness loss
对合成的视差图施加一个边缘感知的平滑损失,以惩罚原始图像平滑位置上的视差的剧烈变化,并正确对齐视差图和原始图像中的边缘
其中∂x 和 ∂y 是图像梯度D*是是均值归一化视差
Sparse disparity loss
在采用 SfM 对输入图像/视频进行预处理以解决尺度模糊的情况下,利用稀疏视差损失来促进深度/视差预测。这是可选的,特别是在KITTI等尺度固定为s = 1的数据集中,不需要SfM,稀疏视差损失也不适用。遵循对数视差样式,需要缩放视差图,因为平移 t 是用 s 校准的。平移和深度应该一起校准。
https://baijiahao.baidu.com/s?id=1713128720220339281&wfr=spider&for=pc