NeRF:将场景表示为用于视图合成的神经辐射场
引言。我们提出了一种方法,该方法通过使用稀疏的输入视图集优化底层连续体场景函数来实现用于合成复杂场景的新视图的最新结果。我们的算法使用全连通(非卷积)深度网络来表示场景,其输入是单个连续的5D坐标(空间位置(x,y,z)和观察方向(θ,φ)),其输出是该空间位置处的体积密度和与观察相关的发射辐射。我们通过查询沿着相机光线的5D坐标来合成视图,并使用经典的体绘制技术将输出的颜色和密度投影到图像中。由于体绘制是自然可微的,优化我们的表示所需的唯一输入是一组具有已知相机姿态的图像。我们描述了如何有效地优化神经辐射场,以绘制具有复杂几何形状和外观的场景的照片级真实感新视图,并展示了优于神经绘制和视图合成的现有工作的结果。视图合成结果最好以视频的形式查看,因此我们强烈建议读者查看我们的补充视频,以进行令人信服的比较。
关键词:场景表示;视图合成;基于图像的绘制;体绘制;3D深度学习
1 介绍
在这项工作中,我们解决了长期存在的问题,视图合成的一种新的方式,直接优化参数的连续5D场景表示,以尽量减少渲染一组捕获的图像的错误。
我们将静态场景表示为连续的5D函数,其输出在空间中的每个点(x,y,z)处在每个方向(θ,φ)上发射的辐射,以及每个点处的密度,其作用类似于控制通过(x,y,z)的射线累积多少辐射的微分不透明度。我们的方法优化了一个没有任何卷积层的深度全连接神经网络(通常称为多层感知器或MLP),通过从单个5D坐标(x,y,z,θ,φ)回归到单个体积密度和视图相关的RGB颜色来表示该函数。为了渲染这个神经辐射场(NeRF),从特定的视点,我们:1)使照相机射线行进通过场景以生成3D点的采样集,2)使用这些点及其对应的2D观看方向作为神经网络的输入以产生颜色和密度的输出集,以及3)使用经典的体绘制技术来将这些颜色和密度累积到2D图像中。因为这个过程是自然可微的,我们可以使用梯度下降来优化这个模型,通过最小化每个观察到的图像和从我们的表示渲染的相应视图之间的误差。最大限度地减少多个视图中的这种错误,鼓励网络通过为包含真实底层场景内容的位置分配高体积密度和准确的颜色来预测场景的连贯模型。图2显示了整个管道。
图一:我们提出了一种优化来自一组输入图像的场景的连续5D神经辐射场表示(在任何连续位置处的体积密度和视点相关颜色)的方法。我们使用体绘制的技术来积累这个场景表示沿着射线的样本,以从任何视点渲染场景。在这里,我们可视化了在周围半球上随机捕获的合成Drums场景的100个输入视图的集合,并且我们显示了从优化的NeRF表示渲染的两个新视图。
图2:我们的神经辐射场场景表示和可微分渲染过程的概述。我们通过沿沿着相机射线采样5D坐标(位置和观察方向)(a),将这些位置馈送到MLP中以产生颜色和体积密度(b),并使用体积渲染技术将这些值合成为图像(c)来合成图像。该渲染函数是可微的,因此我们可以通过最小化合成图像和地面实况观察图像(d)之间的残差来优化场景表示。
我们发现,优化一个复杂场景的神经辐射场表示的基本实现并不收敛到一个足够高的分辨率表示,是低效的,在所需的样本数每相机射线。我们解决这些问题,通过转换输入的5D坐标与位置编码,使MLP表示更高的频率函数,我们提出了一个分层采样过程,以减少所需的查询数量,充分采样这种高频场景表示。
我们的方法继承了体积表示的优点:两者都可以表示复杂的现实世界的几何形状和外观,并且非常适合使用投影图像进行基于梯度的优化。至关重要的是,我们的方法克服了令人望而却步的存储成本的离散体素网格建模时,在高分辨率的复杂场景。总之,我们的技术贡献是:
- 一种将具有复杂几何形状和材料的连续场景表示为5D神经辐射场的方法,参数化为基本MLP网络。
- 一个微分渲染过程的基础上,经典的体绘制技术,我们用它来优化这些表示从标准的RGB图像。这包括分层采样策略,用于将MLP的容量分配给具有可见场景内容的空间。
- 将每个输入5D坐标映射到更高维空间的位置编码,这使我们能够成功地优化神经辐射场以表示高频场景内容。
我们证明,我们得到的神经辐射场方法在定量和定性上优于最先进的视图合成方法,包括将神经3D表示与场景相匹配的工作,以及训练深度卷积网络以预测采样体积表示的工作。据我们所知,本文提出了第一个连续的神经场景表示,能够从自然环境中捕获的RGB图像中渲染真实的对象和场景的高分辨率照片级逼真的新视图。
2 相关工作
计算机视觉中一个有前途的最近方向是在MLP的权重中编码对象和场景,该MLP直接从3D空间位置映射到形状的隐式表示,例如该位置的符号距离。然而,这些方法到目前为止还不能再现具有复杂几何形状的逼真场景,其保真度与使用诸如三角形网格或体素网格的离散表示来表示场景的技术相同。在本节中,我们将回顾这两条工作线,并将其与我们的方法进行对比,该方法增强了神经场景表示的能力,以产生渲染复杂现实场景的最先进结果。
使用MLP从低维坐标映射到颜色的类似方法也用于表示其他图形功能,例如图像,纹理材料和间接照明值。
神经3D形状表示最近的工作通过优化将xyz坐标映射到有符号距离函数或占用字段的深度网络来研究连续3D形状作为水平集的隐式表示。然而,这些模型受到其访问地面真实3D几何形状的要求的限制,通常从合成3D形状数据集(如ShapeNet)获得。随后的工作通过制定可微分的渲染函数来放松对地面真实3D形状的这一要求,这些函数允许仅使用2D图像来优化神经隐式形状表示。Niemeyer等人。将表面表示为3D占有场,并使用数值方法找到每条射线的表面交点,然后使用隐式微分计算精确导数。每个光线相交位置被提供作为神经3D纹理场的输入,该神经3D纹理场预测该点的漫射颜色。Sitzmann等人。使用一种不太直接的神经3D表示,该表示仅在每个连续3D坐标处输出特征向量和RGB颜色,并提出了一种由递归神经网络组成的可微分渲染函数,该递归神经网络沿沿着每条光线行进以决定表面的位置。
虽然这些技术可以潜在地表示复杂和高分辨率的几何形状,但到目前为止,它们仅限于具有低几何复杂性的简单形状,从而导致过度平滑的渲染。我们表明,优化网络编码5D辐射场(3D体积)的替代策略具有2D视图相关外观)可以表示更高分辨率的几何形状和外观,以呈现复杂场景的照片级逼真的新颖视图。
视图合成和基于图像的渲染给定视图的密集采样,可以通过简单的光场样本插值技术重建真实感新颖的视图。对于具有稀疏视图采样的新颖视图合成,计算机视觉和图形学社区通过从观察到的图像预测传统的几何和外观表示来取得重大进展。一种流行的方法使用基于网格的场景表示,具有漫射或视图相关外观。可微分光栅化器或路径跟踪器可以直接优化网格表示,以使用梯度下降再现一组输入图像。然而,基于图像重投影的基于梯度的网格优化通常是困难的,可能是因为局部极小值或损失景观的不良条件。此外,该策略需要在优化之前提供具有固定拓扑的模板网格作为初始化,这通常不适用于无约束的真实世界场景。
另一类方法使用体积表示来解决从一组输入RGB图像合成高质量照片级真实感视图的任务。体积方法能够真实地表示复杂的形状和材料,非常适合基于梯度的优化,并且往往比基于网格的方法产生更少的视觉干扰。早期的体积方法使用观察到的图像直接对体素网格进行着色。最近,几种方法使用多个场景的大型数据集来训练深度网络,该深度网络从一组输入图像预测采样的体积表示,然后使用alpha合成或沿沿着光线学习合成以在测试时渲染新视图。其他工作已经优化了卷积网络(CNN)和每个特定场景的采样体素网格的组合,使得CNN可以补偿来自低分辨率体素网格的离散化伪影或允许预测的体素网格基于输入时间或动画控件而变化。虽然这些体积技术在新颖的视图合成方面取得了令人印象深刻的结果,但由于它们的离散采样,它们扩展到更高分辨率图像的能力从根本上受到时间和空间复杂性的限制-渲染更高分辨率的图像需要更精细的3D空间采样。我们通过在深度全连接神经网络的参数内对连续体积进行编码来规避这个问题,这不仅比以前的体积方法产生更高质量的渲染,而且只需要这些采样体积表示的一小部分存储成本。
3 神经辐射场场景表示
我们将连续场景表示为5D向量值函数,其输入是3D位置x =(x,y,z)和2D观看方向(θ,φ),并且其输出是发射颜色c =(r,g,B)和体积密度σ。在实践中,我们表示方向作为3D笛卡尔单位向量d。我们用MLP网络:(x,d)→(c,σ)来近似这种连续的5D场景表示,并优化其权重Θ,以从每个输入5D坐标映射到其对应的体积密度和定向发射颜色。
我们通过限制网络预测体积密度σ仅作为位置x的函数,同时允许RGB颜色c作为位置和观看方向的函数进行预测,从而鼓励表示具有多视图一致性。为了实现这一点,MLP 首先用8个完全连接的层(使用ReLU激活和每层256个通道)处理输入的3D坐标 x,并输出σ和256维特征向量。然后,该特征向量与相机光线的观看方向连接在一起,并传递到一个额外的全连接层(使用ReLU激活和128个通道),该层输出与视图相关的RGB颜色。
参见图3,以了解我们的方法如何使用输入观看方向来表示非朗伯效应的示例。如图4所示,在没有视图依赖性的情况下训练的模型(仅x作为输入)难以表示镜面反射。
图3:视向相关的发射辐射的可视化。我们的神经辐射场表示输出RGB颜色作为空间位置x和观看方向d的5D函数。在这里,我们在船舶场景的神经表示中可视化了两个空间位置的示例方向颜色分布。在(a)和(b)中,我们显示了来自两个不同相机位置的两个固定3D点的外观:一个在船的侧面(橙子插图),一个在水面上(蓝色插图)。我们的方法预测了这两个3D点的变化的镜面外观,并且在(c)中,我们展示了这种行为如何在整个观察方向的半球上连续推广。
图四:在这里,我们可视化我们的完整模型如何受益于代表view-dependent发射的辐射,并通过一个高频位置编码通过我们的输入坐标。删除视图相关性可防止模型在推土机踏板上重新创建镜面反射。去除位置编码会大大降低模型表示高频几何和纹理的能力,从而导致过度平滑的外观。
4 使用辐射场进行体绘制
我们的5D神经辐射场将场景表示为空间中任何点的体积密度和定向发射辐射。我们使用经典体绘制的原理来绘制穿过场景的任何光线的颜色。体积密度σ(x)可以解释为射线终止于位置x处的无穷小粒子的微分概率。具有近边界和远边界的相机光线r(t)= o + td的预期颜色C(r)为:
函数T(t)表示沿着从到的射线的累积透射率,即,射线从到不击中任何其他粒子的概率。从我们的连续神经辐射场渲染视图需要估计通过所需虚拟相机的每个像素跟踪的相机射线的积分C(r)。
我们用求积法数值估计这个连续积分。确定性求积通常用于渲染离散体素网格,它将有效地限制我们的表示的分辨率,因为MLP将仅在一组固定的离散位置处被查询。相反,我们使用分层采样方法,将[tn,tf]划分为N个均匀间隔的bin,然后从每个bin中随机抽取一个样本:
虽然我们使用一组离散样本来估计积分,但分层采样使我们能够表示连续的场景表示,因为它导致在优化过程中在连续位置处评估MLP。我们使用这些样本来估计C(r),其中使用Max的体绘制评论中讨论的求积规则:
其中 是相邻样本之间的距离。这个从 值的集合计算C(r)的函数是平凡可微的,并简化为传统的alpha合成,alpha值为。
5 优化神经辐射场
在上一节中,我们描述了将场景建模为神经辐射场并从此表示中渲染新视图所需的核心组件。然而,我们观察到这些组件不足以达到最新技术水平的质量,如第6.4节所示。我们引入了两个改进,使代表高分辨率的复杂场景。第一个是输入坐标的位置编码,帮助MLP表示高频函数,第二个是分层采样过程,允许我们有效地对这种高频表示进行采样。
5.1 位置编码
尽管神经网络是通用函数逼近器,但我们发现,让网络直接对xyzθφ输入坐标进行操作会导致渲染在表示颜色和几何形状的高频变化方面表现不佳。这与Rahaman等人最近的工作一致,该工作表明深度网络偏向于学习低频函数。此外,它们还表明,在将输入传递到网络之前,使用高频函数将输入映射到更高维的空间,能够更好地拟合包含高频变化的数据。
我们在神经场景表征的上下文中利用这些发现,并表明将重新表达为两个函数的组合,一个是学习的,另一个是没有学习的,显着提高了性能(见图4和表2)。这里是从R到高维空间的映射,而仍然只是一个正则MLP。形式上,我们使用的编码函数是:
表2:我们模型的消融研究。度量是对来自我们的真实合成数据集的8个场景进行平均的。请参阅第6.4以获取详细说明。
该函数被分别应用于x中的三个坐标值(其被归一化为位于[-1,1]中)中的每一个以及x的三个分量。笛卡尔观察方向单位向量d(通过构造位于[-1,1]中)。在我们的实验中,我们对 设L = 10,对 设L = 4。
流行的Transformer架构中使用了类似的映射,其中它被称为位置编码。然而,Transformer使用它来实现不同的目标,即提供序列中标记的离散位置,作为不包含任何顺序概念的架构的输入。相比之下,我们使用这些函数将连续输入坐标映射到更高维的空间,以使我们的MLP能够更容易地逼近更高频率的函数。关于从投影建模3D蛋白质结构的相关问题的并行工作也利用了类似的输入坐标映射。
5.2 分层体积抽样
我们的渲染策略是在沿着每个相机射线的N个查询点处密集地评估神经辐射场网络,这是低效的:对渲染图像没有贡献的自由空间和遮挡区域仍然被重复采样。我们从体绘制的早期工作中汲取灵感,并提出了一种分层表示,通过按最终渲染的预期效果成比例分配样本来提高渲染效率。
我们不是只使用单个网络来表示场景,而是同时优化两个网络:一个“粗”,一个“细”。我们首先使用分层采样对Nc个位置的集合进行采样,并且如等式1中所描述的那样在这些位置处评估“粗略”网络。2和3给定这个“粗糙”网络的输出,我们然后沿着每条射线产生一个更有信息的点采样,其中样本偏向于体积的相关部分。为了做到这一点,我们首先重写等式n中粗糙网络的alpha合成颜色。等式3作为沿射线沿着的所有采样颜色 的加权和:
将这些权重标准化为 会沿射线产生分段常数PDF沿着。我们使用逆变换采样从该分布中采样第二组个位置,在第一组和第二组样本的并集处评估我们的“精细”网络,并使用等式(3)计算光线的最终渲染颜色。但使用所有个样本。此过程将更多样本分配给我们期望包含可见内容的区域。这解决了与重要性采样类似的目标,但我们使用采样值作为整个积分域的非均匀离散化,而不是将每个样本视为整个积分的独立概率估计。
5.3 实现细节
我们为每个场景优化了单独的神经连续体表示网络。这仅需要场景的捕获RGB图像的数据集,相应的摄像机姿态和内部参数以及场景边界(我们使用合成数据的地面真实摄像机姿态、内部参数和边界,并使用COLMAP运动结构包来估计真实的数据的这些参数)。在每次优化迭代中,我们从数据集中所有像素的集合中随机采样一批相机光线,然后按照第5.2以查询来自粗略网络的个样本和来自精细网络的样本。然后,我们使用在第4.2节中描述的体绘制程序来渲染来自两组样本的每条射线的颜色。我们的损失只是粗略和精细渲染的渲染和真实像素颜色之间的总平方误差:
其中,R是每个批次中的光线集合,、和分别是光线 r 的基础真值、粗略体积预测和精细体积预测RGB颜色。注意,即使最终的渲染来自,我们也最小化了的损失,这样粗网络的权重分布就可以用来在细网络中分配样本。
在我们的实验中,我们使用4096条射线的批量大小,每条射线在粗略体积中的 = 64个坐标处采样,并且在精细体积中的 = 128个附加坐标处采样。我们使用亚当优化器,学习率从5 × 开始,在优化过程中以指数衰减到5 × (其他亚当超参数的默认值为 = 0.9, = 0.999,和)。单个场景的优化通常需要大约10-30万次迭代才能在单个NVIDIA V100 GPU上收敛(大约1-2天)。
6 结果
我们定量(表1)和定性(图8和6)表明我们的方法优于之前的工作,并提供了广泛的消融研究来验证我们的设计选择(表2)。我们敦促读者查看我们的补充视频,以更好地欣赏我们的方法的显着改善基线方法时,渲染平滑路径的新的意见。
表1:我们的方法在合成和真实的图像的数据集上定量地优于先前的工作。我们报告了PSNR/SSIM(越高越好)和LPIPS(越低越好)。DeepVoxels数据集由4个具有简单几何形状的漫射对象组成。我们的真实合成数据集由8个几何复杂对象的路径跟踪渲染组成,这些对象具有复杂的非朗伯材料。真实的数据集由8个真实世界场景的手持前向捕获组成(NV无法在此数据上进行评估,因为它仅重建有界体积内的对象)。虽然LLFF实现了稍微好一点的LPIPS,但我们敦促读者查看我们的补充视频,其中我们的方法实现了更好的多视图一致性,并且产生的伪影比所有基线都少。
图6:真实的世界场景的测试集视图的比较。LLFF是专门为这种使用情况(面向前方捕捉真实的场景)而设计的。我们的方法是能够表示精细的几何形状更一致地在渲染视图比LLFF,如蕨类植物的叶子和骨架肋骨和栏杆在霸王龙。我们的方法还正确地重建了LLFF难以清晰渲染的部分遮挡区域,例如底部蕨类作物中叶子后面的黄色架子和底部兰花作物背景中的绿色叶子。多重渲染之间的混合也可能导致LLFF中的重复边,如顶部Orchid裁剪中所示。SRN捕捉每个场景中的低频几何和颜色变化,但无法再现任何细节。
图8:DeepVoxels合成数据集场景的测试集视图比较。该数据集中的对象具有简单的几何形状和完美的漫反射。由于输入图像的数量较多(479个视图)和渲染对象的简单性,我们的方法和LLFF在此数据上的表现几乎完美。LLFF在其3D体积之间进行插值时偶尔仍会出现伪影,如每个对象的顶部插图所示。SRN和NV不具有呈现精细细节的代表性能力。
表2:我们模型的消融研究。度量是对来自我们的真实合成数据集的8个场景进行平均的。请参阅第6.4以获取详细说明。
6.1 数据集
我们首先展示了两个对象合成渲染数据集的实验结果(表1,“Diffuse Synthetic 360”和“Realistic Synthetic 360”)。DeepVoxels数据集包含四个具有简单几何形状的朗伯对象。每个对象都是从上半球采样的视点以512 × 512像素渲染的(479作为输入,1000用于测试)。我们还生成了自己的数据集,其中包含八个对象的路径跟踪图像,这些对象具有复杂的几何形状和逼真的非朗伯材料。六个是从上半球采样的视点渲染的,两个是从全球体采样的视点渲染的。我们渲染每个场景的100个视图作为输入,200个用于测试,所有都是800 × 800像素。
复杂场景的真实的图像我们展示了使用大致面向前的图像捕获的复杂现实世界场景的结果(表1,“真实的面向前”)。这个数据集由8个用手持手机捕获的场景组成(5个取自LLFF论文,3个是我们捕获的),用20到62张图像捕获,并将其中的1/8用于测试集。所有图像均为1008×756像素。
6.2 比较
为了评估我们的模型,我们比较了当前性能最好的视图合成技术,详见下文。所有方法都使用相同的输入视图集为每个场景训练单独的网络,除了局部光场融合,它在大型数据集上训练单个3D卷积网络,然后使用相同的训练网络在测试时处理新场景的输入图像。
神经元模型(NV)合成了完全位于不同背景前面的有界体积内的对象的新视图(必须单独捕获而没有感兴趣的对象)。它优化了深度3D卷积网络,以预测具有1283个样本的离散化RGBα体素网格以及具有323个样本的3D扭曲网格。该算法通过将相机射线行进通过扭曲的体素网格来呈现新颖的视图。
场景表示网络(SRN)将连续场景表示为不透明表面,由MLP隐式定义,将每个(x,y,z)坐标映射到特征向量。他们训练一个递归神经网络,通过使用任何3D坐标处的特征向量来预测沿着射线沿着的下一个步长,从而沿着射线沿着行进通过场景表示。最后一步的特征向量被解码为表面上该点的单一颜色。请注意,SRN是相同作者的DeepVoxels的更好的后续,这就是为什么我们不包括与DeepVoxels的比较。
局部光场融合(Local Light Field Fusion,LLFF)LLFF设计用于为采样良好的前向场景生成照片级真实感的新颖视图。它使用经过训练的3D卷积网络直接预测每个输入视图的离散化截头体采样RGBα网格(多平面图像或MPI),然后通过alpha合成和将附近的MPI混合到新视点中来渲染新视图。
6.3 讨论
我们的表现彻底优于两个基线,这两个基线还在所有场景中优化了每个场景(NV和SRN)的单独网络。此外,与LLFF相比,我们在定性和定量上都产生了上级渲染(除了一个度量之外的所有度量),同时只使用它们的输入图像作为我们的整个训练集。
SRN方法产生高度平滑的几何和纹理,并且其用于视图合成的表示能力受到每个相机射线仅选择单个深度和颜色的限制。NV基线能够捕获合理详细的体积几何形状和外观,但其使用底层显式1283体素网格阻止其缩放以表示高分辨率的精细细节。LLFF特别地提供了输入视图之间的视差不超过64像素的“采样准则”,因此它经常无法估计在视图之间包含高达400-500像素视差的合成数据集中的正确几何形状。此外,LLFF在不同场景表示之间混合以渲染不同视图,导致感知分散的不一致性,如在我们的补充视频中明显的。
这些方法之间最大的实际权衡是时间与空间。所有比较的单场景方法都需要至少12个小时来训练每个场景。相比之下,LLFF可以在10分钟内处理一个小的输入数据集。然而,LLFF为每个输入图像生成一个大的3D体素网格,导致巨大的存储需求(一个“真实合成”场景超过15GB)。我们的方法只需要5 MB的网络权重(与LLFF相比,相对压缩了3000倍),这甚至比我们任何数据集中单个场景的输入图像更少的内存。
6.4 消融研究
我们通过表2中的广泛消融研究验证了我们的算法的设计选择和参数。我们展示了“真实合成360 °”场景的结果。第9行显示了我们的完整模型作为参考。第1行显示了我们模型的最低版本,没有位置编码(PE),视图依赖(VD)或分层采样(H)。在第2-4行中,我们从完整模型中一次一个地移除这三个组件,观察到位置编码(第2行)和视图依赖(第3行)提供了最大的量化益处,其次是分层采样(第4行)。图5-6显示了我们的性能如何随着输入图像数量的减少而下降。请注意,我们的方法仅使用25个输入图像的性能仍然超过了NV,SRN和LLFF在所有指标上,当它们被提供100个图像时(参见补充材料)。在第7-8行中,我们验证了最大频率的选择L用于x的位置编码(用于d的最大频率按比例缩放)。仅使用5个频率会降低性能,但将频率数量从10增加到15不会提高性能。我们认为,一旦2L超过采样输入图像中的最大频率(在我们的数据中大约为1024),增加L的好处就有限了。
表2:我们模型的消融研究。度量是对来自我们的真实合成数据集的8个场景进行平均的。请参阅第6.4以获取详细说明。
7 结论
我们的工作直接解决了以前的工作,使用MLP表示对象和场景作为连续函数的不足。我们证明,将场景表示为5D神经辐射场(一种MLP,输出体积密度和视图相关的发射辐射率作为3D位置和2D观看方向的函数)比以前训练深度卷积网络以输出离散体素表示的主导方法产生更好的渲染。
虽然我们已经提出了一种分层采样策略,使渲染更有效的样本(训练和测试),仍然有更多的研究技术,以有效地优化和渲染神经辐射场的进展。未来工作的另一个方向是可解释性:采样表示,如体素网格和网格,允许对渲染视图的预期质量和故障模式进行推理,但当我们在深度神经网络的权重中编码场景时,如何分析这些问题尚不清楚。我们相信,这项工作取得了进展的图形管道的基础上真实的世界的图像,复杂的场景可以组成的神经辐射场优化的图像的实际对象和场景。
致谢感谢Kevin Cao、Guowei Frank Yang和Nithin Raghavan提供的意见和讨论。RR确认了来自ONR赠款N000141712687和N000142012529以及罗纳德L.格拉汉姆主席。BM由赫兹基金会奖学金资助,MT由NSF研究生奖学金资助。Google通过BAIR Commons计划慷慨捐赠了云计算积分。我们感谢以下人员Blend Swap用户用于我们真实合成数据集中使用的模型:gregzaal(船),1DInc(椅子),bryanajones(鼓),Herberhold(榕树),erickfree(热狗),Heinzelnisse(乐高),elbrujodelatribu(材料)和up3d.de(麦克风)。