Radiance Field Learners As UAV First-Person Viewers 翻译

作为无人机第一人称视角的辐射场学习者

引言。第一人称视角（FPV）在无人机飞行轨迹的革新方面具有巨大的潜力，为复杂建筑结构的导航提供了一条令人振奋的途径。然而，传统的神经辐射场（NeRF）方法面临着诸如每次迭代采样单个点以及需要大量视图进行监控等挑战。UAV视频由于视点有限和空间尺度变化大而加剧了这些问题，导致不同尺度下的细节渲染不足。作为回应，我们引入了FPV-NeRF，通过三个关键方面来解决这些挑战：（1）时间一致性。利用时空连续性确保帧之间的无缝一致性;（2）全局结构。在点采样过程中结合各种全局特征保持了空间完整性;（3）局部粒度。采用综合框架和多分辨率监控进行多尺度场景特征表示，解决了无人机视频空间尺度的复杂性。此外，由于公开可用的FPV视频的稀缺性，我们引入了一种创新的视图合成方法，该方法使用NeRF从无人机镜头生成FPV视角，增强了无人机的空间感知。在无人机领域，我们的新数据集涵盖了从室外到室内的各种轨迹，与传统的NeRF场景有着显著的不同。通过包括内部和外部建筑结构的广泛实验，FPV-NeRF展示了对无人机飞行空间的上级理解，在我们精心策划的无人机数据集中优于最先进的方法。请浏览我们的项目页面以获取更多信息：https://fpv-nerf.github.io/。

关键词：计算机视觉；空间感知；神经辐射场；第一人称视角；无人机

1 引言

在计算机视觉方面，机器人导航的进步，包括Visual-SLAM和MVS，以及计算机图形学的创新，如Novel视图合成已成为环境监测和灾难响应等应用程序的组成部分。这些需求建立了神经辐射场（NeRF）作为一种新兴的范例，使用多层感知器网络进行场景表示，并擅长从新颖的相机姿势渲染高质量的图像。

尽管NeRF取得了成功，但由于其在训练中依赖于来自像素的单个射线，因此在UAV捕获的多尺度视频中遇到了挑战，从而限制了其有效性。首先，该模型缺乏时间一致性，导致新视图生成过程中序列不平滑。其次，NeRF努力构建一个全面的全球结构，特别是在低纹理区域，如纯色表面或草地。第三，当原始视频视角不足时，特别是在建筑物等结构周围，难以渲染局部细节。因此，当应用于从复杂的无人机轨迹生成新颖的第一人称视角时，例如从外部到内部的缩放（图1），NeRF的质量会下降，突出了其在处理不同场景和视角方面的局限性。

在前面讨论的基础上，我们介绍FPV-NeRF，这是一个为无人机量身定制的第一人称视图合成框架，利用了神经辐射场的力量。配备第一人称视角（FPV）的无人机提供身临其境的视频，提供独特的视角，将观众直接置于行动之中。广泛的研究表明，人类从FPV视频中掌握了全面的空间理解，在第一和第三视角之间进行心理转换，并对环境进行整体把握。如果无人机可以将第三人称视角转换为第一人称视角，那么它就展示了类似于人类的空间认知能力。我们的FPV-NeRF作为无人机的强大和可解释的骨干，在多尺度空间结构识别方面表现出色，同时承认并超越了现有NeRF的局限性。

具体来说，FPV-NeRF将整个空域划分为区域，递归地将它们分解为子区域。这种多尺度空间构造器根据无人机的飞行轨迹动态调整三维模型组成，同时考虑全局和局部视角。与以前的NeRF不同，FPV-NeRF仅依靠MLP层进行颜色预测，优化了估计的UAV飞行空间中所有点的全局局部特征。我们提出的方法包括：I）多尺度摄像机空间估计，集中于使用相邻时间帧来对环境空间建模的轨迹重构。轨迹空间经过划分，根据UAV在相邻帧中的位置和姿态应用不同的坐标畸变函数。II）利用全局-局部场景编码器的第一人称视角视频生成：i）指示每个块的一般特征的可学习的体积嵌入; ii）基于位置提供连续特征的点位置嵌入，利用各种频率分量增强多尺度编码; iii）提供用于分辨率渲染和等级之间的交叉注意的全局特征的等级嵌入。III）对于训练，我们提出了具有三项的综合损失函数，结合了用于视差对准的最优传输和用于相邻区域之间的平滑一致性的有界变化。

从本质上讲，FPV-NeRF体现了几个吸引人的特性：首先，它实现了改进的时间一致性。视频序列中相邻帧之间的鲁棒相关定时机制和空间相干性使FPVNeRF能够构造更连续和平滑的整体结构。第二，它增强了全球结构的完整性。通过对不同分辨率之间的交叉注意力的精心设计和体积特征的获取，每个点的特征的训练都考虑了周围点的上下文，降低了忽略低上下文元素的风险。第三，它在提供本地粒度方面表现出色。将空间细分为具有不同翘曲函数的区域，结合采样点的坐标位置到包括高频分量的高维特征的变换，确保了局部细节的高保真度恢复。FPV-NeRF是一个直观而通用的分类框架;它兼容不同的基于NeRF的第一人称视图生成方法。在§4.3中，FPV-NeRF优于参数化的对等体，即：1.61-7.77的峰值信噪比和0.021-0.145的SSIM。在基于体素的架构下，FPV-NeRF在以前常用的NeRF数据集上的性能也优于SOTA方法，即，NeRF-360-V2数据集的峰值信噪比为0.03-3.07，LLFF数据集的峰值信噪比为0.01-1.65。在§4.4中，我们的多尺度摄像机空间估计方法将UAV数据集性能提高了1.52-5.23 PSNR。此外，我们的全局-局部编码器显著提高了性能（1.124.36 PSNR），并且我们的综合损失的结合进一步提高了性能（1.49-4.85 PSNR）。

图1：我们提出的FPV-NeRF方法与之前基于NeRF的方法的比较。此前的NeRF可以分为两种类型：前向式和360°物心式。在无人机视频中，视图合成面临以下挑战：1）视图限制程度，因为无人机视角受到无人机轨迹的限制; 2）场景变化，因为无人机在从室外过渡到室内时，会遇到场景比例和光照条件的显著变化。

2 相关工程

无人机的空间感知空间感知在室内测绘、无人机和自动驾驶汽车等应用中至关重要，已被广泛研究。技术进步，特别是相机和激光雷达领域的技术进步，加速了SLAM系统的采用。Visual SLAM因其与低成本视觉传感器的兼容性而被广泛采用。这些系统，利用图优化，可以分为稀疏特征为基础的或直接方法.基于稀疏特征的方法跟踪特征点以生成3D图，而直接方法最小化用于3D相机移动和环境估计的像素强度差异。尽管很受欢迎，但Visual SLAM面临着精度限制，阻碍了精确导航。当前的研究越来越多地采用新颖的视图生成来实现空间感知。与传统方法不同的是，新的视图生成方法能够精确地重构无人机的导航，使其更接近真实的环境。

第一人称视角生成方法新的第一人称视角合成涉及两种主要方法。生成模型，如等最近的作品中所示，使用扩散模型来解决从条件分布生成随机但合理样本的挑战。然而，这些方法依赖于生成先验，可能缺乏对空间环境的固有理解。或者，一些方法通过从图像估计几何形状来利用3D重建，采用点云、深度图、网格或体积隐式函数等表示。传统的多视图立体（MVS）技术和表面重建方法（例如，Poisson，Delaunay三角测量）已经发展，最近基于学习的深度估计方法表现出出色的性能。尽管它们在生成3D模型方面取得了成功，但这些方法在很大程度上依赖于准确的深度估计：扩散模型通常用于生成2D图像，并且通常需要准确的深度估计或NeRF来将其应用扩展到3D空间，而MVS方法依赖于GT深度图来计算预测损失。因此，神经辐射场（NeRF）的兴起使其有利于新颖的视图合成，通过迭代训练过程以更高的准确性将深度信息包含在隐式嵌入中。

神经辐射场（NeRF）与传统的3D重建技术相比，NeRF采用隐式神经网络特征进行空间表示，从而有效地生成新的视图图像。自推出以来，NeRF促进了对新颖视图合成、重新照明、新场景概括、形状表示和多视图重建等任务的神经表示研究。这些方法使用多层感知器（MLP）隐式重建场景，即使只有很少的训练视图，也会产生令人印象深刻的新颖视图合成结果。此外，最近的方法在处理与大规模或无界场景相关的复杂性方面表现出了希望。然而，现有的NeRF方法，如Instant-NGP，TensoRF，DVGO和Mip-NeRF 360，主要是针对固定尺度的前向或360°目标中心轨迹设计的，对多尺度UAV视频的适应性有限。此外，流行的方法完全依赖于孤立的采样点特征，每次迭代，忽略了全局特征。这将它们限制在单一的轨迹和尺度上，限制了无人机的视频探索。相比之下，我们提出的方法是专为涉及面向前方和360°以物体为中心的轨迹的任务量身定制的，旨在确保无人机的一致，高质量的长期视图合成。

3 方法

给定一段长度为L的视频V，在没有任何位置和姿态信息的情况下，FPV-NeRF的目标是重建场景的辐射场，以生成新的第一人称视角视频。在下文中，我们首先概述FPV-NeRF框架。

3.1 概述

FPV-NeRF框架描述如下：I）多尺度相机空间估计（§3.2）：在图2所示的初始步骤中，选择关键帧来预测UAV相机的轨迹和姿态。这些预测发生在具有不同扭曲函数的细分空间中，使用雅可比矩阵进行3D和多相机2D空间之间的无缝点扭曲。一个可学习的特征池，作为一个神经嵌入，捕捉这个空间配置中每个点的固有特征。II）全局-局部场景编码器（§3.3）：遵循[35]的方法，我们在空间域中以各种分辨率合成图像，探索跨分辨率的全局-局部信息。对于合成图像中的每个像素，相机光线通过场景进行跟踪，生成采样点。全局-局部场景编码器利用这些采样点处的点位置信息和查询特征来计算隐藏特征。III）渲染和综合损失（§3.4）：在场景编码器之后，渲染MLP层预测每条光线的局部颜色和密度，考虑点特征和相机观看方向。体绘制技术从计算的颜色和密度生成图像。在渲染图像、视差和地面实况图像上计算损失，从而提供对模型的整体评估。

图2：我们方法的总体框架。在使用各种包裹函数估计相机位置和姿态空间之后，我们可以将帧中的像素采样为视图射线，其由该估计空间中的点位置序列组成。在训练过程中，我们使用这些点位置从特征池中查询它们的可学习特征。然后，我们通过全局-局部编码器和渲染解码器传递这些点位置和相应的特征，以获得该像素的预测颜色。将该预测的像素颜色与该像素的地面真实颜色进行比较可以监督网络。在测试过程中，我们将一个新的自动生成的点位置序列输入到这个管道中，最终可以获得一个新的第一人称视角视频（见图3）。

图3：无人机轨迹和自动生成的FPV视频轨迹的可视化，带有摄像机姿态。(a-b)帐蓬场景。(c-d)市场场景。

3.2 多尺度相机空间估计

我们首先建立一个无人机轨迹空间，以定义其空间部署内的摄像机位置和方向：

关键帧选择器。我们计算每个无人机视频帧的信息熵，考虑帧内的颜色熵和帧间的熵。将这些分量相乘以评估帧信息，表示为：

其中 $I^{(l)}$ 是（L个帧中的）第 $l$ 个帧的信息熵，并且 $p_{i}$ 是来自直方图的第 $i$ 个灰度值的概率。在这两个方面的显着信息熵的关键帧识别。

无人机轨迹预测与以前的运动恢复结构（SfM）方法相比，我们的方法利用了顺序视频采集，其中帧自然地表现出视觉重叠，消除了对穷举图像对匹配的需要。采用基于词汇树的循环检测，每个图像都与其时间上最接近的对应图像进行匹配。假设场景部分包含M个点S = {δ0,...δM}，对于在视频中出现持续时间为 $T_{i}$ 的每个点 δj ∈ S，考虑到第 $l_{j}$ 帧是该点最初出现的地方，可以通过最小化重投影误差来预测顺序轨迹：

其中 $\theta _{t}$ 是相机在时间t的内部和外部参数， $q_{t,j}$ 是该帧中 $\delta _{j}$ 的像素位置。P是项目函数。输出形成用于相机矩阵的欧几里德空间，由用于多块扭曲相机空间的后续块细分模块处理。

块细分为不同的翘曲。空间变形的核心要求是对原始欧氏空间进行变换，在变形后的空间内建立轴向对齐的网格，以便与摄像机对齐射线。与之前依赖于单个扭曲函数的NeRF方法不同，我们的场景展示了跨区域的不同摄像机轨迹（如图2所示）。这要求精心制作不同的扭曲函数（即，雅可比矩阵），确保摄像机位置和方向与区域特定像素的精确对准。利用八叉树结构进行区域细分，我们的目标是识别与边长为s的树节点相交的可见摄像机。如果一个可见的摄像机中心在距离d ≤ λs（λ设置为3）的范围内，则该节点被细分为8个子节点;否则，该节点成为叶节点。重复该过程，直到获得所有叶节点。

3.3 全局-局部场景编码器

在通过查询特征池内的点并应用多分辨率散列编码以获得预处理的点嵌入 $E_{x,y.z}^{'}$ 来获得点嵌入 $E_{x,y.z}$ 之后，我们然后将 $E_{x,y.z}^{'}$ 输入到全局-局部场景编码器中以计算每个点的整体特征表示。

跨分辨率注意力。通过多分辨率层次有效地捕获了不同尺度下的场景特征。低分辨率下，全局特征得到强调，而高分辨率下，细节得到展现。一种先前的方法引入了一种基于学习的多分辨率散列编码，自主地对相关细节进行优先级排序，不受特定任务的限制。在具有不同尺度特征的无人机场景中，该方法可用于确保包含实体结构和微小细节的全面表示。值得注意的是，现有技术的多分辨率散列编码在每个分辨率独立地处理特征，忽略了分辨率间的相关性。针对这一问题，提出了一种跨分辨率注意机制来衡量不同分辨率之间的关联度。在Transformer模型之后，使用标度点积注意力来计算不同分辨率的特征上的查询 $Q_{x,y,z,r}$ 、关键字 $K_{x,y,z,r}$ 和值 $V_{x,y,z,r}$ ，从嵌入 $E_{x,y.z}^{'}$ 的预处理点产生 $E_{x,y.z,r}^{''}$ ：

其中 $W^{Q}$ 、 $W^{K}$ 、 $W^{V}$ ∈ $R^{d_{E}\times d_{K}}$ 是权重矩阵， $d_{E}$ 和 $d_{K}$ 是嵌入和注意力键的维数。为了增强类似于Transformer的模型，我们引入了位置嵌入。这将第e个数据位置嵌入第r个分辨率级别，如下所示：

为了追求详尽的多分辨率特征，我们在跨分辨率注意力模块中集成了一个额外的全局级特征，表示为Eglobal，如图2所示。类似于Vision Transformer（ViT）中的[CLS]令牌，Eglobal功能用于连接不同分辨率级别的功能，促进所有级别的注意力连接。

点位置分组。前面提到的特征池，在§3.1中阐述，离散地恢复点空间特征，导致相邻点之间的显著差异。以前的方法基于位置信息计算连续特征。这涉及到使用具有权重 $W_{}\varphi$ 和偏置 $B_{}\varphi$ 的可学习线性变换 φ 来获得每个点的连续局部特征，使用高频函数将点位置（x，y，z）∈ $R^{3}$ （见图2）投影到高维空间 $R^{3\times 2\times v}$ 中。然而，采样频率不足违反了奈奎斯特-香农定理，导致高频信号折叠成低频信号在连续信号采样。因此，我们通过将相邻点分组到多变量高斯区域中，将点（x，y，z）周围区域的预期组位置（ $E_{r}(x)$ ， $E_{r}(y)$ ， $E_{r}(z)$ ）作为查询输入到可学习的线性变换 φ 中来构造混合点位置嵌入方法：

其中S表示sin和cos频率变化的数量，· 表示点积运算。

体积功能。在追求整体组件表示的过程中，我们的方法学深入研究了包围体层次（BVH）算法。该几何查询加速器利用了这样的洞察：如果查询对象避免了体积相交，则它排除了与其中的对象的交互。我们的方法为每个UAV环境段计算一个包围特征，存储在一个可学习的体积特征池 $F^{vol}$ 中。形式化的体特征嵌入表示为：

其中， $\delta _{x,y,z}$ 表示位于坐标（x，y，z）处的采样点，而 $\phi$ 表示体积特征选择算法，该算法包括两个关键步骤：首先，使用BVH方法确定该点δx，y，z的体积索引，其次，基于该索引选择体积特征。C表示可用卷的总数。

3.4 综合学习目标

虽然上述方法几乎可以解决时间一致性、全局结构和局部粒度的问题，但在学习用于训练监督的视图视角有限的结构时仍然存在一些问题。利用视频的时空信息，我们提出了一种新的损失函数来惩罚那些在表观细节和时间一致性方面表现不佳的渲染结果，包括三个部分：

颜色对齐。通过重建图像和真实地面图像的RGB值之间的Charbonnier损失来计算RGB颜色重建损失。我们在其中引入了一个固定的整流值，表示为γ，与mip-NeRF中使用的MSE损耗相比，该值实现了稍微更稳定的优化。因此，这一损失术语的定义如下：

其中， $r_{\phi }$ 、 $g _{\varphi}$ 、 $b _{\varphi}$ 表示采样的视图光线 $\phi$ 的渲染的RGB值，并且 $\hat{r}_{\phi }$ 、 $\hat{g}_{\phi }$ 、 $\hat{b}_{\phi }$ 表示来自原始输入帧的它们的对应的地面实况。

视差对齐。该损失项用于定量地评估两个分辨率之间的倒数深度差异，提供抵抗引入的噪声的鲁棒性以减轻局部失真。我们的方法采用了基于最佳传输理论的地球移动距离（EMD），以量化分辨率之间的深度分布差异。EMD与传统的度量标准不同之处在于，它不仅仔细审查了相应点的价值差异，而且还将运输成本纳入了评估，强调了分布形状。这一独特的特性使EMD能够熟练地辨别分布中的差异，这些差异具有总体上的相似性，但存在细微的偏差。在空间环境中，EMD擅长基于形状的比较，特别是在分析密度分布时。在比较和对齐空间数据点分布时，EMD的优点在于它能够同时考虑空间排列和结构上的细微差别。表示视差对准损失函数的公式表示为：

其中， $d_{\delta _{j} }$ 表示采样视线上第 j 个点 $\delta _{j }$ 处的视差值。对于沿该射线沿着的每个点 $\delta _{i}$ 计算累积分布函数 $\sum _{0\leq j\leq i}d_{\delta _{j}}$ ，包括沿采样的视线 $\phi$ 的所有沿着点，以描绘 $\phi$ 的整体视差分布。

平滑度一致性。如3.2节所述，我们的方法涉及基于摄像机参数的空间细分，可能会在相邻块之间产生不一致。该损失项评估了函数相对于相邻八叉树节点的有界变化，促进了在它们的交点处的均匀密度和颜色。使用来自图像恢复的有界变差函数，其适合于非连续分布，来自相邻八叉树节点的点之间的特征差异计算为：

我们在八叉树节点的边界上随机采样N个边缘点，这组点被表示为ξ。对于每个位置（x，y，z）∈ ξ 的相同边缘点，其特征 $F_{x,y,z}^{(\varphi _{0})}$ 和 $F_{x,y,z}^{(\varphi _{1})}$ 是从两个不同的以其对应的相邻八叉树节点为条件的扭曲函数 $\varphi _{0}$ 和 $\varphi _{1}$ 中提取的。

最终的损失。最终损失为上述各项损失的总和：

其中，α1、α2、α3是这些损失项的权重。通过使用这三个损失函数的联合监督来训练网络，它不仅保证了RGB域中的全面和详细的渲染质量，而且更重要的是，保持了生成的3D模型在空间和时间维度上的连贯性和一致性。当前的NeRF方法忽略了这一点，特别关注于处理包含各种室内和室外多尺度场景的无人机视频。

4 实验

4.1 无人机数据集收集

我们构建了一个新的无人机视频3D重建基准（称为无人机数据集）。无人机数据集由DJI mini3 pro捕获，包含十个无界场景，包括天空，草原和许多建筑物。每一个场景都是由无人机拍摄的，无人机首先在天空中绕着建筑物飞行，然后降落并通过门进入建筑物。每个场景视频包含3至7分钟的时间跨度。同时，无人机的作战高度范围也很广，从40米到170米不等。拍摄的场景包括市场、花园、公园、基金会、图书馆等，所有这些都记录在美国的纽约市。如第4.1节所述，在我们关于无人机的汇总数据集的说明中，详细的校准程序展开，探索内部和外部维度。这种细致的奋进集中在精确确定内在和外在参数，牢固地建立在3024 × 4032像素的预定图像尺寸上。对摄像机内在特性的审查需要对关键特性进行识别分析，包括焦距、主点、径向失真、偏斜和内在矩阵。无人机摄像机的焦距是精确绘制像素坐标所必需的关键内在参数，在我们的实验研究中，相对于现实世界的空间维度，计算为（2.858 × $10^{3}$ ，2.845 × $10^{3}$ ）。

4.2 实验设置

所有的训练实验都是在单个NVIDIA A6000 GPU上完成的。我们的FPV-NeRF和可比基线的实施细节如下：

实作详细数据。点位置分组因子S在等式（7）中被设置为10。最终损失中的权重固定为公式（12）中的 $\alpha _{1}$ = 1.0、 $\alpha _{2}$ = 0.001、 $\alpha _{3}$ = 0.1。注意场景编码器中的微小MLP具有一个宽度为64的隐藏层，以获得场景特征和体密度，而渲染MLP具有两个宽度为64的隐藏层，以获得RGB颜色（§3.1）。对于特征池训练，我们遵循与Instant-NGP 类似的设置，并使用具有16个级别的哈希表，每个级别包含一定数量的维数为2的特征向量。在我们的无人机数据集上，每个级别包含221个特征向量，并经过8万步的训练。在其他数据集上，每个级别包含219个，并被训练了20 k步。我们使用Adam优化器训练网络，其学习率在前1 k步中从零线性增长到1 × $10^{-1}$ ，然后在训练结束时衰减到1× $10^{-2}$ ，使用余弦调度，批量大小为262144。我们坚持广泛接受的训练和测试配置，从无人机视频中随机选择所有关键帧的12.5%用于测试图像，而其余帧构成训练集。为了定量评估新的视图合成质量，我们使用了三个度量：PSNR、SSIM和LPIPS（VGG）。如图4所示，§3.4中的低分辨率视差采用了第一层八叉树的重建结果，明显地显示了定位不准确但表现出相对透明的块。

图4：视差对准的图示。局部粒度的缺乏导致两种分辨率之间的倒数深度差异存在很大差异（参见§3.4）。

基准。我们比较了我们的FPV-NeRF和最新的NeRF方法，包括（1）基于MLP的方法：NeRF++ ，Mip-NeRF，Mip-NeRF 360 和 Tri-MipRF ;（2）基于体素的方法：Plenoxels，DVGO，TensoRF ，Instant-NGP ，F2-NeRF，Mega-NeRF 和Neo 360。请注意，Instant-NGP使用CUDA实现，而我们采用LibTorch实现，因此比我们更快。

4.3 与SOTA的比较

我们首先报告我们提出的无人机数据集的定量比较，然后进一步验证我们的方法在以前流行的NeRF数据集。

建议的无人机数据集的结果。如表1和图5所示，DVGO的合成帧由于其有限的分辨率而模糊，以表示这样长的轨迹，Mip-NeRF 360和F2 NeRF的结果看起来整形器，但由于其不平衡的场景空间组织而具有局部噪声和失真。相比之下，我们的FPV-NeRF利用了自适应空间细分的优势，并考虑了不同尺度的场景特征充分利用全球-地方代表能力。具体而言，FPV-NeRF超过了先前的领先方法F2-NeRF，其PSNR为2.22，SSIM为0.034，LPIPS（VGG）为0.022 ↓。此外，它优于之前的第二佳方法Instant-NGP，其PSNR为3.66，SSIM为0.059，LPIPS（VGG）为0.028 ↓。对于我们的无人机数据集中的每个视图，我们的FPV-NeRF和Mega-NeRF [58]的平均推理时间分别为13.7s和21.6s。

图5：几种SOTA方法的确认比较结果。可以看出，DVGO的合成帧由于其有限的分辨率而被模糊以表示这样长的轨迹。Mip-NeRF-360和F2-NeRF的结果由于其不平衡的场景空间组织而具有局部噪声和失真。相比之下，我们的FPV-NeRF利用自适应空间细分，并考虑不同尺度的场景特征，以充分利用全局-局部表示能力。

以前数据集的结果。为了显示FPV-NeRF的兼容性，我们还在两个广泛使用的数据集上评估了我们的方法，其中有两种专门的相机轨迹，如图1（a）和图1（B）：（1）NeRF-360-V2数据集，其中包含七个无界的360度内向场景。(2)LLFF数据集，其中包含由移动的手机记录的八个真实的无界前向场景。如表2和表3所示，FPV-NeRF在两个数据集上始终获得与领先的基于体素的方法相当的结果。具体而言，它在NeRF-360-V2数据集上表现出0.03-3.07 PSNR和0.012-0.107 SSIM的改进，在LLFF数据集上表现出0.01-1.65 PSNR和0.008-0.094 SSIM的改进。

表1：我们提出的无人机数据集的主要结果。

表2：先前NeRF 360-V2数据集的结果。

表3：先前LLFF [33]数据集的结果。

4.4 消融研究

我们对我们提出的无人机数据集进行消融研究，以证明我们提出的每个模块的效果。

不同的相机空间估计方法。使用穷举匹配结果（见表4），以二次时间复杂度增量O（n2）进行轨迹预测（§3.2）。相反，性能表现出1.52 PSNR，0.051 SSIM和0.018 LPOSVGG的下降。此外，我们的方法超过了5.23 PSNR和0.164 SSIM的未细分块对应。

表4：不同相机空间估计方法（§3.2）在无人机数据集上的比较。我们首先评估各种轨迹预测（TP）方法的时间复杂度O：顺序匹配（Seq.），其匹配附近的帧，以及穷举匹配（Exh.），这与视频中的所有帧相匹配。此外，我们比较了我们的方法和没有块细分（BS）的情况下的性能。

全局-局部场景编码器的效果。如表5所示，从我们的globallocal编码器（§3.3）中排除交叉分辨率注意力，点位置分组和体积嵌入导致PSNR性能降低1.12-4.36，SSIM降低0.027-0.078。此外，图6说明了交叉分辨注意力的包含保留了复杂结构，而图7表明，在方程（7）中采用较大的S增强了重建细节的生动性。

表5：全局-局部编码器（§3.3）对UAV数据集的影响。我们从我们提出的全局局部场景编码器中系统地排除了交叉分辨率注意力，分组点位置嵌入 $E_{x,y.z}^{location}$ 和体积嵌入 $E_{x,y.z}^{volume}$ ，单独评估它们的影响。

图6：交叉分辨注意的消融研究结果，它在全局-局部编码器中起着重要作用（见§3.3）。

图7：等式7中的不同点位置分组参数S的比较。S越大，场景中的低频和高频分量就越多（见3.3节）。

学习目标的消融研究。如表6所示，我们系统地研究了 $\alpha _{1}$ 和 $\alpha _{3}$ 的变化值，以衡量 $L_{d}$ 和 $L_{s}$ 的影响。我们的目标是精确确定方程（1）中的最佳损耗参数。FPV-NeRF为12，详见第3.4节。设置 $\alpha _{2}$ = 0或 $\alpha _{3}$ = 0会从我们的损失中忽略 $L _{d}$ 或 $L _{s}$ ，导致PSNR降低4.85。实验表明，以适当的数量级引入 $L _{d}$ 和 $L _{s}$ 作为监控信号增强了FPV-NeRF结果。然而，需要谨慎，因为 $\alpha _{2}$ 和 $\alpha _{3}$ 的权重过高会导致在训练的早期阶段干扰 $L _{c}$ 。此外，我们在图8中给出了 $L _{d}$ 的直观比较结果。研究结果表明，采用 $L_{d}$ 可以保证三维重建的局部粒度。相比之下， $L _{c}$ 有时难以精确地限制像素和相机之间的距离。

综上所述，时序一致性通过序贯轨迹法（表4）和平滑一致性（表6）来保证。局部粒度通过视差对齐和全局-局部编码来实现（图6、7和8）。全局结构通过交叉分辨率注意、分组点定位和体积嵌入来确保（表5）。

表6：损失项（§3.4）的不同权重对无人机数据集的影响。我们固定Lc的权重α1 = 1.0，并调整等式（12）中Ld和Ls的权重。所有结果均报告在PSNR上。

图8：等式中Ld的消融研究结果10.经过处理的RGB图像乍一看似乎正常，但仔细检查就会发现视差（相对于深度）表明路面不光滑，有很深的洞穴。来自不同分辨率水平的差异可以反映这个问题，而颜色损失不能揭示它（见§3.4）。

五结论

在这项工作中，我们提出了FPV-NeRF，这是一种开创性的方法，用于从有限的FPV镜头中合成视图，以增强无人机应用中的空间感知。FPV-NeRF通过多尺度相机估计、全局-局部场景编码器以及专注于时间一致性、全局结构和局部粒度的全面学习目标来解决无人机视频重建挑战。各种轨迹上的实验显示了FPV-NeRF的优越性，超过了精心策划的无人机数据集的当前基准。我们的方法能够重建环境，用于离线无人机导航模型训练，并支持无人机任务，如目标检测和自主导航。