国防科大清华城市空间无人机导航推理！GeoNav：赋予多模态大模型地理空间推理能力，实现语言指令导向的空中目标导航

作者： Haotian Xu $^{1}$ , Yue Hu $^{1}$ , Chen Gao $^{2}$ , Zhengqiu Zhu $^{1}$ , Yong Zhao $^{1}$ , Yong Li $^{2}$ , Quanjun Yin $^{1}$
单位： $^{1}$ 国防科技大学系统工程学院， $^{2}$ 清华大学
论文标题：GeoNav: Empowering MLLMs with Explicit Geospatial Reasoning Abilities for Language-Goal Aerial Navigation
论文链接：https://arxiv.org/pdf/2504.09587

主要贡献

论文提出了针对语言目标空中导航任务的地理空间感知多模态智能体GeoNav，其核心贡献在于为多模态大模型（MLLMs）赋予了明确的地理空间推理能力，显著提升了无人机（UAVs）在复杂城市环境中的长距离导航性能。
设计了分阶段的推理框架，将语言目标城市空中导航任务分解为地标导航、目标搜索和精确定位三个阶段，通过结构化和多模态的链式思考（CoT）提示与 MLLMs 协同工作，实现了从粗到细的逐步推理。
为了支持跨尺度规划，GeoNav 融合了文本地理先验知识、语言指令和具身观测数据，构建了两种不同类型的地理空间表示：全局但简练的认知地图（SCM）和局部但精细的场景图（HSG），分别用于快速导航和精确定位。
在具有挑战性的 CityNav 城市导航基准测试中，GeoNav 在导航成功率和效率方面相较于典型基线模型取得了显著提升，证明了其在复杂城市环境导航任务中的有效性。

研究背景

语言目标空中导航是具身人工智能（embodied AI）中的一个重要研究领域，要求无人机能够在未知的室外环境中，根据自然语言指令定位目标对象。

这一任务在现实世界中有广泛的应用前景，如物流配送和公共安全等。然而，现有的方法大多是基于室内导航的思想，将局部视觉与指令对齐的方向选择应用于整个导航过程，这些方法在小规模环境中可能有效，但在大规模城市空中导航中面临诸多挑战：

大规模空间推理：复杂的城市环境需要高层次的空间推理能力来实现远距离导航，但无人机的视野有限，无法直接获取整个地理布局，这使得获取和组织多尺度空间知识以进行长距离规划变得困难。
视觉语义的模糊性：城市中存在大量视觉上相似的实体，如建筑物和车辆，仅凭外观难以区分，这增加了基于目标级感知来区分目标的难度。
自适应规划：长距离空中导航任务涉及多种情况，如目标物体在视野内和视野外的阶段，为了提高导航效率，无人机需要根据不同的阶段目标灵活调整策略，这要求智能体能够利用感知、空间记忆和推理来做出基于上下文的决策。

研究方法

GeoNav是一种多模态大模型（MLLM）导航框架，整合了地理和具身信息的双尺度时空感知，用于地标目标导航任务。GeoNav包含三个关键模块：图解式认知地图（SCM）、层次化场景图（HSG）和多阶段导航策略（MNS），分别建模了智能体的感知、记忆和决策能力。

图解式认知地图

为了快速导航至指定的、可能较远的地标，无人机需要内部具备城市环境的整体模型。在此基础上，无人机可以掌握导航方向和距离，从而避免曲折飞行。SCM通过将地标先验信息和实时观测信息融合，形成一个鸟瞰的、图解式的地图。具体来说，SCM的构建涉及以下步骤：

地理先验信息的获取与投影 ：从OpenGIS数据中检索地标的先验地理信息，并将其投影到地标地图上。
图像处理与语义信息提取 ：利用GroundDino处理无人机的向下RGB图像以检测对象，并通过Segment Anything对结果边界框进行优化，生成分割掩码。将掩码像素转换为世界坐标，得到标注有对象信息的语义地图。
地图与导航策略的形成 ：将上述地图与方向提示（通过虚线和箭头指示无人机轨迹）相结合，形成导航策略的基础。

层次化场景图

场景图结构

层次化场景图通过节点和节点之间的边来描述城市中的空间关系。定义了三种类型的节点：区块、地标和对象，以表示场景的不同粒度。
区块是预先知晓的，表示一系列地标节点的集合。地标节点来源于指令中解析出的名称，如街道和地标建筑。HSG基于地标先验信息开始构建。

场景图构建

对象提取与关注对象筛选 ：GeoNav首先通过提示LLM从给定指令中提取感兴趣的对象。例如，从指令 “在道路左侧找到一辆白色汽车，旁边停着一辆黑色汽车” 中，LLM会关注可能出现的白色和黑色汽车。
空间关系确定 ：利用基于MLLM的视觉编码器，结合无人机RGB图像和预定义的空间关系，确定两个对象节点之间的空间关系。

递增图更新

在第二阶段的每个时间步长，通过合并从当前图像提取的子图与先前构建的图，递增地更新场景图。
为了识别和合并跨帧的重复对象节点，定义了相似度度量公式： $S_{i j}=(1-\psi) S_{i j}^{\text {spatial }}+\psi S_{i j}^{\text {semantic }}$ 其中， $S_{i j}^{\text {spatial }}$ 表示节点 $i$ 和节点 $j$ 之间的空间相似性， $S_{i j}^{\text {semantic }}$ 表示它们的语义相似性， $\psi$ 是平衡两个部分的加权参数。如果 $S_{i j}$ 超过阈值 $\pi$ ，则认为 $i$ 和 $j$ 是同一对象，并用单个节点表示。此外，为了减轻VLM幻觉的影响，采用简单的再检测策略，只有在两个连续帧中持续被检测到的对象才会作为节点保留在场景图中。

节点检索作为记忆

在第三阶段，无人机基于HSG和视觉观测来定位目标。HSG的层次化结构使智能体能够根据目标与地标或其他对象之间的空间关系来识别目标对象。
为了解释自然语言指令，定义了一个由LLM驱动的递归查询机制，将复杂指令转换为一系列结构化操作，具体过程如下：
- 地标节点检索 ：首先在HSG中检索指令中提到的地标节点。
- 错误边过滤 ：基于目标与地标节点之间的关系，过滤掉不正确的边分支。
- 目标定位 ：在剩余的子图中，通过目标与其他对象的关系来定位目标。
- 查询条件调整 ：如果查询失败，模块会自动调整查询条件（例如，放宽关系类型），并递归地扩展搜索范围，以确保检索到最相关的结果。

阶段感知推理

阶段调度器

在任务执行前，智能体将复杂指令分解为多个子任务。每个子任务包含一个目标和期望状态，并选择一种执行方法（导航、搜索或定位）。每个子任务都有停止条件，当条件满足时，触发后续子任务。完成当前阶段的所有任务后，系统切换到下一策略。

多模态推理

粗粒度导航 ：MLLM通过生成子目标描述来指定参考地标，结合可视化SCM使MLLM了解地标与智能体之间的空间关系，计算与地标之间的相对方位和距离，确定航路点选择。
细粒度搜索 ：MLLM生成子目标描述以提示智能体进行区域搜索，强调新奇驱动的探索，视觉输入包括语义掩码标注地图，驱动MLLM的动作推理。
定位：当探索覆盖率达到一定水平后，无人机在层次化场景图中激活查询引擎以定位目标，选择置信度最高的候选节点作为导航目的地。

实验

数据集与评估指标

数据集：导航指令来自 CityNav 数据集，包含 32,637 条自然语言描述和人类示范轨迹。
- 无人机图像取自 SensatUrban 数据集，收集了伯明翰和剑桥的正射投影和深度图，用于模拟无人机获取的 RGBD 输入。
- 地理信息数据库中的地标和物体的空间坐标及几何轮廓来自 CityRefer 数据集。
评估指标：采用四个标准指标评估导航性能，包括导航误差（NE）、成功率（SR）、Oracle 成功率（OSR）和按路径长度加权的成功率（SPL）。
- NE 衡量智能体最终位置与目标真实位置之间的欧几里得距离；
- SR 计算智能体在预定义成功阈值（20 米）内终止的百分比；
- OSR 评估智能体的轨迹是否曾接近目标，与路径执行解耦；
- SPL 是按参考路径长度与实际路径长度之比加权的成功率。

基线方法与性能对比

基线方法：将 GeoNav 与三种类型的基线方法进行对比，包括：
- 基于规则的方法（随机和贪婪）、
- 基于学习的方法（Seq2Seq 和 CMA）、
- 原生 MLLM 方法（GPT-4o 和 Qwen-VL-Max）。
性能对比：
- 在 CityNav 验证集上，GeoNav 在成功率（SR）和 Oracle 成功率（OSR）方面均优于其他方法。
- 在简单任务中，GeoNav 的性能分别比第二名 MGP 方法高出 12.53% 和 49.47%；
- 在中等难度任务中，提升幅度分别为 6.25% 和 20.83%；
- 在困难任务中，提升幅度分别为 8.34% 和 12.5%。
- 此外，GeoNav 在 SPL 指标上也表现出色，表明其在平衡导航成功率和路径效率方面的有效性。

消融研究

模块消融：
- 通过在验证集上进行消融测试，评估了 GeoNav 中三个模块的重要性。
- 结果表明，仅使用 SCM 的方法（方法 1）导航准确性和成功率较低；在此基础上增加 HSG（方法 2）可显著降低 NE，并提高 SR、OSR 和 SPL；而完整方法（方法 5）在 SR 和 SPL 上表现最佳，凸显了 HSG 和 MNS 模块对整体性能的贡献。
- 此外，省略 SCM 的方法（方法 4）导致 SR 显著下降，强调了视觉认知地图作为信息丰富且整体表示的必要性。

三阶段策略贡献：
- 通过测试 GeoNav 在不同阶段是否能持续引导无人机接近目标，验证了三阶段策略的有效性。
- 在地标导航阶段，无人机与目标的平均距离显著降低，尤其是对于中等和困难设置，这证明了基于 SCM 的导航在长距离任务中的有效性；
- 在搜索阶段，由于 GeoNav 进行新颖性驱动的探索，无人机可能会在地标和目标周围移动，导致剩余距离不确定；
- 在定位阶段，通过在 HSG 中精确检索目标，无人机最终会更接近目标，表明 HSG 在目标定位方面的有效性。

定性分析

通过可视化 GeoNav 的导航过程，展示了其在不同阶段的行为。
在导航阶段，HSG 中仅包含街区和地标节点，GeoNav 处理从相机图像获得的 SCM 并推断向前移动；
到达 St Johns 学院图书馆附近后，无人机开始基于 SCM 进行搜索，同时 HSG 开始更新物体节点；
最终，在满足探索覆盖条件后，切换到定位阶段，通过多步查询复杂目标描述获得阴影覆盖的子图，并推断最有可能是目标的节点。

结论与未来工作

GeoNav 通过模拟人类处理复杂规划问题的从粗到细的思维方式，为语言目标空中导航任务提供了一个有效的解决方案。
通过设计两种地理空间表示（SCM 和 HSG）和分阶段的推理框架，GeoNav 充分利用了 MLLMs 的多模态推理能力，显著提高了无人机在复杂城市环境中的导航性能。
然而，导航成功率和效率仍有待提高，未来的工作可以从以下两个方面展开：
当前的多模态 CoT 提示在每次移动时都会消耗大量的 MLLM 令牌，因此需要一个更优雅的调度框架，例如将基于 MLLM 的任务级推理与基于学习的动作级控制异步结合。
考虑联合构建和推断两种空间表示，以提高模型结构和语义的准确性。