论文标题: EarthVQA: Towards Queryable Earth via Relational Reasoning-Based Remote Sensing Visual Question Answering
作者: Junjue Wang, Zhuo Zheng, Zihang Chen, Ailong Ma, Yanfei Zhong
期刊: The Thirty-Eighth AAAI Conference on Artificial Intelligence (AAAI-24)
email:yuhan.huang@whu.edu.cn
创作不易,恳请大家点赞收藏支持:)
一、引言
在遥感领域,地球视觉研究通常侧重于地理对象的位置和类别的提取,但在复杂的场景中,对象间关系和综合推理往往被忽略。这就好比只看到了树木,却没注意到整个森林的结构。基于城市规划的需求,我们提出了一个多模态多任务视觉问答(VQA)数据集——EarthVQA,以推动基于关系推理的城市和乡村治理应用。
数据集简介
EarthVQA 数据集包含 6000 幅高分辨率遥感图像、相应的语义掩码以及 208,593 对问答对,这些问答与城市和农村治理要求紧密相关,涵盖从简单判断、计数到复杂关系分析的多种任务。我们还提出了一个对象感知的语义框架(SOBA),以对象为中心来提升 VQA 性能。
二、视觉问答和数据集设计
2.1 EarthVQA 数据集
EarthVQA 数据集扩展自 LoveDA 数据集,包含南京、常州和武汉的 18 个城市和乡村区域。为了满足城市规划的实际需求,我们对 LoveDA 进行了三个重要的改进:
-
数量扩展:数据集增加到 6000 幅遥感图像,包括 8 个城市和 5 个农村样本。
-
标签细化:添加了“操场”类并修正了一些语义标签的错误。
-
QA 对的增加:增加了 208,593 对与城市规划相关的问答对,例如每张城市图像有 42 个问题,每张农村图像有 29 个问题。
图 1 展示了 EarthVQA 数据集中城市和乡村的示例,问题主要涉及城市规划需求,如判断、计数、对象状况分析和综合分析。这些多模态、多任务的数据集对对象关系推理和知识总结提出了新的挑战。
2.2 标注过程和问题统计
如图 2 所示,EarthVQA 数据集中的问题类型包含基础判断、关系推理、对象状况分析等。在标注过程中,为了保证答案的准确性,我们采用了 ArcGIS 工具来计算多边形之间的距离。例如,对于问题“学校附近是否有交叉路口?”,通过判断道路之间的拓扑关系,最终给出答案“是”。
问题的统计
图 2(b) 展示了不同问题类型的分布情况。城市和乡村场景在问题上保持平衡,消除了地理统计上的偏差。例如,基础问题包含某种类型对象的统计与推断,如“这片森林的面积是多少?”,而关系推理问题则需要对不同对象之间的关系进行语义或空间推理。
答案的统计
图 2(c) 展示了前 15 个最常见的答案分布。与常见的 VQA 数据集类似,答案的分布不均衡,这为地球环境中的实际应用带来了更多挑战。
三、语义对象感知框架(SOBA)
3.1 深度语义分割用于视觉特征
为了在高分辨率的城市场景中进行高效的关系推理,我们设计了 SOBA 框架,包含两个阶段的训练:
-
语义分割网络训练:用于生成视觉特征和伪掩码。
-
混合注意力训练:用于推理和回答问题。
对于输入图像,我们使用编码器输出作为视觉特征。与现有基于 Faster-RCNN 的算法相比,我们采用了像素级的视觉特征来保留对象内部的位置信息和语义细节,这有助于对高分辨率场景中的紧凑对象进行精确建模。
3.2 基于对象感知的混合注意力机制
混合注意力机制由三个部分组成:
-
对象引导注意力(OGA):通过动态加权增强视觉特征。
-
视觉自注意力(VSA):用于捕捉地理对象之间的远距离关系。
-
双向交叉注意力(BCA):通过双向融合机制进行多模态特征的交互,如图 3 所示。
对象引导注意力显式地使用分割输出的对象语义,增强视觉特征的表达。在处理包含多个对象的遥感场景时,这种方法能显著提高模型对目标的感知能力。
注意力机制的 Tensor 形状变化
3.3 数值差异损失(ND Loss)
VQA 任务中包含分类和回归(对象计数)问题。然而,现有的方法通常将回归任务视为多分类任务,使用交叉熵损失(CE)来处理。这种方式对数值差异不敏感,不适合回归任务。因此,我们提出了数值差异损失(ND Loss),以增强回归任务的性能。
数值差异损失通过在原始交叉熵损失上增加一个差异惩罚因子来实现,对预测值和真实值之间的差异进行动态惩罚。损失函数形式如下:
通过 ND 损失,我们将分类和回归目标统一到一个优化框架中。 控制回归任务相对于分类任务的整体惩罚, 则决定回归惩罚对数值差异的敏感性。通过合理调节这两个参数,模型可以在处理回归任务时更加精确,从而提高整体 VQA 性能。
四、实验结果
4.1 比较实验
在 EarthVQA 数据集上,我们对比了多种现有的 VQA 方法(如 SAN、MAC、BLIP-2 等)。实验结果表明,SOBA 框架在整体性能上优于其他先进方法,尤其是在包含多个对象的复杂推理任务中表现出色。
例如,表 1 中的结果显示,与高分辨率的视觉特征相比,SOBA 在计数任务上的准确度明显更高。这是因为语义位置提供了更多的空间细节,帮助模型更好地理解对象之间的关系。
表 2 展示了不同方法在各个任务上的具体表现。与现有的方法相比,SOBA 框架在所有任务上均取得了明显的提升,尤其在关系推理任务上,性能提升最为显著。这得益于双向交叉注意力机制和对象感知的混合注意力机制,使得模型能够更好地理解地理对象之间的关系
4.2 模块分析
我们对 SOBA 进行了模块分析,将其分为五个子模块:VSA、BCA、语义特征、OGA 和 ND 损失。每个模块对整体性能都有显著的提升,其中 BCA 提供了最显著的改进,两个注意力模块共同提升了准确率。
图 4 展示了各模块对整体性能的影响。在去除 VSA 或 BCA 模块后,模型的性能均有显著下降,尤其在复杂推理任务中。相比之下,ND 损失对回归任务(如对象计数)的影响最为显著,表明其在处理数值差异问题上的有效性。
4.3 双向交叉注意力的可视化
为了分析多模态特征交互的机制,我们可视化了 BCA 中每一层的注意力图,如图 6 所示。在回答“场景中有多少个交叉路口?”的问题时,注意力图最初聚焦于错误的道路和操场,但随着层数的加深,BCA 成功推理出关键道路之间的空间关系。
通过这些注意力图的可视化,我们可以更直观地看到模型如何逐步聚焦于相关的特征区域,这种层次化的注意力机制使得模型在处理复杂的地理关系时表现得更为智能。
五、总结与未来工作
为了超越信息的提取,我们将 VQA 引入了遥感场景的理解中,实现了基于关系推理的能力。通过设计多模态、多任务的 VQA 数据集 EarthVQA,以及对象感知的 SOBA 框架,我们在复杂遥感场景中展示了强大的推理能力。
未来的工作将探索分割任务与 VQA 任务之间的深度交互,进一步提升地球视觉的智能化水平。我们相信,通过不断优化这些机制,未来遥感技术将在地球信息的理解和分析中发挥重要作用,特别是在城市规划、环境监测和资源管理等方面,将会展现出更加广阔的应用前景。