LLM | 论文精读 | AAAI | EarthVQA:向可查询地球迈进的多模态视觉问答研究

news2024/11/26 2:50:12

论文标题: EarthVQA: Towards Queryable Earth via Relational Reasoning-Based Remote Sensing Visual Question Answering

作者: Junjue Wang, Zhuo Zheng, Zihang Chen, Ailong Ma, Yanfei Zhong

期刊: The Thirty-Eighth AAAI Conference on Artificial Intelligence (AAAI-24)

email:yuhan.huang@whu.edu.cn

创作不易,恳请大家点赞收藏支持:)

一、引言

在遥感领域,地球视觉研究通常侧重于地理对象的位置和类别的提取,但在复杂的场景中,对象间关系和综合推理往往被忽略。这就好比只看到了树木,却没注意到整个森林的结构。基于城市规划的需求,我们提出了一个多模态多任务视觉问答(VQA)数据集——EarthVQA,以推动基于关系推理的城市和乡村治理应用。

数据集简介

EarthVQA 数据集包含 6000 幅高分辨率遥感图像、相应的语义掩码以及 208,593 对问答对,这些问答与城市和农村治理要求紧密相关,涵盖从简单判断、计数到复杂关系分析的多种任务。我们还提出了一个对象感知的语义框架(SOBA),以对象为中心来提升 VQA 性能。

二、视觉问答和数据集设计

2.1 EarthVQA 数据集

EarthVQA 数据集扩展自 LoveDA 数据集,包含南京、常州和武汉的 18 个城市和乡村区域。为了满足城市规划的实际需求,我们对 LoveDA 进行了三个重要的改进:

  1. 数量扩展:数据集增加到 6000 幅遥感图像,包括 8 个城市和 5 个农村样本。

  2. 标签细化:添加了“操场”类并修正了一些语义标签的错误。

  3. QA 对的增加:增加了 208,593 对与城市规划相关的问答对,例如每张城市图像有 42 个问题,每张农村图像有 29 个问题。

图 1 展示了 EarthVQA 数据集中城市和乡村的示例,问题主要涉及城市规划需求,如判断、计数、对象状况分析和综合分析。这些多模态、多任务的数据集对对象关系推理和知识总结提出了新的挑战。

2.2 标注过程和问题统计

        

如图 2 所示,EarthVQA 数据集中的问题类型包含基础判断、关系推理、对象状况分析等。在标注过程中,为了保证答案的准确性,我们采用了 ArcGIS 工具来计算多边形之间的距离。例如,对于问题“学校附近是否有交叉路口?”,通过判断道路之间的拓扑关系,最终给出答案“是”。

问题的统计

图 2(b) 展示了不同问题类型的分布情况。城市和乡村场景在问题上保持平衡,消除了地理统计上的偏差。例如,基础问题包含某种类型对象的统计与推断,如“这片森林的面积是多少?”,而关系推理问题则需要对不同对象之间的关系进行语义或空间推理。

答案的统计

图 2(c) 展示了前 15 个最常见的答案分布。与常见的 VQA 数据集类似,答案的分布不均衡,这为地球环境中的实际应用带来了更多挑战。

三、语义对象感知框架(SOBA)

3.1 深度语义分割用于视觉特征

为了在高分辨率的城市场景中进行高效的关系推理,我们设计了 SOBA 框架,包含两个阶段的训练:

  1. 语义分割网络训练:用于生成视觉特征和伪掩码。

  2. 混合注意力训练:用于推理和回答问题。

对于输入图像,我们使用编码器输出作为视觉特征。与现有基于 Faster-RCNN 的算法相比,我们采用了像素级的视觉特征来保留对象内部的位置信息和语义细节,这有助于对高分辨率场景中的紧凑对象进行精确建模。

3.2 基于对象感知的混合注意力机制

混合注意力机制由三个部分组成:

  1. 对象引导注意力(OGA):通过动态加权增强视觉特征。

  2. 视觉自注意力(VSA):用于捕捉地理对象之间的远距离关系。

  3. 双向交叉注意力(BCA):通过双向融合机制进行多模态特征的交互,如图 3 所示。

对象引导注意力显式地使用分割输出的对象语义,增强视觉特征的表达。在处理包含多个对象的遥感场景时,这种方法能显著提高模型对目标的感知能力。

注意力机制的 Tensor 形状变化

3.3 数值差异损失(ND Loss)

VQA 任务中包含分类和回归(对象计数)问题。然而,现有的方法通常将回归任务视为多分类任务,使用交叉熵损失(CE)来处理。这种方式对数值差异不敏感,不适合回归任务。因此,我们提出了数值差异损失(ND Loss),以增强回归任务的性能

数值差异损失通过在原始交叉熵损失上增加一个差异惩罚因子来实现,对预测值和真实值之间的差异进行动态惩罚。损失函数形式如下:

 

通过 ND 损失,我们将分类和回归目标统一到一个优化框架中。 控制回归任务相对于分类任务的整体惩罚, 则决定回归惩罚对数值差异的敏感性。通过合理调节这两个参数,模型可以在处理回归任务时更加精确,从而提高整体 VQA 性能。

四、实验结果

4.1 比较实验

在 EarthVQA 数据集上,我们对比了多种现有的 VQA 方法(如 SAN、MAC、BLIP-2 等)。实验结果表明,SOBA 框架在整体性能上优于其他先进方法,尤其是在包含多个对象的复杂推理任务中表现出色。

例如,表 1 中的结果显示,与高分辨率的视觉特征相比,SOBA 在计数任务上的准确度明显更高。这是因为语义位置提供了更多的空间细节,帮助模型更好地理解对象之间的关系。

表 2 展示了不同方法在各个任务上的具体表现。与现有的方法相比,SOBA 框架在所有任务上均取得了明显的提升,尤其在关系推理任务上,性能提升最为显著。这得益于双向交叉注意力机制和对象感知的混合注意力机制,使得模型能够更好地理解地理对象之间的关系

4.2 模块分析

我们对 SOBA 进行了模块分析,将其分为五个子模块:VSA、BCA、语义特征、OGA 和 ND 损失。每个模块对整体性能都有显著的提升,其中 BCA 提供了最显著的改进,两个注意力模块共同提升了准确率。

图 4 展示了各模块对整体性能的影响。在去除 VSA 或 BCA 模块后,模型的性能均有显著下降,尤其在复杂推理任务中。相比之下,ND 损失对回归任务(如对象计数)的影响最为显著,表明其在处理数值差异问题上的有效性。

4.3 双向交叉注意力的可视化

为了分析多模态特征交互的机制,我们可视化了 BCA 中每一层的注意力图,如图 6 所示。在回答“场景中有多少个交叉路口?”的问题时,注意力图最初聚焦于错误的道路和操场,但随着层数的加深,BCA 成功推理出关键道路之间的空间关系。

通过这些注意力图的可视化,我们可以更直观地看到模型如何逐步聚焦于相关的特征区域,这种层次化的注意力机制使得模型在处理复杂的地理关系时表现得更为智能。

五、总结与未来工作

为了超越信息的提取,我们将 VQA 引入了遥感场景的理解中,实现了基于关系推理的能力。通过设计多模态、多任务的 VQA 数据集 EarthVQA,以及对象感知的 SOBA 框架,我们在复杂遥感场景中展示了强大的推理能力。

未来的工作将探索分割任务与 VQA 任务之间的深度交互,进一步提升地球视觉的智能化水平。我们相信,通过不断优化这些机制,未来遥感技术将在地球信息的理解和分析中发挥重要作用,特别是在城市规划、环境监测和资源管理等方面,将会展现出更加广阔的应用前景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2232222.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

总结拓展十五:SAP物料分割评估

一、概述 在SAP中,物料的分割评估是指,对同一个物料做不同的价值设置。即,根据不同的条件,核算其价格及记录价格的相关属性。 二、物料主数据设置 1、物料主数据-会计1视图 只有价格控制“V”可以分割评估。 2、设置评估类型…

ai翻唱部分步骤

模型部署 我是用的RVC进行的训练,也可以使用so-vits-svc。 通过百度网盘分享的文件:RVC-beta 链接:https://pan.baidu.com/s/1c99jR2fLChoqUFqf9gLUzg 提取码:4090 以Nvida显卡为例,分别下载“RVC1006Nvidia”和…

[综述笔记]Deep learning for brain disorder diagnosis based on fMRI images

论文网址:Deep learning for brain disorder diagnosis based on fMRI images - ScienceDirect 英文是纯手打的!论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误,若有发现欢迎评论指正!文章偏向…

HarmonyOS:UIAbility组件概述

一、概述 UIAbility组件是一种包含UI的应用组件,主要用于和用户交互。 UIAbility的设计理念: 原生支持应用组件级的跨端迁移和多端协同。支持多设备和多窗口形态。 UIAbility划分原则与建议: UIAbility组件是系统调度的基本单元&#xff0c…

jeecgbootvue2菜单路由配置静态文件夹(public)下的html

需求:想要在菜单配置src/assets/iconfont/chart.html显示页面(目的是打包上线以后运维依然可以修改数据) 官网没有相关数据:菜单配置说明 JeecgBoot 开发文档 看云 问题现象: 我把文件放在src/assets/iconfont/chart.html然后在vue中作为 iframe 的 src 属性&am…

【Vue框架】基础语法练习(1)

其实更多知识点已经在Vue.js官网十分清楚了,大家也可以去官网进行更细节的学习 https://cn.vuejs.org/ 说明:目前最新是Vue3版本的,但是Vue2已经深得人心,所以就是可以支持二者合用。它们最大的区别就是Vue3是组合式API&#xf…

爬虫学习4

from threading import Thread#创建任务 def func(name):for i in range(100):print(name,i)if __name__ __main__:#创建线程t1 Thread(targetfunc,args("1"))t2 Thread(targetfunc, args("2"))t1.start()t2.start()print("我是诛仙剑")from …

qt QScrollArea详解

1、概述 QScrollArea是Qt框架中的一个控件,它提供了一个可滚动的视图区域,用于显示超出视图大小的内容。这个控件非常有用,尤其是在处理大型表格、文本区域、图像集合或任何需要滚动浏览的内容时。QScrollArea本身不直接显示内容&#xff0c…

【ChatGPT】搜索趋势分析

【ChatGPT】搜索趋势分析 为了分析 ChatGPT 在过去一年的流行趋势,我们可以查看 Google Trends 的数据 安装依赖pytrends pip install pytrends运行以下 Python 脚本 import pandas as pd import matplotlib.pyplot as plt from pytrends.request import TrendR…

Mac如何实现高效且干净的卸载应用程序

使用Mac卸载应用程序,你还在使用废纸篓这个办法吗,看不见卸载了什么,看不见清理了多少,真的不会有残留吗 XApp Mac上的卸载专家,强大的垃圾逻辑检测,垃圾扫描更全面,卸载更干净 使用简单&#…

安科瑞AMB400分布式光纤测温系统解决方案--远程监控、预警,预防电气火灾

安科瑞戴婷 可找我Acrel-Fanny 安科瑞AMB400电缆分布式光纤测温具有多方面的特点和优势: 工作原理: 基于拉曼散射效应。激光器产生大功率的光脉冲,光在光纤中传播时会产生散射。携带有温度信息的拉曼散射光返回光路耦合器,耦…

GitHub上传自己的项目

目录 一、安装Git插件 1)下载 2)安装 二、创建Gothub的创库 三、通过Git上传本地文件到Github 四、其他 1、部分指令 2、如果已经运行过git init并设置了[user],下次可以直接用 一、安装Git插件 1)下载 下载地址&#x…

Spring Boot框架

一.SpringBoot简介 1.1 设计初衷 目前我们开发的过程当中,一般采用一个单体应用的开发采用 SSM等框架进行开发,并在 开发的过程当中使用了大量的xml 等配置文件,以及在开发过程中使用MAVEN的构建工具来进 行构建项目,但是往往有…

【C++】vector 类深度解析:探索动态数组的奥秘

🌟快来参与讨论💬,点赞👍、收藏⭐、分享📤,共创活力社区。 🌟 如果你对string类还存在疑惑,欢迎阅读我之前的作品 : 👉【C】string 类深度解析:…

windows——病毒的编写

声明 学习视频来自B 站up主泷羽sec,如涉及侵权马上删除文章。 笔记的只是方便各位师傅学习知识,以下网站只涉及学习内容,其他的都与本人无关,切莫逾越法律红线,否则后果自负。 windows基础 我们学习了前面的window…

STM32 + CubeMX + 硬件SPI + W5500 +UDP

这篇文章记录一下STM32W5500UDP的调试过程,实现UDP数据的接收与发送。 目录 一、W5500模块介绍二、Stm32CubeMx配置三、Keil代码编写1、添加W5500驱动代码到工程(添加方法不赘述,驱动代码可以在官网找)2、在工程中增加代码&#…

原来大佬的测试用例都是这样写的...

1、测试点与测试用例 测试点不等于测试用例,这是我们首先需要认识到的。 问题1:这些测试点在内容上有重复,存在冗余。 问题2:一些测试点的测试输入不明确,不知道测试时要测试哪些。 问题3:总是在搭相似…

【论文解读】Med-BERT: 用于疾病预测的大规模结构化电子健康记录的预训练情境化嵌入

【论文解读】Med-BERT: 用于疾病预测的大规模结构化电子健康记录的预训练情境化嵌入 Med-BERT:pretrained contextualized embeddings on large-scale structured electronic health records for disease prediction ​ ​ 摘要:基于电子健康记录(EHR)的深度学习(DL)预…

天锐绿盾加密软件与Ping32 — 数据安全与性能优化的完美结合

在数字化时代,企业对数据安全的重视程度日益增加。随着网络攻击和数据泄漏事件频发,选择合适的安全解决方案显得尤为重要。天锐绿盾与Ping32作为两款备受推崇的安全软件,各自为企业提供了独特的功能和优势,共同为企业的数据安全和…

随身WiFi三网切换靠谱吗?格行随身WiFi网速怎么样?

出门在外手机流量不够用,连接公共WIFI网速不稳定还存在安全隐患。小巧便携的随身WIFI成了外出用网的首选。面对市面上不同品牌,不同类型的随身WIFI不少朋友不免心生疑问:随身WIFI到底值不值得买?究竟是不是“智商税”?…