Prior Knowledge-Guided Transformer for Remote Sensing Image Captioning
1. 摘要
遥感图像(RSI)字幕生成旨在为遥感图像生成有意义且语法正确的句子描述。然而,相比于自然图像字幕,RSI字幕生成面临着由于RSI特性而产生的额外挑战。第一个挑战源于这些图像中存在大量物体。随着物体数量的增加,确定描述的主要焦点变得越来越困难。此外,RSI中的物体通常外观相似,进一步复杂化了准确描述的生成。为克服这些挑战,我们提出了一种基于先验知识的transformer(PKG-Transformer)用于RSI字幕生成。首先,在多层特征提取(MFE)模块中提取场景级和物体级特征。为进一步细化和增强提取的多层特征,我们引入了特征增强(FE)模块。该模块利用图神经网络和注意机制的组合来捕获不同物体或场景区域之间的相关性和差异。此外,我们提出了一种基于先验知识的注意力增强(PKA)机制,通过建立物体和场景区域之间的关系来选择与场景区域更相关的物体。该注意力机制seamlessly地集成到transformer结构中,提供了有价值的先验知识,促进了字幕生成过程。在三个RSI字幕数据集上的广泛实验验证了该方法的优越性。与基线方法相比,所提出的方法取得了更为出色的性能。该代码将公开在 https://github.com/One-paper-luck/PKG-Transformer 上。
2. 介绍
图像字幕是通过自然语言生成有意义且语法正确的句子来描述图像的任务 [1]、[2]、[3]、[4]。尽管近年来取得了巨大进步,但研究主要集中在现实世界的图像上,远程遥感图像(RSI)的描述仍然很大程度上未被探讨。在本文中,我们进