字幕的变化:一个用于遥感变化字幕的关注网络
IEEE Transactions on Image Processing
Shizhen Chang, Pedram Ghamisi
2023
摘要:近年来,高级研究集中在使用自然语言处理(NLP)技术对遥感图像进行直接学习和分析。准确描述多时相遥感图像变化的能力对于地理空间理解和土地规划越来越重要。与自然图像变化字幕任务不同,遥感变化字幕旨在捕捉最显著的变化,而不考虑照明、季节效应和复杂的土地覆盖等各种影响因素。在这项研究中,我们强调了准确描述遥感图像变化的重要性,并对自然图像、合成图像和遥感图像的变化字幕任务进行了比较。为了应对生成准确字幕的挑战,我们提出了一种对字幕网络的注意改变,简称Chg2Cap,用于双时态遥感图像。网络包括三个主要组件:1)基于暹罗CNN的特征提取器,用于收集每个图像对的高级表示;2) 关注编码器,包括用于定位变化相关特征的分层自关注块和用于生成图像嵌入的残差块;以及3)基于变换器的字幕生成器,用于将图像嵌入和单词嵌入之间的关系解码为描述。在两个具有代表性的遥感数据集上对所提出的Chg2Cap网络进行了评估,并提供了全面的实验分析。代码和预先培训的模型将在线提供,网址为https://github.com/ShizhenChang/Chg2Cap.
论文意义:
由于光照强度、方向和季节效应的变化,导致遥感图像对在视觉上是不同的。这使得在为遥感图像设计有效的改变字幕网络时,有必要考虑由采集条件引起的图像对的原始特征之间的分布间隙。例如,两张遥感图像之间的时间间隔可以是几个月或几年,而自然图像通常是在短时间内收集的。
在遥感数据中,变化场景的字幕更为复杂。与自然图像相比,遥感图像需要对变化进行更稳健和准确的描述。无论土地覆盖的复杂分布如何,遥感图像的字幕生成网络都必须生成对变化的准确描述。
遥感图像中的物体比自然图像中的更难区分。由于遥感图像是在高海拔垂直拍摄的,遥感图像中的大部分三维信息,如颜色、高度和纹理,都被压缩成地球表面的二维信息。这使得识别物体的种类变得更加困难。因此,变化字幕网络需要对没有高度和其他细节的土地覆盖变化信息敏感。
变化字幕可以更好地了解城市规划。遥感技术与地理解释密切相关,而变化字幕网络可以帮助研究人员通过适当的文本描述和语义特征来增加感兴趣区域的地理信息。关注变化的标题可以帮助人们直观地看到场景的哪一部分被移除或开发,从而省去城市规划者评估和分析的工作量。此外,遥感变化字幕网络需要适合感兴趣的地理变化的描述,同时忽略不相关的干扰。
方法总体概述
为了对遥感双时态图像生成精确的变化描述,我们提出了一种基于注意力机制的字幕网络变化,称为Chg2Cap。Chg2Cap体系结构包括编码器-解码器框架,其特征在于分层自注意力和集成到注意力编码器中的残差块。通过堆叠自注意机制,网络获得了分层捕获深层特征帧间和帧内信息的能力。利用余弦掩模增强的残差块有助于增强检索到的特征对之间的一致性和不一致性。此外,我们改进了具有残差连接的基于转换器的字幕生成器,以保留局部信息并逐步解码特征嵌入
所提出的Chg2Cap方法的总体框架由(a)基于CNN的特征提取器,(b)由N个分层自注意(HSA)块和残差块(ResBlock)堆栈组成的注意编码器,以及(c)字幕生成器构成
分层自注意(HSA)块的可视化。每个图像的深层特征最初通过具有共享注意力权重的双自关注单元(由橙色虚线框起来)。然后,在传递到联合自注意单元(用灰色虚线框起来)之前,将得到的特征与剩余连接连接起来。最后,得到了分层自检索的特征对。
字幕生成器的可视化。为了在本地保留输入标记的信息,将单词嵌入的残差连接引入到原始的基于变换器的解码器中。
代码位置:
考虑到遥感图像与常规自然图像相比的独特性,我们强调为遥感图像设计适当的变更字幕方法的重要性和必要性。通过从自然和合成图像数据集以及遥感数据集中选择的代表性例子,我们强调了遥感图像对的独特特征。此外,我们强调了在遥感中应用变化字幕对更好地理解地理信息的潜在意义。
提出了Chg2Cap方法,该方法利用注意力编码器和基于transformer的解码器生成遥感变化字幕。注意编码器通过分层自注意块捕获帧间和帧内信息,并利用残差块增强一致性和不一致性特征。
全面比较和分析图像特征表示和字幕生成阶段的注意力机制。通过进行系统的参数分析和评估不同的网络设置,提供了一些见解,可以启发研究人员设计更合适的模型,并充分利用双时态特征。
达到效果:
D.H.表示关注编码器中HSA块的深度,D.T.表示字幕解码器中变换器的深度。所有分数以%为单位报告,最佳结果以粗体突出显示。
Chg2Cap在迪拜CC数据集中生成的可视化图像嵌入和变化字幕示例。
Chg2Cap在LEVIR-CC数据集中生成的可视化图像嵌入和更改字幕示例。
为了准确描述多时相遥感图像的变化情况,提出了一种新的用于遥感变化字幕的注意力网络,简称Chg2Cap。基于CNN的特征提取器、由分层自注意块和ResBlock组成的注意编码器以及字幕解码器构成,该特征提取器使用预先训练的ResNet-101作为主干。在Dubai CC和LEVIRCC两个公共遥感数据集上进行了评估,与遥感变化字幕方法和自然图像变化字幕方法相比,该方法取得了优异的性能。该方法可以在未来进一步扩展和优化,以解决更复杂的更改字幕任务,并实现更好的性能。