Changes to Captions: An Attentive Network forRemote Sensing Change Captioning

news2024/11/26 10:03:47

字幕的变化:一个用于遥感变化字幕的关注网络

IEEE Transactions on Image Processing 
Shizhen Chang, Pedram Ghamisi
2023

摘要:近年来,高级研究集中在使用自然语言处理(NLP)技术对遥感图像进行直接学习和分析。准确描述多时相遥感图像变化的能力对于地理空间理解和土地规划越来越重要。与自然图像变化字幕任务不同,遥感变化字幕旨在捕捉最显著的变化,而不考虑照明、季节效应和复杂的土地覆盖等各种影响因素。在这项研究中,我们强调了准确描述遥感图像变化的重要性,并对自然图像、合成图像和遥感图像的变化字幕任务进行了比较。为了应对生成准确字幕的挑战,我们提出了一种对字幕网络的注意改变,简称Chg2Cap,用于双时态遥感图像。网络包括三个主要组件:1)基于暹罗CNN的特征提取器,用于收集每个图像对的高级表示;2) 关注编码器,包括用于定位变化相关特征的分层自关注块和用于生成图像嵌入的残差块;以及3)基于变换器的字幕生成器,用于将图像嵌入和单词嵌入之间的关系解码为描述。在两个具有代表性的遥感数据集上对所提出的Chg2Cap网络进行了评估,并提供了全面的实验分析。代码和预先培训的模型将在线提供,网址为https://github.com/ShizhenChang/Chg2Cap.

论文意义:

        由于光照强度、方向和季节效应的变化,导致遥感图像对在视觉上是不同的。这使得在为遥感图像设计有效的改变字幕网络时,有必要考虑由采集条件引起的图像对的原始特征之间的分布间隙。例如,两张遥感图像之间的时间间隔可以是几个月或几年,而自然图像通常是在短时间内收集的。

        在遥感数据中,变化场景的字幕更为复杂。与自然图像相比,遥感图像需要对变化进行更稳健和准确的描述。无论土地覆盖的复杂分布如何,遥感图像的字幕生成网络都必须生成对变化的准确描述。

        遥感图像中的物体比自然图像中的更难区分。由于遥感图像是在高海拔垂直拍摄的,遥感图像中的大部分三维信息,如颜色、高度和纹理,都被压缩成地球表面的二维信息。这使得识别物体的种类变得更加困难。因此,变化字幕网络需要对没有高度和其他细节的土地覆盖变化信息敏感。

        变化字幕可以更好地了解城市规划。遥感技术与地理解释密切相关,而变化字幕网络可以帮助研究人员通过适当的文本描述和语义特征来增加感兴趣区域的地理信息。关注变化的标题可以帮助人们直观地看到场景的哪一部分被移除或开发,从而省去城市规划者评估和分析的工作量。此外,遥感变化字幕网络需要适合感兴趣的地理变化的描述,同时忽略不相关的干扰。

方法总体概述
        为了对遥感双时态图像生成精确的变化描述,我们提出了一种基于注意力机制的字幕网络变化,称为Chg2Cap。Chg2Cap体系结构包括编码器-解码器框架,其特征在于分层自注意力和集成到注意力编码器中的残差块。通过堆叠自注意机制,网络获得了分层捕获深层特征帧间和帧内信息的能力。利用余弦掩模增强的残差块有助于增强检索到的特征对之间的一致性和不一致性。此外,我们改进了具有残差连接的基于转换器的字幕生成器,以保留局部信息并逐步解码特征嵌入

所提出的Chg2Cap方法的总体框架由(a)基于CNN的特征提取器,(b)由N个分层自注意(HSA)块和残差块(ResBlock)堆栈组成的注意编码器,以及(c)字幕生成器构成

分层自注意(HSA)块的可视化。每个图像的深层特征最初通过具有共享注意力权重的双自关注单元(由橙色虚线框起来)。然后,在传递到联合自注意单元(用灰色虚线框起来)之前,将得到的特征与剩余连接连接起来。最后,得到了分层自检索的特征对。

字幕生成器的可视化。为了在本地保留输入标记的信息,将单词嵌入的残差连接引入到原始的基于变换器的解码器中。

代码位置:

        考虑到遥感图像与常规自然图像相比的独特性,我们强调为遥感图像设计适当的变更字幕方法的重要性和必要性。通过从自然和合成图像数据集以及遥感数据集中选择的代表性例子,我们强调了遥感图像对的独特特征。此外,我们强调了在遥感中应用变化字幕对更好地理解地理信息的潜在意义。

        提出了Chg2Cap方法,该方法利用注意力编码器和基于transformer的解码器生成遥感变化字幕。注意编码器通过分层自注意块捕获帧间和帧内信息,并利用残差块增强一致性和不一致性特征。

        全面比较和分析图像特征表示和字幕生成阶段的注意力机制。通过进行系统的参数分析和评估不同的网络设置,提供了一些见解,可以启发研究人员设计更合适的模型,并充分利用双时态特征。

达到效果:

D.H.表示关注编码器中HSA块的深度,D.T.表示字幕解码器中变换器的深度。所有分数以%为单位报告,最佳结果以粗体突出显示。

Chg2Cap在迪拜CC数据集中生成的可视化图像嵌入和变化字幕示例。

Chg2Cap在LEVIR-CC数据集中生成的可视化图像嵌入和更改字幕示例。

        为了准确描述多时相遥感图像的变化情况,提出了一种新的用于遥感变化字幕的注意力网络,简称Chg2Cap。基于CNN的特征提取器、由分层自注意块和ResBlock组成的注意编码器以及字幕解码器构成,该特征提取器使用预先训练的ResNet-101作为主干。在Dubai CC和LEVIRCC两个公共遥感数据集上进行了评估,与遥感变化字幕方法和自然图像变化字幕方法相比,该方法取得了优异的性能。该方法可以在未来进一步扩展和优化,以解决更复杂的更改字幕任务,并实现更好的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1206303.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Origin:科研绘图与学术图表绘制从入门到精通

文章目录 一、引言二、安装和启动Origin三、创建和保存图表四、深入学习Origin绘图功能五、应用Origin进行科研绘图和学术图表绘制六、总结与建议《Origin科研绘图与学术图表绘制从入门到精通》亮点内容简介作者简介目录获取方式 一、引言 Origin是一款功能强大的数据分析和科…

家政服务小程序源码系统+上门预约服务 源码完全开源可二次开发 带完整的搭建教程

在互联网的快速发展下,传统的家政服务行业也在逐步向数字化、智能化方向转型。为了满足消费者对于家政服务的高品质需求,罗峰给大家分享一款基于微信小程序的上门预约家政服务系统。该系统采用完全开源的源码系统,可进行二次开发,…

CAD Exchanger SDK 须知的开发配置--Crack

支持的配置 目录 支持的编程语言 C 支持C# 支持Java支持Python支持JavaScript 支持 CAD Exchanger SDK 是一组跨平台库,目前支持下列配置。随着时间的推移,旧版本的编译器、体系结构或依赖的第三方库从主要支持级别变为次要支持级别,然后被弃…

ubuntu利用crontab反弹shell

事情源于自,我利用redis未授权访问漏洞在向ubuntu的/varspool/cron/crontabs目录下创建的任务计划文件去反弹shell时,发现shell并不能反弹到自己的centos2上 (1)在ubuntu中进入/var/spool/cron/crontabs/目录 cd /var/spool/cro…

不应该被忽视的10个好用的PDF文档修改器

您在寻找最好的免费开源 PDF 编辑器吗?您是否正在寻找免费编辑 PDF 文档的解决方案?如果您正在寻找此类问题的答案。那么,亲爱的朋友,您来对地方了,因为今天,在本文中,我将讨论一些适用于 Windo…

2023-2024 年适用于 Windows 电脑的顶级视频录制软件

想捕捉您正在在线观看的视频吗?使用网络摄像头录制视频会议以供日后参考。正在寻找可以完成这些任务的视频捕捉软件?这篇文章说明了一切。以下是一些适用于 Windows PC 的最佳视频录制工具。 什么是视频录制软件? 顾名思义,视频捕…

基于SSM的“镜头人生”约拍网站设计与实现

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:JSP 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目:是 目录…

Python机器学习算法入门教程(第五部分)

接着Python机器学习算法入门教程(第四部分),继续展开描述。 二十五、Python Sklearn库SVM算法应用 SVM 是一种有监督学习分类算法,输入值为样本特征值向量和其对应的类别标签,输出具有预测分类功能的模型&#xff0c…

电脑技巧:推荐基于浏览器的远程桌面访问控制工具

一、软件简介 Getscreen.me是一个基于浏览器的远程桌面访问控制工具,可以轻松地远程访问控制特定设备。并且注册登录账户实现允许设置具有永久访问权限的设备,可以通过一键进行快速连接访问,无需共享 ID、密码或任何内容。 Getscreen.me采用…

C++标准模板(STL)- 类型支持 (受支持操作,检查类型是否拥有未被弃置的析构函数)

类型特性 类型特性定义一个编译时基于模板的结构&#xff0c;以查询或修改类型的属性。 试图特化定义于 <type_traits> 头文件的模板导致未定义行为&#xff0c;除了 std::common_type 可依照其所描述特化。 定义于<type_traits>头文件的模板可以用不完整类型实例…

记录pytorch实现自定义算子并转onnx文件输出

概览&#xff1a;记录了如何自定义一个算子&#xff0c;实现pytorch注册&#xff0c;通过C编译为库文件供python端调用&#xff0c;并转为onnx文件输出 整体大概流程&#xff1a; 定义算子实现为torch的C版本文件注册算子编译算子生成库文件调用自定义算子 一、编译环境准备…

Linux可以投屏到电视吗?用网页浏览器就能投屏到电视!

Linux系统的电脑如果要投屏到安卓电视屏幕上&#xff0c;可以使用投屏工具AirDroid Cast的网页版和TV版一起实现。 首先&#xff0c;在Linux系统的电脑里用chrome浏览器或edge浏览器打开webcast.airdroid.com。这就是AirDroid Cast的网页版。你可以看到中间白色框框的右上角有个…

12358748257

问题一&#xff1a;.浮点数打印问题 float red_increment (target_red_value - initial_red_value) / STEPS; u8 STEPS 100; printf("绿色值每一次增量------%f\n", red_increment); 后面三个参数均为u8类型 希望采用 %f打印出每次的步进值。但是结果为空白 希…

聚观早报 |滴滴发布Q3财报;小鹏G9连续销量排行第一

【聚观365】11月14日消息 滴滴发布Q3财报 小鹏G9连续销量排行第一 XREAL双11实现7倍增长 真我GT5 Pro真机图 2024年智能手机AI功能竞争激烈 滴滴发布Q3财报 滴滴在其官网发布2023年三季度业绩报告。报告显示&#xff0c;三季度滴滴实现总收入514亿元&#xff0c;同比增长…

【Mysql系列】Mysql基础篇

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

YOLOv8-Seg改进:小目标涨点系列篇 | TPC-YOLO-seg不同场景小目标分割均能提升 | 23年顶刊最新成果

🚀🚀🚀本文改进:轻量级的基于注意力的网络 TPC-YOLO-seg用于微小物体分割 🚀🚀🚀TPC-YOLO-seg 小目标分割首选,暴力涨点 🚀🚀🚀YOLOv8-seg创新专栏:http://t.csdnimg.cn/KLSdv 学姐带你学习YOLOv8,从入门到创新,轻轻松松搞定科研; 1)手把手教你如何…

SAP中销售业务的查询修改及冲销操作手册

目的 物流在销售订单发货开票出问题时进行查询分析及处理冲销的相关操作 触发条件 销售业务出现变更导致需要重新做销售或人为错误 必要条件 订单&#xff0c;交货单&#xff0c;发票己完成并过账 有用提示 在实际冲销业务过程中需要去分析&#xff0c;在了解业务的情况下去…

JSP详细

一.JSP简介 JSP&#xff08;全称Java Server Pages&#xff09;java服务器页面。 是一种动态网页技术标准。JSP部署于网络服务器上&#xff0c;可以响应客户端发送的请求&#xff0c;并根据请求内容动态地生成HTML、XML或其他格式文档的Web网页&#xff0c;然后返回给请求者。…

探索高效智能:AI 模型的优化工具盘点 | 开源专题 No.43

openai/evals Stars: 12.3k License: NOASSERTION OpenAI Evals 是一个用于评估 LLMs (大型语言模型) 或使用 LLMs 作为组件构建的系统的框架。它还包括一个具有挑战性 evals 的开源注册表。Evals 现在支持通过 Completion Function Protocol 评估任何系统&#xff0c;包括 p…

代码随想录算法训练营第五十三天丨 动态规划part14

1143.最长公共子序列 思路 本题和动态规划&#xff1a;718. 最长重复子数组 (opens new window)区别在于这里不要求是连续的了&#xff0c;但要有相对顺序&#xff0c;即&#xff1a;"ace" 是 "abcde" 的子序列&#xff0c;但 "aec" 不是 &quo…