【SITS_CC】卫星图像时间序列的变化字幕(IEEE GRSL)

news2025/1/21 18:54:15

摘要

  • Satellite images time series (SITS) 提供了一种有效的方法来同时获取地球上观测区域的时间和空间信息。然而,传统的遥感CD方法的输出是二进制图或语义变化图,往往难以被最终用户解释,传统的遥感图像变化字幕方法只能描述双时图像。
  • 提出了SITS_CC,它不仅识别了SITS中的变化区域,而且用自然语言描述变化。不幸的是,无可用的SITS训练数据集。为了解决这些问题,本文只利用双时态遥感图像变化字幕训练数据,而不是SITS_CC训练数据。在实际测试数据集上的实验结果证明了该方法的有效性,在所有指标上都取得了更好的性能。所观察到的改善幅度超过了20%。
  • 论文链接:Change Captioning for Satellite Images Time Series | IEEE Journals & Magazine | IEEE Xplore
  • 代码链接:GitHub - Crueyl123/SITSCC: SITSCC:Change Caption for Satellite Images Time Series

动机

之前的相关工作都没有涉及到SITS的变化字幕。本文提出一种新的SITS的变化字幕方法,目前,缺乏SITS变化字幕的训练数据集,并且对注释一个这样的数据集耗时耗力。因此,关键问题是如何在一个新的框架下完成本文的任务。

目前只有少量可用的双时态遥感图像变化字幕,SITS变化字幕任务通常是指描述几个到几十个图像之间的变化。因此,第二个问题是如何利用SITS中的时间依赖相关性来增强生成的变化字幕的逻辑性。

基于广泛的实验观察,对SITS变化描述与时间项严重纠缠,并构成明显的时间依赖特征。提供了一个明确的方向,使用现有相邻图像之间的变化字幕来训练本文的模型,然后,通过特殊的时间依赖相关正则化,合并非相邻的时间信息,并在SITS中保持时间特征。

方法

SITS_CC网络结构如下:

  • A. Feature Extractor
    • 利用CNNs提取抽象特征,以保留SITS中包含的光谱空间信息。
    • 使用改进的ResNet-101架构作为从SITS中提取图像特征的骨干,通过调整池化层,可以保留大部分图像信息,同时适应不同的输入大小,从而确保后续处理的空间大小保持一致。输出表示为Fi (i = 0, 1, 2, . . . )。
  • B. Temporal Encoder
    • 使用时间编码器模块进行位置嵌入和特征融合(FF)。
    • 1) Position Embedding
      • 使用二维位置嵌入给模型纳入空间信息,增强模型对 SITS数据的时空理解。
      • 在字幕解码器中使用正弦和余弦函数对词序列进行位置嵌入。
      • 为此,在三个位置重塑特征:
        • 来自CNN主干的特征图在进行特征处理前被重新排列为:(H,W,d) →(H×W,d);
        • 将CNN主干输出序列 F i (i = 0, 1, 2, . . . )重新排列为:(H×W,d)→(H,W,d)
        • 在输入transformer解码器之前,重新 排列为:(H,W,d) →(H×W,d)
      • 位置嵌入表示如下:{F}'_i=F_i+F_{pos}
    • 2) Differential Representation
      • SITS图像通常由几张甚至几十张图像组成。这些图像之间的变化往往是不连续的,相邻图像之间可能存在显著差异,影响了整体分析。此外,由于训练数据集只包含成对的双时态遥感图像,最初的重点是如何捕获相邻图像之间的差异。
      • DR模块产生差异表示 F_{dif|t_i}(i=0,1,2,...)捕捉和识别图像在多个时间上的多个变化。为了捕获相邻图像之间的差异,探索三种方法生成 F_{dif|t_i}(i=0,1,2,...)
        • 作差:降低了图像特征的独特性。
        • 作差加绝对值:忽略了图像之间的时间序列特征。
        • F_{dif|t_i}=RELU(Conv([F_{t_{i+1}}-F_{t_i};F_{t_i}])):本文使用这种方法改善前两种方法的不足之处。
    • 3) Feature Fusion
      • 获得差异特征之后,使用FF模块来获得更好的高级语义特征表示,揭示多个变化。
      • 用交叉注意力机制代替transformer编码层种的自注意力机制,使得FF模块有效的捕获和结合不同的差异特征,同时保持跨空间和时间维度的上下文信息。Q来自单一时态图像特征,K和V来自差异特征。
      • 为了融合这些不同的增强的差异特征Feni(i = 0,1,2,……)来获得对SITS变化的描述,提出了三种融合策略:
        • 直接相加:根据观察在同一地方的变化倾向于遵循固定的趋势,如扩张或消失。但是,当 SITS相同空间位置变化表现出周期性时,该方法就不适用。例如图3(a),草地在时间t1和t2之间逐渐消失,在t3和t4之间逐渐恢复。当采用此策略,这组SITS数据的输出不涉及任何变化,与事实相反。即采用此方法时,中间变化过程会被抵消。
        • 直接连接:对频繁变化的情况表现良好,因为它考虑了跨整个时间序列的变化,并充分利用了时间信息。但是如图3(b),在SITS数据上不可行,在t0-t3图像没有变化,但在t3和t4的最后一幅图像出现了显著变化,很明显,这种融合策略生成的输出句子不能正确描述时间t3和t4之间某些建筑物的外观。这一缺陷源于这种策略对 SITS内的所有图像不加选择地处理,可能忽略了某些重大变化。
        • 按时间顺序按比例连接:例如图3用绿色标记输出句子,表明该策略是有效的。具体策略如下:如果在ti和ti+1的两个相邻图像之间没有检测到显著变化,则变化的特征信息按比例减少,然后连接到下一个重要特征信息。这种策略保证了来自之前和后续图像的特征信息的保留,同时促进了差异信息的获取。如图3所示,策略3有效地缓解了前两种策略所造成的缺陷。
        • ​​​​​​​​​​​​​​
  • C. Caption Decoder
    • ​​​​​​​​​​​​​​ 使用标准的transformer解码器对结果进行解码和输出,以生成描述的句子。

实验

Experimental Data

  • 训练集和验证集:使用LEVIR-CC数据集中的训练集和验证集。具体来说,复制一组双时态图像,获得四张图像,类似一组SITS。输出包含三种类型的句子:unchanged, change description, and unchanged。
  • 测试集:测试数据集由从Google Earth中提取的150个SITS组成。每个SITS包含5张图像,每张图像大小为512×512像素。这些SITS的时间跨度为15-25年,主要场景包括草地、居民区等,由一个专家对每个SITS序列标注一个注释句子,这个句子总结了在现场中发生的人类活动所引起的主要变化,作为参考句子,用于评价。

Experimental Analysis

Discussion

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1789776.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

湖南(品牌定位)源点咨询 企业如何选择品牌定位差异化调研

湖南源点认为:精准且占据消费者认知,探寻与消费者共鸣的常态化品牌定位调研是企业品牌长远健康发展的基石。 品牌定位里要强调品牌的差异。英文是point of difference. 这个差异点就是强调品牌能带来的利益(benefit)。 这个“利…

C++编程:模板初阶

目录 一、泛型编程 1、通用版交换函数的实现: 2、模板的引入 二、函数模板 1、函数模板的定义和使用 2、函数模板的实例化 三、类模板 1、类模板的定义和实例化 模板是C的一项强大特性,犹如中国古代四大发明中的活字印刷术与造纸术融为一体一般&a…

【学习】测试用例设计与执行的黄金法则

在软件测试领域,测试用例的设计与执行是确保产品质量的关键环节。一个优秀的测试用例能够揭示软件中的缺陷,而高效的执行则能保障测试覆盖的全面性。如同璀璨的星辰指引航船前行,以下黄金法则将引领测试用例设计与执行的过程,确保…

uniapp内置的button组件的问题

问题描述 由于想要使用uniapp内置button组件的开放能力,所以就直接使用了button,但是他本身带着边框,而且使用 border:none;是没有效果的。 问题图片 解决方案 button::after {border: none;} 正确样式 此时的分享…

2024 年该如何利用 MidJourney 创作AI艺术(详细教程)

什么是 Midjourney Midjourney 是根据文本提示创建图像的生成式人工智能的优秀范例。与 Dall-E 和 Stable Diffusion 一样,它已成为最受欢迎的人工智能艺术创作工具之一。与竞争对手不同的是,Midjourney 是自筹资金和封闭源代码的,因此对它的…

Java并发核心问题以及并发三特性原子性、可见性、有序性

这篇文章比较长,请耐心看完,相信会让你对并发三大特性有一个较深的理解。 1.原子性(Atomicity) 1.1 原子性定义以及理解 即一个操作或者多个操作,要么全部执行并且执行的过程不会被任何因素打断,要么就都不执行。 一个很经典的…

C/C++学习笔记 C读取文本文件

1、简述 要读取文本文件,需要按照以下步骤操作: 首先,使用该函数打开文本文件fopen()。其次,使用fgets()或fgetc()函数从文件中读取文本。第三,使用函数关闭文件fclose()。 2、每次从文件中读取一个字符 要从文本文…

康谋技术 | 自动驾驶:揭秘高精度时间同步技术(一)

众所周知,在自动驾驶中,主要涵盖感知、规划、控制三个关键的技术层面。在感知层面,单一传感器采集外界信息,各有优劣,比如摄像头采集信息分辨率高,但是受外界条件影响较大,一般缺少深度信息&…

谢宁DOE培训的奇妙之旅:从陌生到熟练

在充满挑战与机遇的现代社会,不断提升自我,掌握新的技能和知识,成为了我们追求进步的重要途径。而对于我来说,参加谢宁DOE培训,无疑是我职业生涯中的一次重要抉择。这次培训让我从对谢宁DOE陌生到熟练,经历…

csrf漏洞与ssrf漏洞

环境:用kali搭建的pikachu靶场 一.CSRF 1.CSRF漏洞简介 跨站请求伪造(CSRF)漏洞是一种Web应用程序安全漏洞,攻击者通过伪装成受信任用户的请求来执行未经授权的操作。这可能导致用户在不知情的情况下执行某些敏感操作&#xff0…

【python深度学习】——torch.einsum|torch.bmm

【python深度学习】——torch.einsum|torch.bmm 1. 基本用法与示例2. torch.bmm 1. 基本用法与示例 基本用法: torch.einsum(equation, *operands)equation: 一个字符串,定义了张量操作的模式。 使用逗号来分隔输入张量的索引,然后是一个箭头&#xff…

38. 【Java教程】日期和时间处理

本小节我们将学习 Java 中的日期和时间,日期和时间在我们的实际开发中非常常用,例如用户的注册、数据的增删改、对敏感信息的操作等等都需要记录下日期和时间。通过本小节的学习,你将了解到什么是日期、什么是时间、什么是时区,Ja…

ru域名如何申请ssl证书

SSL证书是一种数字证书,通过它可以在客户端和服务器之间建立加密通道,保证数据在传输过程中的安全性。对于.ru域名来说,申请SSL证书可以有效提升网站的安全性,增强用户对网站的信任度,提高网站的排名和权重。今天就随S…

计算机网络 —— 数据链路层(VLAN)

计算机网络 —— 数据链路层(VLAN) 什么是VLAN为什么要有VLANVLAN如何实现IEEE 802.1Q 我们今天来看VLAN: 什么是VLAN VLAN(Virtual Local Area Network,虚拟局域网)是一种网络技术,它将一个物…

clickhouse学习笔记(一)入门与安装

目录 一 、入门 简介 核心特性包括 1.1 列式存储 1.2 原生压缩 1.3 向量化执行引擎 1.4 DBMS 功能 1.5 分布式处理 1.6 高吞吐写入能力 1.7 实时分析 1.8 SQL支持 1.9 高度可扩展 1.10 数据分区与线程级并行 1.11 应用场景 1.12 不适用场景 二、ClickHouse单机版…

LabVIEW中PID控制器系统的噪声与扰动抑制策略

在LabVIEW中处理PID控制器系统中的噪声和外部扰动,需要从信号处理、控制算法优化、硬件滤波和系统设计四个角度入手。采用滤波技术、调节PID参数、增加前馈控制和实施硬件滤波器等方法,可以有效减少噪声和扰动对系统性能的影响,提高控制系统的…

View->可拖拽滑动的ImageView + Fling惯性滑动效果 + 回弹效果

XML文件 <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"android:layout_width"match_parent"android:layout_height"match_parent"android:o…

牛客热题:矩阵最长递增路径

&#x1f4df;作者主页&#xff1a;慢热的陕西人 &#x1f334;专栏链接&#xff1a;力扣刷题日记 &#x1f4e3;欢迎各位大佬&#x1f44d;点赞&#x1f525;关注&#x1f693;收藏&#xff0c;&#x1f349;留言 文章目录 牛客热题&#xff1a;矩阵最长递增路径题目链接方法一…

铸铁机械5G智能工厂工业物联数字孪生平台,推进制造业数字化转型

铸铁机械5G智能工厂工业物联数字孪生平台&#xff0c;推进制造业数字化转型。工业物联数字孪生平台以5G技术为基础&#xff0c;通过工业物联网连接铸铁机械生产过程中的各个环节&#xff0c;运用数字孪生技术构建虚拟工厂&#xff0c;实现生产过程的实时监测、模拟与优化&#…

人工智能期末复习

&#x1f4cd;人工智能概论期末复习✔️ 知识表示与知识图谱⭐⭐ 知识的特性 相对正确性 不确定性 可表示性与可利用性 知识表示 将人类知识形式化或者模型化。 选择知识表示方法的原则 &#xff08;1&#xff09;充分表示领域知识。 &#xff08;2&#xff09;有利于对…