2023卫星视频综述论文Recent Advances in Intelligent Processing of Satellite Video

1.摘要
2.引言
3. 文章的定量分析
4 难点与挑战
5 方法论系统
- A. 卫星视频观察的特点
- B. 卫星视频目标跟踪与运动估计
- C. 卫星视频目标检测
- D. 卫星视频超分辨率 (VSR)
- E. 卫星视频目标分割（VOS）
- F. 卫星视频场景分类 (SVSC)
- G. 新兴方向
V. 公开数据集和实验结果
- A. 数据集介绍
- A. 交通检测密度估计
- B. 场景监控
- C. 自动构建3D模型
- D. 事件和灾害响应
- E. 土地空间利用监管
- F. 海洋船舶态势感知
VII. 未来展望
VIII. 结论

1.摘要

卫星视频的智能处理侧重于通过智能图像/视频处理技术，从地球观测视频中提取地面对象和场景的特定信息，这在交通监控、资源监控和环境监测等领域具有重要应用。深度学习技术在卫星视频处理中的融合已经在对象检测和对象跟踪等任务上取得了显著进展，并扩展到了卫星视频场景分类和对象分割等新兴研究领域。然而，目前在卫星视频智能处理方面尚缺乏全面的综述和总结。本文对过去十年发表的成果进行了系统综述和定量分析，旨在进一步推动卫星视频智能处理任务的发展。文章分析了各个任务的当前困难、挑战以及方法体系。此外，文章还对每个任务的公开数据集和评估基准进行了深入分析和总结，并介绍了经典算法的性能和应用场景。最后，本文总结了当前的研究现状，并展望了未来的发展趋势，希望能够激励相关领域的研究人员，共同推动卫星视频智能处理的发展。

2.引言

卫星视频智能处理的研究概述

引言
航天技术的发展使得卫星能够对地球进行观测。吉林-1号和Sky-Sat系列等视频卫星的出现，使视频卫星逐渐成为地球观测的重要手段，吸引了各个领域的广泛关注。与传统的卫星遥感图像相比，视频卫星成像可以实现更广泛的观察。更重要的是，它可以在观察区域内连续实现成像，并获取高时间分辨率的地球观测动态信息。因此，视频卫星成像在交通、安保、灾害监测、资源和环境等领域具有重要应用。利用视频卫星地球观测数据进行目标检测、目标跟踪、目标分割、场景分类等基于人工智能的任务的研究，已成为遥感领域的前沿热点[1][2]。2013年前，大多数卫星视频的研究主题主要围绕卫星视频编码、卫星视频通信和卫星视频流媒体展开。之后，多个地球观测视频卫星和卫星星座相继发射。自2013年以来，Planet Labs相继发射了Skysat-1、Skysat-2和Skysat-C视频卫星。Skysat-1是第一颗亚米级视频卫星，具有1.1米的空间分辨率和30帧/秒（FPS）的时间分辨率，能够捕捉高质量的黑白可见光图像。Urthecast利用国际空间站（ISS）发射了世界首个空间全色视频相机Iris，空间分辨率为1米。长光卫星公司也在2015年至2018年间发射了吉林-1号视频01-08卫星，这些卫星是北美以外首个具有1.13米空间分辨率的空间全色视频相机。珠海01和02视频卫星分别在2017年和2018年发射。齐鲁04视频卫星在2021年发射，空间分辨率优于0.7米。武汉大学在2023年发射了洛伽-3视频卫星，实现了卫星在轨实时处理技术的突破。

随着以上系列视频卫星和卫星星座的成功发射及在轨运行，能够获得越来越多的高时间分辨率的卫星视频地球观测数据。改进的时间分辨率提高了一些传统遥感应用的时效性，如灾害监测、海洋监测和生态系统干扰监测。它使得交通情况监测等传统遥感无法很好完成的应用成为现实[3][4]。这些应用需要超分辨率重建、移动目标检测、识别和跟踪等关键技术的支持。因此，研究这些技术变得至关重要。迫切需要对全球热点和感兴趣的移动目标进行智能实时监测，利用大量卫星视频数据中的动态信息。

随着人工智能计算能力的显著提升，深度学习（DL）已迅速应用于计算机视觉、自然语言处理和卫星遥感图像处理等多个领域。卫星视频数量的快速增加也使得数据驱动的DL技术能够应用于卫星视频的智能处理。近年来，DL算法已迅速发展，用于智能处理任务如目标检测、目标跟踪和运动估计，以及卫星视频的超分辨率。同时，许多优秀的工作涌现，吸引了学术界和工业界的广泛关注。还有许多新兴的研究方向，如卫星视频场景分类（SVSC）和目标分割。

如图1所示，卫星视频目标跟踪的研究分为基于相关滤波和基于深度学习两种方式。Du等[5]首次在2018年使用基于相关滤波的方法解决了单目标跟踪（SOT）问题。Shao等[6]在2019年提出了一种基于深度学习的PASiam方法来解决SOT任务。Ao等[7]在2020年首次提出了一种名为Tracking City-Scale Moving Vehicles From Continuously Moving Satellite（TCSM）的网络，用于解决多目标跟踪（MOT）任务。对于卫星视频目标检测任务，主要有三种方法：背景建模、帧间差分和基于深度学习的方法。Kopsiaftis和Karantzalos[3]在2015年首次研究了卫星视频目标检测，采用背景建模进行车辆检测，并进一步实现了交通密度估计。2018年，Liu等[8]首次应用单次多框检测器（SSD）有效实现了卫星视频中的飞机检测。Zhong等[9]在2022年提出的时空双分支网络（STDBN）对单架飞机和火车在卫星视频中的分割表现出有效性。Zhang等[10]进行了基于吉林-1号数据的首个DL卫星视频超分辨率（VSR）研究，到2022年出现了更多与卫星VSR相关的工作。Gu等[11]在2020年提出了首个SVSC工作。随后，卫星视频目标分割（VOS）、运动估计和内在分解等一系列新兴方向出现。截至2022年，卫星视频智能处理研究的许多方面仍处于初级阶段，仍有很多探索和发展的空间。

卫星视频地球观测仍面临几个问题。一方面，视频卫星成像存在光照变化大、前景和背景严重不平衡、目标尺度差异显著和空间分辨率不足等问题，这些都是由于其俯视成像模式和探测器性能造成的。设计与视频卫星成像机制和特点完全融合的特定算法，以解决目标跟踪、检测、超分辨率和分割等多个任务的低准确性和差鲁棒性问题，以及不同任务的个体问题，是一大挑战。另一方面，时间信息是卫星视频数据的独特特征。尽管卫星视频数据中存在大量冗余，但如何充分利用卫星视频中的时间动态信息和背景不变信息，以优化模型性能，也是一个重大难题。为了推动智能卫星视频处理的发展，本文对当前智能卫星视频处理的工作进行了综述和多维量化。此外，本文还汇总和分析了公开数据集的评估结果、方法的优缺点、应用场景和未来研究方向。希望本文能够为该领域的研究人员提供有关卫星视频智能处理的全面综述。本文的工作可以总结如下：

本综述全面回顾了与卫星视频智能处理相关的工作。我们进行多维量化统计，分析研究热点和趋势。
总结了当前在卫星视频智能处理中的困难和挑战，以及不同任务（如目标检测、目标跟踪、超分辨率、场景分类和目标分割）的研究方法体系。
本综述汇总了公开数据集、评估结果，并分析了每个卫星视频智能处理任务的基准方法的优缺点。
本综述分析了卫星视频智能处理任务的应用场景和挑战，并展望了未来的研究方向。

本文的其余部分组织如下：第二节展示了对卫星视频领域现有文献和相关研究结果的统计和定量分析，以可视化现有研究工作的分布和发展趋势。第三节详细分析了卫星视频领域的困难和挑战。第四节详细描述了特定任务的方法论。第五节调查了卫星视频领域现有的公开数据集及对应的实验结果。第六节和第七节分别介绍了卫星视频的典型应用场景，并展望了未来的研究方向。最后，第八节总结了本文内容。
在这里插入图片描述

3. 文章的定量分析

本节主要基于Web of Science（WOS）和中国知识网络（CNKI）对卫星视频智能处理的研究趋势和热点进行系统分析。WOS包含了超过12400本权威且高影响力的国际学术期刊，涵盖自然科学、工程学、社会科学、艺术与人文等多个学科，属于三个主要引文系统（SCIE、SSCI和A&HCI）。检索条件设定为（标题=卫星视频）AND（时间=2014–2022），最终通过人工筛选获得了119篇关于卫星视频智能处理的有效文章。CNKI包含中国期刊文章、学位论文和专利的数据库。检索条件设定为（主题=卫星视频）AND（时间=2014–2022），通过人工筛选获得了36篇有效文章。

图2显示了已发布文章的定量分析。文章数量自2015年以来整体呈逐渐增长趋势，2022年增幅迅速，达到了50篇。

接着，我们对不同期刊或会议上发表的文章进行了统计分析。根据WOS和CNKI的检索结果，如表I所示，《IEEE地球科学与遥感学报》（IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING）、《遥感》（Remote Sensing）、《IEEE国际地球科学与遥感学研讨会》（IEEE International Geoscience and Remote Sensing Symposium）和《IEEE地球科学与遥感学通讯》（IEEE GEOSCIENCE AND REMOTE SENSING LETTERS）是发表文章最多的四个期刊/会议。其中，《IEEE地球科学与遥感学报》和《遥感》上发表了26篇文章，占总数的20.8%。这四本期刊的总文章数接近所有文章的一半。

此外，根据WOS，本节还对2014–2022年间卫星视频智能处理的几个主要研究方向进行了统计分析。检索条件设定为（（标题=卫星视频）AND（标题=跟踪））、（（标题=卫星视频）AND（标题=检测））、（（标题=卫星视频）AND（标题=分割））、（（标题=卫星视频）AND（标题=场景分类））以及（（标题=卫星视频）AND（标题=超分辨率））。图3(a)显示了不同方向的已发布论文和专利数量。目标跟踪和目标检测的相关工作数量最多，分别为48篇和35篇论文，以及17项和10项专利。其他新兴方向的相关工作数量不足。

同样，根据CNKI，本节还展示了2014–2022年间卫星视频智能处理的几个主要研究方向的统计分析（见图3(b)）。检索条件设定为（主题=卫星视频）。目标跟踪和目标检测的相关工作数量最多，分别为12篇和14篇论文，以及20项和14项专利。

此外，基于WOS的关键词趋势和热点分析，图4可视化了卫星视频智能处理领域的研究热点分布；目标跟踪是主要的热点方向，而深度学习（DL）和基于卫星视频的特征提取也是重要的研究热点。超分辨率、目标检测和车辆检测是下一个热点。紧随其后的是分割、分类和运动估计，这些领域的热度逐渐上升。一些从这些方向衍生的方法技术，如光流、卡尔曼滤波、相关滤波和视频编码，也引起了关注。

图5显示了WOS基于关键词的趋势分析，纵轴表示每年术语的出现次数。卫星视频、目标跟踪和深度学习在2022年的受欢迎程度显著提高。

最后，本节还研究了卫星视频领域的现有综述文章；设定检索标准为（标题=卫星视频 AND 标题=综述）OR（标题=卫星视频 AND 标题=基准）OR（标题=卫星视频 AND 标题=数据集）OR（标题=卫星视频 AND 标题=回顾）OR（标题=卫星视频 AND 标题=研究），共找到五篇综述（见表II）。文献[12]主要关注卫星视频中的目标跟踪。文献[13]提出了一种基于商业视频卫星和智能图像处理技术的城市交通监测和分析方法，并开发了基于视频卫星数据的交通密度、速度和流量的计算方法。文献[14]简要总结了移动目标检测和跟踪中的首个挑战，并详细描述了每个跟踪任务的顶级方法和结果。该挑战为卫星视频中移动目标检测和跟踪分析建立了新的基准。为了调查对低图像质量的卫星视频的适应性，Liu和Gu[15]主要关注一些经典的基于学习的超分辨率方法，包括稀疏表示、协同表示和深度学习方法。综述[16]系统地调查了当前基于卫星视频的跟踪方法和基准数据集，并总结了每个跟踪目标（交通目标跟踪、船舶跟踪、台风跟踪、火灾跟踪和冰雪运动跟踪）的基本方面。可以看出，上述综述主要针对卫星视频领域的单一方面。而本文则全面研究、分析和总结了卫星视频多任务智能处理和应用，包括不同卫星视频任务的挑战、方法和应用。

根据本节的定量统计分析结果，可以总结出一些结论：

在相关视频卫星发射和卫星视频数据变得可用后，研究人员自2015年开始初步进行卫星视频数据的智能处理研究。该领域在2022年达到了速度和热度的高峰。
目标跟踪、目标检测和超分辨率是研究人员最关注的三个方向，这三个方向的相关文章数量最多。
首先，卫星视频本身具有对象的动态信息，可以更好地关注动态对象的运动。这促进了卫星视频目标跟踪技术的快速发展。目前，以相关滤波和深度学习网络相结合的方法受到了更多关注和研究。其次，卫星视频捕捉到的丰富目标信息也引起了对卫星视频目标检测研究的更多关注。
随着卫星视频应用和关注度的不断增加，一些扩展的研究方向，如目标分割、场景分类和运动估计，逐渐吸引了研究人员的关注和探索。这促进了基于卫星视频智能处理技术的新兴应用方向的进一步发展。

总体而言，随着卫星视频技术和卫星视频星座的发展，智能处理技术方面的研究将受到越来越多的关注，并将在交通检测密度估计、场景监测、事件和灾害响应以及土地空间使用管理等应用中发挥重要作用。

在这里插入图片描述

4 难点与挑战

卫星视频已经从单帧静态图像发展到多帧连续图像序列。与普通视频相比，卫星视频具有以下特点，这些特点为各种处理任务带来了更大的困难。

数据连续性差：目前的视频卫星通常具有90到120秒的连续成像时间，无法长时间观测同一地区，这导致数据连续性差。尽管由SkySat、吉林一号等视频卫星组成的视频卫星星座缩短了重入周期，但仍难以满足对特定目标实时观测的需求[17]。
空间分辨率需要进一步提高：卫星视频的空间分辨率通常约为1米，仍低于普通视频和高分辨率航空遥感图像。因此，卫星视频中的典型遥感目标，如车辆、船舶和火车，像素较少且尺寸较小，形状和纹理特征不明显，导致对比度低，前景和背景难以区分。
平台运动导致的全局运动：视频是由卫星上的传感器采集的。平台始终处于运动中，成像传感器需要沿行进方向不断调整拍摄角度和俯仰姿态。平台运动导致卫星视频背景不断且缓慢地移动，从而引入了视频内容的全局运动。
光照变化大：视频卫星对特定区域进行动态成像以捕捉地面的动态变化，但也引入了光照变化。光照变化会导致表面对象的遮挡，甚至导致图像失真，严重影响视频质量和内容完整性。
视频帧间冗余大：连续成像卫星视频的帧率通常低于25 FPS，由于成像距离较远，卫星视频内容在相邻帧之间变化小，视野中的对象运动不明显，视觉静态信息冗余较多。

从成像源的角度来看，卫星所在的高度使得获取的卫星视频的尺度与自然场景视频有很大不同。因此，该领域最显著的困难是，与自然视频中占据较大区域的目标不同，卫星视频中的目标（如车辆、船舶和飞机）往往仅占据几到几十个像素，并且受到更多干扰。此外，卫星视频中复杂的背景也带来了更多的噪声干扰。图6展示了自然视频和卫星视频场景的对比。

总的来说，卫星视频领域固有的问题具有挑战性，如大场景、特征不显著、对象区域小、场景复杂、光照变化和帧间冗余信息。这些挑战对不同任务的影响各不相同。

针对每项任务的具体挑战，卫星视频目标跟踪面临的主要问题是，由于每个对象相对于整个图像的大小过小，且对象与背景非常相似，跟踪失败很容易发生。对于卫星视频目标检测，感兴趣的移动对象通常非常小（例如，大多数吉林一号卫星视频中的移动车辆小于20像素），导致缺乏纹理和外观几何信息，有时还会出现由非地球静止卫星成像平台引起的运动伪影。这些问题使得连续帧之间的精确定位变得困难。对于卫星视频目标分割，主要问题是由于小目标造成的前景背景极度不平衡，以及低分辨率和运动伪影造成的模糊边界。这些因素使得高精度分割变得困难。对于卫星视频超分辨率，卫星视频帧的低分辨率导致缺乏足够的纹理和细节信息，从而使特征提取更加困难。此外，巨大的场景尺寸也使得超分辨率重建效率低下。具体细节总结如下：

极端的前景-背景不平衡：如图6所示，卫星视频通常具有大场景，典型的移动对象（如车辆和船舶）小到不足10像素，导致场景中正负样本分布极度不平衡。此外，即使空间分辨率为1米，小物体可能缺乏形状、纹理等特征，对算法构成重大挑战。
复杂的背景环境：卫星视频的成像区域通常比普通视频大数百倍，导致大量冗余背景信息和各种背景干扰。这些干扰包括物体与背景融合、难以区分的情况、周围有非常相似的干扰物体、光照条件和阴影的突然变化。
严重遮挡：由于复杂的交通环境，车辆等物体面临更严重的遮挡问题，这意味着算法更容易丢失物体，尤其是对于小且不显眼的物体。
巨大的场景尺寸：卫星视频通常具有较大的成像宽度，这增加了算法的计算负担，并需要更长的处理时间。此外，受空间分辨率影响，大场景中的典型对象（如建筑物、水体和道路）的边缘细节更加模糊，对图像质量恢复和特征提取提出了巨大的挑战。
对象尺度差异大：卫星视频具有空间和时间维度。在空间尺度上，不同对象的大小差异大，使得算法难以协调不同的特征表示。在时间维度上，帧间运动模糊和不同的对象速度使得算法难以在时间尺度上对齐。总体而言，时空信息融合的效率也是算法面临的一个挑战。

5 方法论系统

A. 卫星视频观察的特点

随着遥感技术的快速发展，从太空获取地球观测数据的能力不断提高。虽然土地观测卫星的成像时间分辨率已降低，但单卫星模式的高分辨率卫星的重访周期仍需两到五天。即使由轻量小型卫星组成的星座缩短了重返周期，但目前仍难以满足对特定地面目标进行持续和长期观察的需求。卫星视频遥感地球观测是一种在过去十年中发展起来的新型遥感技术。与传统的光学地球遥感卫星不同，视频成像卫星可以连续观察某一地区，获取更多有关目标连续运动的信息，如目标的运动速度和方向。此外，视频卫星几乎是以注视的方式进行观测，这特别适合于移动目标的感知，从而获得高时间分辨率的动态信息。这种动态信息是传统地面光学遥感卫星难以获取的。

近年来，多个视频卫星已被发射。例如，美国的Planet Labs于2013年首次发射了Skysat-1，其空间分辨率为1.1米，成像范围为2公里×1.1公里。中国长光卫星公司于2015年发射了第一颗彩色视频卫星吉林-1，视频分辨率约为1米，成像范围为4.6公里×3.4公里。2023年1月发射的Qilu4和Luojia-3视频卫星，其空间分辨率为0.5–0.7米。现有视频卫星的详细信息见表III。

自然场景的视频通常不利于研究大规模移动目标，因为拍摄范围较小，获取的信息也很有限，这正是卫星视频的优势。然而，与相机拍摄的自然场景视频相比，卫星视频由于其独特的长距离俯视成像机制，存在物体前景百分比低、物体特征弱且不明显、背景复杂、图像模糊以及帧率低等困难。因此，通用的自然场景智能视频处理算法无法直接应用于卫星视频相关任务。需要针对卫星视频的独特特点进行算法创新和改进。

B. 卫星视频目标跟踪与运动估计

卫星视频目标跟踪：卫星视频目标跟踪的目标是跟踪卫星视频中感兴趣的移动物体，如飞机、船只、车辆和火车，并自动估计其在视频中的状态，如位置和大小。根据跟踪目标的数量，通常分为两类任务：单目标跟踪（SOT）和多目标跟踪（MOT），如图7所示。给定要跟踪的目标在第一帧中的状态，SOT算法需要逐帧定位目标并提供目标的位置和边界框[12]。另一方面，MOT则在指定类别的视频中同时跟踪多个感兴趣的目标，通过不同的标签区分它们，并在帧之间进行时间关联[18]。

a) 单目标跟踪：近年来，研究人员提出了几种针对卫星视频的SOT算法，主要包括生成方法和判别方法。生成方法提取物体特征进行建模，并逐帧寻找相似物体，包括均值漂移[19]、粒子滤波[20]、卡尔曼滤波[21]、滑动窗口搜索[22]等方法。生成方法忽略背景信息，当物体发生显著变形、背景中存在类似物体或视频抖动时，其准确性会显著降低。与生成方法相比，判别方法具有更高的准确性和更快的速度。通常，通过训练物体分类器对物体进行前景分类，从而在跟踪过程中进行跟踪。判别相关滤波方法[23]，[24]，[25]，[26]是最具代表性的。随着深度学习的发展，一些基于深度学习的跟踪器具有更强的特征表示能力，包括基于Siamese的跟踪器[27]，[28]，[29]、深度判别CF[30]，[31]，[32]、在线检测基础的跟踪器[33]、基于强化学习的跟踪器[34]等。相关滤波方法因其效率和准确性而受到青睐。一些研究人员通过结合目标检测算法来提高卫星视频跟踪器的性能。例如，Du等人[5]提出了一种结合三帧差分算法和CF跟踪器的卫星视频跟踪器。Ahmadi和Mohammadzadeh[35]提出了一种基于背景减法技术检测和跟踪卫星视频中的车辆和船只的方法。一些算法通过提取运动信息来跟踪目标。Shao等人[36]设计了一种与速度相关的滤波算法，该算法利用通过光流和惯性机制获得的速度特征。Du等人[37]构建了一种多帧光流跟踪器，该跟踪器结合了光流和多帧差分方法进行目标跟踪。Chen和Sui[38]提出了一种空间掩码，促使CF根据空间距离给予不同的贡献，然后应用卡尔曼滤波器（KF）预测大背景区域中的目标位置。后来，Guo等人[39]引入了移动车辆的全局运动特征来约束跟踪过程，通过整合其位置和速度来纠正移动目标的轨迹。Xuan等人[40]提出了一种结合KF和运动轨迹平均策略的运动估计算法，以解决卫星视频中的遮挡问题。其他方法通过目标特征进行跟踪。Xuan等人[41]提出了一种旋转自适应CF跟踪算法，以解决卫星视频中目标旋转的问题。该方法保持特征图的稳定性，实现了边界框大小变化的估计。Chen等人[42]解耦了旋转和位移运动模式，并开发了一种具有运动约束的新型旋转自适应跟踪器。此外，Pei和Lu[43]设计了一种基于颜色名称特征和卡尔曼预测的核相关滤波器（KCF）。Liu等人[44]基于KCF融合了目标的不同特征，并引入KF以补偿运动位置偏差。Wang等人[45]专注于样本训练策略和样本表示能力，以增强卫星视频中的目标跟踪。他们建立了一种针对目标和背景的滤波训练机制，以提高跟踪算法的判别能力，并使用Gabor滤波器构建了目标特征模型，以增强目标和背景之间的对比度。随着深度学习和神经网络的发展，一些研究人员使用深度神经网络来增强跟踪器的特征建模过程。Hu等人[46]构建了一种卷积回归网络，用于卫星视频目标跟踪，该网络使用预训练的深度神经网络提取外观和运动特征。Uzkent等人[47]利用卷积神经网络提取高光谱域特征，并使用KCF处理卫星视频跟踪问题。由于Siamese网络权重共享结构的显著效率优势，一些算法构建了Siamese网络跟踪框架。Shao等人[6]提出了一种全卷积Siamese（Siamese-FC）网络，具有浅层特征，用于提取细粒度的外观特征，用于卫星视频跟踪。该网络结合了高斯混合模型（GMM）并利用卡尔曼滤波器来处理跟踪遮挡和运动模糊问题。类似地，Zhu等人[48]提出了一种深度Siamese网络（DSN），该网络具有帧间差分质心惯性运动模型，以减轻模型漂移，并使用Siamese区域提议网络来获取目标位置。此外，Ruan等人[49]提出了一种双流Siamese卷积神经网络，结合了Siamese网络和运动回归网络，以实现卫星目标跟踪，并通过使用基于历史轨迹的轨迹拟合运动模型进一步减轻模型漂移。Shao等人[50]设计了一种高空间分辨率的轻量级并行网络，并提出了一种基于在线移动目标检测和自适应融合的像素级细化模型，以增强卫星视频中的跟踪鲁棒性。Zhang等人[51]学习了目标的运动和背景，帮助跟踪器更准确地识别目标。他们使用全卷积网络预测每个像素的目标位置概率，并引入分割方法为每帧的目标区域分配高概率。Bi等人[52]提出了一种基于可变角度自适应Siamese网络（VAASN）的卫星视频目标跟踪算法。该方法在Siamese-FC网络的特征提取阶段采用多频率特征表示方法，以减少复杂背景的影响。在跟踪阶段，它引入了一个可变角度自适应模块，以适应目标旋转的变化。

多目标跟踪：与SOT相比，卫星视频中的MOT仍处于研究的初期阶段。这些方法可以分为两大趋势：基于检测的跟踪（TBD）方法和联合检测与跟踪（JDT）方法。TBD方法将检测和跟踪视为两个独立的任务，使用外部检测器生成逐帧检测结果，然后应用附加模型进行帧间关联。JDT方法设计模型同时执行检测和关联，以实现更高效的跟踪。

在TBD框架中，研究人员通常利用物体检测器发现和检测场景中的潜在物体，然后执行帧间关联以获得跟踪轨迹。一些研究集中在移动物体检测上。Ao等人[7]提供了一种基于局部噪声建模的车辆检测算法，该算法利用指数概率分布区分潜在车辆与噪声模式。Feng等人[53]通过帧间信息进行关键点检测，构建了一个具有长短期记忆（LSTM）的双分支结构，以有效检测和跟踪密集车辆。Xiao等人[54]提出了一种动态和静态融合双流网络（DSFNet），通过从单帧中提取静态上下文信息和从连续帧中提取动态运动线索来检测卫星视频中的移动物体。

在JDT框架中，算法执行JDT，结合物体检测与时间关联。Zhou等人[55]提出了一种同步检测与跟踪算法，该算法应用关键点检测模型于图像序列和前一帧的检测结果，通过将关键点关联以完成跟踪。Wang等人[56]和Zhang等人[57]同时提取检测特征和身份切换（ID）特征，使用共享网络并关联预测的ID以完成跟踪。He等人[58]从多任务学习的角度将MOT建模为图形信息推理过程，提出了一种基于图的时空推理模块，以探索视频帧之间的潜在高阶相关性。这些单阶段方法节省了大量推理时间，但在检测和关联缺乏外观信息的物体时较为困难。

卫星视频运动估计：卫星视频运动估计可以为目标跟踪提供支持。然而，卫星视频场景的背景复杂且噪声较多，传统方法无法提取密集的运动。此外，传统方法在计算运动时总是耗时较长，且难以直接应用深度学习方法。适当的特征可以解决复杂背景问题，但对于小物体和噪声却无能为力。卫星视频场景，特别是城市场景，包含大量的小型模糊物体，标记这些物体运动的真实情况具有挑战性。

总之，在卫星视频场景中提取动态信息面临两个挑战：1）如何提取未标记的小型模糊物体的运动；2）如何从噪声背景中提取模糊物体的准确运动。Xuan等人[40]提出了首个新型运动估计算法，通过结合卡尔曼滤波器和运动轨迹平均的方法。基于假设物体的运动在相对短的时间内是均匀线性运动（即使物体在转弯、急停或加速等），运动轨迹平均方法用于计算目标在KF收敛之前的运动状态。通过帧间位移的平均值来估计目标在当前帧的速度，目标的速度和前一帧的位置用于估计目标在当前帧的位置。在KF收敛后，KF的结果作为运动估计的输出。Wang等人[59]提出了MSSPWC-Net，该网络包括一个稀疏自学习网络、PWC-Net和一个多帧框架，利用稀疏形变损失函数提高小物体对自学习方法的敏感性。卫星视频物体相对于背景较为稀疏，运动一致性约束可用于解决模糊物体运动问题。通过多帧框架，成功融合了相邻帧的运动，以估计模糊物体的准确运动。然而，MSSPWC-Net只能基于深度特征进行运动估计，因此网络必须进行训练以微调特征，以获得准确的结果。在后续研究中，可以使用稀疏先验约束来改进分割结果或增加代价体积，以获取更准确的小物体信息。

C. 卫星视频目标检测

相比于基于图像的目标检测任务，视频目标检测的最大优势在于引入了时间上下文信息，每帧之间具有时间上的关联、对应关系和相似性。由于存在子上下文关系，相邻帧的检测结果可以用来提高当前帧的检测准确性。相邻帧具有类似的连续性，可以利用冗余信息加快每帧的检测速度。与基于高分辨率遥感影像的主流目标检测相比，卫星视频目标检测的挑战主要体现在物体特征和数据质量问题，如小物体尺寸、低对比度以及视频帧模糊等。

基于传统方法的卫星视频目标检测：传统方法通过捕捉卫星视频序列图像中的变化区域并从背景中提取运动物体来进行目标检测。主要技术包括背景建模方法和帧间差分方法。

几种基于背景建模的方法已被提出[60], [61], [62], [63], [64]。Ao等人[60]提出了一种基于局部噪声建模的检测算法，通过区分车辆的潜在概率分布来修正检测结果。Lei等人[64]提出了一种基于时空信息的卫星视频车辆检测方法，该方法结合了重要的帧间时间信息以优化检测。Zhang等人[61], [62], [63]提出了一系列基于低秩结构稀疏分解的卫星视频移动车辆检测方法。

一些帧间差分方法也被设计用于卫星视频目标检测[65], [66], [67], [68], [69]。Zhang等人[65]基于局部变量阈值分割图像，并结合多帧物体运动与卫星姿态运动信息的相关性来检测物体。Li等人[66]提出了一种自动检测和跟踪卫星视频中各种大小移动船只的方法。Shi等人[67]开发了一种归一化帧差标记方法，以实现稳定的卫星视频移动飞机检测。Shu等人[68]通过融合高斯混合模型（GMM）与三帧差分检测结果来减少由于光照变化和背景运动造成的虚假检测。Chen等人[69]提出了一种自适应运动分离方法，通过累积物体轨迹来帮助将移动物体与背景分离。该方法的技术流程如图8所示。传统卫星视频目标检测方法不依赖于物体的标注信息来训练模型，而只是依赖于物体的运动变化，因此属于弱监督学习类型。传统方法只能检测卫星视频中的移动物体，无法区分物体的类别，因此目前大多数方法用于检测移动车辆。此外，现有论文通常在小型或非公开的数据集上进行验证，缺乏基准评估来衡量方法的性能和鲁棒性。
基于深度学习（DL）的方法的卫星视频目标检测：由于缺乏大规模公开标注数据集，DL方法在卫星视频中的应用仍处于起步阶段，发表的研究相对较少。Feng等人[53]提出了一种用于卫星视频中移动车辆的检测和跟踪框架，该框架包括一个基于关键点的跨帧检测网络（CKDNet）和一个空间运动信息引导的跟踪网络（SMTNet）。其中，设计了一个跨帧模块以支持关键点检测，利用CKDNet中的帧间互补信息有效地优化结果，通过结合关键点周围的尺寸预测和定义无效匹配抑制来提高检测精度。Liu等人[8]提出了一种基于SSD网络的质量反卷积单次检测器（QDSSD），针对小尺寸物体问题，通过反卷积丰富特征信息，大幅提升了飞机检测结果，特别是彼此接近的小尺寸飞机物体。Xiao等人[54]提出了一个DSFNet，网络结构如图9所示，其中使用二维主干网络提取每帧中的静态上下文信息，三维主干网络提取视频的连续动态运动线索。通过融合静态和动态特征，DSFNet在卫星视频中高效地完成了移动车辆检测。Pflugfelder等人[70]提出了一种基于DL的卫星视频车辆检测方法，使用紧凑卷积核提取时空特征信息，忽略最大池化，并使用弱RLUs来改进车辆检测。Zhou等人[71]提出了一种具有特征尺度选择和对比提议编码的检测方法。通过利用外部遥感影像数据集完成网络预训练，可以仅依赖少量的卫星视频标注样本来实现飞机检测。为了解决车辆外观信息不明显的问题，Pi等人[72]设计了一个特征帧间差分模块以获取相邻运动信息，提取语义特征，并进一步引入Transformer来细化语义特征，以实现有效的车辆检测。

与传统方法只能检测卫星视频中的移动物体且无法区分类别不同，DL方法依赖于标注数据来训练能够学习物体可区分特征的模型，以监督学习方式进行。随着数据集的持续发展和扩展，如何为卫星视频的特定特征设计算法网络是未来卫星视频目标检测的研究方向。

D. 卫星视频超分辨率 (VSR)

视频超分辨率（VSR）是图像超分辨率的扩展，旨在从低分辨率视频中重建高分辨率视频。VSR具有显著的实际价值，因为它可以提高物体检测、物体跟踪和物体分割等高层任务的性能。此外，VSR还可以用于数据压缩。然而，由于额外的时间维度，VSR比单帧图像超分辨率（SISR）更加具有挑战性。这一维度使得图像超分辨率方法在视频上的效果难以令人满意。使用这些方法生成的高分辨率视频往往存在伪影，导致视频不连贯[73]。现有卫星VSR方法的概述见图10。

尽管存在这些挑战，视频包含的信息比图像更丰富，利用这些冗余信息可以在VSR中实现更高的上限。为了更好地利用帧间信息，学者们通常在方法中包括对齐步骤，并扩展输入序列的长度[74], [75]。这些步骤在图像超分辨率中是不可用的。近年来，深度学习（DL）已成为卫星VSR方法的热门方法，并且表现出色。

早期研究直接将图像超分割方法应用于卫星视频[76], [77]，而专门为视频设计的方法仅在最近才出现。这些方法可以大致分为对齐方法和非对齐方法，其中对齐方法占主导地位。对齐方法通常包括四个基本部分：传播、对齐、聚合和上采样。在VSR中，对齐至关重要，缺乏适当的对齐会显著降低结果[74]。对齐可以通过图像或特征对齐来实现，主要手段包括光流和可变形卷积。

Zhang等人[10]是最早利用卫星视频帧间信息进行超分辨率的研究者之一。他们采用了结合单帧和多帧网络的方法。多帧网络源自经典通用VSR网络EDVR[78]，并使用可变形卷积进行特征对齐。与此不同的是，He等人[79]采用了光流估计进行对齐。他们的方法具体是在对图像进行上采样后，通过基于注意力的残差网络获得最终的高分辨率图像。Xiao等人[80]提出了一种递归细化网络，通过光流方法对参考图像进行对齐，并从中提取信息，添加到对象帧的SISR中。作者的另一种方法MSTDGP[81]提出了一种新颖的时间分组投影融合策略和基于DCN的多尺度残差对齐模块。Ni等人[82]也使用DCN进行对齐，并提出了一个尺度自适应特征提取模块，以及一个允许任意放大的上采样模块。Liu和Gu[83]提出的方法包括两个子网络，一个分支预测高分辨率图像，另一个分支预测模糊核，通过一个交叉任务特征融合模块耦合，其中对齐基于特征空间中的补丁匹配，比使用光流更稳定。Shen等人[84]提出的方法也利用了双分支，在EDVR中增加了一个边缘分支，该分支可以同时预测高分辨率边缘图，并在网络末尾融合两个分支的特征。He等人[85], [86]还提出了一种非对齐的方法，直接使用3D卷积进行特征提取和融合。He和He[85]提出了一个通过亚像素卷积和Bicubic实现任意图像放大的网络。在[86]中，他们将退化模型的目标函数拆分为两个子优化问题。首次提出了将DL与基于模型的方法融合以实现卫星视频的超分辨率。

此外，[87]中的方法利用了无监督学习，由一个下采样网络和一个上采样网络组成，不需要低分辨率和高分辨率训练对。这种卫星VSR方法[88]专注于视频中飞机的建模和超分辨率。图神经网络也已应用于卫星视频的超分辨率[89]，而同一作者的另一项工作则实现了在单一网络中对时间和空间的超分辨率，通过结合光流和多尺度可变形卷积来预测未知帧[90]。

E. 卫星视频目标分割（VOS）

卫星视频的独特时间信息使其更适合实际应用。视频目标和实例分割允许进一步的对象处理和分析，因此研究卫星视频目标和实例分割具有重要的应用价值和意义。然而，卫星视频中的典型对象，如飞机、车辆和火车，具有小尺寸和模糊的外观特征。VOS需要像素级的注释，这既困难又昂贵。此外，卫星视频的获取成本高，难以收集足够的样本来支持DL模型的训练。因此，当前相关研究仅在少量卫星视频序列上进行训练和评估[9]。缺乏开放的大规模卫星VOS数据集严重限制了卫星VOS的发展。

现有的卫星VOS算法遵循半监督VOS的定义，即在测试阶段提供特定对象在第一帧中的真实情况，目标是对整个视频中的相应对象进行分割[91]。Zhong等人[9]收集了来自SkySat、UtherCast和Jinlin-1的17个卫星视频，并构建了DAVOS数据集。他们设计了时空双流分支来学习卫星视频中感兴趣对象的时空特征。他们利用了在线学习方法One-Shot Video Object Segmentation（OSVOS）[92]进行训练。时间一致性分支在ImageNet Large Scale Visual Recognition Challenge 2015视频目标检测数据集[93]上进行了预训练，而空间分割分支在PASCAL VOC 2012分割数据集[94]上进行了预训练。然后，模型在DAVOS数据集上进行训练，并在测试阶段根据视频第一帧的注释掩码进行微调，最终在飞机和火车上实现了显著的区域相似性和轮廓准确性。

一般领域的VOS主要分为半监督VOS、交互式VOS和无监督VOS。各种相关任务将为卫星VOS提供新的思路。同时，视频实例分割任务对每个视频帧中的所有感兴趣对象进行分割，并关联帧间对象ID[95]，这将扩展卫星VOS的应用场景和实际价值。现有的卫星VOS算法受限于空间分辨率，导致轮廓准确性较低。卫星VSR重建将优化图像质量并提高轮廓准确性。
在这里插入图片描述

F. 卫星视频场景分类 (SVSC)

卫星视频场景分类（SVSC）在卫星视频的智能解读中扮演着重要角色，它描述了卫星视频中地面内容的语义信息。与遥感图像场景分类任务不同，SVSC旨在描述地面对象的静态和动态语义信息。它可以在一定时间内生成局部地面区域的整体描述。从本质上讲，它类似于一般视频理解中的视频分类任务，是卫星视频智能理解的未来研究方向。

现有研究依赖于深度学习技术，着重于卫星视频中空间和时间特征的联合表示，以提高分类准确性。这些研究主要基于双流框架。2020年，Gu等人[11]首次提出了一种基于双流框架的SVSC方法，以联合表示卫星视频的空间和时间特征，如图11所示。该方法包括两个阶段：关键帧选择和长期序列特征编码。关键帧基于模糊检测和地面对象在卫星视频场景中的活动进行选择。其特征由预训练的VGGNet提取，作为卫星视频的空间特征。同时，使用LSTM网络对由PCA和VGGNet提取的帧特征进行编码，作为给定卫星视频的视级特征表示。该方法在所提出的SVSC数据集上实现了73.97%的总体准确率（OA），该数据集包含8个静态场景和7209个视频，来源于Jilin-1卫星视频。

为了有效地表示卫星视频中小型运动物体的特征，Wang等人[96]提出了一种低秩稀疏表示双流网络（LSRTN）用于卫星视频单标签场景分类，该网络包括两个部分：低秩稀疏分解和空间及时间特征表示，如图12所示。设计了一个低秩稀疏成分分析网络（LSCAN），将卫星视频分解为低秩背景图像和稀疏运动物体序列。然后，应用双流结构基于原始帧图像和稀疏运动物体序列图像获取空间和时间特征，经过特征融合用于分类。LSRTN在构建的数据集上实现了81.2%的OA，证明了其在表示卫星视频场景中小型运动物体特征方面的有效性。

G. 新兴方向

除了对地球观测中的兴趣区域和对象进行智能处理外，研究人员还围绕卫星视频本身的时间特性进行了研究，其中，卫星视频内在分解（SVID）作为一种辅助和增强类型的方法，提供了增强网络对静态和动态组件提取的新研究方向。

建立SVID可以消除光干扰对反射成分的影响，因为光主要集中在阴影成分上，而不是反射成分上。SVID将有助于构建具有光干扰抑制的视频算法，并提高相关算法的有效性。SVID还将有助于分析和提取卫星视频的静态组件。

Gao等人[97]提出了第一个SVID算法，以提取卫星视频场景中的反射和阴影信息，分别包括稳定的静态组件和稀疏的动态组件。首先，将卫星视频信息分为四个组件：静态场景的内在反射图像、稀疏动态反射视频、静态场景的阴影图像和稀疏动态阴影视频。其次，基于上述信号组成，将卫星视频分解为场景和背景的内在信息。尽管该算法可以实现卫星视频的内在分解，但尚未实现对大场景遥感卫星视频的实时处理，且无法提取连续阴影区域的内在信息；对于一些较小的暗物体，算法对后续跟踪步骤的改进有限；同时，该算法对平台振动严重的视频的理论处理能力也较差。

Pan等人[98]提出了一种具有运动物体能量约束的卫星视频内在分解模型MTE-ISVD，以维持反射率的时间一致性并提高运动物体的性能。MTE-ISVD具有四个合理的约束条件：Retinex局部约束、绝对尺度约束、反射率时间约束和运动物体能量约束。最终，SVID成为一个封闭形式的解，其计算速度得到相对改善。然而，MTE-ISVD的实验结果非常依赖于参数设置，大场景的实时处理仍然难以实现。根据Retinex理论，照明要求均匀且缓慢变化，而MTE-ISVD对高光或阴影区域的改进有限。
在这里插入图片描述

V. 公开数据集和实验结果

A. 数据集介绍

卫星视频领域仍处于发展阶段，现有的公开数据集相对较小且不够全面。公开数据集的介绍见表IV。目前有四个公开数据集，均来自Jilin-1，用于检测、跟踪和超分辨率任务。2021年，由国防科技大学提出的VISO数据集包含四个类别：飞机、车辆、船只和火车。VISO源自47个视频片段，主要用于检测、单目标跟踪（SOT）和多目标跟踪（MOT）任务（https://satvideodt.github.io/）。2022年，由中国科学院空间应用工程与技术中心提出的SatSOT数据集用于SOT任务，包含四个类别，即飞机、船只、火车和汽车，源自105个视频片段。该数据集公开可下载，网址为：http://www.csu.cas.cn/gb/jggk/kybm/sjlyzx/gcxx_sjj/sjj_wxxl/。2022年，由中国科学院航空航天信息创新研究所提出的Air-MOT数据集包含飞机和船只，主要用于MOT任务（https://github.com/HeQibin/TGraM）。Jilin-189是武汉大学在2022年提出的用于超分辨率研究的数据集。分割和场景分类领域暂无公开数据集。示例数据集见图13至16（https://github.com/XY-boy/MSDTGP）。

最近，中国科学院空间应用中心提出了一个大规模的多任务卫星视频基准数据集，用于交通检测密度估计、场景监控和自动3D模型构建。

A. 交通检测密度估计

利用高分辨率卫星视频Jilin-1，检测交通道路上的机动车辆，并获取其地理位置和语义特征。同时，对视频中多个行驶中的机动车辆进行跟踪，提取并分析其动态信息，如运动对象、方向、轨迹和速度，生成视频和热图。通过实时返回的Jilin-1视频数据，可以自动检测、跟踪和定位移动车辆。根据检测结果，生成交通热图、交通流量统计图以及分析车辆运动姿态的视频，实现道路状况信息和交通流量信息的智能分析，减少人工成本，实现智能交通系统。图21展示了Jilin-1卫星视频多目标动态监控热图。
在这里插入图片描述

B. 场景监控

通过规划卫星的操作序列和操作时间，Carbonite系列卫星可以在一天内对特定地球位置进行多次访问，实现对区域热点的连续监控，并使用来自多个卫星的连续监控视频检测热点区域的变化。图22展示了Jilin-1卫星视频交通流量统计分析。图23展示了Zondervoort Correctional Center监控的示例。
在这里插入图片描述

C. 自动构建3D模型

通过对卫星视频进行绝对定向和图像稳定处理，利用多视角立体匹配提高匹配成功率，生成相同名称图像点的密集匹配结果，并通过图像对接形成数字表面模型，实现地面3D模型的自动构建。图24展示了Jilin-1卫星图像的3D模型自动构建。
在这里插入图片描述

D. 事件和灾害响应

视频卫星观测地球的时间连续性使其在许多紧急和灾害响应应用中非常有用。当自然灾害如地震、海啸、台风和森林火灾发生时，卫星视频可以帮助快速定位灾害地点，支持后续救援，并帮助灾后救援部门做出快速决策。在重大事故中，如城市火灾、危险品爆炸、海上漏油等，卫星视频不仅可以帮助确定事故等级并协助消防员救援，还可以为事故原因的事后分析提供坚实基础，找出事故责任方，同时提供类似事故的预防经验。上图展示了PlanetScope系列卫星拍摄的图像序列，这是2018年在印度尼西亚巴厘巴板湾监测油污火灾事件的时间序列图像，并提供了对油污、油污船只的定位和追踪，以及未来事故预防的帮助。图25展示了油污和火灾事件监测。

E. 土地空间利用监管

土地空间利用监管基于土地空间规划确定的空间利用、开发和利用限制来规范自然资源承载体的可持续使用。地质环境灾害预防和缓解、生态恢复和执法监督属于土地空间利用监管领域，而上述应用场景的对象识别主要依赖人工图像解读和现场调查。基于深度学习的目标检测技术可以准确识别卫星图像中的所有对象类别和场景，并快速确定其位置和大小。它可以准确识别多个自然资源对象和场景类别，并通过确定关键自然资源对象的位置和相互关系，辅助土地空间利用控制、生态恢复、地质灾害控制和执法检查[123]。

F. 海洋船舶态势感知

中国拥有广阔的海域和丰富的海洋资源，强化资源的合理利用对中国的发展具有重要战略意义。海洋船舶态势感知是一个重要的海洋安全和保障研究方向。它通过智能分析技术感知船舶自身及其周围环境因素，然后理解和分析感知到的态势元素，以预测船舶的运动趋势，从而避免海上事故。传统的海洋航行安全保障通常依赖指挥员结合AIS、雷达和遥感图像进行判断，劳动成本较高。

随着智能信息处理技术在航行安全中的广泛应用，基于深度学习的计算机视觉场景分析技术在船舶检测和航向预测等海洋船舶态势感知任务中发挥了重要作用。海南大学团队设计了一种集成船舶检测、海洋和陆地分割以及航向预测的多任务全景船舶态势感知智能模型，该模型可以在不同天气条件下预测船舶的驾驶状态和运动趋势。开发了全景海洋船舶态势感知系统，实现对船舶态势及其周围环境态势等元素的准确感知，辅助导航指挥员做出更准确、合理和快速的决策。海洋船舶态势感知的实际应用可以在12 FPS下实现不低于90%的准确率[124]。
在这里插入图片描述

VII. 未来展望

应强调的是，在考虑遥感场景的实际应用需求和卫星视频中目标的独特属性时，需要特别注意。例如，大多数目标是刚性体，变形、遮挡和尺度变换的问题不常见，但目标占据的面积小和稀疏的时间信息问题则较为普遍。基于以上分析，本节提出了一些尚未解决的任务和未来可能的发展方向，希望能为研究人员提供一些思路和启发，共同推动卫星视频智能处理方向的创新发展。具体细节如下：

建立多任务卫星视频数据集并统一注释格式：在卫星视频领域，尽管已有一些数据集用于各种研究任务，但这些数据集通常面向较少的任务类别，无法满足多种卫星视频任务的需求。此外，卫星视频的数据源有限，仅为单一任务构建的数据集无法充分利用现有的卫星视频数据。同时，现有的卫星视频公开数据集类别丰富度低，注释格式不统一，与基于图像的数据集相比，注释数量差距较大。因此，未来需要构建一个大规模、类别丰富且注释格式统一的卫星视频数据集，以集成多任务支持未来在各种卫星视频任务中的研究。
增强算法的鲁棒性，提高卫星视频任务在实际应用中的上限：在实际场景中，由于照明变化、云层遮挡以及卫星拍摄的地理位置不同等因素，卫星视频存在复杂的背景环境和不稳定的视频质量，这严重影响了卫星视频处理算法的准确性。同时，成像质量和人工标注错误带来的标注噪声也使算法容易受到无关噪声特征的干扰。因此，如何从粗略标注样本中提升算法学习的鲁棒性，是卫星视频领域每个任务算法亟需解决的问题。
少样本和零样本学习：现有算法通常将少样本定义为数百个标注样本。这种实验设置有时可能不切实际。一方面，卫星视频数据相比于通用视频数据更难获得，数量也较少。另一方面，现有卫星视频数据集中所需的训练样本数量与实际应用之间存在较大差距，一些类别仅有少量视频。因此，减少视频理解训练样本的需求，使适用于卫星视频领域的少样本和零样本学习成为一个有前景的方向。
弱监督和无监督学习：在卫星视频领域，领先的算法仍然是基于大量完全标注数据的监督算法，这些算法更有效但需要大量时间和人力进行数据标注，而卫星视频数据中的对象较小，在执行如分割等具有高密度预测要求的任务时，对标注员的负担较大。同时，对象的细粒度标注也需要大量依赖专家的经验知识。因此，未来卫星视频任务的研究方向之一是弱监督学习和无监督学习方法，这些方法需要较少的人力进行标注。
利用多模态卫星视频数据实现数据的多模态融合和模型的跨模态迁移：随着在轨技术的发展，越来越多的卫星视频能够支持除可见光视频之外的其他模态视频捕获，例如SAR视频、红外视频等。多模态数据的学习可以弥补模型在特征提取完整性和噪声抵抗能力方面的不足，不同模态数据互为补充。目前，大多数卫星视频算法仅适用于单一模态，无法迁移到其他模态。因此，多模态数据融合和跨模态模型迁移是卫星视频算法研究中的一个方向，对实现多维度的卫星视频理解具有重要意义[122]。

VIII. 结论

在过去十年中，卫星视频智能处理取得了快速发展。根据不同的需求，卫星视频智能处理衍生出了越来越多的任务方向，特别是目标跟踪、目标检测和超分辨率这三个最受欢迎的方向。本文介绍并总结了卫星视频智能处理领域的最新进展，包括现有的挑战、方法和相关应用场景。

首先，我们定量和统计地分析了有关卫星视频智能处理主题的研究成果，对发表年份、期刊分布和任务特定方向分布的文章进行了统计分析，并展示了该领域关键词热点分布和发展趋势。然后，本文介绍了卫星视频目标跟踪和运动估计、卫星视频目标检测、卫星视频超分辨率、卫星视频目标分割以及场景分类任务的研究进展和方法体系。接着，为了公平比较现有方法的性能，我们调查了不同任务下的现有公共数据集，并比较了不同方法在各个数据集上的实验结果。此外，本文介绍了卫星视频智能处理在实际生活中的典型应用场景。最后，考虑到该领域的当前挑战和实际需求，本文讨论了几个值得探索和研究的有前景的方向。