Vehicle Perception from Satellite（2024 TPAMI 卫星视频车流量监控）

前言
- 1.1 动机
- 1.2 概述
- 1.3 贡献
2 相关工作
- 2.1 遥感中的目标检测
- 2.2 计算机视觉中的相关任务
- 2.3 卫星交通监控
3 TMS 数据集
- 3.1 数据收集与预处理
- 3.2 数据统计
- 3.3 应用任务
4 实验
- 4.1 微小目标检测实验
- - 4.1.1 背景减除
  - 4.1.2 深度目标检测器
  - 4.1.3 深度目标定位器
  - 4.1.4 结果与讨论
- 4.2 车辆计数和交通密度估计实验
- - 4.2.1 比较与评估方法
  - 4.2.2 结果与讨论
5. 结论与展望

摘要：

卫星能够捕捉高分辨率视频，这使得从卫星进行车辆感知成为可能。与街道监控、行车记录仪或其他设备相比，卫星视频提供了更广泛的城市级视野，从而能够捕捉和展示交通的全局动态场景。基于卫星的交通监控是一项具有巨大潜在应用的新任务，包括交通拥堵预测、路径规划、车辆调度等。然而，受分辨率和视角的限制，捕获的车辆非常微小（仅有几个像素）且移动缓慢。更糟糕的是，这些卫星位于低地球轨道（LEO），以捕捉如此高分辨率的视频，因此背景也在移动。在这种情况下，从卫星视角进行交通监控是一项极具挑战性的任务。为了吸引更多研究人员进入这一领域，我们构建了一个大规模的交通监控基准数据集，支持微小目标检测、计数和密度估计等多项任务。该数据集基于12个卫星视频和14个从《GTA-V》记录的合成视频构建。这些视频被分为408个视频片段，包含7,336张真实卫星图像和1,960张合成图像。数据集中共标注了128,801辆车，每张图像中的车辆数量从0到101不等。我们在数据集上评估了传统计算机视觉领域的几种经典和最新方法，以比较不同方法的性能，分析该任务中的挑战，并讨论未来的前景。数据集可在以下网址获取：https://github.com/Chenxi1510/Vehicle-Perception-from-Satellite-Videos。

前言

最近，随着航空航天技术的显著进步，商业卫星能够捕捉到超高分辨率（VHR）视频 [1], [2]。例如，吉林一号卫星能够以0.72米的空间分辨率观测地球 [3]。SkySat-1卫星提供分辨率约为1米的VHR视频 [4]。这些卫星可以动态监控城市尺度的地面情况，车辆可以清晰地看到 [5]。卫星拍摄的VHR视频为交通监控提供了新的视角。

卫星交通监控与地面上的街道监控摄像头有很大不同，它具有多种优势：

地理范围的无限性：卫星超越了地理限制，涵盖了城市、农村和偏远地区的地形。它动态地在轨道上运行，为全面的车辆监控提供了全景视角。相比之下，监控摄像头仅限于城市中心和关键交通枢纽。由于极端的地理条件，在全球范围内安装监控摄像头的成本非常高。然而，对于偏远地区的交通监控和整体网络分析，这种覆盖是至关重要的。
实时性和周期性：卫星提供近乎实时的影像和数据，方便即时的交通监控和应急响应。此外，常规的卫星任务生成了长期的时间序列数据，可用于交通趋势和模式分析。在自然灾害或紧急情况下，它们能够迅速监控交通状况，提供救援操作所需的关键信息。
广域监控：卫星交通监控覆盖了从城市到更广阔区域的广阔地理范围。对于城市规划、交通管理和自然灾害监控具有巨大的价值，提供了全球视角。相比只能观察交叉路口、街道或环岛交通的地面监控摄像头，卫星可以监控跨越平方公里的广阔区域。它们广阔的视野为交通控制、分析和规划提供了新视角。
监控多种运输方式：卫星不仅可以监控道路交通，还可以监控铁路、航空和海上运输，促进多模式交通研究。此外，卫星还可以补充监控摄像头，实现城市中的分层交通监控。监控摄像头提供本地化和详细的见解，而卫星提供全球交通监控。它们可以整合起来，层次化地监控地面和天空的交通情况。

除了上述优势外，卫星交通监控也是一项具有挑战性的任务：

卫星视频中的车辆非常小。受分辨率限制，车辆只包含几个像素（约10个像素），缺乏外观信息。有些车辆除非在移动，否则无法识别，如图1所示。检测和计数这些微小车辆非常困难。传统的物体检测和计数方法无法有效且高效地处理这些问题。
卫星视频中的运动非常复杂。如图2（a）和（b）所示，背景和车辆都在移动。实际上，背景的运动与卫星的视角和建筑物的高度相关，因为视频只捕捉到了3D运动的2D投影。因此，很难将移动的车辆与背景分离开来。此外，卫星的渐进运动导致一些静止背景对象的局部错位和动态强度变化。这些变化对辨别物体的运动没有帮助，可能还会产生运动伪影。
卫星视频充满了噪声。如图2（c）-（f）所示，捕获的帧受到建筑物遮挡、天空中的云层、阳光投下的阴影以及地面玻璃表面反射的多种干扰。在这种情况下，背景与目标之间的局部对比显著降低。由于背景的复杂性和图像噪声的存在，目标有时会与混乱的背景融合，导致局部模糊。这些噪声对车辆检测造成了很大的干扰。
低地球轨道（LEO）卫星无法持续悬停在某一城市区域上方。在这种情况下，卫星无法维持长时间和连续的交通监控。此外，当卫星平台固定在特定兴趣区域时，获得的卫星视频会显示出局部位置差异和局部强度变化，这归因于静止物体。这些物体可能被错误地识别为移动实体，从而加剧了数据中的误报。

1.1 动机

卫星交通监控仍处于初级阶段。缺乏公开发布的卫星视频和大规模标注数据集是限制其发展的关键因素。据我们所知，目前只有两个视频发布了部分标注数据[1], [6]。数据的缺乏导致了研究中的以下困境：

大多数现有方法只在一两个视频上评估其性能。这么少的测试样本不足以验证方法的有效性。更糟糕的是，一些标注或视频没有公开发布，这导致不同方法的公平比较受到干扰。
深度学习方法在该领域不适用。由于标注样本不足以进行训练，大多数现有方法都是基于传统检测器开发的。然而，深度学习已成为主流，并且在大多数计算机视觉任务中超越了传统方法。标注数据的匮乏阻碍了该领域的性能提升。

1.2 概述

实际上，卫星视频中的车辆标注非常困难，因为视频帧是以城市为尺度，背景运动不均匀，光照变化多端，且车辆非常微小，甚至无法用肉眼识别。在本文中，我们努力克服这些困难，构建了一个用于卫星交通监控的大规模数据集，称为TMS。TMS由408段视频组成，其中包括12段真实卫星视频和14段来自GTA-V的合成视频，用以弥补可用卫星视频的不足。在每段视频中，车辆的坐标每秒标注一次。每帧中的车辆数量从0到101不等，总共标注了128,801辆车。在TMS数据集的帮助下，开发了三个用于卫星交通监控的任务，即微小目标检测（TOD）、车辆计数（VEC）和交通密度估计（TDE）。我们评估了包括传统方法和深度学习方法在内的大量经典和最新方法，分析了每个任务的挑战，并为研究人员提供了见解。

1.3 贡献

总体而言，本文的主要贡献可以总结如下：

我们构建了最大的卫星视频数据集用于交通监控。它可以通过吸引深度学习方法促进该领域的研究，并为不同方法提供评估平台。
GTA-V中的合成视频与真实视频相结合，以进一步扩大真实数据集的规模。这些合成视频通过自动标注，提供了一种缓解真实数据不足的新视角。
在这个基准上进行了三个任务，包括微小目标检测（TOD）、车辆计数（VEC）和交通密度估计（TDE），以促进卫星交通监控的发展。

2 相关工作

在以下小节中，将回顾遥感、计算机视觉中的相关任务以及最近提出的卫星交通监控方法。

2.1 遥感中的目标检测

目标检测是遥感领域的一个长期任务，也是卫星交通监控的基础。已构建了许多数据集，例如TAS [7]、SZTAKI-INRIA [8]、NWPU VHR-10 [9]、HRSC2016 [10]、DOTA [11]等。这些图像主要来自卫星、飞机等平台，如Google Earth、天地图和Quickbird。标注的对象种类繁多，车辆是最受欢迎的目标检测类别，显示了其在遥感中的重要性[12]。早期的目标检测方法主要基于模板匹配、几何建模、上下文知识和低级特征提取[13]。然而，由于噪声、大小、光照和背景的影响，遥感中的目标检测非常复杂，这些传统方法无法很好地推广到不同的情境。最近，随着大规模数据集的支持，深度学习被应用到这个任务中。它们大多是从自然场景图像中的主流目标检测方法中修改而来，例如Faster RCNN[15]、SSD[16]、YOLO[17]。利用非线性学习能力，深度学习方法超越了传统方法，大幅提升了性能。

2.2 计算机视觉中的相关任务

目标检测是自然场景图像中的一个经典计算机视觉任务。传统方法通常遵循一个流水线：区域选择（例如超像素[18]、滑动窗口[19]、选择性搜索[20]）、特征提取（例如SIFT[21]、HOG[22]）和分类器（例如SVM[23]、Adaboost[24]）。然而，传统方法和手工设计的特征无法很好地推广到目标检测中的大小、形状、遮挡和噪声的变化。迄今为止，深度学习方法在这一领域占据了主导地位，包括RCNN系列[15], [25]、YOLO系列[26], [27], [28]等。它们大多基于一些挑战开发，如PASCAL VOC1、ILSVRC2和MS-COCO Detection3。自然图像中的目标检测可以为卫星视频中的车辆检测提供灵感。目标计数和密度估计在人群分析以及交通拥堵预测中都很重要。除了直接采用目标检测器外，基于CNN的回归模型在这项任务中被广泛使用。它们大多基于全卷积网络（FCN）[29]，使用实例级或图像级标注。TRANCOS[30]和VisDrone2019 Vehicle[31]是两个专门为车辆计数和密度估计设计的数据集，可以为卫星交通监控带来益处。

2.3 卫星交通监控

随着吉林一号和SkySat-1卫星视频的发布，卫星交通监控引起了越来越多的关注[1], [6]。大多数工作都是近年来提出的。在[32]中，车辆通过背景减除检测，利用数学形态学和统计分析估计每帧的背景。性能在一个来自SkySat-1的卫星视频上进行了评估。低秩矩阵分解在[4]中得到了修改，以便在低秩和稀疏性的正则化下对背景和前景建模。此外，辅助运动置信度的矩阵分解在[1]中得到了发展，它可以在抑制背景运动的同时促进车辆运动。性能在两个卫星视频和两个监控视频上进行了评估。总体而言，卫星交通监控仍处于早期阶段，亟需大规模数据集和基准测试来推动其发展。

3 TMS 数据集

3.1 数据收集与预处理

我们尽最大努力收集了可用于卫星交通监控的视频。TMS 的真实部分由 12 个完整的卫星视频组成，这些视频由吉林一号和 SkySat-1 等非静止卫星平台拍摄，地面采样距离约为 1 米。在这种情况下，车辆在视频中仅占据 5 到 20 个像素。这些视频记录了波士顿、迪拜、瓦伦西亚、吉达、拉斯维加斯、香港、阿勒颇、曼谷和东京的天空景象。所拍摄的场景包括城市街道、机场、郊区和港口。其中五个视频由吉林一号官方网站**[4]免费提供，其余视频则从 YouTube[5]**上抓取，因为官方发布版本不可用。

TMS 的合成部分包含从游戏 GTA-V 获取的 14 个视频。GTA-V 构建了一个以洛杉矶为原型的虚构城市，名为洛圣都。游戏中的地图覆盖了 252 平方公里。游戏中的场景渲染、光照、阴影、天气效果等与现实世界非常相似，使得玩家可以沉浸其中。此外，GTA-V 允许玩家进行非商业开发，如学术用途。在本研究中，视频不同于玩家的主观视角，而是从 GTA-V 的卫星视角录制。这些视频展示了游戏地图中不同城市街道或郊区的场景，录制使用了 Windows 10 的屏幕录制软件 Xbox Game Bar。

真实和合成卫星视频结合形成 TMS 数据集。每个视频的分辨率为 1080x1920 或 3072x4096，覆盖了几个平方公里的区域。为了简化处理，这些完整的卫星视频在空间上被分割成子区域。分辨率为 1080x1920 的视频通过 2x4 网格均匀分割为 540x480 的子区域，而分辨率为 3072x4096 的视频通过 6x8 网格均匀分割为 512x512 的子区域。通过将完整视频分割成子区域，共获得了 408 个视频，包括 296 个真实视频和 112 个合成视频。此外，为了简化标注，每个视频以 1 帧每秒的频率进行采样。最终，TMS 数据集包含 9,296 张图像，其中真实图像和合成图像分别为 7,336 张和 1,960 张。

卫星视频的标注过程非常艰巨。这是因为车辆非常小，缺乏外观特征，很难从背景中识别出来。为了解决这一问题，我们在工作中采用了一种基于运动的标注方法。具体来说，车辆的运动幅度大于周围背景。在这种情况下，可以通过比较两个连续帧之间的差异将车辆从背景中区分出来。为了放大这种差异，我们比较了时间间隔为一秒的两帧图像，从而使这种差异能够被人眼识别出来。如图 3 所示，差异部分通过颜色高亮显示。绿色表示当前帧中该区域的像素值高于下一帧，这表明车辆的位置。相反，红色表示下一帧中车辆的位置。然而，车辆和背景的运动交织在一起，使得标注过程变得非常混乱，如图 3 (b) 所示。

为了进一步减少背景运动带来的干扰，我们采用基于强度的图像配准方法**[6]**来消除背景的平移。在这种情况下，标注人员可以轻松地定位车辆。每辆车都用一个点进行标注，表示其位置。实际上，标注工具是基于 Matlab R2019b 开发的。

在合成视频中，车辆的位置通过将地图坐标转换为屏幕坐标来自动获取。标注工具基于游戏插件开发工具 Script Hook V **[34]**设计。它在标注过程中节省了大量的人工。此外，它可以生成大量自动标注的合成视频，以增加训练数据并提高真实卫星视频的性能。这为解决 VHR 卫星视频真实数据不足的问题提供了一种有效的途径。

我们要强调的是，与之前发布的瓦伦西亚数据集 [6] 不同，TMS 数据集中不提供不同帧中车辆的 ID。这是基于以下原因：1）瓦伦西亚是一个部分标注的数据集，标注区域是手动选择的。而 TMS 是一个完全标注的数据集，车辆非常密集，缺乏外观特征，难以被标注人员识别。2）VHR 视频由低地球轨道上的卫星捕获。卫星视角是不固定的，因此只能在很短的时间内注视城市，这使得有效跟踪车辆变得不可行。因此，本文未开发车辆跟踪任务。

总的来说，在我们的工作中，共有 14 名标注人员参与了标注过程，花费了超过 500 个工作小时。此外，每个标注人员还兼任检查员，以保证每张图像标注的准确性。

3.2 数据统计

TMS 数据集由 26 个真实和合成的卫星视频构成，共获取了 408 个视频片段和 9,296 张图像。在每张图像中，车辆的位置均已标注，车辆数量在 0 到 101 之间不等。总计标注了 128,801 辆车辆。

表 1 列出了现有数据集的统计信息。目前，TMS 是用于卫星交通监控的最大数据集，也是该任务中唯一公开可用的大规模数据集。与现有数据集相比，它具有以下优势：

TMS 的真实部分基于 12 个完全标注的卫星视频创建，每个视频覆盖几平方公里的区域，获取了 7,336 张标注图像。而现有数据集仅包含一到两个部分标注的视频。通过大规模的 TMS 数据集，深度学习方法可以应用于卫星交通监控任务，评估也可以有效进行。
TMS 首次利用合成视频来扩充数据集，解决了公开卫星视频资源匮乏的问题。合成视频可以自动标注，显著减少了人工成本。通过利用合成视频，TMS 为研究人员开辟了一个新的视角，以开发方法并提升性能。
在 TMS 中，视频捕捉了全球不同城市以及虚拟城市的场景，包括市中心、郊区、港口、机场等。每张图像中的车辆数量在 0 到 101 之间大幅变化。然而，现有数据集仅包含一到两个交通密集的场景，无法满足在不同地点和情况下进行交通监控的需求。在这种情况下，TMS 可以提高所开发方法的通用性。

此外，图 4 和图 5 绘制了不同车辆数量和交通密度的样本分布。可以观察到，TMS 在车辆数量范围上具有最大跨度，即从 0 到 100+。此外，只有 TMS 包含车辆数量为零的负样本。而其他两个数据集，瓦伦西亚和拉斯维加斯，由于大多数样本中车辆数量超过 10，缺乏无车和稀疏交通场景。此外，从图 5 中可以看到，TMS 的真实部分和合成部分都覆盖了无车、稀疏、正常和密集的交通场景。与现有公开数据集相比，这显示了 TMS 的优越性。总之，TMS 更适合用于真实的卫星交通监控场景。

3.3 应用任务

为了有效地从卫星监控交通，我们基于 TMS 数据集开发了三个任务：微小目标检测 (Tiny Object Detection, TOD)、车辆计数 (VEhicle Counting, VEC) 和交通密度估计 (Traffic Density Estimation, TDE)。在 TMS 数据集中，我们随机分配 50% 作为训练集，25% 作为验证集，其余用于测试，所有任务都遵循这一标准。需要注意的是，数据集是按视频片段 (即总共 408 个片段) 分配的，而不是按图像分配的，因为两个时间相邻的图像相似，可能导致训练信息泄露。

TOD 的目标是定位每张图像中的车辆。它可以通过两种策略进行：**一种是单图像检测策略，即通过对单张图像应用检测器来检测目标；另一种是基于运动的检测策略，即检测器操作于视频中，通过利用连续帧之间的运动来区分目标与背景。**按照现有的检测协议，将标注点修改为高宽均为六个像素的边界框。边界框的大小足以覆盖大多数车辆。在评估中，精确率、召回率和 F 值被用作评估指标。

VEC 的任务是统计屏幕上的车辆数量，这是估计交通拥堵的基本因素。与 TOD 不同，VEC 关注的是全局交通状况，而不需要定位图像中的每辆车。本文中，采用平均绝对误差 (Mean Average Error, MAE) 和均方误差 (Mean Square Error, MSE) 作为评估指标，用以衡量估计数量与标注数量之间的差异。

TDE 旨在估计每张图像中的交通密度图，为交通拥堵提供生动的可视化效果。在实际操作中，为生成密度图的真值，将标注位置用高斯核进行模糊处理，其中核大小固定为 29，σ = 4。在 TDE 中采用了两个流行的评估指标，即图像结构相似度 (Structural Similarity in Image, SSIM) 和峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)，它们用于衡量密度图估计的性能。

4 实验

4.1 微小目标检测实验

在 TOD 任务中，评估了三种方法，即背景减除、深度目标检测器和深度目标定位器。它们的详细描述如下。

4.1.1 背景减除

R-PCA：鲁棒主成分分析 [35]。它将背景和前景分别分解为低秩矩阵和稀疏矩阵。通过主成分追踪和快速低秩近似共同优化，前景像素通过形态分割获得。
GMM：高斯混合模型 [36]。假设每个像素在时间上服从高斯分布，使用多个高斯分布对背景进行建模。一个像素如果属于其中一个分布则被视为背景点，背景通过迭代更新。
ViBe：视觉背景提取器 [37]。它通过多个邻居对每个背景像素进行建模，这样可以在单帧中初始化背景。假设随机模型可以模拟像素变化的不确定性，如果某个点被识别为背景，背景则用随机邻居更新。
TFD：三帧差分法 [38]。通过检测帧序列中的变化来减除背景。利用三个连续帧配对计算变化，有效减少了遮挡和噪声的干扰。
LSD：低秩和结构化稀疏分解 [39]。通过低秩范数和结构化稀疏范数的正则化将前景和背景分解。
DECOLOR：低秩表示中连续异常检测 [40]。假设背景在帧序列中线性相关，将视频帧表示为低秩矩阵，异常检测出前景对象。

4.1.2 深度目标检测器

Faster RCNN: Faster Region-CNN [15]。这是一个流行的基于锚点的深度目标检测器。首先利用区域提案网络 (RPN) 生成区域建议，然后应用 Region-CNN 对检测对象的坐标进行回归。
SSD: Single Shot multibox Detector [16]。这是一种单阶段目标检测器，可以联合定位和识别对象，效率远高于 Faster RCNN。本文采用 VGG-16 作为 SSD 的骨干网络。
YOLO 系列: YOLO v4, v5, v6, v7, v8。这是一个无锚点的深度目标检测器，将整张图像分割成网格单元，直接回归定位。YOLO v4 [28], YOLO v5, YOLO v6 [41], YOLO v7 [42], 和 YOLO v8 [43] 使用类似的技术，如裁剪、旋转、翻转、马赛克等，来增强训练数据。
Tood: 任务对齐的单阶段目标检测 [45]。它是一种单阶段目标检测器，明确地通过学习方式对目标分类和定位进行对齐。它采用 ResNet 作为骨干，并遵循骨干-FPN-head 的总体流程。
Dino: 提升去噪锚框的 DETR [44]。这是一个稳健的端到端方法，用于改进目标检测中去噪锚框，采用 Transformer 作为骨干。

4.1.3 深度目标定位器

RAZNet: 递归注意力缩放网络 [47]。最初用于人群定位，本文中用于仅通过点标注来定位车辆。它通过递归在小图像区域上操作并放大到高分辨率，擅长检测微小目标。
SCAL Net: 一个简单而有效的计数和定位网络 [46]。它提出了一个联合框架来解决车辆计数和定位问题，作为像素级密集预测问题。

4.1.4 结果与讨论

表 2 展示了不同方法在微小目标检测任务上的结果。可以观察到，TOD 任务确实是一个具有挑战性的任务，因为大多数经典和流行的方法的表现比在传统目标检测任务上差得多。

对于背景减除方法，R-PCA 的表现非常差，主要因为 R-PCA 中的前景是通过形态学分割获得的，而这些车辆太小，几乎无法识别其形态特征。更糟的是，其他背景建模方法，包括 GMM、ViBe 和 LSD，也因前景和背景像素分布极不平衡而表现不佳。TFD 通过检测连续三帧之间的变化来区分车辆和背景。然而，如前所述，卫星视频中的运动非常复杂。DECOLOR 假设背景在帧序列中线性相关，将车辆作为异常点检测，在背景减除方法中表现最好。

基于深度学习的目标检测在计算机视觉领域取得了巨大成功。然而，由于卫星视频中的车辆太小，检测器难以捕捉，因此 TOD 任务极具挑战性。可以看到，Faster RCNN 和 SSD 的表现不佳，甚至比传统检测器更差，主要原因是车辆在整个图像中仅占很小一部分。经过几层卷积和池化层编码后，车辆的特征在特征图中消失。为了保持车辆特征，YOLO v4、v5、v6、v7 和 v8 使用了更强大和更深的骨干网络，以提取更丰富的特征表示。因此，它们的表现优于 Faster RCNN 和 SSD，并且优于 Dino 和 Tood，这些方法采用了多尺度特征交互。

表 2 还展示了两个深度目标定位器的结果。它们通过点标注检测车辆，这与目标检测方法截然不同。可以看到，SCAL Net 表现不佳，这是因为车辆太小，远小于人群中的实例。RAZNet 在 TMS 的真实部分中取得了更好的结果，主要得益于其缩放策略，该策略在小区域上操作并递归地放大到高分辨率。图 6 展示了不同方法在 TOD 任务上的结果。请注意，表 2 中表现极差的方法未显示。可以看到，GMM、ViBe 和 TFD 的结果包含大量误报样本。其他方法表现较好，但远未达到理想水平。总体来看，从表 2 和图 6 的结果中可以得出简单结论，由于车辆尺寸极小，TOD 是一项具有挑战性的任务。因此，大多数传统方法的表现远不如典型目标检测任务。此外，基于深度学习的检测器和定位器的优势也较小。幸运的是，空间缩放和特征融合为未来研究提供了一些有意义的见解。

4.2 车辆计数和交通密度估计实验

车辆计数和密度估计是两个相关任务。它们在文献中遵循类似的协议。在这种情况下，本节一起讨论了 VEC 和 TDE 的实验。

4.2.1 比较与评估方法

MCNN: 多列卷积神经网络 [48]。通过设计不同大小的卷积核，采用多列方案，可以适应任意人群密度和图像的透视图。
C3F-VGG: VGG-16 的一种变体 [49]。采用 VGG-16 的前 10 层卷积层进行表示学习，并添加两层回归层来估计密度图。
CSRNet: 拥挤场景识别网络 [50]。同样以 VGG-16 为骨干，并在顶部设计了扩张模块。
SFCN+: 空间全卷积网络 [51]。以 ResNet-101 [56] 为骨干，添加扩张卷积、空间编码器和回归模块，直接预测密度图。
SCAR: 空间通道注意回归 [52]。在特征图的空间轴和通道轴上进行自注意操作，可以捕捉全局上下文信息。
GSCC: 人群计数的广义损失函数 [53]。通过优化非平衡问题来学习密度图表示，并引入了广义损失函数，用于人群计数和定位中的密度图获取。
P2PNet: 点对点网络 [54]。提出了一个纯粹的基于点的框架，允许更精确和无缝地将个体定位与人群计数集成。
CCTrans: 基于 Transformer 的人群计数 [55]。利用金字塔视觉 Transformer 骨干网络捕捉人群的全貌信息，随后利用另一个金字塔视觉 Transformer 骨干网络进一步封装全局人群信息。
RAZNet 和 SCAL Net。

4.2.2 结果与讨论

表3展示了不同方法在车辆计数和交通密度估计任务上的结果。总共比较了十种最近提出的方法，它们都是从典型的计算机视觉任务（如人群计数）中采用的有效深度学习方法。可以观察到，它们中的大多数表现相当接近。具体来说，在车辆计数任务中，SFCN+（一种空间全卷积网络）在TMS的真实部分表现最佳。在交通密度估计中，RAZNet的表现优于大多数其他方法，这再次证明了在微小车辆感知中的缩放策略的有效性。虽然CCTrans在TMS游戏部分的MAE和MSE指标上表现最好，但其在真实部分的表现较为逊色。

此外，尽管在TMS的真实部分提供了更多的训练样本，但大多数方法在游戏部分的表现优于真实部分。这主要是因为卫星视频中车辆的数量变化很大，并且卫星视频中包含了大量的噪声。相比之下，游戏视频要简单得多。此外，我们可以看到，通过采用数据增强策略，大多数方法的表现都有所提升。这验证了利用合成数据来弥补真实卫星视频缺乏的可行性。

图7展示了不同方法在车辆计数和交通密度估计任务上的结果。需要注意的是，SCAL Net表现极差，因此未展示其结果。可以观察到，大多数基于深度学习的方法在定位车辆以及估计数量和密度方面表现良好，为利用卫星监测交通提供了有效的方法。

5. 结论与展望

商业卫星捕获的高分辨率视频使得从卫星监控交通成为可能。为了推动这一领域的发展，我们构建了一个大规模的数据集，即TMS。该数据集由12个卫星视频和14个合成视频组成，共获得了9296幅图像，并全面标注了128,801辆车辆。这使得深度学习方法在该领域的应用成为可能，并提供了一种从《GTA-V》中扩展数据的新视角。基于TMS，开发了三个任务，包括微小目标检测、车辆计数和密度估计。测试了几种经典和流行的方法，结果证明了TMS的挑战性和优越性。TMS数据集、标注工具和开发的任务为从卫星监控交通提供了新的见解。

基于定量和定性分析得出的结果，我们发现了一些有趣的模式，并揭示了在卫星车辆感知任务中需要考虑的新挑战：

如何补偿不同区域的性能差异？ 不同城市的卫星视频存在显著差异，这可能会干扰训练模型的泛化能力，并导致其性能大幅波动。为解决这一问题，研究人员可以重点解决通过领域适应来应对卫星视频中的车辆感知挑战。此外，他们可以深入研究如何从合成数据和现实数据的交互中提取更有效的领域不变特征。
如何将视觉基础模型引入到这一任务中？ 最近，提出了几种视觉基础模型，如SAM、Dino、GPT-4V等。它们在视觉感知性能上大大超越了传统和深度学习方法，引领了计算机视觉领域的数据中心研究。研究人员应考虑将这些基础模型应用或调整到卫星车辆感知任务中。
如何有效解决卫星视角位移问题？ 正如本文中提到的，高分辨率视频由低地球轨道卫星捕获。卫星的视角是非静止的，只能对城市进行短暂的观察。这使得有效的车辆跟踪变得不可行。在这种情况下，本文未开展车辆跟踪任务。未来研究者可以利用图像拼接和图像对齐等技术，将多个轨道的数据整合成一个连贯的实时交通监控系统，从而在卫星视频中实现对交通的持续监控。