文章目录
- 一、传统方法
- 1. 基于卡尔曼滤波器的方法
- 1.1 Kalman Filter(卡尔曼滤波器)
- 2. 基于数据关联的方法
- 2.1 匈牙利算法
- 二、深度学习方法
- 1. 基于检测的多目标跟踪
- 1.1 SORT算法
- 1.2 DeepSort
- 1.3 BoT-SORT
- 2. 基于特征关联和增强的方法
- 2.1 ByteTrack
- 3. 基于Transformer的方法
- 3.1 TransTrack
- 3.2 DETR(DEtection TRansformer)
- 三、多目标跟踪的评估指标
- 1. 基础指标
- 2. 综合指标
- 3. 其他指标
多目标跟踪(Multi-Object Tracking, MOT)是计算机视觉领域的一个重要任务,旨在同时跟踪视频序列中的多个目标。多目标跟踪算法经历了从传统方法到深度学习方法的转变。
一、传统方法
1. 基于卡尔曼滤波器的方法
1.1 Kalman Filter(卡尔曼滤波器)
当在连续的帧中检测到目标后,需要对这些目标进行跟踪。卡尔曼滤波器在此起到关键作用,它通过预测和更新步骤,根据前一帧的状态预测下一帧的状态,并利用当前帧的测量值来更新预测。卡尔曼滤波器可以用于估计目标的运动轨迹。这可以提高跟踪的准确性,尤其是在目标运动快或目标被遮挡的情况下。
2. 基于数据关联的方法
2.1 匈牙利算法
在多目标跟踪(Multi-object tracking,MOT)中,色利算法主要被用于数据关联。即在连续的帧之间确定每个目标的ID。
二、深度学习方法
1. 基于检测的多目标跟踪
1.1 SORT算法
·标题:简单的在线和实时跟踪(SIMPLE ONLINE AND REALTIME TRACKING )
·目的:开发一种实时多物体跟踪方法,适用于在线应用。
·方法:通过组合卡尔曼滤波器和匈牙利算法等熟悉技术,实现了一个实时跟踪系统。
·重点:检测质量被确定为影响跟踪性能的关键因素。通过改变CNN检测器,可以提高跟踪性能。
·结论:该算法的更新速度为260Hz,比其他最先进的跟踪器快20倍以上,同时实现了与最先进的在线跟踪器相当的准确性。
1.2 DeepSort
整合了外观信息以提高SORT的性能。由于这一扩展,能够在更长的遮挡期间跟踪物体,有效地减少了身份切换的次数。
·秉持原始SORT框架的精神,将大部分计算复杂性置于离线预训练阶段,在该阶段在大规模的行人RelD数据集上学习了一个深度关联度量(多维向量)。
在线应用过程中,使用视觉外观空间中的最近邻查询来建立测量与跟踪的关联。实验评估表明,减少了ID切换的次数45%。
1.3 BoT-SORT
结合了运动和外观信息、相机运动补偿和更准确的卡尔曼滤波状态向量。
论文提出的方法的三个改进点是:
1.Kalman滤波器:
使用离散Kalman滤波器来建模图像平面中物体的运动,采用常速度模型,使用更准确的状态向量。
2.相机运动补偿:
通过相机运动补偿来纠正相机运动对目标跟踪的影响,提高跟踪的准确性。
3.loU和RelD的余弦距离融合:
提出了一种新的简单但有效的方法,用于loU和RelD的余弦距离融合,以更稳健地关联检测和轨迹。
通过将这些改进集成到ByteTrack中,提出了两个新的最先进的跟踪器,BoT-SORT和BoT-SORT-RelD。
2. 基于特征关联和增强的方法
2.1 ByteTrack
是一种基于Tracking-by-Detection范式的多目标跟踪算法。通过改进目标关联方法(如咬字关联)和卡尔曼滤波器,提高跟踪的精度和实时性.
ByteTrack解决了多目标跟踪中的一个重要问题,即低分检测框的处理。·传统的跟踪方法通常只关联高分检测框,而低分检测框通常被忽略,这会导致一些真实的目标被漏检或者跟踪轨迹被碎片化。
E ByteTrack通过关联几乎每个检测框,包括低分检测框,利用它们与轨迹片段的相似性来恢复真实目标并过滤掉背景检测,从而提高了检测器的性能。
3. 基于Transformer的方法
3.1 TransTrack
使用Transformer模型提取目标的时空特征,通过自注意力机制捕获长程依赖关系,提高跟踪性能。
3.2 DETR(DEtection TRansformer)
结合Transformer和匈牙利算法,实现端到端的目标检测和跟踪。
三、多目标跟踪的评估指标
多目标跟踪的评估指标从多个方面评估跟踪算法的性能,包括检测准确性、身份保持稳定性、跟踪连续性和位置误差等。
1. 基础指标
1.1 真正例(True Positive, TP)
定义:被模型预测为正的正样本,即被检测出来的目标。
作用:衡量模型检测到的目标数量。
1.2 假正例(False Positive, FP)
定义:被模型预测为正的负样本,即误报。
作用:衡量模型错误检测到的目标数量。
1.3 假负例(False Negative, FN)
定义:被模型预测为负的正样本,即漏报。
作用:衡量模型未检测到的目标数量。
1.4 真负例(True Negative, TN)
定义:被模型预测为负的负样本。
作用:在目标检测中,TN通常不作为主要评估指标,因为背景区域的负样本数量非常大
2. 综合指标
多目标跟踪精度(Multiple Object Tracking Accuracy, MOTA)
作用:综合评估漏报、误报和ID切换的错误率。
特点:MOTA的最大值为1,最小值可以为负无穷,因为它考虑了ID切换(ID Switches)的惩罚
2.1 身份F1分数(Identification F1 Score, IDF1)
作用:综合评估身份匹配的精度和召回率。
2.2 身份切换次数(ID Switches, IDSW)
定义:前一帧和后一帧中对于相同GT轨迹的预测轨迹ID发生切换的次数。
作用:衡量身份保持的稳定性。
2.3 高阶跟踪精度(Higher Order Tracking Accuracy, HOTA)
作用:综合评估检测、身份匹配和跟踪位置的准确性。
3. 其他指标
3.1 大多数跟踪轨迹(Mostly Tracked Trajectories, MT)
定义:成功跟踪的帧数占总帧数的80%以上的GT轨迹数量。
作用:衡量长时间跟踪的成功率。
3.2 FPS:Frames Per Second,每秒处理的帧数。