自动驾驶TPM技术杂谈 ———

文章目录

介绍
- 目标外观模型
- - 目标形状模型
  - 目标特征描述
  - - 颜色特征
    - 梯度信息
    - 纹理特征
    - 光流特征
    - 边缘特征
    - 多特征融合
- 目标运动估计
- - 约束型模型
  - 描述型模型
- 目标检测
- - 线上检测器
  - 线下检测器
- 数据关联

介绍

目标跟踪技术一直以来都是计算机视觉领域中的一个核心分支。多目标跟着那个又因其技术的复杂性以及应用的广泛性成为重中之重。在道路场景里，自动驾驶系统不仅要求能够跟踪单个目标，也要跟踪多个目标进行综合决策。多目标跟踪的理论研究主要集中在外观建模、目标检测、目标运动估计及预测、数据关联。对一般单目标跟踪算法而言，其目的是在一段视频中逐帧对目标进行检测定位，并将这些目标位置连接起来得到目标的动态轨迹。如果能逐帧地实现对目标有效、准确检测，那么将检测结果连接起来就完成了目标跟踪的任务。对于多目标跟踪而言，跟踪目标的增加也带来了算法复杂度的问题。因为多个目标可能存在外观相似且存在遮挡的关系，单纯依靠检测已经无法满足跟踪的要求。更重要的是，多目标的情况不再是无选择地简单逐帧连接，此时的连接升级为一个数据关联的问题。
对一个多目标跟踪算法而言，其任务是是在视频中逐帧得到多个目标的位置（空间维），并正确地将属于同一个目标的位置连接得到相应的轨迹（时间维）。由此可见，多目标跟踪问题是一个跨越时间和空间两个维度的复杂问题。换个角度考虑，多目标跟踪问题需要解决两个主要问题：一是目标定位，二是目标识别。根据解决这两个问题的方式，我们可以将多目标跟踪方法分为基于检测地跟踪方法和基于预测地跟踪方法。此外，不同的算法在数据关联上也存在差异：局部关联地方法往往是逐帧或者基于视频段进行关联以延长目标轨迹；全局关联地方法则是采用先得到整段或者大段视频逐帧地目标位置信息之后进行关联而获得延迟轨迹。虽然多目标跟踪方法存在多种分类，但是算法的核心是相同的。主要的技术模块为：
1. 目标外观模型。采用合适地特征对目标外观进行描述建模，从而根据所得到的模型对目标进行识别。
2. 目标运动估计。采用不同的运动模型描述目标的运动规律，并依据规律对目标可能出现的位置实现预测。
3. 目标检测。采用不同的检测器，在单帧图像中实现对目标的检测定位。
4. 数据关联。负责将检测结果跨帧连接形成轨迹。

目标外观模型

目标外观模型是对目标的定量描述，是后续目标运动估计、相似性计算、数据关联等操作的依据。对于单目标跟踪算法来讲，目标外观模型是将目标与背景相区分的主要信息。因此，如何构造复杂、描述性和区分性足够健壮地外观模型是关键。对多目标跟踪算法来讲，由于目标的外观地相似性，目标外观模型不仅仅是跟踪的依据，还需要借助其他的信息来跟踪。通常来讲，目标外观模型包括两个方面：
1. 目标形状模型 —— 根据目标不同的特点以及不同的跟踪目的选定的一种合适方式进行表征。
2. 目标特征描述 —— 选择一种符合应用要求的特征来量化目标区域内的图像信息。

目标形状模型

1. 质点模型。目标由一个核心质点或者一组质点表征。这种模型适合用于尺寸小的目标跟踪
2. 简单几何模型。目标外观有矩形或者椭圆形等简单几何形状表示。这类模型常用于表征刚性目标且目标运动可以通过仿射或者投影变换进行建模。
3. 链接形状模型。该模型是由关节链接的各部分组成。例如用于表征人体的腿、脚、胳膊、躯干由关节连接。各部分之间的位置关系受到特定模型的约束。
4. 骨架模型。可以通过对齐剪影进行中轴变换得到。多运用于目标识别。
5. 目标剪影和轮廓模型。轮廓模型刻画目标的边界，边界之内的区域则是目标的剪影。该模型常用于表征非刚性的目标。

目标特征描述

所谓特征即将图像原始携带的灰度、亮度、RGB各通道强度等基础信息进行加工转换，得到描述性更强、更健壮的信息，可以理解为选择一种特征就是将原始图像信息翻译成一种特定的语言。另外，特征选择往往和目标外观模型相适配。若选择了几何形状模型或者剪影模型，通常会选择颜色直方图或者HOG等信息表达几何形状内部的图像信息；若选择了轮廓模型，则需要选用边缘特征进行表达。常用的特征主要如下。

颜色特征

颜色其实受到两个物理因素的影响 —— 发光体的光谱和目标表面的反射特性。图像处理过程中，RGB颜色空间是被广泛运用的。然而，RGB空间不是一个均衡的颜色空间，这是因为人类对颜色的感知存在差别。相比之下，HSV空间更加均衡同意。基于颜色的特征通常表现为直方图特征。

梯度信息

通过梯度的统计信息可以得到对光照变化和平面变换不敏感的特征，主要有SIFT(Scale-Invariant Feature Transform)、SURF(Speed Up Robust Feature)和 HOG(Histogram of Gradient)等。

纹理特征

通过描述物体表面颜色强度变化以反映物体光滑度和规则程度。与颜色特征相比，纹理特征对光照的变化有较强的健壮性。Gabor小波变换是常见的纹理特征。此外，LBP(Local Binary Patterns)特征也经常被用于目标跟踪。

光流特征

本质是位移向量的密度场，用于表征一个区域内各个像素的转移和运动。该特征的计算受到亮度约束的限制，即认为一个像素在连续帧中产生的位移应当是平滑的。基于光流特征的运动属性，常用于跟踪算法中。

边缘特征

物体的边缘会产生局部较明显的亮度、强度变化，因此可作为物体检测的有效信息。这种特征计算比较简单，还具有良好的光照不变性。

多特征融合

由于不同的特征具备自身的优劣势，因此多种特征融合使用能够得到更好的效果。

目标运动估计

对目标跟踪而言，外观信息是最显著、最关键的跟踪依据。目标的运动特性是目标另一个固有的特性，可以用来对目标的位置进行估计和预测。在多目标跟踪过程中，若目标外观区分性不够时，对每一个目标位置的准确估计就尤为重要。对目标运动的描述是通过不同的目标运动模型实现的。所有的运动模型都是建立在目标运动平滑特性的基础上。在视频跟踪的过程中，若视频帧率高，那可以近似的认为物体运动状态不存在跳帧的情况。在此假设上，通过分析历史帧的位置，可以总结出目标遵循的运动模型，从而实现在未来帧中的运动位置的预测。在得到预测结果后，对目标搜索的范围可以有效地缩小，数据拟合的解空间也同样得到缩减。常见的运动模型可以分为两类：
1. 约束型模型；
2. 描述型模型。

约束型模型

约束型模型通常是建立一系列约束条件来限制目标可能展现出来的运动模式。这类模型往往应用在基于优化的跟踪算法中，其通过约束条件建立目标能量模型，以此来惩罚违反运动模型的可能目标，常见的约束条件如下：
1. 临近性约束：认为目标位置不会再一帧中发生显著的变化。
2. 最大速度约束：限制目标在一帧中可能出现的最大位移。如只有在虚线圆之内的位置才有可能是目标的正确位置。
3. 速度稳定约束（平滑性约束）：速度大小和方向不会发生剧变。
4. 相似运动约束：相邻区域内的目标速度相似。
5. 刚性约束：同一刚性物体上的两个质点相对位置不变
在这里插入图片描述

Δ为目标t-2帧位置，⚪为t-帧，x为当前帧

描述型模型

与约束模型不同的是，描述型模型是将目标的运动模型通过目标状态转移方程表示出来。描述型模型可以分为线性（匀速）运动模型和非线性（变速）运动模型。前者仅能描述简单的直线运动，后者的适用性更广。
1. 线性（匀速）运动模型：这类模型与最大速度约束条件相似，认为目标在一帧的间隔中不会产生显著的位移，只需在目标上一帧位置的周围小范围内搜索即可。线性运动模型假设目标匀速直线运动，目标位置将基本保持在直线上，因此每一帧产生的位移就在目标现有轨迹的延长线上。
2. 非线性（变速）运动模型：粒子滤波器、扩展卡尔曼滤波器以及无迹卡尔曼滤波器作为卡尔曼滤波的衍生技术，可以实现基于非线性运动模型的目标跟踪。多种运动模型的组合也可以形成新的非线性运动模型。

目标检测

任何跟踪算法，不论是逐帧跟踪还是阶段性跟踪，都需要检测器实现检测。是因为检测是最直接的将目标状态与目标在图像中踪迹联系起来的方法。依据检测是否需要预先训练分为两类：

线上检测器

这类检测器不是基于学习方法，因此不需要进行线下训练。其最大的优势是实现无类别检测。最早出现的检测器是角点检测器，专门用于检测图像中的兴趣点。如运动区域检测器专门用于检测图像连续帧中出现位移的区域或目标。若运动目标密集，此类检测方法难以一一区分目标。运动检测器的检测算法可以分为三种：
1. 帧差法：利用连续帧灰度图像做差，通过设置合理阈值得到运动区域，常见的有两帧差法和三帧差法。
2. 背景消除法：通过对背景图像进行建模，然后从目标帧中减掉背景，以得到前景运动目标。常用的背景建模方法有基于高斯模型的背景建模、基于混合高斯模型以及连续图像求平均建模等。
3. 光流法：基于光流场发现目标。相对于前两种运动检测器方法，光流法的检测方法更加复杂且计算代价大。

线下检测器

线下检测器指的是基于学习的检测器。该方法需要预先收集正负样本集，因此基本无法实现无类别检测。经过充分的学习后，针对特定目标的检测是由于线上检测器的。根据训练所依据的特征不同和训练策略的不同，线上检测器也有众多的选择。基于颜色直方图、边缘、角点以及小波特征建立的级联分类检测器；使用Haar特征加Adaboost分类器来提高行人检测率；结合使用SIFT特征与边缘直方图的线下检测器。上述基于学习的检测器采用的军事浅层的简单学习方法。随着深度学习的技术进步，基于深度学习的目标检测方法也在逐步发展。

数据关联

数据关联是在得到目标检测结构的基础上，通过优化等手段，将这些尚未明确身份的检测结果逐一识别，从而在检测的基础上完成跟踪。数据关联的方法很大程度上依赖于检测的效果，其基本的假设是在视频图像中，前景区域已经通过检测器找出来，需要通过表象以及运动信息分析，将这些找出来的前景区域关联起来。
一些研究者将目标数据关联问题的建模转化为一个匹配的问题，即将目标在不同帧的检测结果匹配起来，其中包括两帧匹配方法以及多帧匹配方法。这类跟踪方法仅仅关注目标在一个局部有限时间段内的活动，因此对于长时间的遮挡情况表现不佳。另外的一些方法考虑建立k部图，描述不同目标检测框之间的关系，进而通过一系列优化方法来求解最佳的关联结果。例如匈牙利算法、网络流方法、K最短路径方法、最大权重独立集方法、线性规划方法等。这类方法仅仅考虑不同目标检测框在相邻两帧之间的关系，而不是跨越时间域的关系。因此若出现了两个空间距离相近的相似目标，则容易出现误关联，进而产生较大的影响。
近年来有学者将多目标跟踪数据关联建模变为一个连续的能量函数优化问题，其通过建模一个全局非凸函数来度量不同的关联情况好坏。通过使用标准的共轭梯度方法，对这个全局目标函数进行优化，得到最优的数据关联结果。在后续的工作中，又将目标数据关联问题表示为一种离散-连续的优化过程。就是将数据关联问题拆分为两个迭代的优化步骤：
1. 不同轨迹的数据关联
2. 目标轨迹的拟合。