【深度学习：对象跟踪】对象跟踪完整指南 [教程]

在这里插入图片描述

【深度学习：对象跟踪】对象跟踪完整指南 [教程]

- 什么是计算机视觉中的对象跟踪？
- 对象跟踪有哪些不同类型？
- - 图像跟踪
  - 视频跟踪
  - 单目标跟踪
  - 多对象跟踪
- 计算机视觉中对象跟踪的用例
- - 监测
  - 零售
  - 自动驾驶汽车
  - 医疗保健
- 对象跟踪方法
- - 步骤 1：目标初始化
  - 第 2 步：外观建模
  - 第 3 步：运动估计
  - 第 4 步：目标定位
- 对象跟踪的挑战
- - 背景杂波
  - 照度变化
  - 闭塞
  - 低分辨率
  - 比例变化
  - 目标形状的变化
  - 快动作
- 用于目标跟踪的深度学习算法
- - 深度排序
  - MDNet
  - SiamMask
  - GOTURN
- Encord 中的对象跟踪指南
- - 步骤 1：创建新项目
  - 第 2 步：添加数据集
  - 步骤 3：设置本体
  - 第 4 步：设置质量保证
  - 一切准备就绪！
- 结论

视觉对象跟踪是计算机视觉中的一个重要领域。迄今为止，已经提出了许多具有有希望结果的跟踪算法，包括最近出现的基于深度学习的算法，并因其出色的跟踪性能而引起了许多人的兴趣。在我们深入研究一些最著名的对象跟踪深度学习算法之前，让我们首先了解对象学习及其在计算机视觉领域的重要性。

什么是计算机视觉中的对象跟踪？

对象跟踪涉及一种算法，用于跟踪目标对象的运动，并预测图像或视频中对象的位置和其他相关信息。

对象跟踪与对象检测不同（许多人会熟悉 YOLO 算法）：对象检测仅限于单个帧或图像，并且仅在输入图像中存在感兴趣的对象时才有效，而对象跟踪是一种用于预测目标对象位置的技术，通过跟踪物体的轨迹，无论它是否存在于图像或视频帧中。

对象跟踪算法可以根据任务和它们所训练的输入类型分为不同的类型。让我们来看看四种最常见的对象跟踪算法类型：

Image tracking 图像跟踪
Video tracking 视频跟踪
Single object tracking 单对象跟踪
Multiple object tracking 多对象跟踪

对象跟踪有哪些不同类型？

图像跟踪

图像跟踪的目的是检测给定输入中感兴趣的二维图像。然后，当图像在环境中移动时，图像会被持续跟踪。因此，影像追踪最适合具有鲜明对比度图像、不对称性、图案以及感兴趣影像与影像数据集中其他影像之间存在若干可识别差异的数据集。

视频跟踪

顾名思义，视频跟踪是跟踪视频中感兴趣对象的任务。它涉及按顺序分析视频帧，并通过预测和创建周围的边界框，将对象的过去位置与当前位置拼接在一起。它广泛用于交通监控、自动驾驶汽车和安全监控，因为它可以实时预测有关物体的信息。

图像和视频对象跟踪算法都可以根据它们所跟踪的对象数量进一步分类：

单目标跟踪

顾名思义，单对象跟踪涉及在视频或图像序列中一次仅跟踪一个目标。目标和边界框坐标在第一帧或图像中指定，并在后续帧和图像中识别和跟踪。

单对象跟踪算法应该能够跟踪给定的任何检测到的对象，甚至是没有训练可用分类模型的对象。

在这里插入图片描述

多对象跟踪

另一方面，多对象跟踪涉及跟踪多个对象。跟踪算法必须首先确定每帧中的对象数量，然后跟踪每个帧中每个对象的身份。

在这里插入图片描述
既然我们已经对物体追踪有了一个简单的了解，那就让我们来看看它的几个使用案例，然后深入了解物体追踪算法的各个组成部分。

计算机视觉中对象跟踪的用例

监测

实时物体跟踪算法可用于多种监控。它们既可用于跟踪活动，也可用于跟踪物体–例如，物体跟踪算法可用于检测某个监控地点内是否有动物，并在检测到入侵者时发出警报。在大流行病期间，物体跟踪算法经常被用于人群监控，即跟踪人们在公共场所是否保持社交距离。

零售

在零售业，物体追踪通常用于追踪顾客和产品–亚马逊 Go 商店就是一个例子，在那里，这些算法对于建立无收银员结账系统至关重要。多物体跟踪系统不仅会跟踪每个顾客，还会跟踪顾客拿起的每个物体，从而使算法能够实时确定顾客将哪些产品放入购物篮，然后在顾客穿过结账区时生成自动收据。这是计算机视觉任务如何为顾客带来切实利益（如更快结账和更流畅的体验）的一个实际例子。

自动驾驶汽车

人工智能驱动的物体检测和跟踪技术最广为人知的用途可能就是自动驾驶汽车。视觉物体跟踪在汽车中被用于多种用途，包括障碍物检测、行人检测、轨迹估计、避免碰撞、车速估计、交通监控和路线估计。人工智能是自动驾驶交通的核心，而图像分类和移动物体检测将对这一领域的未来产生巨大影响。

医疗保健

视觉物体跟踪技术在医疗保健行业的应用日益广泛。例如，制药公司使用单个和多个目标跟踪来实时监控药品生产，确保实时检测和处理任何紧急情况，如机器故障或药品生产线故障。

在重点介绍了物体跟踪的几个示例之后，让我们来深入了解其组成部分。

对象跟踪方法

步骤 1：目标初始化

对象跟踪的第一步是定义目标和感兴趣对象的数量。通过在目标对象周围绘制一个边界框来识别感兴趣的对象——在图像序列中，这通常位于第一张图像中，而在视频中则位于第一帧中。

然后，跟踪算法必须预测对象在剩余帧中的位置，同时识别对象。

此过程可以手动或自动完成。用户进行手动初始化，以使用边界框或省略号注释对象的位置。另一方面，对象检测器通常用于实现自动初始化。

第 2 步：外观建模

外观建模涉及对对象的视觉外观进行建模。当目标物体经历许多不同的场景时（例如不同的照明条件、角度或速度），物体的外观可能会有所不同，从而导致错误信息和算法失去对物体的跟踪。必须执行外观建模，以便建模算法能够捕获感兴趣对象移动时引入的不同变化和变形。

这种类型的优化主要由两个部分组成：

视觉表示：使用视觉特征构建可靠的对象描述
统计建模：使用统计学习技术为对象识别构建有效的数学模型

在这里插入图片描述

第 3 步：运动估计

一旦定义了对象并对其外观进行了建模，就可以利用运动估计来推断模型的预测能力，以准确预测对象的未来位置。这是一个动态状态估计问题，通常通过使用线性回归技术、卡尔曼滤波或粒子滤波等预测变量来完成。

第 4 步：目标定位

运动估计近似于最有可能找到物体的区域。一旦确定了物体的大致位置，就可以利用视觉模型来精确定位目标的确切位置——这是通过贪婪搜索或基于运动估计的最大后验估计来执行的。

对象跟踪的挑战

在构建对象跟踪算法时，会出现一些常见的挑战。在笔直的道路或简单的环境中跟踪物体很简单。在现实世界中，感兴趣的对象会受到许多因素的影响，使对象跟踪变得困难。在设计对象跟踪算法时，意识到这些常见挑战是解决这些问题的第一步。对象跟踪的一些常见挑战是：

背景杂波

当背景人口稠密时，很难提取特征、检测甚至跟踪目标对象，因为它会引入更多的冗余信息或噪声，使网络对重要特征的接受度降低。

在这里插入图片描述

照度变化

在现实生活中，感兴趣物体上的照明会随着物体的移动而发生巨大变化，这使得其定位更难跟踪和估计。

在这里插入图片描述

图 5：目标对象被阴影。

闭塞

当不同的物体和物体进入和离开画面时，目标物体的边界框通常会被遮挡，从而阻止算法识别和跟踪它，因为背景或前景会干扰它。当多个对象的边界框靠得太近时，通常会发生这种情况，从而导致算法混淆，并将跟踪对象标识为新对象。

在这里插入图片描述

低分辨率

根据分辨率的不同，训练数据集边界框内的像素数可能太低，无法使对象跟踪保持一致。

在这里插入图片描述

比例变化

比例也是一个因素，当第一帧和当前帧的边界框超出范围时，算法跟踪目标对象的能力可能会受到挑战。

在这里插入图片描述

目标形状的变化

在图像和帧中，感兴趣对象的形状可能会旋转、变暗、变形等。这可能是由于多种因素造成的，例如视点变化或对象比例的变化，并且通常会干扰算法的对象跟踪直觉。

在这里插入图片描述

快动作

特别是在跟踪快速移动的物体时，物体的快速运动通常会影响跨帧和图像准确跟踪物体的能力。

现在，我们已经讨论了构建对象跟踪算法所需的每个组件，以及在现实世界中使用该算法时面临的挑战。我们正在构建的算法是针对现实世界中的应用，因此，构建强大而高效的对象跟踪算法至关重要。深度学习算法已被证明可以在对象跟踪方面取得成功。以下是一些著名的算法：

用于目标跟踪的深度学习算法

对象跟踪已经存在了大约 20 年，并且已经开发了许多方法和想法来提高跟踪模型的准确性和效率。

一些方法中使用了传统或经典的机器学习算法，例如 k 最近邻或支持向量机——这些方法可以有效地预测目标对象，但它们需要专业人员提取重要和歧视性信息。

另一方面，深度学习算法会自行提取这些重要的特征和表示。因此，让我们来看看其中一些用作对象跟踪算法的深度学习算法：

深度排序

DeepSORT是一种众所周知的对象跟踪算法。它是简单在线实时跟踪器或 SORT（一种在线跟踪算法）的扩展。SORT 是一种使用卡尔曼滤波器根据物体过去位置估计物体位置的方法。卡尔曼滤波器对遮挡非常有效。

SORT 由三个组件组成：

检测：首先，检测初始感兴趣的对象。
预测：使用卡尔曼滤波器预测感兴趣对象的未来位置。卡尔曼滤波器预测了物体的新滤波器，需要对其进行优化。
关联：需要优化已预测的目标对象的大致位置。这通常是通过使用匈牙利算法检测未来的位置来完成的。

深度学习算法用于改进SORT算法。它们允许 SORT 以更高的精度估计对象的位置，因为这些网络现在可以预测目标图像的特征。卷积神经网络（CNN）分类器本质上是在特定于任务的数据集上训练的，直到达到高精度。一旦实现，分类器将被移除，只留下从数据集中收集的特征。然后，SORT 算法使用这些提取的特征来跟踪目标对象。

DeepSORT的工作频率为20Hz，特征生成占用了近一半的推理时间。因此，在给定现代 GPU 的情况下，系统保持计算效率并实时运行。

在这里插入图片描述