【深度学习|目标跟踪】DeepSort 详解

news2025/1/17 5:54:49

DeepSort详解

  • 1、Sort回顾
  • 2、DeepSort的状态向量
  • 3、DeepSort的外观特征
  • 4、DeepSort的track状态
  • 5、DeepSort的代价矩阵以及门控矩阵
  • 6、DeepSort的级联匹配

1、Sort回顾

查看这篇博客

2、DeepSort的状态向量

  Sort中的卡尔曼滤波使用的目标的状态向量是一个7维的向量,如下图所示:
在这里插入图片描述
其中,u,v表示目标中心的水平和垂直像素的位置;s,r表示目标边界框的面积和纵横比。
DeepSort的状态量中加入了一个纵横比的变化率,如下图所示:
在这里插入图片描述
从理论上来讲,加入了一个纵横比的变化率确实能够提高目标跟踪的准确性,比较目标一直在移动会有遮挡,显示的检测框的纵横比肯定也不是固定的。这是DeepSort的运动特征表示。下面我们看DeepSort的外观特征表示。

3、DeepSort的外观特征

  为了解决Sort跟踪算法中,对于目标遮挡或检测失效等问题带来的,id消失之后再出现时的id不断变化的问题,DeepSort加入了一个特征提取网络来进行对特征进行匹配,可以关联上长时间被遮挡但又出现的目标、。DeepSort使用了一个简单的卷积神经网络来提取检测框中的目标特征向量,这里的网络可以自己diy,也可以使用目前主流的现有的CNN,如ResNet18,ResNet50等。在跟踪的过程中,DeepSort会将目标在当前帧的特征向量进行提取,并保存在track对象的属性中。在后面的每一帧中,都会执行一次将当前帧的目标特征向量与gallery中的特征向量进行相似度的计算(比如余弦相似度)。这个相似度将会作为DeepSort匹配阶段的一个重要的判别依据。

4、DeepSort的track状态

  DeepSort源码中的track类有三种状态,Tentative(暂定状态),Confirmed(确定状态),Deleted(删除态)。在开始检测时,检测的对象都会初始化一个track对象,此时的track为Tentative暂定状态,当这个track关联的检测对象连续三帧被检测到并且关联上这个track时,那么在第四帧就会将这个track的状态升级为Confirmed状态,如果track状态为Tentative并且当前帧失配了或者track的update次数已经超过了最大age,则将track的状态降级为Deleted状态。

5、DeepSort的代价矩阵以及门控矩阵

  将当前帧的检测框与先前存在的track进行关联的方式可以依靠匈牙利匹配算法来实现。但是在这之前,我们需要解决代价矩阵的问题。Sort的代价矩阵是由当前帧的运动特征与前一帧的运动特征的卡尔曼预测值进行iou的比对来产生的,这样做会导致较大的局限性。因此,DeepSort寻找了两个适当的指标来结合运动特征和外观特征。

  • 首先我们来看运动特征:作者采用了马氏距离来衡量卡尔曼预测态和当前测量值之间的差异。关于马氏距离的解释可以查看这篇博客。下图则是DeepSort中外观特征的马氏距离计算公式:
    在这里插入图片描述
    其中yi,si表示第i个track分布到测量空间的投影,dj表示第j个目标检测框,在代码中的体现:
    在这里插入图片描述
    我们计算出外观特征的距离之后,我们还需要一个阈值来判断是否是我们想要的匹配,其中四维空间的马氏阈值为9.4877,这在代码中也有体现:
    在这里插入图片描述
    有了阈值之后,我们就可以来卡满足匹配要求的外观特征和不满足匹配要求的外观特征了:
    在这里插入图片描述
    在计算出了feature的余弦相似度之后,我们可以使用这个外观特征的门控特性来卡,大于这个马氏阈值的,我们将feature的余弦相似度设置成一个很大的固定值,小于这个马氏阈值的,我们则保留本来的余弦相似度,代码中的体现:
    在这里插入图片描述

  • 外观特征:作者在每一个track中都创建了一个gallery来存储这个track在不同帧中的外观特征,并且每个外观特征的模长为1(特征层经过了归一化),论文中用Rk表示,Rk中最多存储100个外观特征。因此,当我们获取当前帧的所有检测框时就得到了所有当前帧的外观特征,我们拿这些外观特征与不同track对象中的Rk库进行余弦相似度的计算,并得到其中的最小值:
    在这里插入图片描述
    其中rj表示当前帧的第j个检测框,rk(i)表示第i个track的gallery特征库(余弦相似度值越大,说明两个目标之间越相似),因此这里的值取最小值表示最相似的。同样,设定一个阈值来卡余弦相似度:
    在这里插入图片描述
    在源码中,这里的阈值设置为0.2,即大于0.2的都置为一个固定值:
    在这里插入图片描述
    在这里插入图片描述

  • 运动特征与外观特征的融合:运动特征与外观特征的作用是相辅相成的,试想一下,运动特征可以匹配上短期内的物体位移带来的目标位置变化,但是遮挡之后目标的位置中断导致无法匹配上,而外观特征可以搜寻过往的track的特征,来进行匹配。但是当画面中出现两个目标的外观特征十分相似而空间上的分离能让我们确定他们时两个物体时,这时使用外观特征则会导致将他们视为一个track的误判,这时就需要运动特征来提供判断依据,因此作者采用了加权的方式来综合两个代价矩阵,得到最终的代价矩阵:
    在这里插入图片描述
    最后,我们联合运动门控矩阵(马氏距离阈值得到)与外观门控矩阵(max_distance阈值得到),得到了最终的关联性门控矩阵:
    在这里插入图片描述
    然后结合最终的代价矩阵和门控矩阵来得到最终用于匈牙利匹配的矩阵并进行级联匹配。

6、DeepSort的级联匹配

  对confirmed状态下的tracks和当前的检测框进行级联匹配,这里的级联指的是不同update次数下的tracks我们都需要与当前的所有检测框进行匹配。先遍历当前的所有tracks,并将其分成confirmed和unconfirmed的两种track,记录下他们的索引在对应列表中。然后进入matching_cascade方法中,从0开始遍历到cascade_depth,源码中设置为70,即我们遍历到最多在有70帧还未更新的track,遍历当前level下的所有tracks,挑出满足的tracks,然后进入min_cost_matching函数中与当前帧的检测框进行匹配,返回的是已经配对上的track索引和检测框索引,以及还剩下的未匹配的检测框索引;这个循环一直持续,当未匹配的检测框列表为空时,提前退出循环,算法流程如下图所示:
在这里插入图片描述
min_cost_matching函数中调用了gated_metric函数来进行代价矩阵的计算:

        def gated_metric(tracks, dets, track_indices, detection_indices):
            features = np.array([dets[i].feature for i in detection_indices])
            targets = np.array([tracks[i].track_id for i in track_indices])
            
            # 通过最近邻(余弦距离)计算出成本矩阵(代价矩阵)
            cost_matrix = self.metric.distance(features, targets)
            # 计算门控后的成本矩阵(代价矩阵)
            cost_matrix = linear_assignment.gate_cost_matrix(
                self.kf, cost_matrix, tracks, dets, track_indices,
                detection_indices)

            return cost_matrix

gated_metric函数中得到了外观特征代价矩阵,并且得到了运动特征的马氏距离门控矩阵,对代价矩阵进行了第一次的门控。
在这里插入图片描述
这里的distance_metric就是我们刚才提到的gated_metric在这里的调用,然后红框内的第二行就是使用最大余弦相似度进行第二次的门控,这样一来,关于卡尔曼状态的门控和外观特征的门控我们就都用上了。

最后说一下我对公式5的理解,我一开始以为的是作者想每次都把这两者给算出来然后按照一定的权重进行相加得到代价矩阵,结果在代码中找了很久并没有发现这一个操作。然后我才发现,也许这里的lambda不是1就是0,也就是说外观的代价矩阵还是外观的,在这一阶段我们利用外观代价矩阵进行匹配,在另一个阶段我们就会利用运动代价矩阵进行匹配。因此在级联匹配之后,还有一个利用iou的运动代价矩阵来对级联匹配中还没有匹配成功的目标进行二次匹配。也就是上文中我说的相辅相成的功能。 如有理解不对的地方,还请大家多多指出~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2243842.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

无人机在森林中的应用!

一、森林资源调查 无人机可以利用遥感技术快速获取所需区域高精度的空间遥感信息,对森林图斑进行精确区划。相较于传统手段,无人机调查具有低成本、高效率、高时效的特点,尤其在地理环境条件不好的区域,调查人员无法或难以到达的…

【WPF】Prism学习(七)

Prism Dependency Injection 1.注册类型(Registering Types) 1.1. Prism中的服务生命周期: Transient(瞬态):每次请求服务或类型时,都会获得一个新的实例。Singleton(单例&#xf…

.NET6 WebApi第1讲:VSCode开发.NET项目、区别.NET5框架【两个框架启动流程详解】

一、使用VSCode开发.NET项目 1、创建文件夹,使用VSCode打开 2、安装扩展工具 1>C# 2>安装NuGet包管理工具,外部dll包依靠它来加载 法1》:NuGet Gallery,注意要启动科学的工具 法2》NuGet Package Manager GUl&#xff0c…

【Homework】【7】Learning resources for DQ Robotics in MATLAB

阻尼伪逆使系统在任务空间奇异性方面具有一定的鲁棒性 阻尼伪逆 阻尼伪逆是SVD(奇异值分解)逆矩阵的一种有趣替代方法,它使系统在任务空间奇异性方面具有一定的鲁棒性。其主要思想是对任意(可能为奇异的)矩阵 B ∈ …

新一代API开发工具,让API调试更快 更简单

新一代API开发工具 代理调试 请求测试一站式解决方案 Reqable Fiddler Charles Postman, 让API调试更快 🚀 更简单 👌 直接上下载地址 根据系统,下载对应的版本即可 https://reqable.com/zh-CN/download/

详细解析STM32 GPIO引脚的8种模式

目录 一、输入浮空(Floating Input):GPIO引脚不连接任何上拉或下拉电阻,处于高阻态 1.浮空输入的定义 2.浮空输入的特点 3.浮空输入的应用场景 4.浮空输入的缺点 5.典型配置方式 6.注意事项 二、输入上拉(Inpu…

对于 unix 系统管理员来说,了解 VIM 有多重要?

对于 Unix 系统管理员来说,掌握 VIM 的重要性不言而喻。VIM 作为 Unix 系统中默认的文本编辑器,几乎在所有 Unix 系统中都预装,这使得系统管理员必须熟练使用它来编辑配置文件、编写脚本等。 VIM 强大的功能和灵活性,使得它能够满…

containerd使用

一、ctr命令 1.查看命名空间 ctr namespace ls 2.查看特定命名空间镜像 ctr -n k8s.io images ls 3.查看特定命名空间容器 ctr -n k8s.io container ls 注意:该项与docker不同,container查看容器是所有的容器无论有没有启动,只要创建了的…

Python 数据结构对比:列表与数组的选择指南

文章目录 💯前言💯Python中的列表(list)和数组(array)的详细对比1. 数据类型的灵活性2. 性能与效率3. 功能与操作4. 使用场景5. 数据结构选择的考量6. 实际应用案例7. 结论 💯小结 &#x1f4af…

在Q-Studio中进行OTX脚本的开发、仿真与调试

一 背景 现如今,随着车辆中电子器件和软件数量的快速增加,在车辆研发、生产、测试及售后阶段需要进行的车载测试工作越来越多、越来越复杂,呈现指数级增长的趋势。以往常用的手动测试方式已完全无法满足现如今的测试需求了,由此推…

Cursor安装Windows / Ubuntu

一、安装 1、下载软件 2、安装依赖 #安装fuse sudo apt-get install fuse3、将cursor添加到应用程序列表 sudo mv cursor-0.42.5x86_64.AppImage /opt/cursor.appimage #使用自己版本号替换 sudo chmod x /opt/cursor.appimage #给予可执行权限 sudo nano /usr/share/applic…

NLP论文速读(多伦多大学)|利用人类偏好校准来调整机器翻译的元指标

论文速读|MetaMetrics-MT: Tuning Meta-Metrics for Machine Translation via Human Preference Calibration 论文信息: 简介: 本文的背景是机器翻译(MT)任务的评估。在机器翻译领域,由于不同场景和语言对的需求差异&a…

Docker部署Kafka集群,增加 SASL_SSL认证,并集成到Spring Boot,无Zookeeper版

1,准备好Kafka 镜像包: bitnami/kafka:3.9.0 镜像资源包 2,准备好kafka.keystore.jks 和 kafka.truststore.jks证书 具体操作可参考: Docker部署Kafka SASL_SSL认证,并集成到Spring Boot-CSDN博客 3,配置…

Git 分⽀规范 Git Flow 模型

前言 GitFlow 是一种流行的 Git 分支管理策略,由 Vincent Driessen 在 2010 年提出。它提供了一种结构化的方法来管理项目的开发、发布和维护,特别适合大型和复杂的项目。GitFlow 定义了一套明确的分支模型和工作流程,使得团队成员可以更有效…

shell脚本命令1,保姆级别---清风

声明: 本文的学习内容来源于B站up主“泷羽sec”视频“蓝队基础之网络七层杀伤链”的公开分享,所有内容仅限于网络安全技术的交流学习,不涉及任何侵犯版权或其他侵权意图。如有任何侵权问题,请联系本人,我将立即删除相…

MySQL扩展varchar字段长度能否Online DDL

目录 问题场景 Online DDL 简介 场景复现 DBdoctor快速识别 Online DDL 总结 问题场景 在MySQL数据库中,DDL变更可以通过两种算法实现:Copy算法和In-Place算法。Copy算法会复制整个表,这可能导致长时间的写入阻塞,从而严重影…

低成本出租屋5G CPE解决方案:ZX7981PG/ZX7981PM WIFI6千兆高速网络

刚搬进新租的房子,没有网络,开个热点?续航不太行。随身WIFI?大多是百兆级网络。找人拉宽带?太麻烦,退租的时候也不能带着走。5G CPE倒是个不错的选择,插入SIM卡就能直接连接5G网络,千…

港大ArcLab最新开源DEIO:第一个学习与传统非线性图优化紧密结合的单目事件惯性里程计

原文链接:港大ArcLab最新开源DEIO:第一个学习与传统非线性图优化紧密结合的单目事件惯性里程计 导读 本文介绍了一种名为 DEIO(Deep Event Inertial Odometry)的新型单目深度事件惯性里程计框架。该方法创新性地将深度学习与传统…

基于麒麟服务器操作系统V10版本,部署Nginx服务、MySql服务搭建PHP环境,实现静态网站平台的搭建。

一、环境准备 关闭防火墙。 查看当前防火墙的状态 systemctl status firewalld Copy 如果防火墙的状态参数是inactive,则防火墙为关闭状态。 如果防火墙的状态参数是active,则防火墙为开启状态。 关闭防火墙。 如果您想临时关闭防火墙,需要运行以下命令: systemctl…

【priority_queue的使用及模拟实现】—— 我与C++的不解之缘(十六)

前言 ​ priority_queue,翻译过来就是优先级队列,但是它其实是我们的堆结构(如果堆一些遗忘的可以看一下前面的文章复习一下【数据结构】二叉树——顺序结构——堆及其实现_二叉树顺序结构-CSDN博客),本篇文章就来使用…