DeepDriving | 多目标跟踪算法之SORT

news2024/11/15 23:44:00

本文来源公众号“DeepDriving”,仅用于学术分享,侵权删,干货满满。

原文链接:多目标跟踪算法之SORT

1 简介

SORT2016年发表的一篇文章Simple Online and Realtime Tracking中提出的一个经典的多目标跟踪算法,该算法结合常用的卡尔曼滤波器和匈牙利匹配算法实现了一个简单的在线多目标跟踪框架。由于其超简单的设计,SORT可以以260 Hz的更新速率实现多目标跟踪,远超当时其它的目标跟踪算法。

论文地址:https://arxiv.org/abs/1602.00763

代码地址:https://github.com/abewley/sort

2 具体实现

2.1 目标检测

SORT是一种采用Tracking-by-Detection策略的目标跟踪算法,也就是说算法的输入数据来源于目标检测器,其本身是不参与目标检测过程的。作者在论文里对比了以Faster-RCNNACFPASCAL VOC数据集上的行人检测结果作为MDPSORT跟踪算法的输入,得出的结论是目标检测结果的好坏直接决定了目标跟踪的性能,使用最好的目标检测器会得到最好的跟踪效果

这也告诉我们一个道理:解决问题要从源头开始。如果不从源头提升目标检测算法的性能,花再多时间去提升目标跟踪的性能可能都是徒劳。

2.2 状态估计模型

如果对卡尔曼滤波器不了解,可以看一下我之前整理的资料,里面有卡尔曼滤波器的详细推导过程:(后续文章介绍)。

2.3 数据关联

给已存在的目标分配当前帧检测到的边界框时,目标在当前帧中的边界框是基于之前的状态预测出来的。所有当前帧检测的边界框与已存在目标做预测得到的边界框通过计算它们之间的IOU来求代价矩阵,然后用匈牙利算法求解最优匹配结果。如果检测边界框与预测边界框匹配成功且它们之间的IOU值大于阈值IOU_min,那么就认为它们是一对有效的匹配对,否则是无效的。匹配成功后,就可以基于检测的边界框对目标状态进行更新了。

作者发现采用IOU作为距离度量进行匹配可以隐式地解决由于传递目标引起的短期遮挡的问题。具体来说,当一个目标被另一个物体覆盖时,检测器只能检测到这个遮挡物体而检测不到被遮挡物体,因为IOU距离有利于具有相似比例的检测框。这样的话遮挡物体可以正常被分配检测框去更新状态,而被遮挡物体则不会受误分配带来的影响,因为当前没有检测框会分配给它。

2.4 跟踪标识的创建和删除

当一个目标出现在图像中的时候,我们需要为其创建一个全局唯一的身份标识(ID);反之,当目标消失的时候就要销毁它的跟踪信息。

3 代码分析

3.1 算法整体流程

SORT算法的处理流程非常简单,感兴趣的可以去看源码。下图是我整理的算法流程图:

对当前帧的检测结果Detections和已存在的目标Tracker使用匈牙利算法进行匹配会出现三种情况:

  1. 检测结果Detection未匹配成功,那么就以该边界框的几何信息为初始状态去创建一个Tracker;

  2. 检测结果DetectionTracker匹配成功,那么就以该检测结果为观测值更新Tracker的状态;

  3. 未匹配的Tracker,前面说到T_Lost设置为1,也就是只要一帧没匹配上该Tracker就会被删除。

3.2 卡尔曼滤波器

SORT的代码里创建了一个类KalmanBoxTracker用于对卡尔曼滤波器的状态进行管理,卡尔曼滤波器使用的是filterpy.kalman包中的KalmanFilter,官方文档地址为:https://filterpy.readthedocs.io/en/latest/kalman/KalmanFilter.html。

3.2.1. 滤波器初始化

 def __init__(self,bbox):
    # 创建卡尔曼滤波器时需设置状态向量和观测向量的维度
    self.kf = KalmanFilter(dim_x=7, dim_z=4) 
    # 状态转移矩阵
    self.kf.F = np.array([[1, 0, 0, 0, 1, 0, 0],
                          [0, 1, 0, 0, 0, 1, 0],
                          [0, 0, 1, 0, 0, 0, 1],
                          [0, 0, 0, 1, 0, 0, 0],
                          [0, 0, 0, 0, 1, 0, 0],
                          [0, 0, 0, 0, 0, 1, 0],
                          [0, 0, 0, 0, 0, 0, 1]])
    # 观测矩阵
    self.kf.H = np.array([[1, 0, 0, 0, 0, 0, 0],
                          [0, 1, 0, 0, 0, 0, 0],
                          [0, 0, 1, 0, 0, 0, 0],
                          [0, 0, 0, 1, 0, 0, 0]])
    # 测量噪声协方差矩阵
    self.kf.R[2:,2:] *= 10.
    # 状态协方差矩阵,变化率不可观测所以设置一个较大值表示其较大的不确定性
    self.kf.P[4:,4:] *= 1000. 
    self.kf.P *= 10.
    # 过程噪声协方差矩阵
    self.kf.Q[-1,-1] *= 0.01
    self.kf.Q[4:,4:] *= 0.01
    #状态向量前面四个值用bbox初始化,变化率设置为0
    self.kf.x[:4] = convert_bbox_to_z(bbox)
3.2.2. 滤波器生命周期管理

滤波器生命周期的管理是通过几个变量来实现的,KalmanBoxTracker创建的时候会初始化几个变量:

self.time_since_update = 0
self.hits = 0
self.hit_streak = 0

如果Tracker匹配成功,就会更新这几个变量的状态:

def update(self, bbox):
    self.time_since_update = 0
    self.hit_streak += 1

如果Tracker做了一次预测,同样会更新这几个变量的状态:

def predict(self):
    if (self.time_since_update > 0):
        self.hit_streak = 0
    self.time_since_update += 1

time_since_update表示距离上一次带观测值更新滤波器状态过去了多久,hit_streak表示Tracker连续匹配成功并更新的次数,一旦调用predict()函数对当前帧做了预测,time_since_update就加一,表示其已经对当前帧做过一次预测了。

在算法的处理类Sort中,会对Tracker的这几个变量做判断:

  1. 一个匹配成功的Tracker,需要判断其是否还在“试用期”,只有连续几帧都匹配成功才能使用它的跟踪信息:

if (trk.time_since_update < 1) and 
    (trk.hit_streak >= self.min_hits or self.frame_count <= self.min_hits):
    ret.append(np.concatenate((d, [trk.id+1])).reshape(1, -1))
  1. 如果下一帧Tracker未匹配成功,该Tracker就会被删除:

if (trk.time_since_update > self.max_age):
    self.trackers.pop(i)

4 总结

SORT目标跟踪算法仅使用卡尔曼滤波器和匈牙利算法解决帧与帧之间的状态预测和数据关联问题,跟踪的效果高度依赖于目标检测结果的好坏,算法整体设计非常简单,在速度和精度上取得较好的平衡,主要体现一个“快”字。当然,速度提升必然导致精度损失,SORT的缺点在于仅仅使用物体的边界框进行跟踪而忽略其表面特征,在复杂的场景中效果会比较差。另外,SORT没有目标重识别过程,一旦目标丢失就需要重新创建跟踪器去更新状态(一帧未匹配成功就需要重新跟踪),导致同一目标的ID频繁变换。

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1800512.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

纵向导航栏使用navbar-nav-scroll溢出截断问题

项目场景&#xff1a; 组件&#xff1a;Bootstrap-4.6.2、JQuery 3.7.1 测试浏览器&#xff1a;Firefox126.0.1、Microsoft Edge125.0.2535.67 IDE&#xff1a;eclipes2024-03.R 在编写CRM的工作台主页面时&#xff0c;由于该页面使用的是较旧的技术&#xff0c;所以打算使用…

【Java数据结构】二叉树详解(三)

&#x1f512;文章目录&#xff1a; 1.❤️❤️前言~&#x1f973;&#x1f389;&#x1f389;&#x1f389; 2. 检查两颗树是否相同 3. 另一颗树的子树 4.翻转二叉树 5.对称二叉树 6.判断一颗二叉树是否是平衡二叉树 6.1第一种思路 6.2第二种思路 7.二叉树的构建及…

语音群呼之语音导航的应用

在数字化时代&#xff0c;语音群呼技术已成为企业、组织和个人高效沟通的重要工具。语音群呼不仅能够快速地将信息传递给目标群体&#xff0c;而且通过语音导航功能&#xff0c;还能确保信息传达的准确性和用户体验的优质性。本文将深入探讨语音群呼的语音导航功能&#xff0c;…

HTML:认识HTML与基本语法的学习

前言 HTML&#xff08;超文本标记语言&#xff09;是用于创建网页的标记语言&#xff0c;由一系列标签组成&#xff0c;定义网页中的元素。由蒂姆伯纳斯 - 李于1990年代初发明&#xff0c;最初用于科研机构间共享文档&#xff0c;迅速演变为Web开发基础。无论是电商、博客、新…

一条sql的执行流程

文章地址 https://blog.csdn.net/qq_43618881/article/details/118657040 连接器 请求先走到连接器&#xff0c;与客户端建立连接、获取权限、维持和管理连接 mysql缓存池 如果要查找的数据直接在mysql缓存池里面就直接返回数据 分析器 请求已经建立了连接&#xff0c;现在…

串联式固定测斜仪无需钢丝绳、安装方便、可回收利用边坡基坑矿山地灾常用

一、固定式测斜仪的简介 固定测斜仪是一种用于长期自动监测各种结构物的深层水平位移的设备&#xff0c;获取土体内部的位移变化趋势&#xff0c;监测数据上传至安锐测控云平台&#xff0c;用户即可实时查看结构深层水平位移数据&#xff0c;实时预警&#xff0c;保障结构的安全…

代码随想录算法训练营第四十八 | ● 121. 买卖股票的最佳时机 ● 122.买卖股票的最佳时机II

121. 买卖股票的最佳时机 买卖股票的最佳时机 视频讲解&#xff1a;https://www.bilibili.com/video/BV1Xe4y1u77q https://programmercarl.com/0121.%E4%B9%B0%E5%8D%96%E8%82%A1%E7%A5%A8%E7%9A%84%E6%9C%80%E4%BD%B3%E6%97%B6%E6%9C%BA.html class Solution { public:int ma…

自友科技破解走班教育排课难题

新高考后&#xff0c;校园教务都面临着晋级&#xff0c;其中走班教育的分班排课是个巨大的挑战。 所以在分班排课的时候要清楚一下几个问题 一是&#xff1a;清楚的核算学生的选考科目。学生选科提交后做好并承认&#xff0c;最好是在分班后不要改或很少的一部分人改动。 二是…

世净超声波清洗机怎么样?美的、希亦、世净超声波清洗机谁更值得买?

在日常生活和专业领域中&#xff0c;清洁工作往往是既重要又烦琐的任务。特别是对于那些难以手工得尤为重要。关键是现在超声波清洗机已经不是从前的超声波清洗机了&#xff0c;不是只在工业领域上清洗一些重大零件了&#xff0c;已经逐渐开始能够清洗日常物品&#xff0c;像眼…

重庆工商大学社会工作专业试题及答案,分享几个实用搜题和学习工具 #媒体#学习方法#知识分享

搜题软件一般都是通过识别题目内容搜索出问题的答案&#xff0c;当识别内容不正确或搜索不到答案时&#xff0c;又得重新到其他软件进行重复的操作&#xff0c;很是麻烦。所以我们可以使用专业的识别工具&#xff0c;对题目内容进行识别&#xff0c;然后把提取出来的内容单独保…

【MySQL数据库】my.ini文件参数中文注释

&#x1f60e; 作者介绍&#xff1a;我是程序员洲洲&#xff0c;一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主。 &#x1f913; 同时欢迎大家关注其他专栏&#xff0c;我将分享Web前后端开发、人工智能、机器学习、深…

Qsemaphore

Qsemaphore 实现 给while循环阻塞延时 基本思路就是&#xff1a; whlie循环里面 通过m&#xff3f;bthreadFlag&m_bStatus这两个标志位&#xff0c;判断是否进入while循环&#xff0c;再根据40行的acquire&#xff08;&#xff09;来阻塞循环&#xff0c;因为定时器的槽函数…

VCS基本仿真

这里记录三种仿真方式&#xff1a; 第一种是将verilog文件一个一个敲在终端上进行仿真&#xff1b; 第二种是将多个verilog文件的文件路径整理在一个文件中&#xff0c;然后进行仿真&#xff1b; 第三种是利用makefile文件进行仿真&#xff1b; 以8位加法器为例&#xff1a; …

13、SpringBoot 源码分析 - 自动配置深度分析六

SpringBoot 源码分析 - 自动配置深度分析六 refresh和自动配置大致流程AutoConfigurationImportSelector的fireAutoConfigurationImportEvents通知自动配置导入事件AutoConfigurationGroup的selectImports封装成Entry返回MyAutoConfiguration自动配置类创建META-INF文件夹和文件…

js解析成语法树以及还原

const {parse} require("babel/parser"); const traverse require("babel/traverse").default; const generator require("babel/generator").default;// 1.定义要处理的代码 const jscode function square(n) {return n * n; };// 2.使用ba…

c++ EECS280

Introduction Euchre (pronounced “YOO-kur”) is a card game popular in Michigan. The learning goals of this project include Abstract Data Types in C, Derived Classes, Inheritance, and Polymorphism. You’ll gain practice with C-style Object Oriented Progr…

104、二叉树的最大深度

给定一个二叉树 root &#xff0c;返回其最大深度。 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 题解&#xff1a;所谓深度&#xff0c;就是树中某节点距离根节点的距离&#xff0c;如图中根节点3的深度为1&#xff0c;那节点7的深度为3&#x…

人类语言处理nlp部分笔记——二、BERT和它的家族-介绍和微调

参考自李宏毅课程-人类语言处理 二、BERT和它的家族-介绍和微调 1. What is pre-train model 这里所说的pre-train model是输入一串tokens&#xff0c;能够输出一串vectors&#xff0c;且每个vector可以表示对应的语义的模型&#xff0c;这些vectors也被称作为embeddings。以…

NXdfefefef

prototype&#xff1a;原型 CORS(Cross-Origin Resource Sharing):跨资源共享 Interceptor&#xff1a;拦截器 BOM&#xff1a;Browser Object Module(浏览器对象模型) Ajax(Asynchronous Javascript And XML)&#xff1a;异步的JavaScript和XML&#xff0c;Ajax其实就是浏览器…

apifox 生成签名

目录 前言准备编写签名脚本签名说明捋清思路编码获取签名所需的参数生成签名将签名放到合适的位置完整代码 在apifox中配置脚本新增公共脚本引用公共脚本添加环境变量 参考 前言 略 准备 查看apifox提供的最佳实践文章&#xff1a;接口签名如何处理 编写签名脚本 签名说明…