DeepSort:论文翻译

news2025/1/7 7:43:34

文章目录

  • 摘要
  • 1、简介
  • 2、利用深度关联度量进行排序
    • 2.1、轨迹处理和状态估计
    • 2.3、匹配的级联
    • 2.4、深度外观描述符
  • 3、实验
  • 4、结论

论文链接:https://arxiv.org/pdf/1703.07402.pdf

摘要

简单在线实时跟踪(SORT)是一种实用的多目标跟踪方法,专注于简单、有效的算法。在本文中,我们集成外观信息来提高SORT算法的性能。由于这一扩展,我们能够通过较长时间的遮挡跟踪对象,有效地减少了身份开关的数量。在原始框架的精神下,我们将大量的计算复杂性放在离线预训练阶段,在这个阶段我们学习了大规模人员再识别数据集上的深度关联度量。在在线应用过程中,我们使用可视化外观空间中的最近邻居查询建立测量到跟踪的关联。实验评估表明,我们的扩展将身份开关的数量减少了45%,在高帧速率下实现了整体竞争性能。

索引术语-计算机视觉,多目标跟踪,数据关联

1、简介

随着目标检测技术的发展,基于检测的跟踪已成为多目标跟踪领域的主流。在这个范例中,对象轨迹通常是在一个全局优化问题中发现的,该问题一次处理整个视频批次。例如,流网络公式[1,2,3]和概率图形模型[4,5,6,7]已经成为这种类型的流行框架。但是,由于批处理的原因,这些方法不适用于在线场景,因为每个时间步骤都必须有一个目标标识。更传统的方法是多假设跟踪(MHT)[8]和联合概率数据关联过滤器(JPDAF)[9]。这些方法在逐帧的基础上执行数据关联。在JPDAF中,单个状态假设是通过对单个测量值的关联可能性进行加权而生成的。在MHT中,所有可能的假设都被跟踪,但为了计算的可处理性,必须应用修剪方案。这两种方法最近在检测跟踪场景中被重新使用[10,11],并显示出有前途的结果。然而,这些方法的性能增加了计算和实现的复杂性。
在这里插入图片描述

简单在线和实时跟踪(SORT)[12]是一个更简单的框架,它在图像空间中执行卡尔曼滤波,使用匈牙利方法进行逐帧数据关联,并使用关联度量来测量边界框重叠。这种简单的方法在高帧速率下获得了良好的性能。在MOT挑战数据集[13]上,具有最先进的人员检测器[14]的SORT在标准检测上的平均排名高于MHT。这不仅强调了目标检测器性能对整体跟踪结果的影响,而且从从业者的角度来看也是一个重要的见解。

虽然在跟踪精度和准确性方面实现了良好的总体性能,但SORT返回了相对较高的身份切换数量。这是因为所采用的关联度量只在状态估计不确定性较低时才准确。因此,SORT在通过遮挡进行跟踪方面存在缺陷,因为遮挡通常出现在正面视角的相机场景中。我们通过将关联度量替换为结合了运动和外观信息的更有信息的度量来克服这个问题。特别是,我们应用了卷积神经网络(CNN),该网络经过训练,可以在大规模的人再识别数据集上识别行人。通过集成该网络,我们提高了对遗漏和遮挡的鲁棒性,同时保持系统易于实现,高效,并适用于在线场景。我们的代码和预训练的CNN模型是公开的,以促进研究实验和实际应用开发。

2、利用深度关联度量进行排序

我们采用传统的单假设跟踪方法,递归卡尔曼滤波和逐帧数据关联。在下一节中,我们将更详细地描述该系统的核心组件。

2.1、轨迹处理和状态估计

轨迹处理和卡尔曼滤波框架与[12]中的原始公式基本相同。我们假设一个非常一般的跟踪场景,摄像机是未校准的,我们没有可用的自我运动信息。虽然这些情况对过滤框架构成了挑战,但它是最近多对象跟踪基准测试[15]中考虑的最常见的设置。因此,我们的跟踪场景是在八维状态空间 ( u , v , γ , h , x ˙ , y ˙ , γ ˙ , h ˙ ) (u, v, \gamma, h, \dot{x}, \dot{y}, \dot{\gamma}, \dot{h}) (u,v,γ,h,x˙,y˙,γ˙,h˙),包含边界框中心位置 ( u , v ) (u, v) (u,v),长宽比 γ \gamma γ,高度h,以及它们在图像坐标中的速度。我们使用一个标准的卡尔曼滤波器与恒速度运动和线性观测模型,其中我们取边界坐标 ( u , v , γ , h ) (u, v, \gamma, h) (u,v,γ,h)作为对物体状态的直接观察。

对于每个轨道k,我们计算自上次成功测量关联ak以来的帧数。该计数器在卡尔曼滤波预测期间递增,并在跟踪与测量相关联时重置为0。超过预定最大Amax时间的轨迹被认为已经离开场景并从轨迹集中删除。对于每一个不能与现有轨迹相关联的检测,都会启动新的轨迹假设。这些新的跟踪被归类为初步在前三帧。在此期间,我们希望在每个时间步都有一个成功的度量关联。在前三帧内未成功关联到测量的轨道将被删除。

为了整合运动信息,我们使用预测卡尔曼状态和新到达的测量值之间的(平方)马氏距离:
d ( 1 ) ( i , j ) = ( d j − y i ) T S i − 1 ( d j − y i ) (1) d^{(1)}(i, j)=\left(\boldsymbol{d}_{j}-\boldsymbol{y}_{i}\right)^{\mathrm{T}} \boldsymbol{S}_{i}^{-1}\left(\boldsymbol{d}_{j}-\boldsymbol{y}_{i}\right) \tag{1} d(1)(i,j)=(djyi)TSi1(djyi)(1)
其中,我们用 ( y i , S i ) (\boldsymbol{y}_{i},\boldsymbol{S}_{i}) (yi,Si)表示第i个轨道分布到测量空间的投影,用 d j \boldsymbol{d}_{j} dj表示第j个检测框。马氏距离通过测量检测距离平均轨迹位置有多少个标准差来考虑状态估计的不确定性。此外,使用这一指标,可以通过在反向χ2分布计算的95%置信区间对马氏距离进行阈值,从而排除不太可能的关联。我们用一个指标来表示这个决定
b i , j ( 1 ) = 1 [ d ( 1 ) ( i , j ) ≤ t ( 1 ) ] (2) b_{i, j}^{(1)}=\mathbb{1}\left[d^{(1)}(i, j) \leq t^{(1)}\right] \tag{2} bi,j(1)=1[d(1)(i,j)t(1)](2)

如果第i个轨道和第j个检测之间的关联是可接受的,则计算为1。对于我们的四维测量空间,相应的马氏阈值是 t ( 1 ) t^{(1)} t(1) = 9.4877。

当运动不确定性较低时,马氏距离是一个合适的关联度量,在我们的图像空间问题公式中,从卡尔曼滤波框架中获得的预测状态分布仅提供了物体位置的粗略估计。特别是,未解释的摄像机运动可以在图像平面中引入快速位移,使得马氏距离成为通过遮挡跟踪的一个相当不知情的度量。因此,我们将第二个度量集成到分配问题中。对于每个边界框检测 d j \boldsymbol{d}_{j} dj,我们用 ∥ r j ∥ = 1 \left\|\boldsymbol{r}_{j}\right\|=1 rj=1计算一个外观描述符 r j \boldsymbol{r}_{j} rj。此外,我们为每个轨道k保留最后 L k = 100 L_{k}=100 Lk=100个相关外观描述符的图库 R k = { r k ( i ) } k = 1 L k \mathcal{R}_{k}= \left\{\boldsymbol{r}_{k}^{(i)}\right\}_{k=1}^{L_{k}} Rk={rk(i)}k=1Lk。然后,我们的第二个指标测量外观空间中第i个轨道和第j个检测之间的最小余弦距离:
d ( 2 ) ( i , j ) = min ⁡ { 1 − r j T r k ( i ) ∣ r k ( i ) ∈ R i } . (3) d^{(2)}(i, j)=\min \left\{1-\boldsymbol{r}_{j}^{\mathrm{T}} \boldsymbol{r}_{k}^{(i)} \mid \boldsymbol{r}_{k}^{(i)} \in \mathcal{R}_{i}\right\} . \tag{3} d(2)(i,j)=min{1rjTrk(i)rk(i)Ri}.(3)

再次,我们引入了一个二元变量来表示根据这个度量是否允许关联
b i , j ( 2 ) = 1 [ d ( 2 ) ( i , j ) ≤ t ( 2 ) ] (4) b_{i, j}^{(2)}=\mathbb{1}\left[d^{(2)}(i, j) \leq t^{(2)}\right] \tag{4} bi,j(2)=1[d(2)(i,j)t(2)](4)
我们在一个单独的训练数据集中为这个指标找到一个合适的阈值。在实践中,我们应用预先训练好的CNN来计算边界框外观描述符。该网络的结构将在2.4节中描述。

结合起来,这两个度量标准通过服务于分配问题的不同方面而相互补充。一方面,马氏距离提供了基于运动的可能物体位置的信息,这对短期预测特别有用。另一方面,余弦距离考虑的外观信息是特别有用的恢复身份后,长期咬合,当运动的区别不大。为了构建关联问题,我们使用加权和将两个指标结合起来
c i , j = λ d ( 1 ) ( i , j ) + ( 1 − λ ) d ( 2 ) ( i , j ) (5) c_{i, j}=\lambda d^{(1)}(i, j)+(1-\lambda) d^{(2)}(i, j) \tag{5} ci,j=λd(1)(i,j)+(1λ)d(2)(i,j)(5)

我们称一个关联为可接受的,如果它在两个指标的门控区域内:
b i , j = ∏ m = 1 2 b i , j ( m ) . (6) b_{i, j}=\prod_{m=1}^{2} b_{i, j}^{(m)} . \tag{6} bi,j=m=12bi,j(m).(6)

通过超参数λ可以控制各指标对组合关联成本的影响。在我们的实验中,我们发现当有大量的相机运动时,设置λ = 0是一个合理的选择。在此设置中,关联成本项中只使用外观信息。然而,马氏门仍然被用来忽略基于卡尔曼滤波器推断的可能目标位置的不可行分配。

2.3、匹配的级联

本文引入了一个级联来解决一系列子问题,而不是在全局分配问题中解决测量到跟踪的关联。为了激励这种方法,考虑以下情况:当一个物体被遮挡的时间较长时,随后的卡尔曼滤波预测增加了与物体位置相关的不确定性。因此,概率质量在状态空间中扩散,观测似然峰值变小。直观地说,关联度量应该通过增加测量到轨道的距离来解释这种概率质量的扩散。与直觉相反,当两个航迹竞争同一检测时,马氏距离倾向于更大的不确定性,因为它有效地减少了任何检测的标准差距离到预测航迹平均值。这是一种不受欢迎的行为,因为它会导致增加轨道碎片和不稳定的轨道。因此,我们引入了一个匹配级联,优先考虑更常见的对象,以编码我们的关联似然中的概率分布概念。
在这里插入图片描述

Listing 1概述了我们的匹配算法。作为输入,我们提供了轨迹 T \mathcal{T} T和检测 D \mathcal{D} D指数集以及最大年龄 A m a x A_{max} Amax。在第1行和第2行中,我们计算关联成本矩阵和可接受关联矩阵。然后我们迭代轨道年龄n,以解决一个线性分配问题的轨迹年龄增加。在第6行中,我们选择在最后n帧中没有与检测相关联的轨道 T n \mathcal{T}_{n} Tn的子集。在第7行中,我们解决了 T n \mathcal{T}_{n} Tn轨道和不匹配检测 U \mathcal{U} U之间的线性分配。在第8行和第9行中,我们更新匹配集和未匹配检测,并在第11行完成后返回。请注意,这种匹配级联优先考虑年龄较小的轨迹,即。最近才看到的痕迹。

在最后的匹配阶段,我们在年龄n = 1的未经确认和未匹配的轨迹集上,运行原始SORT算法[12]中提出的联合关联交叉。这有助于解释突然的外观变化,例如,由于静态场景几何的部分遮挡,并增加对错误初始化的鲁棒性。

2.4、深度外观描述符

通过使用简单的最近邻查询,而不需要额外的度量学习,我们的方法的成功应用需要在实际的在线跟踪应用之前离线训练具有良好辨别能力的特征嵌入。为此,我们使用了一个经过大规模人员再识别数据集[21]训练的CNN,该数据集包含1261名行人的110多万张图像,使其非常适合在人员跟踪环境中进行深度度量学习。
在这里插入图片描述

我们网络的CNN架构如表1所示。总之,我们使用了一个宽残差网络[22],它有两个卷积层,后面跟着六个残差块。在致密层10中计算维度为128的全局特征图。最后一批和 ℓ 2 \ell_{2} 2归一化将特征投射到单位超球上,以与我们的余弦外观度量兼容。总的来说,网络有2,800,864个参数,在Nvidia GeForce GTX 1050移动GPU上,一个32个边界框的向前传递大约需要30毫秒。因此,这个网络非常适合在线跟踪,前提是有一个现代的GPU可用。虽然我们的训练过程的细节超出了本文的范围,但我们在GitHub存储库中提供了一个预训练的模型,以及一个可用于生成特征的脚本。

3、实验

我们在MOT16基准[15]上评估我们的跟踪器的性能。该基准评估了七个具有挑战性的测试序列的跟踪性能,包括移动摄像头的正面场景以及自上而下的监视设置。作为我们跟踪器的输入,我们依赖于Yu et al.[16]提供的检测。他们在公共和私人数据集上训练了一个Faster-RCNN,以提供出色的性能。为了进行公平的比较,我们在相同的检测上重新运行了SORT。

利用λ = 0和 A m a x A_{max} Amax = 30帧对试验序列进行评价。与[16]一样,检测阈值为0:3的置信分数。我们的方法的其余参数已经找到了由基准提供的单独的训练序列。评估依据以下指标进行:

  • 多目标跟踪精度(MOTA):根据假阳性、假阴性和身份开关[23]总结总体跟踪精度。
  • 多目标跟踪精度(MOTP):根据地面真相和报告位置[23]之间的包围盒重叠来总结总体跟踪精度。
  • 大部分跟踪(MT):在至少80%的生命周期内具有相同标签的真实跟踪的百分比。
  • 大部分丢失(ML):在其生命周期中最多追踪20%的基本真相轨迹的百分比。
  • 身份切换(ID):地面真相轨道报告的身份更改的次数。
  • 碎片(FM):由于缺失检测而中断轨道的次数。

评估结果如表2所示。我们的适应成功地减少了身份切换的数量。与SORT相比,ID切换从1423减少到781。这大约减少了45%。同时,由于通过遮挡和遗漏保持目标身份,轨迹碎片略有增加。我们还看到大部分被跟踪的物体数量显著增加,大部分丢失的物体数量减少。总的来说,由于外观信息的整合,我们成功地在较长时间的遮挡下保持身份。这一点也可以从我们在补充材料中提供的跟踪输出的定性分析中看出。图1显示了跟踪器的示例输出。
在这里插入图片描述

我们的方法也是其他在线跟踪框架的有力竞争者。特别是,我们的方法在所有在线方法中返回最少数量的身份切换,同时保持有竞争力的MOTA分数、轨道碎片和假阴性。报告的跟踪精度主要受到大量误报的影响。考虑到它们对MOTA评分的整体影响,对检测应用更大的置信阈值可能会极大地提高我们算法的报告性能。然而,对跟踪输出的视觉检查表明,这些假阳性主要是由静态场景几何上的零星检测器响应产生的。由于我们相对较大的最大允许轨道年龄,这些更常见地连接到物体轨迹。同时,我们没有观察到在假警报之间频繁跳跃的轨道。相反,跟踪器通常在报告的对象位置生成相对稳定的静止轨道。

我们的实现以大约20 Hz的频率运行,大约一半的时间花在特征生成上。因此,给定现代GPU,系统保持计算效率,并实时运行。

4、结论

我们已经提出了SORT的一个扩展,它通过预先训练的关联度量来合并外观信息。由于这一扩展,我们能够跟踪更长的遮挡时间,使SORT成为最先进的在线跟踪算法的强大竞争对手。然而,该算法仍然易于实现,并且是实时运行的。在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/350335.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PFU扫描仪将于2023年4月切换至理光品牌上

目前,株式会社PFU (以下简称“PFU”)在村上清治社长的带领下,正将其在全球拥有庞大市场份额的图像扫描仪从富士通品牌变更为理光品牌,涉及产品线包括fi系列、SP系列和ScanSnap系列。2022年9月1日完成公司股权转让后,PFU正式加入理…

【STM32笔记】低功耗模式下GPIO省电配置避坑实验(闲置引脚配置为模拟输入其实更耗电)

【STM32笔记】低功耗模式下GPIO省电配置避坑实验(闲置引脚配置为模拟输入其实更耗电) 前文: blog.csdn.net/weixin_53403301/article/details/128216064 【STM32笔记】HAL库低功耗模式配置(ADC唤醒无法使用、低功耗模式无法烧录解…

ReportBuilder Enterprise Edition 22.0 Crack

Report Builder 的主要目的是为用户和开发人员提供全面的覆盖范围以及现有的替代方案。这个目标被认为是通过提供视觉、无障碍的答案来实现的,它是所有可用的四个区域。Report Builder 和报表设计器的屏幕截图能够表明它具有的用户界面符合人体工程学的布局。与 Rep…

WebDAV之π-Disk派盘+Piktures

Piktures支持WebDAV方式连接π-Disk派盘。推荐一款简单易用,功能超级强大的智能相册应用。Piktures智能相册是一款简单易用,功能超级强大的智能相册应用,它不仅可以访问本地和云照片,还可以照片编辑器,而且它同时还是一…

Mysql常用函数大全

本篇文章讲解是是MySQL的函数方法,涵盖所有的MySQL常见的方法。下面是本篇文章的目录结构,可以根据自己需求点击右方目录查找: 目录 (一)数字函数 (二)字符串函数 (三&#xff0…

[ vulhub漏洞复现篇 ] Drupal<7.32 Drupalgeddon SQL注入漏洞(CVE-2014-3704)

🍬 博主介绍 👨‍🎓 博主介绍:大家好,我是 _PowerShell ,很高兴认识大家~ ✨主攻领域:【渗透领域】【数据通信】 【通讯安全】 【web安全】【面试分析】 🎉点赞➕评论➕收藏 养成习…

Redis常用数据结构及应用场景

1.总体结构 Redis中的数据,总体上是键值对,不同数据类型指的是键值对中值的类型。 2.string类型 Redis中最基本的类型,它是key对应的一个单一值。二进制安全,不必担心由于编码等问题导致二进制数据变化。所以redis的string可以…

【JMeter】【Mac】如何在Mac上打开JMeter

平常我们在Windows电脑里打开JMeter,只要双击JMeter.bat即可打开,那我换了Mac后,该怎么打开JMeter呢 一、命令行打开JMeter 1、打开JMeter路径 cd /Users/work/apache-jmeter-5.2/bin 2、运行JMeter sh jmeter 3、如果涉及到一些权限无…

企业多会场视频直播(主会场、分会场直播)实例效果

阿酷TONY 2023-2-16 长沙 活动直播做多会场切换功能(主会场、分会场、会场一、会场二、会场三自由切换) 企业多会场视频直播(主会场、分会场直播)实例效果 特点:支持PC端,也支持移动端观看,会…

基于非对称纳什谈判的多微网电能共享运行优化策略(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

ESP32-C2开发板

C2是一个芯片采用4毫米x 4毫米封装,与272 kB内存。它运行框架,例如ESP-Jumpstart和ESP造雨者,同时它也运行ESP-IDF。ESP-IDF是Espressif面向嵌入式物联网设备的开源实时操作系统,受到了全球用户的信赖。它由支持Espressif以及所有…

react-redux

Redux 是js容器,用于进行全局的 状态管理它可以用在react, angular, vue等项目中, 但基本与react配合使用三大核心: 单一数据源 整个应用的state被存储在一棵 object tree中,并且这个 object tree只存在于一个唯一的 store 中 State是只读的…

教你如何搭建人事OA-员工管理系统,demo可分享

1、简介1.1、案例简介本文将介绍,如何搭建人事OA-员工管理。1.2、应用场景人事OA-员工管理应用对员工信息进行管理,可办理入职、转正、离职等流程。2、设置方法2.1、表单搭建1)新建表单【员工管理】,字段设置如下:名称…

004:NumPy的应⽤-2

数组的运算 使⽤NumPy 最为⽅便的是当需要对数组元素进⾏运算时,不⽤编写循环代码遍历每个元素,所有的运算都会⾃动的⽮量化(使⽤⾼效的、提前编译的底层代码来对数据序列进⾏数学操作)。简单的说就是,NumPy 中的数学运…

【数据挖掘实战】——航空公司客户价值分析(K-Means聚类案例)

目录 一、背景和挖掘目标 1、RFM模型缺点分析 2、原始数据情况 3、挖掘目标 二、分析方法与过程 1、初步分析:提出适用航空公司的LRFMC模型 2、总体流程 第一步:数据抽取 第二步:探索性分析 第三步:数据预处理 第四步&…

编码踩坑——运行时报错java.lang.NoSuchMethodError / 同名类加载问题 / 双亲委派【建议收藏】

本篇介绍一个实际遇到的排查异常的case,涉及的知识点包括:类加载机制、jar包中的类加载顺序、JVM双亲委派模型、破坏双亲委派模型及自定义类加载器的代码示例;问题背景业务版本,旧功能升级,原先引用的一个二方包中的du…

HoloLens 2 丨打包丨MRTK丨Unity丨新手教学

HoloLens 2打包流程制作前言开发工具介绍Visual Studio 2019MRTK插件或示例程序下载打包流程介绍Unity操作修改Visual Studio修改Hololens 修改Hololens 密码忘记总结前言 提示:今日功能介绍 使用 MRTK制作hololens 2的打包流程制作的新手教学。 开发工具介绍 这…

SpringBoot09:Swagger

什么是Swagger? ①是一个API框架 ②可以在线自动生成 RestFul 风格的API文档,实现API文档和API定义同步更新 ③可以直接运行、在线测试 API 接口 ④支持多种语言(Java、PHP等) 官网:API Documentation & Desi…

《数字经济全景白皮书》金融篇:五十弦翻塞外声,金融热点领域如何实现增长?

易观分析:《数字经济全景白皮书》浓缩了易观分析对于数字经济各行业经验和数据的积累,并结合数字时代企业的实际业务和未来面临的挑战,以及数字技术的创新突破等因素,最终从数字经济发展大势以及各领域案例入手,帮助企…

iOS创建Universal Link

iOS 9之前,一直使用的是URL Schemes技术来从外部对App进行跳转,但是iOS系统中进行URL Schemes跳转的时候如果没有安装App,会提示无法打开页面的提示。 iOS 9之后起可以使用Universal Links技术进行跳转页面,这是一种体验更加完美的…