OpenCV中八种不同的目标追踪算法

news2024/12/25 11:19:21

引言

目标跟踪作为机器学习的一个重要分支,加之其在日常生活、军事行动中的广泛应用,受到极大的关注。在AI潮流中,大家对于深度学习,目标跟踪肯定都会有过接触了解:在GPU上通过大量的数据集训练出自己想使用的垂直场景后再在实际场景中使用。但麻烦的是,大数人拥有的是CPU,有没有办法能在自己的电脑上用CPU就能实现自己的目标跟踪能力。OpenCV的跟踪API给出了答案:我行。

在这篇文章中,我们会介绍在OpenCV上的8种目标检测算法,优势和局限性, 然后会给出代码示例,如何使用它。我们的目标不是对每一个跟踪器都有深入的理论理解,而是从实际使用的角度来理解它们。

目标跟踪基本原则

在视频目标跟踪中的期望是在当前帧中正确找到跟踪的对象,因为我们已经在所有(或几乎所有)以前的帧中成功跟踪了该对象,所以我们知道对象是如何移动的。换句话说,我们知道运动模型的参数。运动模型只是一种奇特的表达方式,它会知道物体在前一帧中的位置和速度(速度+运动方向)。而如果对这个物体一无所知,则可以根据当前的运动模型来预测新的位置,从而非常接近物体的新位置。

我们还可以建立一个外观模型来编码对象的外观。外观模型可用于在运动模型预测的位置的邻域内搜索,以便更准确地预测物体的位置。

目标跟踪可以描述为:运动模型预测物体的大致位置。外观模型微调此估计,以便根据外观提供更准确的估计。

如果对象非常简单,并且没有改变它的外观,我们可以使用一个简单的模板作为外观模型并查找该模板。然而,现实生活并不那么简单。对象的外观可能会发生显著变化。为了解决这个问题,在许多现代追踪器中,这个外观模型是一个在线训练的分类器。

分类器的任务是将图像的矩形区域分类为对象或背景。分类器接受图像区域作为输入,并返回介于0和1之间的分数,以指示图像区域包含对象的概率。如果确定图像区域是背景,则分数为0;如果确定区域是对象,则分数为1。

在机器学习中,我们使用“在线”这个词来指的是在运行时动态训练的算法。离线分类器可能需要数千个示例来训练分类器,但是在线分类器通常在运行时使用很少的示例进行训练。

分类器是通过向其提供正(对象)和负(背景)示例来训练的。如果您想构建一个用于检测猫的分类器,您可以使用包含猫的数千个图像和不包含猫的数千个图像对其进行训练。通过这种方式,分类器学习区分什么是猫,什么不是猫。

OpenCV八种目标跟踪算法

1、GOTURN Tracker

Goturn是一种基于深度学习的对象跟踪算法。最初的实现是在Caffe,目前已经移植到OpenCV跟踪API。

Goturn是一种基于深度学习的跟踪算法,是回归网络的一般对象跟踪的缩写。大多数跟踪算法都是在线训练的。换句话说,跟踪算法学习运行时跟踪的对象的外观。

因此,许多实时追踪器依赖于在线学习算法,这通常比基于深度学习的解决方案快得多。

Goturn改变了我们将深度学习应用于跟踪问题的方式,通过离线方式学习对象的运动。Goturn模型接受了数千个视频序列的训练,不需要在运行时执行任何学习。

Goturn如何工作?

Goturn由David Holded、Sebastian Thrun和Silvio Savarese在题为“用深度回归网络学习100 fps跟踪”的论文中介绍。

图1 GoTurn示意图

如图1所示,Goturn使用一对来自数千个视频的裁剪帧进行培训。

在第一帧(也称为前一帧)中,对象的位置是已知的,帧被裁剪为对象周围边界框大小的两倍。第一个裁剪帧中的对象始终居中。

需要预测对象在第二帧(也称为当前帧)中的位置。用于裁剪第一帧的边界框也用于裁剪第二帧。因为对象可能已移动,所以对象可能未在第二帧中居中是大概率事件。

 训练卷积神经网络(CNN)预测第二帧边界框的位置。

Goturn架构

在Goturn如何工作,看到的是一个黑盒,Goturn架构则让我们了解了盒子里面藏着什么。

 图2 Goturn架构

图2显示了Goturn的体系结构。如前所述,它将两个裁剪的帧作为输入。

注:在图2中,上一帧显示在底部,是居中的,我们的目标是找到当前帧的边界框,显示在顶部。

两帧都通过一组卷积层。这些层只是caffenet架构的前五个卷积层。这些卷积层(即pool5特性)的输出被连接成长度为4096的单个矢量。这个向量被输入到3个完全连接的层中。最后一个完全连接的层最终连接到包含4个节点的输出层,这些节点表示边界框的顶部和底部点。

 ( 每当我们看到一组卷积层,并对其含义感到困惑时,可将它们视为改变原始图像的过滤器,这样可以保留重要信息,并丢弃图像中不重要的信息。

通过简单地展开张量,将卷积滤波器末端获得的多维图像(张量)转换成一个长的数字矢量。这个向量作为输入到几个完全连接的层,最后是输出层。全连通层可以看作是一种学习算法,它利用卷积层从图像中提取的有用信息来解决现有的分类或回归问题。)

与其他基于深度学习的追踪器相比,Goturn速度更快。它在caffe的gpu上以100fps的速度运行,在opencv cpu上以20fps的速度运行。尽管跟踪器是通用的,但理论上,通过将传输集与特定类型的对象进行偏移,可以在特定对象(例如行人)上获得更好的结果。

局限性:神经网络体现的优势,往往就是它的劣势。神经网络依赖于训练集中样本所能代表的场景种类,对于不存在的场景,就会存在问题。如在实际使用中,希望跟踪手掌,把手掌移到脸上时,跟踪器锁定在脸上,并不会在手掌上。而跟踪脸,并用手堵遮住脸,但追踪器能够跟踪通过遮挡的脸,这说明训练集存在大量的手掌遮脸的场景。

2、BOOSTING Tracker助推跟踪器

该跟踪器基于ADaboost的在线版本,ADaboost是基于HAAR级联的人脸检测器内部使用的算法。这个分类器需要在运行时用对象的正负示例进行培训。以用户(或其他对象检测算法)提供的初始边界框为对象的正例,边界框外的许多图像部位作为背景。给定一个新的帧,分类器在前一个位置附近的每个像素上运行,并记录分类器的得分。对象的新位置是得分最大的位置。

缺点:速度较慢,并且表现不好,跟踪失败后,不能及时呈现错误报告。

3、MIL Tracker 密尔跟踪器

这个跟踪器的概念与上面描述的BOOSTING Tracker相似。最大的区别是,它不只是将对象的当前位置视为一个正示例,还会在当前位置周围的一个小邻域中查找,以生成几个潜在的正示例。你可能认为这是一个坏主意,因为在这些“积极”的例子中,大多数的对象都不是中心。

这就是多实例学习(mil)来拯救的地方。在mil中,您不指定正负示例,而是指定正负“bags”。正面的图像收集并非都是正面的例子。一个正面的bag包含了以对象当前位置为中心的区域,以及它周围的一个小邻域中的区域。即使被跟踪对象的当前位置不准确,当来自当前位置附近的样本放入正袋中时,很有可能该袋至少包含一个图像,并且该对象很好地居中。

优点:性能不错。它不会像助推跟踪器那样漂移,并且在部分遮挡下也能正常工作。

缺点:失败率较高。

4、KCF跟踪器

 KCF代表kernelized correlation filters。这个追踪器建立在前两个追踪器中提出的想法之上。该跟踪器利用了这样一个事实:在MIL跟踪器中使用的多个正样本具有较大的重叠区域。这些重叠的数据导致了一些很好的数学特性,这些特性被跟踪器利用,从而使跟踪速度更快、更准确。

优点:准确度和速度都比MIL跟踪器好,它报告跟踪故障比BOOSTING和MIL这两个追踪算法好。

缺点:无法从完全遮挡中恢复。

5、TLD跟踪器

 TLD代表跟踪、学习和检测。顾名思义,这个跟踪器将长期跟踪任务分解为三个组件(短期)跟踪、学习和检测。在作者的论文中,“跟踪器跟踪对象从一帧到另一帧。探测器定位到目前为止观察到的所有外观,并在必要时纠正跟踪器。学习估计检测器的错误并更新它以避免将来出现这些错误。”这个跟踪器的输出有点跳跃。例如,如果您正在跟踪一个行人,并且场景中还有其他行人,则此跟踪器有时可以临时跟踪一个与您要跟踪的行人不同的行人。在积极的一面,这条轨迹似乎是在更大的比例、运动和遮挡上跟踪一个对象。如果你有一个隐藏在另一个物体后面的视频序列,这个跟踪器可能是个不错的选择。

 优点:在多帧遮挡下效果最好。此外,跟踪最佳的超比例变化。

 缺点:很多误报使它几乎不可用。

6、MEDIANFLOW跟踪器

在内部,这个跟踪器可以实时地跟踪物体的前后方向,并测量这两个轨迹之间的差异。最大限度地减少这种向前向后的误差,使他们能够可靠地检测跟踪故障,并在视频序列中选择可靠的轨迹。

在测试中发现这个跟踪器在运动可预测和对象小的情况下工作得最好。与其他跟踪者不同的是,即使跟踪明显失败,跟踪者也知道跟踪何时失败。

 优点:出色的跟踪故障报告。当运动是可预测的并且没有遮挡时,效果非常好。

 缺点:大幅度运动跟踪,模型会失效。

7、MOSSE 莫斯跟踪器

最小平方误差输出和(mosse)使用自适应相关进行对象跟踪,当使用单帧进行初始化时,可产生稳定的相关滤波器。Mosse跟踪器对光照、比例、姿势和非刚性变形的变化具有鲁棒性。对于遮挡,跟踪器能够在对象重新出现时暂停并恢复到停止的位置。

优点:速度快。

缺点:准确率不如CSRT和KCF高。

8、CSRT跟踪器

在具有信道和空间可靠性的鉴别相关滤波器(DCF-CSR)中,我们使用空间可靠性图从帧中调整滤波器支持到所选区域的一部分进行跟踪。这样可以确保选定区域的放大和定位,并改进对非矩形区域或对象的跟踪。它只使用两个标准功能(HoGs and Colornames)。它也在相对较低的fps(25 fps)下工作,但提供了更高的目标跟踪精度。

优点:比KCR精度高。

缺点:速度较慢。

OpenCV跟踪算法使用代码实现(C)

1、创建跟踪算法

图片

2、对跟踪算法做初始化操作

图片

3、跟踪监测刷新,获取到下一帧跟踪目标的坐标(x、y、宽、高)

图片

4、利用坐标做跟踪所需要的操作,如画框等

图片

实际检测结果对比

图片

  图片1起始跟踪;图片2运动后跟踪

如上跟踪算法显示,以CBA比赛作为跟踪对象。从跟踪过程中两帧数据可以感知不同跟踪算法在对动态人物变动所体现的差异。

1、MEDIANFLOW、BOOSTING、MIL在针对人物大小有变化时跟踪比较不理想,跟踪不到目标。

2、CSRT、KCF能对运动画面有较好跟踪,但是在遮挡场景下,不能支持,效果较差。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1273774.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用gparted进行ubuntu虚拟机的磁盘扩容(解决gparted无法拖动分区的问题)

在学习内核编译下载linux内核源码的时候,由于源码非常大,下载的时候提示磁盘空间不足,我才意识到刚开始创建虚拟机的时候分配了20GB的空间现在已经快用光了。在VM的设置里可以进行扩容,我扩展到了30GB重启却发现空间并没有加到我使…

JVM类加载与运行时数据区

目录 一、类加载器 jvm类的加载过程 第一阶段:加载 第二阶段:链接阶段 第三阶段:初始化阶段: 双亲委派机制 沙箱安全机制 运行时数据区 栈-Xss1m 堆 TLAB 逃逸分析 方法区 常量池中有什么 StringTable为什么要调整位…

计算机软件的分类

以功能进行分类,计算机软件通常可以分为系统软件和应用软件两大类。 系统软件:系统软件是计算机运行和管理的基本软件,包括操作系统、驱动程序、系统工具和服务程序等。操作系统是系统软件的核心,负责管理计算机的硬件资源、提供用…

亚信科技AntDB数据库完成中国信通院数据库迁移工具专项测试

近日,在中国信通院“可信数据库”数据库迁移工具专项测试中,湖南亚信安慧科技有限公司(简称:亚信安慧科技)数据库数据同步平台V2.1产品依据《数据库迁移工具能力要求》、结合亚信科技AntDB分布式关系型数据库产品&…

常见智力题汇总

常见智力题汇总 扔瓶子问题扑克牌问题出队问题烧绳子问题赛马问题求出前三名求出前五名 接水问题种树问题硬币问题宝石问题核酸检测问题 笔者最近面试遇到了好几道智力题,这些题目特点就是如果没有见过,很难第一时间思考得到答案,因此笔者面试…

CISO在2024年应该优先考虑七项安全任务

专业安全媒体CyberTalk.org主编Shira Landau日前表示:现代企业的CISO们在2024年必须做出改变,要更多关注于企业整体安全路线图的推进与实现,让网络安全工作与业务发展目标保持更紧密的一致性。 首席信息安全官(CISO)是…

模拟算法【3】——1419.数青蛙

文章目录 🍥1. 题目🥮2. 算法原理🍡3. 代码实现 🍥1. 题目 题目链接:1419. 数青蛙 - 力扣(LeetCode) 给你一个字符串 croakOfFrogs,它表示不同青蛙发出的蛙鸣声(字符串 &…

WPS导出的PDF比较糊,和原始的不太一样,将带有SVG的文档输出为PDF

一、在WPS的PPT中 你直接输出PDF可能会导致一些问题(比如照片比原来糊)/ 或者你复制PPT中的图片到AI中类似的操作,得到的照片比原来糊,所以应该选择打印-->高级打印 然后再另存为PDF 最后再使用AI打开PDF文件再复制到你想用…

JSP+servlet实现高校社团管理系统

JSPservlet实现的高校社团管理系统 ,前后台都有,前台演示地址:高校社团管理系统 后台演示地址:登录 用户名:sys,密码:123456 前台功能:首页,社团列表,社团风采,社团活动,新闻列表&#xff0c…

Vue中 env 文件是如何读取的? 优先级?

Vue中 env 文件是如何读取的? 优先级? start 今天来研究一下 Vue 中 env 是如何读取的。跟着我的脚步来学习一下吧。作者:番茄;编写时间:2023/11/30 前情提要 env,使用方式是process.env。简单来说&…

单链表相关经典算法OJ题:移除链表元素

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 目录 前言 题目:移除链表元素 解法一: 解法一的代码实现: 解法二: 解法二代码的实现: 总结 前言 世上有两种耀眼的…

element中el-form-item设置label-width=‘auto‘报错

文章目录 一、问题二、解决三、最后 一、问题 el-form中的设置了全局标题宽度是200px&#xff0c;此时想要对el-form-item取消标题宽度&#xff0c;设置了label-widthauto&#xff0c;结果&#xff0c;报错了~~~ <el-form label-width"200px" label-position&quo…

IOS/安卓+charles实现抓包(主要解决证书网站无法打开问题)

安装 官网下载 https://www.charlesproxy.com/latest-release/download.do 安装charles文档 流程 上述链接解决下图问题 使用介绍 Charles介绍 上述链接看一至三即可&#xff0c;了解首页各个按钮的作用 charles全面使用教程及常见功能详解&#xff08;较详细&#xff09…

【MATLAB源码-第92期】基于simulink的QPSK调制解调仿真,采用相干解调对比原始信号和解调信号。

操作环境&#xff1a; MATLAB 2022a 1、算法描述 QPSK&#xff0c;有时也称作四位元PSK、四相位PSK、4-PSK&#xff0c;在坐标图上看是圆上四个对称的点。通过四个相位&#xff0c;QPSK可以编码2位元符号。图中采用格雷码来达到最小位元错误率&#xff08;BER&#xff09; —…

【开源】基于Vue+SpringBoot的服装店库存管理系统

项目编号&#xff1a; S 052 &#xff0c;文末获取源码。 \color{red}{项目编号&#xff1a;S052&#xff0c;文末获取源码。} 项目编号&#xff1a;S052&#xff0c;文末获取源码。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 数据中心模块2.2 角色管理模块2.3 服…

将class文件反编译成java文件

一、IDEA自带的Java Bytecode Decompiler 对于需反编译的class文件Kb比较大时&#xff0c;反编译后的文件就会报一大堆错误&#xff0c;适用于小Kb或者比较简单的class反编译 二、Jad jad是一个简单易用的命令行工具&#xff0c;适合快速简单的反编译任务 1.Jad下载地址 htt…

万宾科技监测设备,可燃气体监测仪特点一览

万宾科技的监测设备种类繁多&#xff0c;包括可燃气体监测仪、管网水位监测仪、内涝积水监测仪等。其中可燃气体监测仪是万宾科技的核心产品之一&#xff0c;用于监测环境中可燃气体的浓度&#xff0c;适用于对甲烷气体浓度进行实时监测&#xff0c;应用于燃气管网、排水管网、…

Python实验项目8 :科学计算与可视化

1&#xff1a;创建 numpy 数组。 要求&#xff1a; &#xff08;1&#xff09;使用 array()函数、empty()函数、zeros()函数、linspace()函数等创建 numpy 数组。 &#xff08;2&#xff09;使用 numpy 数组的索引和切片方法访问数组元素。 # 要求&#xff1a; # &#xff0…

MJPG-streamer方案实现物联网视频监控

目录 前言 一、JPEG&#xff0c;MJPG格式简介 JPEG MJPG MJPG的优点 MJPG的缺点 二、软硬件准备 三、编译MJPG-streamer 四、运行MJPG-streamer 五、其它常见用法 六、MJPG-streamer 程序框架 七、源码下载 前言 最近想做一个安防相关的项目&#xff0c;所以跟着韦…

ios 逆向分分析,某业帮逆向算法(一)

用到工具: 爱思助手CrackerXL(砸壳软件)越狱手机ida反汇编软件分析login 的sign 签名算法中自己写算法 已知我们32位,我们不妨猜测是md5 ,那我们试图使用CC_MD5 ,这个是ios 中的标准库, 我们使用frida-trace 注入hook一下,看看有没有 经过 是经过了这个函数,密码也是…