【目标跟踪】相机运动补偿

news2025/1/12 15:53:11

文章目录

  • 一、前言
  • 二、简介
  • 三、改进思路
    • 3.1、状态定义
    • 3.2、相机运动补偿
    • 3.3、iou和ReID融合
    • 3.4、改进总结
  • 四、相机运动补偿

一、前言

  1. 前 MOT (Multiple Object Tracking) 最有效的方法仍然是 Tracking-by-detection。
  2. 今天给大家分享一篇论文 BoT-SORT。论文地址 ,论文声称很牛*,各种屠榜,今天我们就来一探究竟。
  3. 主要是分享论文提出的改进点以及分享在自己的算法中如何去运用。

二、简介

Tracking-by-detection 成为 MOT 任务中最有效的范式。Tracking-by-detection 包含一个步骤检测步骤,然后是一个跟踪步骤。跟踪步骤通常由2个主要部分组成:

(1)运动模型和状态估计,用于预测后续帧中轨迹的边界框。卡尔曼滤波器 (KF) 是此任务的主流选择。

(2)将新帧检测与当前轨迹集相关联。对于步骤2:有2种主要的方法用于处理关联任务:

  • 目标的定位,主要是预测轨迹边界框和检测边界框之间的 IoU。(SORT)
  • 目标的外观模型和解决 Re-ID 任务。(DeepSORT)

在许多复杂的场景中,预测边界框的正确位置可能会由于相机运动而失败,这导致2个相关边界框之间的重叠率低,最终导致跟踪器性能低下。

作者通过采用传统的图像配准来估计相机运动,通过适当地校正卡尔曼滤波器来克服这个问题。这里将此称为相机运动补偿(CMC)。

三、改进思路

3.1、状态定义

x, y, w, h = box.centerX, box.centerY, box.width, box.height

(1) SORT,状态向量被选择为7元组:

在这里插入图片描述

s = w * h, r = h / w

(2) DeepSORT,状态向量被选择为8元组:

在这里插入图片描述

随着镜头移动或者物体与相机的相对运动,物体的长宽比也是会发生变化的。

(3) BoT-SORt 状态向量:

在这里插入图片描述

作者通过实验发现,直接估计边界框的宽度和高度会可以得到更好的性能。

在这里插入图片描述

蓝色框 DeepSORT 绿色框 BoT-SORT

且Q、R设置为与当前状态有关。具体设置如下图:

在这里插入图片描述

3.2、相机运动补偿

这个是我们的重点,针对这一点如何实现,包括如何在我们自己代码运用,我下一节单独拿来分析。

Tracking-by-detection严重依赖 预测框predictBox与检测框detectBox的重叠程度(如 IOU)。在自动驾驶领域中,相机是动态的,图像平面的边界框位置可能会发生显著变化。就算在相机固定的情况下,跟踪器也可能因振动或漂移引起的运动而受到影响。
在这里插入图片描述

这部分使用opencv中的全局运动估计(GMC)技术来表示背景运动。 首先提取图像关键点,再利用稀疏光流进行基于平移的局部异常点抑制的特征跟踪。然后使用 RANSAC 计算放射变换矩阵,再将预测的边界框从 k-1 帧坐标变换到其下一阵第k帧的坐标。上图表现出的效果看起来也很不错。

变换矩阵的平移部分仅影响边界框的中心位置,而另一部分影响所有状态向量和噪声矩阵。M ∈ R2×2 是包含仿射矩阵 a 的尺度和旋转部分的矩阵,并且 T 包含平移部分。 简单理解 M∈R2×2 为二维旋转矩阵,T为平移矩阵。由于我们前面状态定义为:

在这里插入图片描述

所以所有的状态都需要旋转操作,平移只需要对中心点(x,y)平移即可。如何在预测后的状态量中再旋转平移拿到最终状态量,用最终状态量进行匹配操作。
在这里插入图片描述

如果看不懂,把公式写出这样大家应该就明白了

在这里插入图片描述

关于 M 怎么求? 我下面一节会提供一个简单的思路和代码,大家可以参考下。

在经过上述式子更新过后,我们可以得到计算相机运动补偿后的目标状态与增益,此时把相应的 X,P 进行卡尔曼滤波的更新步骤。
在这里插入图片描述

3.3、iou和ReID融合

这部分是论文新提出的方法,也是可圈可点的地方。不过由于实时性太差,并不是适用实际场景,所以不是我们今天分析的重点。

为了提取 Re-ID 特征,采用了 FastReID 库中 BoT 之上的更强的 baseline——SBS(2020年提出)+ ResNeSt50 作为骨干网络。

更新外观状态:
在这里插入图片描述

由于外观特征很容易受到拥挤、遮挡和模糊目标的扰动破坏,作者仅使用高置信度的框。对于轨迹外观状态e与新检测嵌入特征 f 的关联,采用余弦相似性度量。α=0.9 是动量项。外观成本 Aa 和运动成本 Am 计算成本矩阵 C。其中权重因子 λ 通常设置为 0.98 。
在这里插入图片描述

作者开发了一种将运动和外观信息相结合的新方法,即IoU距离矩阵和余弦距离矩阵。首先,根据 IoU 的得分,低余弦相似性或遥远的候选者被拒绝。然后,使用矩阵的每个元素中的最小值作为我们的成本矩阵 C 的最终值。IoU-ReID 融合管道可以公式化如下:
在这里插入图片描述

3.4、改进总结

我们结合流程图,回顾以上三点改进:

在这里插入图片描述

  • 步骤 1 的提升并不明显。可以说步骤 1 的状态也是为了步骤 2 服务的。
  • 步骤 2 对跟踪器分数的提升较大。实际测试发现步骤 2 的提升是很大的,尤其是对突然发生抖动场景(如车子过减速带,急刹车等)。
  • 步骤 3 加入RE-ID之后速度非常慢,达不到实时检测跟踪。

四、相机运动补偿

整体思路如下:

  1. 计算图片背景特征点角点检测
  2. 上一帧与当前帧光流匹配
  3. 根据特征点计算旋转平移

之前博主有分享过一篇光流跟踪博客 【目标跟踪】光流跟踪(python、c++代码)。

那篇博客思路与这里有点像素, 不过那篇博客是对每个检测的目标框进行光流估计,而且没有考虑旋转。

我们这里是对背景进行光流估计,补偿所有的检测框。

根据论文思路,博主自己写了一个 demo。

import numpy as np
import cv2
import os

img_dir = "F:\\image_raw\\"
n_frames = len(os.listdir(img_dir))
w, h = 1920, 1080
num = 1
prev = cv2.imread(img_dir + "{}.jpg".format(num))
prev_gray = cv2.cvtColor(prev, cv2.COLOR_BGR2GRAY)
color = np.random.randint(0, 255, (20000, 3))

for i in range(n_frames - 2):
    curr_path = img_dir + "{}.jpg".format(i + 2)
    curr = cv2.imread(curr_path)
    drawImg = curr.copy()
    mask = np.zeros_like(drawImg)

    prev_pts = cv2.goodFeaturesToTrack(prev_gray, maxCorners=200, qualityLevel=0.01, minDistance=30, blockSize=3)
    curr_gray = cv2.cvtColor(curr, cv2.COLOR_BGR2GRAY)
    curr_pts, status, err = cv2.calcOpticalFlowPyrLK(prev_gray, curr_gray, prev_pts, None)
    idx = np.where(status == 1)[0]
    prev_pts = prev_pts[idx]
    curr_pts = curr_pts[idx]
    m, _ = cv2.estimateAffinePartial2D(prev_pts, curr_pts)
    prev_gray = cv2.cvtColor(curr, cv2.COLOR_BGR2GRAY)
    for i, (new, old) in enumerate(zip(prev_pts, curr_pts)):
        a, b = new.ravel()
        c, d = old.ravel()
        mask = cv2.line(mask, (int(a), int(b)), (int(c), int(d)), color[i].tolist(), 2)
        drawImg = cv2.circle(drawImg, (int(a), int(b)), 4, color[i].tolist(), -1)
    showImg = cv2.add(drawImg, mask)
    cv2.imshow("show", showImg)
    cv2.waitKey(100)

代码中的 m 就是我们的旋转平移矩阵。选取特征点时尽量选择背景,不要选择动态目标,可以通过检测简单过滤。

在这里插入图片描述

有了 m 我们可以对 kalman 中的预测状态进行再修正后,进行匹配。

整体的效果非常不错,尤其是在颠簸的道路行驶时,基本碾压其他算法。
在这里插入图片描述

论文公布的效果对比图:
在这里插入图片描述


如有疑问,欢迎大家交流!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1433268.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

wireshark分析数据包:追踪流

打开追踪流的界面 方法 1 方法 2 选中数据包,右键弹出菜单 说明: 流内容的显示顺序和它在网络上出现的顺序相同。不可打印的字符被点代替。从客户端到服务器的流量被标记为红色,而从服务器到客户端的流量被标记为蓝色。这些颜色可以通过下…

No matching client found for package name ‘com.unity3d.player‘

2024年2月5日更新 下面的一系列操作最终可能都无用,大致这问题出现原因是我在Unity采用了Android方式接入Firebase,而Android接入实际上和Unity接入方式有配置上的不一样,我就是多做了几步操作如下。https://firebase.google.com/docs/androi…

【计算机网络】Socket的SO_TIMEOUT与连接超时时间

SO_TIMEOUT选项是Socket的一个选项,用于设置读取数据的超时时间。它指定了在读取数据时等待的最长时间,如果在指定的时间内没有数据可读取,将抛出SocketTimeoutException异常。 SO_TIMEOUT的设置 默认情况下,SO_TIMEOUT选项的值…

用Jmeter进行接口测试

web接口测试工具: 手工测试的话可以用postman ,自动化测试多是用到 Jmeter(开源)、soupUI(开源&商业版)。 下面将对前一篇Postman做接口测试中的接口用Jmeter来实现。 一、Jmeter 的使用步骤 打开Jme…

【vscode】windows11在vscode终端控制台中打印console.log()出现中文乱码问题解决

1. 问题描述 在前端开发过程中使用vscode编写node.js,需要在控制台中打印一些中文信息,但是一直出现中文乱码问题,英文和数字都显示正常。在网上试了很多设置的办法,最终找到windos11设置中解决。 2. 原因 首先打开控制台&…

通过html2canvas和jsPDF将网页内容导出成pdf

jsPDF参考:https://github.com/parallax/jsPDF html2canvas参考:https://github.com/niklasvh/html2canvas 或者 https://html2canvas.hertzen.com 思路 使用html2canvas将选中DOM生成截图对象将截图对象借助jsPDF导出为PDF文件 代码 这是一个示例&a…

《幻兽帕鲁》解锁基地和工作帕鲁数量上限

帕鲁私服的游戏参数通常可通过配置文件 PalWorldSettings.ini 来进行修改,然而这个配置文件有个别参数对游戏不生效,让人很是头疼。没错!我说的就是终端最大的帕鲁数量! 其实还有另外一种更加高级的参数修改方式,那就…

C#实现坐标系转换

已知坐标系的向量线段AB,旋转指定角度后平移到达坐标AB 获取旋转角度以及新的其他坐标转换。 新建窗体应用程序CoordinateTransDemo,将默认的Form1重命名为FormCoordinateTrans,窗体设计如图: 窗体设计代码如下: 部分…

在windows下安装docker部署环境运行项目----docker-compose.yml

前言 小编我将用CSDN记录软件开发求学之路上亲身所得与所学的心得与知识,有兴趣的小伙伴可以关注一下! 也许一个人独行,可以走的很快,但是一群人结伴而行,才能走的更远!让我们在成长的道路上互相学习&…

Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版(六)

原文:Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow 译者:飞龙 协议:CC BY-NC-SA 4.0 第十四章:使用卷积神经网络进行深度计算机视觉 尽管 IBM 的 Deep Blue 超级计算机在 1996 年击败了国际象棋世界冠军…

力扣 第 383 场周赛 解题报告 | 珂学家 | Z函数/StringHash

前言 谁言别后终无悔 寒月清宵绮梦回 深知身在情长在 前尘不共彩云飞 整体评价 T3是道模拟题,但是感觉题意有些晦涩,T4一眼Z函数,当然StringHash更通用些。 新年快乐, _. T1. 将单词恢复初始状态所需的最短时间 I 思路: 模拟 就是前缀和为…

AI助力农作物自动采摘,基于YOLOv5全系列【n/s/m/l/x】参数模型开发构建作物生产场景下番茄采摘检测计数分析系统

去年十一那会无意间刷到一个视频展示的就是德国机械收割机非常高效自动化地24小时不间断地在超广阔的土地上采摘各种作物,专家设计出来了很多用于采摘不同农作物的大型机械,看着非常震撼,但是我们国内农业的发展还是相对比较滞后的&#xff0…

BUUCTF-Real-[PHPMYADMIN]CVE-2018-12613

目录 漏洞背景介绍 漏洞产生 漏洞利用 漏洞验证 漏洞背景介绍 phpMyAdmin 是一个以PHP为基础,以Web-Base方式架构在网站主机上的MySQL的数据库管理工具,让管理者可用Web接口管理MySQL数据库。借由此Web接口可以成为一个简易方式输入繁杂SQL语法的较佳…

GPT如何在一分钟内完成论文数据分析?

数据上传 PPMAN-AI 01 由于技术限制,目前InfinitePaper AI仅支持上传1份文件,且大小不超过10M。但是,在强大的代码解释器面前,这都是小问题。我们只需要将可能用到的文件打包成压缩文件上传即可,之后要求GPT直接解压…

计算机设计大赛 深度学习 机器视觉 车位识别车道线检测 - python opencv

0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 深度学习 机器视觉 车位识别车道线检测 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐! 🥇学长这里给一个题目综合评分(每项满分5分) …

财务数据处理问题及解决方案分享

一、平台介绍 财务自营计费主要承接京东自营数据在整个供应链中由C端转B端的功能实现,在整个供应链中属于靠后的阶段了,系统主要功能是计费和向B端的汇总。 二、问题描述 近年来自营计费数据量大增,有百亿的数据量,一天中汇总占…

Docker进阶篇-compose容器编排

一、描述 Docker-Compose是Docker官方的开源项目,负责实现对Docker容器集群的快速编排。 Compose是Docker公司推出的一个工具软件,可以管理多个Docker容器组成一个应用。需要定义 一个YAML格式的配置文件docker-compose.yml,配置好多个容器…

Stable Diffusion 模型下载:国风3 GuoFeng3

文章目录 模型介绍生成案例案例一案例二案例三案例四案例五案例六案例七案例八案例九案例十推荐提示词下载地址模型介绍 欢迎使用GuoFeng3模型 - 这是一个中国华丽古风风格模型,也可以说是一个古风游戏角色模型,具有2.5D的质感。 条目内

【UE Niagara】环绕在人物周围的闪电效果

效果 步骤 1. 首先下载一个螺旋形状的静态网格体并导入UE(地址:https://pan.baidu.com/s/1l9Bn5lQd7tDBu3CMs4c2aA?pwd7myr ) 2. 创建一个Niagara系统 使用Empty模板 这里命名为“NS_LightingAround” 打开“NS_LightingAround”&#xff0…

Matplotlib绘制炫酷柱状图的艺术与技巧【第60篇—python:Matplotlib绘制柱状图】

文章目录 Matplotlib绘制炫酷柱状图的艺术与技巧1. 簇状柱状图2. 堆积柱状图3. 横向柱状图4. 百分比柱状图5. 3D柱状图6. 堆积横向柱状图7. 多系列百分比柱状图8. 3D堆积柱状图9. 带有误差线的柱状图10. 分组百分比柱状图11. 水平堆积柱状图12. 多面板柱状图13. 自定义颜色和样…