论文解读:高质量物体追踪

news2024/12/25 8:54:11

49c3e2816bfb2d23cc2d3ac879186f1c.jpeg

本文介绍了HQTrack,一种新的高质量视频物体追踪框架。HQTrack结合了视频多目标分割器(VMOS)和蒙版细化器(MR),可追踪视频初始帧中指定的物体,并对追踪结果进行细化,以获得更高的准确性。尽管VMOS在多个视频物体分割(VOS)数据集上的训练限制了其适应复杂场景的能力,但MR模型有助于提升追踪结果的精度。HQTrack在不使用额外增强措施,如测试时的数据增强和模型集成等的情况下,通过在视觉物体追踪和分割(VOTS2023)挑战中获得第二名,证明了其效果。

方法

a24d588f59b72ae197f89e97223ead63.jpeg

视频多目标分割器

VMOS是HQTrack框架的关键组成部分,是DeAOT模型的变体,专门设计用于提高分割性能。与原始的DeAOT不同,后者在16×尺度的视觉和识别特征上操作,VMOS采用了一个门控传播模块(GPM),与8×尺度级联,并将传播过程扩展到多个尺度。这种方法有助于保留可能在较大尺度上丢失的详细对象线索,从而提高对微小对象的感知能力。VMOS使用上采样和线性投影,仅将传播特征放大到4×尺度,考虑内存使用和模型效率。然后,将这些多尺度传播特征输入简单的特征金字塔网络(FPN)解码器进行蒙版预测。此外,VMOS还整合了Internimage的Intern-T,这是一个基于大规模CNN的模型,使用了可变形卷积,以增强物体的区分能力。

蒙版细化器

HQTrack中的蒙版细化器采用了预训练的HQ-SAM模型,它是Segment Anything Model的变体。由于其在包含11亿个蒙版的高质量数据集上的训练,SAM在图像分割能力和零样本泛化方面引起了重视。然而,由于SAM在包含复杂对象的图像中存在问题,因此开发了HQ-SAM。该模型通过引入额外的参数到预训练模型中来改进SAM,提供了更高质量的蒙版。

在HQTrack中,MR细化了由VMOS生成的预测蒙版,尤其是在VMOS的结果可能因其在受限的尺度关闭数据集上的训练而导致质量不足的复杂场景中。MR计算来自VMOS的预测蒙版的外部包围框,将这些框提示以及原始图像输入到HQ-SAM模型中,并生成细化蒙版。

HQTrack的最终输出蒙版从VMOS和HQ-SAM的结果中选择。如果VMOS和HQ-SAM之间的交并比(IoU)分数高于某个阈值,就会选择细化的蒙版。这个过程鼓励HQ-SAM专注于细化当前的对象蒙版,而不是重新预测另一个目标对象,从而提高分割性能。

实验

09bf246419a644b82c183214003060e1.png

消融研究

  • 在对不同追踪范式进行消融研究时,发现使用单一追踪器对所有目标对象进行联合追踪比分别追踪(每个目标对象分别追踪)表现更好。联合追踪的更好表现可能是因为追踪器理解目标对象之间的关系,提高了对干扰干扰的鲁棒性。

  •  针对视频多目标分割器(VMOS)进行的分量研究表明,将原始的ResNet50主干网络替换为InternImage-T,并添加多尺度传播机制,会显著提高性能。曲线下面积(AUC)分数从0.611增加到0.650,证实了这些修改的有效性。

  • 考虑到视觉物体追踪和分割(VOTS)视频中的长序列,重新评估了长期内存间隔参数。研究发现,内存间隔为50提供了最佳性能。 

  • HQTrack的蒙版细化器(MR)也经过了检验。发现直接细化所有分割蒙版并不是最优的。尽管用SAM细化蒙版可以显著提高性能,但会损害质量较低的蒙版的性能。因此,提出了一个选择过程:当VMOS和SAM之间的交并比(IoU)分数高于阈值时,选择细化的蒙版作为最终输出。

论文链接:https://arxiv.org/abs/2307.13974v1
代码链接:https://github.com/jiawen-zhu/HQTrack

·  END  ·

HAPPY LIFE

b6a4946cb0cba058a3c099a2bdb45312.png

本文仅供学习交流使用,如有侵权请联系作者删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/933056.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C++】4、Preprocessor 预处理:条件编译、源文件包含、宏替换、重定义行号、错误信息、编译器预留指令

文章目录 一、概述二、格式2.1 条件编译2.2 源文件包含2.3 宏替换2.3.1 语法2.3.2 C标准内置的预定义宏 2.4 重定义行号和文件名2.5 错误信息2.6 编译器预留指令 三、应用场景 C的 Build 可分为4个步骤:预处理、编译、汇编、链接。 预处理就是本文要详细说的宏替换…

跳跃游戏【贪心算法】

跳跃游戏 给你一个非负整数数组 nums ,你最初位于数组的 第一个下标 。数组中的每个元素代表你在该位置可以跳跃的最大长度。 判断你是否能够到达最后一个下标,如果可以,返回 true ;否则,返回 false 。在这里插入图片…

Windows 10【压缩卷】操作报错【无法将卷压缩到超出任何不可移动的文件所在的点】的解决方法

目录 一、背景 二、原因 三、解决方法 3.1 Windows自带的碎片清理工具 3.1.1 操作步骤 3.1.2 操作结果 3.2 MyDefrag工具清理磁盘碎片 3.2.1 操作步骤 3.2.2 操作结果 3.3 Windows自带的事件查看器 3.3.1 操作步骤 3.3.2 操作结果 3.4 关闭虚拟内存并删除虚拟内存…

docker harbor私有库

目录 一.Harbor介绍 二.Harbor的特性 三.Harbor的构成 四.Harbor构建Docker私有仓库 4.2在Server主机上部署Harbor服务(192.168.158.25) 4.2.1 这时候这边就可以去查看192.168.158.25网页 4.3此时可真机访问serverIP 4.4通过127.0.0.1来登陆和推送镜…

一分钟学会用pygame制作棋盘背景

一分钟一个Pygame案例,这一集我们来学习一下如何生成一个视频中的棋盘背景效果,非常非常简单。 视频教程链接:https://www.bilibili.com/video/BV17G411d7Ah/ 当然我们这里是用来做页面的背景,你也可以拿来做别的效果&#xff0…

【随笔】- 程序员的40岁后健身计划

【随笔】- 40岁后程序员的健身计划 文章目录 【随笔】- 40岁后程序员的健身计划一、树立健身信心,制订坚持计划二、挑选让你舒适的方式三、调整速度,以间歇式训练为主四、刚开始锻炼,别求太快五、增加力量、柔韧性和平衡练习六、运动多样化七…

Nginx正向代理与反向代理及Minio反向代理实操(三)

本文是对: Nginx安装及Minio集群反向动态代理配置(二) 文的进一步完善: 多台服务器间免密登录|免密拷贝 Cenos7 搭建Minio集群部署服务器(一) Cenos7 搭建Minio集群Nginx统一访问入口|反向动态代理(二) Spring Boot 与Minio整合实现文件上传与下载(三) CentOS7的journa…

【80天学习完《深入理解计算机系统》】第十一天 3.4 跳转指令

专注 效率 记忆 预习 笔记 复习 做题 欢迎观看我的博客,如有问题交流,欢迎评论区留言,一定尽快回复!(大家可以去看我的专栏,是所有文章的目录)   文章字体风格: 红色文字表示&#…

清华大学龙明盛:人工智能工程化软件研发

今年以来,一系列通用大模型和领域大模型相继发布,将人工智能(AI)推向一个崭新的高度。AI开始得到人们开始普遍关注、并渗透至各行各业,引发各行各业发生巨大变化,软件研发行业自然也随之发生巨变。 基于对大…

6.1英寸屏幕?新款iPhone15系列在印度获得认证

据报道,A3904和A3090是最新的iPhone 15系列机型在印度获得监管机构BIS的认证。虽然目前BIS认证文件中没有包含相关的规格和参数信息,但可以确认这两款机型是iPhone 15系列中的一部分。 根据之前的报道,iPhone 15和iPhone 15 Pro将配备6.1英寸…

数据结构(Java实现)-java对象的比较

元素的比较 基本类型的比较 在Java中&#xff0c;基本类型的对象可以直接比较大小。 对象比较的问题 Java中引用类型的变量不能直接按照 > 或者 < 方式进行比较 默认情况下调用的就是equal方法&#xff0c;但是该方法的比较规则是&#xff1a;没有比较引用变量引用对象的…

深度学习7:生成对抗网络 – Generative Adversarial Networks | GAN

生成对抗网络 – GAN 是最近2年很热门的一种无监督算法&#xff0c;他能生成出非常逼真的照片&#xff0c;图像甚至视频。我们手机里的照片处理软件中就会使用到它。 目录 生成对抗网络 GAN 的基本原理 大白话版本 非大白话版本 第一阶段&#xff1a;固定「判别器D」&#x…

数据结构(Java实现)LinkedList与链表(下)

** ** 结论 让一个指针从链表起始位置开始遍历链表&#xff0c;同时让一个指针从判环时相遇点的位置开始绕环运行&#xff0c;两个指针都是每次均走一步&#xff0c;最终肯定会在入口点的位置相遇。 LinkedList的模拟实现 单个节点的实现 尾插 运行结果如下&#xff1a; 也…

React 使用 useRef() 获取循环中所有子组件实例

目录 背景思考实现完整代码&#xff1a;成功运行后的界面如下&#xff1a; 知识点总结uesRef() 作对象处理useImperativeHandle() 父组件操作引入子组件的内部方法最后 背景 之前项目中使用了antd pro 中的 可编辑表格 (EditableProTable)&#xff0c;在页面中表格要经过多层遍…

不用循环数组,js+html实现贪吃蛇

功能描述&#xff1a;每走10步随机改变一个方方向&#xff0c;当键盘按下方向键 w,s,a,d时&#xff0c;使用键盘方向控制蛇的移动&#xff0c;蛇头每撞到一次自身时改变屏幕颜色&#xff0c;蛇头碰到边界时从另一边回来。 实现思路&#xff1a;用个30大小的数组存放每个结点&a…

基于Java+SpringBoot+Vue前后端分离纺织品企业财务管理系统设计和实现

博主介绍&#xff1a;✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专…

nodejs+vue+JavaScript学科竞赛管理系统e41wj

本文拟采用nodejs技术和vue.js搭建系统框架&#xff0c;后台使用MySQL数据库进行信息管理&#xff0c;设计开发的学科竞赛全流程管理系统。通过调研和分析&#xff0c;系统拥有管理员、教师和学生三个角色&#xff0c;主要具备登录注册、个人信息修改、教师管理、学生管理、竞赛…

【Unity小技巧】unity2d平台制作一根三七调的鱼竿效果(附git源码)

文章目录 前言素材开始源码参考完结 前言 今天我们做一个2d鱼竿的效果&#xff0c;先看一下效果成品效果 素材 鱼竿 开始 首先创建一个2D URP项目 &#xff0c;创建一个空物体作为鱼竿&#xff0c;并创建两个子物体作为开始和结束点 配置层级如下 鱼竿和鱼线加Line Ren…

[Open-source tool] 可搭配PHP和SQL的表單開源工具_Form tools(1):簡介和建置

Form tools是一套可搭配PHP和SQL的表單開源工具&#xff0c;可讓開發者靈活運用&#xff0c;同時其有數個表單模板和應用模組供挑選&#xff0c;方便且彈性。Form tools已開發超過20年&#xff0c;為不同領域的需求者或開發者提供一個自由和開放的平台&#xff0c;使他們可建構…

SQL注入漏洞复现:探索不同类型的注入攻击方法

这篇文章旨在用于网络安全学习&#xff0c;请勿进行任何非法行为&#xff0c;否则后果自负。 准备环境 sqlilabs靶场 安装&#xff1a;详细安装sqlmap详细教程_sqlmap安装教程_mingzhi61的博客-CSDN博客 一、基于错误的注入 简介 基于错误的注入&#xff08;Error-based I…