【VL tracking】Towards Unified Token Learning for Vision-Language Tracking

news2024/10/5 22:21:40

在这里插入图片描述

不知道什么原因学校认证账号进不去,下载不了最新的PDF

在这里插入图片描述
广西师范大学 | 国科大 | 厦大
代码开源

zhihu指路👉【VL tracking】MMTrack阅读

问题

一方面,传统的VL tracking方法需要昂贵的先验知识。例如,一些tracker是专门用于bounding box的,它们使用区域建议网络(基于锚点的机制)和ROI池化来生成跨模态融合和对齐的建议实例。

另一方面,在多任务学习中,寻找一个有利于vision-language理解的训练目标是困难的。例如,将各种损失函数用于某个特定的模块或任务中,如果一个模型想要有效地学习所有类型任务的特征,调整会是困难的并且泛化能力有限。

为了简化VL tracking建模,本文提出一种概念简单但有效的VL多模态跟踪pipeline,称作MMTrack

Contributions

  • 本文将视觉语言跟踪重新定义为一项token生成任务,并提出了一个新颖的pipeline,从统一建模的角度释放视觉语言多模态学习的潜力。
  • 整个方法简单灵活,将语言和边界框统一作为多线索的token输入。它避免了冗余的子任务学习和优化目标,并且只使用交叉熵作为统一的训练目标。
  • 本文提出的方法在4个VL基准测试上实现了最先进的跟踪结果,表明该方法可以成为VL Tracking新的baseline。

方法

讨论与基于序列的工作的不同之处

pix2seq采用语言建模的方式解决了目标检测任务,取得了较好的结果。受其理念启发,作者为跟踪社区贡献了一种新颖的VL多模态跟踪模型,工作区别在以下几个方面:

  1. pix2seq是为目标检测而设计的,而作者创造性地将其扩展到了VL跟踪任务的多模态建模,并为文本视频理解设计了一个多模态编码器。这超出了原方法单模态的限制。
  2. pix2seq从边界框、类别和噪声数据中创建长序列。相比之下,作者通过仅依赖于边界框和文本信息来简化序列构建策略,避免使用类别和其他噪声策略。因此通过防止长而复杂的序列,本文提出的方法减少了训练负荷,更好地适应了VL跟踪任务。

SeqTrack与本文研究相似,但区别在以下几个方面:

  1. SeqTrack是专门针对涉及视觉模态的纯视觉跟踪任务而设计的,在处理多模态数据输入方面缺乏灵活性。相比之下,视觉语言跟踪结合了高级语义信息来解决边界框的模糊性,从而在实际应用中实现了更灵活、鲁棒和准确的跟踪。
  2. 标记序列构建策略不同。尽管SeqTrack和我们的工作都使用了短标记序列的构建策略,但我们减少了量化桶(quantization bins)的数量,并考虑了将语言标记纳入其中。这种增加的措施提高了在复杂场景中目标定位的鲁棒性。

具体方法

在这里插入图片描述
本文提出的MMTrack框架如上图,包含两个输入:图像对和语言描述。首先,通过文本编码器和视觉编码器分别来提取这两种类型输入的特征。为了提高计算效率,作者使用两个线性层,将两类特征的通道维度从C降到d。然后,将语言和视觉特征喂到多模态编码器中进行统一的VL表征学习,因为通过融合操作形成统一表示是实现多模态学习的关键。
为了构建条件查询,作者将文本嵌入和边界框进行分词(tokenize),生成多个一维标记序列,然后将它们连接起来得到条件查询。接下来,将条件查询和VL表示输入到多模态解码器中。按照 自回归

的方式,条件查询学习从VL表示中生成带有边界框信息的目标序列。

最后,作者设计了一个简单的与任务无关(task-agnostic)的序列头部,可以直接预测最终的跟踪结果。

a. 跨模态编码器

在这里插入图片描述

b.跨模态解码器

在这里插入图片描述在这里插入图片描述在这种模式下,不同模态可以通过encoder-decoder架构在MMTrack中传播。多模态编码器负责更新VL表示,而多模态解码器以自回归方式预测离散坐标标记。我们可以看到,整个pipeline简单而灵活。

c. 条件查询

在这里插入图片描述
x ~ = r o u n d ( x i s × K )   y ~ = r o u n d ( y i s × K ) \tilde{x}=round(\frac{x_i}{s}\times K) \ \tilde{y}=round(\frac{y_i}{s}\times K) x~=round(sxi×K) y~=round(syi×K)

d.不依赖特定任务的序列预测器

在这里插入图片描述

如上图所示,本文提出一个task-agnostic序列预测器,生成一个属性序列来描述目标实例。具体而言,在多模态解码器的顶部添加了三个连续的线性层,以进一步学习坐标token。预测头输出坐标token序列的概率,其中前4个最大分数的索引代表当前帧的目标定位。By doing so, 模型能够摆脱传统分类器的引导,降低预测头的设计复杂度。

效果

在这里插入图片描述表中数据红色是最优结果蓝色次优

可视化:复杂场景下的效果

在这里插入图片描述

与其他VL trackers的定性比较结果

在这里插入图片描述

failure case

在这里插入图片描述

无关结论

【多阅读多思考,有想法立刻写】相近领域或方向中,对最新方法的迁移和借鉴,比如单模态->多模态,检测->跟踪。

【绝对充分的实验】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/970837.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

单片机简介

目录 1、单片机 2、CISC和RISC 3、 冯诺依曼结构和哈佛结构​编辑 1、单片机 单片机:Single-Chip Microcomputer,单片微型计算机,是一种集成电路芯片 ------------------------------------------------------------ 电脑&#xff1a; <--------> …

Redis从基础到进阶篇(三)----架构原理与集群演变

目录 一、缓存淘汰策略 1.1 LRU原理 1.2 案例分析 1.3 Redis缓存淘汰策略 1.3.1 设置最⼤缓存 1.3.2 淘汰策略 二、Redis事务 2.1 Redis事务典型应⽤—Redis乐观锁 2.2 Redis事务介绍 2.3 事务命令 2.3.1 MULTI 2.3.2 EXEC 2.3.3 DISCARD 2.3.4 WATCH 2.3.5 UNW…

Cesium 上展示点的坐标

文章目录 需求一需求分析 需求二需求分析 需求一 需求 Cesium 中绘制点并在点上添加该点的坐标 分析 在Cesium中&#xff0c;可以使用以下代码来显示指定点的坐标&#xff1a; //定义点的坐标 var position Cesium.Cartesian3.fromDegrees(longitude, latitude, height)…

QML配置启用 QML编译

简述 常规情况下 QML 是解释执行的&#xff0c;为了加快启动速度&#xff0c;官方开发了 QML 编译器&#xff0c;支持编译到 C。 用法 在 pro 文件添加配置,使其生效 CONFIG qtquickcompiler添加后可以看到编译的中间文件有变化&#xff0c;上边是未配置编译 QML&#xff…

从出版到金融:为何现代行业都选择“爱校对”?

在快速发展的数字时代&#xff0c;无论是企业内部的邮件、宣传手册&#xff0c;还是专业的金融报告和出版物&#xff0c;准确无误的文字成为成功的关键。那么&#xff0c;面对山量的文档&#xff0c;如何确保每一句话都字正腔圆、无误导性&#xff1f;答案可能比你想象的还要简…

视频号发农村怀旧治愈系短视频月入5K+,一部手机在家就能搞的副业项目

视频号大家都熟悉&#xff0c;治愈系短视频有人可能也见到过&#xff0c;只是可能没有人想过发发视频就能搞钱&#xff0c;尤其是在视频号里。其实这个项目不仅仅可以视频号做&#xff0c;抖音、快手、小红书都可以同步做&#xff0c;而且都有收益。 先给大家看看案例&#xf…

科技云报道:AI大模型终于走到了数据争夺战

科技云报道原创。 当前&#xff0c;大模型正处在产业落地前期&#xff0c;高质量的数据&#xff0c;是大模型实现产业化的关键要素。 最近&#xff0c;一项来自Epoch AI Research团队的研究抛出了一个残酷的事实&#xff1a;模型还要继续做大&#xff0c;数据却不够用了。 …

Vue 2 nextTick方法|异步更新|事件循环

1 nextTick的用处 vm.$netTick的作用是将回调延迟到下次DOM更新周期之后执行。 它接受一个回调函数作为参数。 其实&#xff0c;在我们更新数据状态后&#xff0c;是不会立马渲染的&#xff0c;你不能即刻获取到新的DOM&#xff1a; <!DOCTYPE html> <html><…

vscode+esp-idf 搭建esp32开发环境,编译信息中文乱码

1.修改波特率 2.C:\Users\Administrator\.vscode\extensions\vsciot-vscode.vscode-arduino-0.6.0-win32-x64\out\src\common 打开文件 util.js 屏蔽掉这部分的代码 、

献给前端研发同学的福利!性能诊断神器——Chrome Performance insight!

Performance insight概述 Performance insight是chrome Chrome DevTools中的自带工具&#xff08;Chrome102 版本发布&#xff09;&#xff0c;目前还是在chrome DevTool中启动即可&#xff0c;如下图所示&#xff1a;我们可以模拟cpu&#xff0c;选择4x slowdown&#xff0c;…

大数据可视化大屏实战项目(8)史上最炫酷科技风销售额度展示大屏,适用于电子产品---HTML+CSS+JS【源码在文末】(可用于比赛项目或者作业参考中)

大数据可视化大屏实战项目&#xff08;8&#xff09;史上最炫酷科技风销售额度展示大屏&#xff0c;适用于电子产品—HTMLCSSJS【源码在文末】&#xff08;可用于比赛项目或者作业参考中&#x1f415;&#x1f415;&#x1f415;&#xff09; 一&#xff0c;项目概览 ☞☞☞☞…

发生OOM时JVM会退出吗

程序是否退出和发生 OOM 无关 需要明确&#xff0c;程序是否退出和发生 OOM 无关&#xff0c;而和当前是否还有存活的非守护线程有关。 只要还有运行中的子线程&#xff0c;即使 main 线程结束或异常崩溃了&#xff0c;程序也不会停止。 public class TestThreadRun {privat…

管理类联考——逻辑——汇总篇——知识点突破——论证逻辑——论证模型

不同的模型对应的削弱、支持、假设。 归纳模型 模型识别 1.完全归纳 完全归纳指的就是所谓的穷举法&#xff0c;即通过某一类对象中的全部元素具备或者不具备某个性质&#xff0c;从而证明这一类对象都具备或者不具备某个性质。考试中一般不考察完全归纳&#xff0c;因此&am…

彻底了解 npm、cnpm、pnpm 、yarn几种包管理工具

npm、cnpm、pnpm 、yarn几种包管理工具 npmcnpmyarnpnpm四者的优缺点&#xff1a; npm npm 是 Node.js 自带的包管理器&#xff0c;平时通过 npm install 命令来安装各种 npm 包&#xff08;比如&#xff1a;npm install vue-router &#xff09;&#xff0c;就是通过这个包管…

基于OpenEuler的信创国产瘦客户机软件系统 DoraOS

DoraOS是一款瘦客户机系统软件&#xff0c;最新版本基于OpenEuler开发。可以将主机转化为专业的瘦客户机。目前支持x86架构的硬件。 软件下载地址为&#xff1a; https://www.doracloud.cn/downloads/32-cn.html 制作一张启动U盘&#xff0c;即可进行安装。 DoraOS的连接窗口…

3D数据导出工具HOOPS Publish:3D数据查看、生成标准PDF或HTML文档!

HOOPS中文网http://techsoft3d.evget.com/ 一、3D导出SDK HOOPS Publish是一款功能强大的SDK&#xff0c;可以创作丰富的工程数据并将模型文件导出为各种行业标准格式&#xff0c;包括PDF、STEP、JT和3MF。HOOPS Publish核心的3D数据模型是经过ISO认证的PRC格式(ISO 14739-1:…

【UIPickerView案例04-随机点餐完善 Objective-C语言】

一、之前我们讲到哪里 1)首先,是搭建界面 2)然后呢,是加载数据 先把这个数据文件,拖进来,然后呢,设置它的代理对象、数据源对象 然后呢,在控制器里面,遵守对应的协议, 实现对应的方法 跟TableView的思路,一样一样的, 也是,把多少行返回 把多少组,返回 然后呢…

【python爬虫】12.建立你的爬虫大军

文章目录 前言协程是什么多协程的用法gevent库queue模块 拓展复习复习 前言 照旧来回顾上一关的知识点&#xff01;上一关我们学习如何将爬虫的结果发送邮件&#xff0c;和定时执行爬虫。 关于邮件&#xff0c;它是这样一种流程&#xff1a; 我们要用到的模块是smtplib和emai…

WordPress Page Builder KingComposer 2.9.6 Open Redirection

WordPress Page Builder KingComposer 2.9.6 Open Redirection WordPress 插件 KingComposer 版本2.9.6 以及以前版本受到开放重定向漏洞的影响。该漏洞在packetstorm网站披露于2023年7月24日&#xff0c;除了该漏洞&#xff0c;该版本的插件还存在XSS攻击的漏洞风险 图1.来自…

【无源谐波滤波器通常用于电力系统中的谐波抑制】用于抑制电力系统谐波的无源谐波滤波器(Simulink实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…