【IR】Vision-Language Tracking

news2025/1/11 2:26:45

调研:视觉-语言跟踪

  • 0x01 Transformer vision-language tracking via proxy token guided cross-modal fusion, PRL2023
    • Abstract
    • Introduction
    • Contribution
    • 效果
    • Conclusion
  • 0x02 Divert More Attention to Vision-Language Object Tracking, NeurIPS2022
    • Abstract
    • Introduction
    • Contribution
    • 统一自适应的vision-language跟踪方法和数据库
    • 效果
      • 消融实验
  • 0x03 Vision-Language Intelligence:Tasks, Representation Learning, and Large Models, 2022 综述
    • 【2014-2018】
    • 【2019-2021】
    • 【2021- 】
  • 0x04 Towards Unified Token Learning for Vision-Language Tracking, TCSVT2023
  • 注释
  • 关键问题

ChatGPT says:
一些常见的视觉-语言跟踪任务及其应用领域:
1. 视频跟踪(Video Tracking):将视觉-语言技术与视频跟踪相结合,可以实现对视频中目标的跟踪和理解。通过使用视觉特征和语言信息,可以在视频中标记和跟踪感兴趣的物体、行为或者场景。这在监控和安全领域中具有重要意义。
2. 文本跟踪(Text Tracking):对于文本数据,视觉-语言技术可以用于跟踪和理解文本在不同场景和上下文中的变化。例如,在社交媒体分析中,可以使用视觉-语言跟踪来追踪话题、关键词或者事件的演变,从而实现对文本内容的实时监测和分析。
3. 目标跟踪与描述(Object Tracking and Description):视觉-语言技术可以用于将目标的视觉跟踪结果与相应的文字描述关联起来。这可以提供更加细致和丰富的目标理解和描述。例如,在自动驾驶领域,视觉-语言跟踪可以用于将车辆、行人或者交通信号等目标的视觉跟踪结果与语义描述相结合,实现对道路环境的更深入理解和表达。
4. 时空关系跟踪(Temporal-Spatial Relationship Tracking):视觉-语言技术可以用于跟踪和理解物体在时空上的关系变化。例如,在视频中跟踪人与物体之间的相对位置和运动关系,以及对场景中事件的描述和解释。
5. 多模态跟踪(Multimodal Tracking):视觉-语言技术可以跨越多个模态,如图像、音频和文本,进行综合跟踪和理解。这种方法可以实现更全面和多样化的跟踪任务,如多模态情感分析、多模态事件检测等。

0x01 Transformer vision-language tracking via proxy token guided cross-modal fusion, PRL2023

文章链接
在这里插入图片描述

Abstract

以往的研究主要采用CNN和序列模型对视频和语言进行编码,但是泛化性能(generalization)不佳。为了解决这一问题,本文提出一种基于transformer的VL 跟踪框架:包含图像编码器、语言编码器、跨模态融合模块和特定任务的头部。我们采用残差网络和BERT分别对图像和语言进行嵌入。

更重要的是,我们提出一个基于transformer的代理token引导的跨模态融合模块。代理token作为单词嵌入的代理,并与视觉特征进行交互。通过吸收视觉信息,利用代理token对单词嵌入进行调整,使其关注视觉特征。
最后,通过动态模态聚合(aggregation)方法得到有机融合的特征,并将其输入到特定任务的头部进行跟踪。

Introduction

视觉跟踪的目标是一个视频序列中定位初始化的目标。在大多数情况下,目标是使用在视频序列开始的bounding box来指定的,基于这个bounding box来提取目标对象的视觉表征(visual representation),进行跟踪。
但是存在以下问题:
1、遮挡;
2、外观不可靠(如人脱衣服的外观变化和快速运动等);
3、目前的跟踪器只对RGB帧进行训练,可能无法从大规模的多模态语料库或知识库中学习。
从而,本文提出在自然语言的指导下重新制定跟踪任务。同时,提出了用于自然语言辅助视觉跟踪的大规模基准数据集,如LaSOTTNL2K

框架包含4个主要组成模块:图像编码器(ResNet)语言编码器(BERT)跨模态融合模块(Transformer)特定任务头
将图像和语言特征输入到一个精心设计的基于代理token引导transformer网络的特征融合模块中。代理token作为单词嵌入的代理(避免冗长的word embeddings带来的巨大计算开销),并与视觉特征进行交互。代理token通过吸收视觉信息,对词嵌入进行调制,使其关注视觉特征。此外,我们设计了一个新的置信网络来预测置信分数,将有利于特征聚合(feature aggregation)。
framework

Contribution

  • 针对自然语言辅助的视觉跟踪问题,提出了一个新颖的代理token指导的transformer框架(TransVLT)
  • LTB50长期跟踪数据集中每个视频的语言描述进行了密集标注,语言查询的各种设置表明,不断更新的语言进一步提高了跟踪效果。作者还发现,类别信息对于长期跟踪(long-term tracking)来说是给定句子的重要组成部分。
  • 在4个自然语言辅助跟踪数据集上的大量实验都证明了本文提出的跟踪器的强大性能。

效果

性能结果:
Overall performance on three language-assisted benchmarks measured in terms of Success, Precision, and Normalized Precision.消融实验:
Ablation study

LTB50数据集只有视频的第一帧有标注,经过密集标注的LTB50(Ref-LTB50)数据集的效果如下:
左栏是VOT2020挑战中最佳五款追踪器的结果(作为参考),中间是本文的方法,右栏使用SNLT(开源的vision-language tracker较少):在这里插入图片描述Cate表示有类别信息作为相应的语言描述,First就是第一帧有标注,以此类推占比。

直觉上,标注信息更多,跟踪效果会更好,特别是long-term数据集,但是怎么标注数据集的呢?值得接下来进行学习🫵

Conclusion

本文提出一种针对视觉-语言跟踪的新框架。为了融合两个模块信息,我们设计了一个基于transformer的融合模块,并且使用代理token去指导跨模态注意力。我们针对跟踪和模块聚合,提出了一个新颖的置信估计方法。

为了丰富未来的研究,我们提出一个密集标注的长期目标跟踪数据集。

大量实验表明本文提出的跟踪头表现超过大多数SOTA方法。

总之,我们希望我们的方法能够为未来的研究提供一个强有力的基线,并期望所提出的密集注释数据集能够促进更现实场景的研究。


0x02 Divert More Attention to Vision-Language Object Tracking, NeurIPS2022

文章链接
在这里插入图片描述
Code

Abstract

由于大型基础模型的出现,多模态视觉-语言(VL)学习显著地推动了通用智能的发展。然而,跟踪作为一个基本的视觉问题,没有得到显著发展,作者认为原因有两方面:一是缺乏大规模的VL注释视频;二是当前工作的VL交互学习效果不佳。这些麻烦促使我们设计更有效的视觉语言表示来跟踪,同时构建一个带有语言标注的大型数据库来学习模型。

本文首先提出了一种通用的属性标注策略来修饰6种常用的跟踪基准,从而构建了一个包含23000多个视频的大规模vision-language tracking 数据库。
然后引入一个新的框架,通过学习统一自适应(unified-adaptive)的VL表示来改进跟踪。其中的核心是提出的非对称架构搜索和模态混合器(ModaMixer)。为了进一步改善VL表征,引入了一种对比损耗来对齐不同的模式。

为了充分证明方法的有效性,我们将所提出的框架集成在三种不同设计的跟踪方法上,即基于CNN的SiamCAR、基于transformer的OSTrack、混合结构的TransT。实验表明,我们的框架可以在六个基准上显著改善所有的baselines。
除了实证结果外,我们还对我们的方法进行了理论分析,以证明其合理性。通过揭示VL representation的潜力,我们希望社区将更多注意力转移到VL跟踪上,并希望为未来的跟踪与多样化的多模态信息提供更多的可能性。

Introduction

多模态视觉-语言学习在近年来随着下游任务(比如visual question answering和imgae/video caption)的涌现,再到SAM和视觉大语言模型的出现,得到不断发展。但是缺乏语言标注的数据库和复杂的模型设计,VL tracking的强大功能还需要更深入的研究。

在LaSOT上,纯视觉和多模态视觉-语言跟踪器的比较:
在这里插入图片描述
之前的工作将目标的语言描述作为prompt(template),在搜索区域的视觉特征中搜索预定义的对象。尽管简单,但它们的性能和SOTA方法相比仍有很大差距。原因如下:

  1. 视觉和语言被独立处理和远距离处理,直到最后的匹配模块。虽然这种方式可以很容易将两个模块连接起来,但并不符合人类在因果推理之前通过各种神经元整合多感觉的的学习过程。
  2. 将模板和搜索分支视为同质输入,之前的方法对这两个分支采用对称的特征学习结构,继承了典型的纯视觉孪生网络跟踪方法。作者认为混合模态可能具有纯视觉模态不同的内在本质,因此需要对不同信号进行更灵活和自适应的设计。

Contribution

  • 属性标注策略,用通用属性词标注了6种流行的跟踪数据集,为VL跟踪提供了一个强大的数据库。
  • 我们提出了一个概念简单但新颖和有效的模态混合器(ModaMixer)用于统一VL表征学习。
  • 我们提出了非对称搜索(ASearch),该策略适应混合VL表征,以提高跟踪鲁棒性。
  • 通过使用多个不同架构的多个baselines, 我们的VL跟踪框架通常可以显著提高性能。

统一自适应的vision-language跟踪方法和数据库

在这里插入图片描述属性标注策略用四个属性词(主类、根类、颜色、目标的初始位置)描述视频中的每个目标。

统一表征的模态混合器来演示一种紧凑的方法来学习统一的VL表示进行跟踪。
ModaMixer示意图👇(黑箭头表示推理方向,灰箭头表示训练时外部比损失)
在这里插入图片描述如上图,首先构建语言表示(细节查看原文)。类似于通道注意力,语言表示中的高级语义可以动态增强视觉特征的特定目标通道,同时抑制类间和类内干扰。
再通过线性层将语言特表征 f l f_l fl的通道数和对应的视觉特征 f v f_v fv进行对齐(通道选择器表示为Hadamard乘积算子)。最后,在混合特征 f m f_m fm和视觉特征 f v f_v fv之间进行残差连接👈这几篇文章都这么做,以避免丢失信息细节。简单来说,ModaMixer被定义为:
f m = B l o c k A S e a r c h ( L i n e a r ( f l ) ⊙ f v ) + B l o c k A S e a r c h ( f v ) f_m=Block_{ASearch}(Linear(f_l) \odot f_v)+Block_{ASearch}(f_v) fm=BlockASearch(Linear(fl)fv)+BlockASearch(fv)

为了进行更深层次的多模态对齐,在训练时将对比损失进一步应用到ModaMixer中(上图的灰色箭头)。

除了融合模块,VL跟踪的另一个关键问题是如何构建基本的建模结构。最简单的策略是从基于视觉的跟踪算法继承一个对称的孪生网络。但是忽略了基于视觉-语言多模态和纯视觉的单模态的本质上的不同,因此本文提出了一种非对称搜索策略(ASearch)来学习与ModaMixer配对的自适应建模结构。
我们采用一种流行的神经结构搜索(NAS)模型,特别是单路径一次性(SPOS)方法来搜索目标的最优结构。
通过ASearch学习到的不对称架构的配置:
在这里插入图片描述

效果

在具有挑战性的LaSOT上,本文提出的基于CNN的孪生网络跟踪器在SUC上从50.7%提升到65.2%,并且超过基于transformer的跟踪器。

SUC(Success Rate):SUC是针对跟踪任务而设计的评价指标,用于衡量跟踪算法在成功跟踪目标的情况下的准确率。SUC通常被定义为目标在跟踪序列中成功跟踪的帧数与总帧数之比。quoted from chatGPT

在这里插入图片描述

消融实验

Baseline:基于CNN的SiamCAR[1]
在这里插入图片描述

🔖更多实验和可视化结果见原文


0x03 Vision-Language Intelligence:Tasks, Representation Learning, and Large Models, 2022 综述

文章链接在这里插入图片描述香港科技大学 | IDEA | 中国科学院 | 清华大学 | 微软研究院 | 香港科技大学(广州)
《视觉-语言智能:任务、表征学习和大模型》
这项研究的灵感来自于CV和NLP的remarkable的发展进程,以及从单模态向多模态发展的趋势。从时间上,将VL发展划分为三个阶段:

【2014-2018】

TASK SPECIFIC PROBLEMS
最开始图像-文本任务的模型是为各数据集的特定问题量身定制的(每个模型只能解决一个任务),为了解决特定的任务。

Image Captioning
Seq2Seq在机器翻译方面取得巨大成功,也就是cnn-rnn模型[2]。将文本编码器换成GoogleNet作为图像编码器,提出了img2seq。在解码阶段利用全局CNN特征,但是全局CNN特征有明显的缺点:解码器无法像人类一样聚焦到重要区域,于是引入了注意力机制。再到预训练的detector发展。
总之,早期image captioning方法发展主要有两个方面,即视觉表示和语言编码。视觉表示从图像级的全局特征发展到细粒度和对象级的区域特征,语言编码从LSTM发展到基于注意力的模型。
VQA
VQA的核心是获取图像和语言的联合表示。该领域的大多数工作都是将图像与语言独立编码,然后进行融合,这类似于VLP(Visual-Linguistic Pretraining)的双流法。也有将图像嵌入视为一种语言标记,类似于单流法。
Image Text Matching
ITM的核心是计算图像和文本间的相似度或距离。一个被广泛采用的原型是将图像和文本映射到共享的嵌入空间,然后计算它们的相似性。

【2019-2021】

通过对标记良好的VL数据集进行预训练,学习视觉和语言的联合表征。

VLP方法概貌:
A Landscape of VLP methods

【2021- 】

CLIP为开始,研究人员寻求在更大的弱标记数据集预先训练VL模型,并通过VL预训练获得强大的零/少样本视觉模型


0x04 Towards Unified Token Learning for Vision-Language Tracking, TCSVT2023

单独写作一篇了👇
【VL tracking】Towards Unified Token Learning for Vision-Language Tracking


注释

[1] D. Guo, J. Wang, Y. Cui, Z. Wang, and S. Chen, “SiamCAR: Siamese fully convolutional classification and regression for visual tracking,” in CVPR, 2020.
[2] 一文纵览 Vision-and-Language 领域最新研究与进展, 2019.

关键问题

1、建立多模态间一致性关系(比如融合模块的策略、视频前后帧信息利用)
2、替换特征提取模块
3、数据集,统一标注或弱标注

接下来,去补习BERT和CLIP🐅

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/978957.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

起飞!Python 3.11的10个高效新特性

性能有巨大的提升是Python 3.11的一个重要的改进,除此以外Python 3.11还有增加了许多新的特性。在本文中我们将介绍Python 3.11新特性,通过代码示例演示这些技巧如何提高生产力并优化代码。 1、模式匹配 Python 3.11引入了模式匹配,可以简化…

OpenAI 函数调用教程

推荐:使用 NSDT场景编辑器 快速搭建3D应用场景 什么是OpenAI函数调用? OpenAI API 非常擅长以系统的方式生成响应。只需几行代码即可管理提示、优化模型输出以及执行、生成和语言应用程序。 即使有这么多好东西,OpenAI API对开发人员和工程…

【双指针】移动零

双指针-移动零 283. 移动零 - 力扣(LeetCode) 题目描述 给定一个数组 nums,编写一个函数将所有 0 移动到数组的末尾,同时保持非零元素的相对顺序。 请注意 ,必须在不复制数组的情况下原地对数组进行操作。 示例 1…

03-JVM内存模型剖析与优化

1. JDK体系结构 2. Java语言的跨平台特性 3. JVM整体结构及内存模型 补充一个问题: 在minor gc过程中对象挪动后,引用如何修改? 对象在堆内部挪动的过程其实是复制,原有区域对象还在,一般不直接清理,JVM内部…

【C++基础】类与对象(上):访问限定符、类作用域、类实例化、类对象模型、this指针

​👻内容专栏: C/C编程 🐨本文概括: C基础语法。访问限定符、类作用域、类实例化、类对象模型、this指针等。 🐼本文作者: 阿四啊 🐸发布时间:2023.9.6 面向过程和面向对象初识 C语…

【网络爬虫笔记】爬虫Robots协议语法详解

Robots协议是指一个被称为Robots Exclusion Protocol的协议。该协议的主要功能是向网络蜘蛛、机器人等搜索引擎爬虫提供一个标准的访问控制机制,告诉它们哪些页面可以被抓取,哪些页面不可以被抓取。本文将进行爬虫Robots协议语法详解,同时提供…

MQ 消费者和队列对应关系

参考 Consumer and Consumer Group Load Balancing https://rocketmq.apache.org/docs/4.x/consumer/01concept2 旧版本MQ结论 消费者应用和topic队列一对多的关系。 (一个消费组consumer group里,一个消费者应用可以消费多个队列的消息。一个队列的消…

Podman安装与使用

1.Podman简介 Podman是一个无守护进程的容器引擎,用于在Linux系统上开发、管理和运行OCI容器。 Podman的主要功能包括: 创建和管理容器:Podman可以创建、启动、停止和删除容器,以及管理容器的生命周期。容器镜像管理&#xff1…

华为云云服务器评测|云耀云服务器L实例快速部署MySQL使用指南

文章目录 前言云耀云服务器L实例介绍什么是云耀云服务器L实例?产品优势智能不卡顿价优随心用上手更简单管理更省心 快速购买查看优惠卷购买 安装MySQL重置密码安装更新apt的软件源列表安装MySQL 设置用户名、密码、权限配置安全组 总结 前言 哈喽大家好&#xff0c…

lumion电脑速度太慢怎么办?还不是试试云电脑高效上云设计

在设计与渲染领域,Lumion是一款广受欢迎的3D软件,然而,使用本地电脑进行Lumion设计和渲染存在电脑卡顿崩溃,导致效率慢问题。本文将介绍Lumion设计师使用云电脑的优势,以及如何利用云电脑提高创作效率、释放无限创意。…

李宏毅-21-hw3:对11种食物进行分类-CNN

一、代码慢慢阅读理解总结内化: 1.关于torch.nn.covd2d()的参数含义、具体用法、功能: (1)参数含义: 注意,里面的“padding”参数:《both》side所以是上下左右《四》边都会加一个padding数量…

Support for password authentication was removed on August 13, 2021 解决方案

打开你的github,Setting 点击Developer settings。 点击generate new token 按照需要选择scope 生成token,以后复制下来。 给git设置token样式的remote url git remote set-url origin https://你的tokengithub.com/你的git用户名/仓库名称.git然后就可…

MySQL 连接查询和存储过程

一、连接查询 mysql的连接查询,通常都是将来自两个或多个表的记录行结合起来,基于这些表之间的共同字段,进行数据的拼接 首先,要确定一个主表作为结果集,然后将其它表的行有选择性的连接到选定的主表结果上&#xff…

算法训练day41|动态规划 part03(LeetCode343. 整数拆分、96.不同的二叉搜索树)

文章目录 343. 整数拆分思路分析代码实现 96.不同的二叉搜索树思路分析代码实现 343. 整数拆分 题目链接🔥🔥 给定一个正整数 n,将其拆分为至少两个正整数的和,并使这些整数的乘积最大化。 返回你可以获得的最大乘积。 示例 1: …

【2023研电赛】安谋科技企业命题二等奖:基于R329的AI交互早教机器人

本文为2023年第十八届中国研究生电子设计竞赛安谋科技企业命题二等奖分享,参加极术社区的【有奖活动】分享2023研电赛作品扩大影响力,更有丰富电子礼品等你来领!,分享2023研电赛作品扩大影响力,更有丰富电子礼品等你来…

intellij idea如何查看项目maven依赖关系图

文章底部有个人公众号:热爱技术的小郑。主要分享开发知识、有兴趣的可以关注一下。为何分享? 踩过的坑没必要让别人在再踩,自己复盘也能加深记忆。利己利人、所谓双赢。 1、打开maven项目依赖 打开后的效果图 2、选择缩放 可以选择1:1 缩放、…

多通道振弦数据记录仪应用桥梁安全监测的解决方案

多通道振弦数据记录仪应用桥梁安全监测的解决方案 城市化进程的加快和交通运输的发展,桥梁作为连接城市的重要交通工具,其安全性也变得越来越重要。为了保证桥梁的安全性,需要进行定期的监测和维护。其中,多通道振弦数据记录仪是…

通信原理板块——窄带随机过程

微信公众号上线,搜索公众号小灰灰的FPGA,关注可获取相关源码,定期更新有关FPGA的项目以及开源项目源码,包括但不限于各类检测芯片驱动、低速接口驱动、高速接口驱动、数据信号处理、图像处理以及AXI总线等 大多数通信系统都是窄带带通型的&a…

【web开发】1、flask入门和html开发

文章目录 一、前端三剑客是什么?二、快速开发网站1.安装flask2.根目录下创建templates目录及web.py文件 三、HTML3.1常用标签3.2列表标签3.3表格标签3.4INPUT系列(7个)3.5下拉框3.6多行文本3.7案例:用户注册页面 一、前端三剑客是…

基于SSM的高校社团管理系统

✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取项目下载方式🍅 一、项目背景介绍: 随着高校社团数量的不…