CVPR 2023 | 目标跟踪新框架:用自回归序列生成的方式训练模型读出目标

news2024/11/19 17:49:59

如果模型知道目标在哪,那么我们只需要教模型读出目标的位置,而不需要显式地进行分类、回归。对于这项工作,研究者们希望可以启发人们探索目标跟踪等视频任务的自回归式序列生成建模。

自回归式的序列生成模型在诸多自然语言处理任务中一直占据着重要地位,特别是最近ChatGPT的出现,让人们更加惊叹于这种模型的强大生成能力和潜力。

最近,微软亚洲研究院与大连理工大学的研究人员提出了一种使用序列生成模型来完成视觉目标跟踪任务的新框架SeqTrack,来将跟踪建模成目标坐标序列的生成任务。

目前的目标跟踪框架,一般把目标跟踪拆分为分类、回归、角点预测等多个子任务,然后使用多个定制化的预测头和损失函数来完成这些任务。而SeqTrack通过将跟踪建模成单纯的序列生成任务,不仅摆脱了冗余的预测头和损失函数,也在多个数据集上取得了优秀的性能。

论文链接:

http://arxiv.org/abs/2304.14394

Github:

https://github.com/microsoft/VideoX

方法亮点

1.新的目标跟踪框架,将跟踪建模为序列生成任务,一个简洁而有效的新基线;

2.摒弃冗余的预测头和损失函数,仅使用朴素的Transformer和交叉熵损失,具有较高的可扩展性。

一 、研究动机

现在比较先进的目标跟踪方法采用了“分而治之”的策略,即将跟踪问题解耦成多个子任务,例如中心点预测、前景/背景二分类、边界框回归、角点预测等。尽管在各个跟踪数据机上取得了优秀的性能,但这种“分而治之”的策略存在以下两个缺点:

1、模型复杂:每个子任务都需要一个定制化的预测头,导致框架变得复杂,不利于扩展

2、损失函数冗余:每个预测头需要一个或多个损失函数,引入额外超参数,使训练困难

图1 目前常见的跟踪框架

研究者认为,如果模型知道目标在图像中的位置,那么只需要简单地教模型读出目标边界框即可,不需要用“分而治之”的策略去显式地进行分类和回归等。为此,作者采用了自回归式的序列生成建模来解决目标跟踪任务,教模型把目标的位置作为一句话去“读”出来。

图2 跟踪的序列生成建模

二 、方法概览

研究者将目标边界框的四个坐标转化为由离散值token组成的序列,然后训练SeqTrack模型逐个token地预测出这个序列。在模型结构上,SeqTrack采用了原汁原味的encoder-decoder形式的transformer,方法整体框架图如下图3所示:

图3 SeqTrack结构图

Encoder提取模板与搜索区域图片的视觉特征,decoder参考这些视觉特征,完成序列的生成。序列包含构成边界框的 x,y,w,h token,以及两个特殊的 start 和 end token,分别表示生成的开始与结束。

在推理时,start token告知模型开始生成序列,然后模型依次生成 x,y,w,h ,每个token的生成都会参考前序已生成好的token,例如,生成 w 时,模型会以 [start, x, y] 作为输入。当 [x,y,w,h] 生成完,模型会输出end token,告知用户预测完成。

为了保证训练的高效,训练时token的生成是并行的,即 [start, x,y,w,h] 被同时输入给模型,模型同时预测出 [x,y,w,h, end] 。为了保证推理时的自回归性质,在训练时对decoder中的自注意力层中添加了因果性的attention mask,以保证每个token的预测仅取决于它前序的token,attention mask如下图4所示。

图3 Attention mask,第 i 行第 j 列的橘色格子代表第生成第 i 个输出token时,允许观察到第 j 个输入token,而白色格子代表不可观察。

图像上连续的坐标值被均匀地离散化为了[1, 4000]中的整数。每个整数可以被视为一个单词,构成了单词表 V ,x,y,w,h 四个坐标从单词表 V 中取值。

与常见的序列模型类似,在训练时,SeqTrack使用交叉熵损失来最大化目标值基于前序token的预测值、搜索区域、模板三者的条件概率:

在推理时,使用最大似然从单词表 V 中为每个token取值:

通过这种方式,仅需要交叉熵损失即可完成模型的训练,大大简化了复杂度。

除此之外,研究者们还设计了合适的方式,在不影响模型与损失函数的情况下,引入了在线模板更新、窗口惩罚等技术来集成跟踪的先验知识,这里不再赘述,具体细节请参考论文。

三 、实验结果

研究者开发了四种不同大小的模型,以取得性能与速度之间的平衡,并在8个跟踪数据集上验证了这些模型的性能。

表1 SeqTrack模型参数

如下表2所示,在大尺度数据集LaSOT, LaSOText,TrackingNet, GOT-10k上,SeqTrack取得了优秀的性能。例如,与同样使用ViT-B和256输入图片分辨率的OSTrack-256相比,SeqTrack-B256在四个数据集上都取得了更好的结果。

表2大规模数据集性能

如表3所示,SeqTrack在包含多种不常见目标类别的TNL2K数据集上取得了领先的性能,验证了SeqTrack的泛化性。在小规模数据集NFS和UAV123上也都取得了具有竞争力的性能。

表3额外数据集性能

图4所示,在VOT竞赛数据集上,分别使用边界框测试和分割掩膜测试,SeqTrack都取得了优秀的性能。

图4 VOT2020性能

这样简单的框架具有良好的可扩展性,只需要将信息引入到序列构建中,而无需更改网络结构。例如,研究者们进行了额外的实验来尝试在序列中引入时序信息。具体来说,将输入序列扩展到多帧,包含了目标边界框的历史值。表4显示这样的简单扩展提升了基线模型的性能。

图5 时序序列示意图

表4 时序序列结果

四、结语

本文提出了目标跟踪的新的建模方式:序列生成式建模。它将目标跟踪建模为了序列生成任务,仅使用简单的Transformer结构和交叉熵损失,简化了跟踪框架。大量实验表明了序列生成建模的优秀性能和潜力。在文章的最后,研究者希望通过本文给视觉目标跟踪和其他视频任务的序列建模提供灵感。在未来工作,研究者将尝试进一步融合时序信息,以及扩展到多模态任务。

Illustration by IconScout Store from IconScout

-The End-

点击阅读原文

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/516867.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Midjourney】Midjourney 的 Prompt 指令类型 ( 画风指令 | 人物细节指令 | 灯光镜头指令 | 艺术家风格指令 )

文章目录 一、Midjourney 的 Prompt 详细指令规则二、Midjourney 的画风指令关键词1、超现实主义2、注重细节描写3、Artstation 画风4、数字绘画风格5、漫画风格6、线条艺术 三、Midjourney 的人物细节描写关键词1、面部特征描写2、身体描写3、生成示例 14、生成示例 2 四、Mid…

实在智能与浙江工商大学官宣战略合作,共建人工智能联合实验室和实习基地

5月10日,实在智能与浙江工商大学正式官宣战略合作,并进行“人工智能联合实验室” “大学生实习实践基地”揭牌仪式。躬身入局共筑人工智能人才生态,这是实在智能和浙江工商大学的共同愿景,也是校企双方深度产学研融合、加速科技型…

从10进制到1000进制:一场数字的盛宴

本篇博客会讲解力扣“1920. 基于排列构建数组”的解题思路,这是题目链接。 先来审下题: 以下是输出示例: 以下是提示: 相信读完题的你已经感到没啥意思了,感觉做这道题就是在浪费时间。但是还是建议你看下去&…

git保姆级教程(概述、理论、指令、创建及代码初始化完整步骤、分支与冲突、遇到的问题)

目录 版本控制安装配置理论部分项目创建及克隆创建全新仓库克隆远程仓库 文件操作理论实操 使用码云分支与冲突实操说明 遇到的问题vscode配置问题vscode克隆慢的问题 后记 版本控制 概述: 版本迭代,更新速度快,于是需要版本管理器。 作用&…

Python大厂经典面试题附答案,提前做好准备

对于大部分Python学习者来说,基础核心知识基本已经掌握了,但"纸上得来终觉浅,绝知此事要躬行",要想完全掌握Python,还得靠实践应用。 比如面试的时候,面试官会出其不意的问一些问题,今天给大家分…

浅谈月出月落和月相的计算方法以及替代工具 - 月出月落和月相 API

引言 如果你想知道精确的月出月落时间,又或者你想设计一个月出月落时间查询的应用,又或者你只是好奇点进来了,还是可以过来围观一下涨涨知识,今天想跟大家聊一聊的是月出月落的计算方法以及替代工具 - 月出月落和月相 API 。 月…

污水除磷主要方法,磷酸盐的深度去除,正磷、次磷、亚磷树脂吸附

化学沉淀法除磷工艺虽除磷效率相对较好,但消耗化学药剂并产生大量的化学污泥,处理成本相对昂贵;而传统的生物处理工艺操作简单,但磷去除效率较低,难以满足出水要求。 Tulsimer A-107 是一款专门开发的,基于…

win10中rclone挂载minio的多实例安装方式

1.下载rclone安装包&#xff0c;复制多个.exe并重命名 2.1添加rclone1server.xml <service><id>rclone1</id><name>rclone1</name><description>rclone1service</description><executable>rclone</executable><argum…

有没有中国版的chatGPT?

ChatGPT是一个基于人工智能的聊天机器人&#xff0c;它可以通过自然语言处理技术与用户进行交互和对话。ChatGPT的目的是为用户提供便捷的问答服务和娱乐&#xff0c;它可以回答各种问题&#xff0c;例如天气、新闻、历史、文化、科技、娱乐等等。ChatGPT的核心技术是基于GPT模…

AOP的工作流程和核心概念及代理对象

1. 工作流程及核心概念 Spring容器启动读取所有切面配置中的切入点&#xff0c;未配置的切入点不进行读取 初始化bean&#xff0c;判断bean对应的类中的方法是否匹配到任意切入点 匹配成功&#xff1a;在Spring框架中&#xff0c;Bean初始化时会通过扫描程序中的带有特定注解的…

【学习笔记】低速数字输入电路

1、方案设计&#xff1a;单通道、单向、反相器 该电路采用单通道&#xff0c;单向光耦&#xff0c;只支持漏型输入&#xff0c;电路的输入端压差满足24V DC10%(21.6V DC-26.4V DC)&#xff0c;输出端电压在0~3.3V范围摆动。 1.1关键技术规格 1.2具体原理图 1.3电路原理详解 …

直接使用ChatGPT的方法

ChatGPT是一个基于人工智能的聊天机器人&#xff0c;它可以与用户进行自然语言交互。ChatGPT使用了最新的自然语言处理技术&#xff0c;包括深度学习和神经网络&#xff0c;以便更好地理解用户的意图和回答用户的问题。 ChatGPT可以回答各种问题&#xff0c;包括但不限于常见问…

高效学习传感器|霍尔式传感器

01、霍尔式传感器的工作原理 1●霍尔效应 霍尔式传感器的物理基础是霍尔效应。如图1所示&#xff0c;在一块长度为l、宽度为b、厚度为d的长方体导电板上&#xff0c;左、右、前、后侧面都安装上电极。在长度方向上通入电流I&#xff0c;在厚度方向施加磁感应强度为B的磁场。 ■…

并发编程13:邮戳锁StampedLock

文章目录 13.1 关于锁的面试题13.2 简单聊聊ReentrantReadWriteLock13.2.1 是什么&#xff1f;13.2.2 特点 13.3 面试题&#xff1a;有没有比读写锁更快的锁&#xff1f;13.4 邮戳锁StampedLock13.4.1 是什么&#xff1f;13.4.2 它是由饥饿问题引出13.4.3 StampedLock的特点13.…

【Linux】IO多路转接-select

文章目录 多路转接IO模型I/O多路转接-selectselect初识select函数select的核心功能fd_set的执行流程select就绪条件基于select的服务器Sock.hppSelect_server.cpp存在的问题 select的优点select的缺点select的适用场景 多路转接IO模型 Linux下多路转接的方案常见的有三种&…

人群归因分数(Population Attributable Fraction, PAF):概念、简单计算案例

专注系列化、高质量的R语言教程 推文索引 | 联系小编 | 付费合集 本篇目录如下&#xff1a; 1 人群归因分数 1.1 相对风险度1.2 人群归因分数2 案例 2.1 示例数据2.2 计算案例12.3 计算案例22.4 计算案例33 总结 1 人群归因分数 人群归因分数&#xff08;Population Attributab…

100G CFP光模块类型应用场景详解

目前&#xff0c;全球电信行业平稳发展&#xff0c;宽带用户稳定增长&#xff0c;随着大数据市场的迅猛发展&#xff0c;骨干网、接入网和数据中心建设均需采购大量的光通信产品&#xff0c;从而给光模块行业带来了全新的市场机遇。如今&#xff0c;100G光模块已成为市场发展的…

最新DNDC模型在土地利用变化、未来气候变化下的建模方法及温室气体时空动态模拟

由于全球变暖、大气中温室气体浓度逐年增加等问题的出现&#xff0c;“双碳”行动特别是碳中和已经在世界范围形成广泛影响。国家领导人在多次重要会议上讲到&#xff0c;要把“双碳”纳入经济社会发展和生态文明建设整体布局。同时&#xff0c;提到要把减污降碳协同增效作为促…

载誉前行!北大青鸟课工场蝉联中国高校计算机教育MOOC联盟会员单位!

近日&#xff0c;北大青鸟旗下的大学生专属品牌课工场喜获殊荣&#xff0c;蝉联中国高校计算机教育MOOC联盟会员单位。这是对北大青鸟课工场一直以来在职业教育领域的卓越表现的肯定&#xff0c;也是对北大青鸟课工场品牌价值的进一步提升。 作为中国高校计算机教育MOOC联盟的会…

JavaScript全解析-面向对象

类语法的书写 ●在 ES6 的语法标准中, 管构造函数不叫做构造函数了, 叫做 类 ●语法: class 类名 {constructor () { // 书写属性 } 书写原型上的方法 方法名 () {} } // ES6 类的语法class Person {// 等价于 ES5 的构造函数体constructor(name) {this.name name}// 直接书写…