【论文阅读】End-to-End Spatio-Temporal Action Localisation with Video Transformers

news2024/12/26 15:37:02

文章目录

  • 摘要和结论
  • 引言
  • 模型框架
    • Vision Encoder
    • Tubelet Decoder(factorise Queries CA MHSA)
    • Training objective
    • Matching

摘要和结论

  • e2e,纯基于Transformer的模型,输入视频输出tubelets。
  • 无论是 对单个帧的稀疏边界框监督 还是 完整的小管注释。在这两种情况下,它都会预测连贯的tubelets作为输出。
  • 此外,我们的端到端模型不需要以建议的形式进行额外的预处理,或者在非最大抑制方面进行后处理。(DETR)

引言

该模型的初始阶段是一个视觉编码器。接下来是一个解码器,它处理学习到的潜在查询,这些查询代表视频中的每个参与者,进入输出小管——输入视频剪辑每个时间步的边界框和动作类序列。

我们的模型是通用的,因为我们可以使用完全标记的管注释或稀疏关键帧注释(当只标记有限数量的关键帧时)来训练它。在后一种情况下,我们的网络仍然预测小管道,并在没有明确监督的情况下,学会将演员的检测从一帧关联到下一帧。我们的因子分解query、解码器架构和损失中的小管道匹配的公式促进了这种行为,这些都包含时间归纳偏差

模型框架

在这里插入图片描述
我们的模型由一个视觉编码器组成,然后是一个解码器,该解码器将学习到的查询令牌处理为输出小管道。我们在解码器中加入了时间归纳偏差,以在较弱的监督下提高准确性和小管道预测。

Vision Encoder

在这里插入图片描述
将X处理为x。移除时空聚合步骤,同时如果时间的patch的尺寸大于1,则双线性插值来维持时间的分辨率。

Tubelet Decoder(factorise Queries CA MHSA)

在这里插入图片描述
解码器由L层组成,每个层对查询query执行一系列自注意操作,并在查询和编码器输出之间进行交叉注意。我们修改了时空定位场景的查询、自注意和交叉注意操作。 以包括额外的时间归纳偏差,并提高准确性,具体如下:

  • Queries: q ∈ R_T ×S×d,factorise the queries分解query到时间和空间(qs ∈ R_S×d,qt ∈ R_T×d)。我们只需在所有帧上重复空间查询,并将它们添加到每个位置对应的时间嵌入中。(在每个位置,将查询向量与对应的时间嵌入相加。)
    在这里插入图片描述

  • Decoder layer: factorise the self- and cross-attention layers across space and time respectively.分别分解空间和时间上的自我注意层和交叉注意层。具体来说,在MHSA中,Q K V 分别在时间和空间维度上独立计算两次。类似地,我们修改了交叉关注操作,以便只有来自同一时间索引的tubelet查询和主干功能相互关注。
    在这里插入图片描述
    我们的解码器层由因子分解的自注意(SA)(左)和交叉注意(CA)(右)操作组成,旨在提供时空归纳偏差并减少计算。这两种操作都将注意力限制在与查询令牌相同的空间和时间切片上,如给定查询令牌(品红色)的感受野(蓝色)所示

  • Localisation and classification heads:
    我们通过将一个小的前馈网络应用于解码器 z 的输出来获得网络 y = (b, a) 的最终预测,遵循 DETR。边界框序列 b 使用 3 层 MLP 获得,并由 Tubelet 中每一帧的框中心、宽度和高度参数化。单层线性投影用于获取类 logits a。当我们预测每帧固定数量的 S 个边界框时,S 大于帧中地面实况实例的最大数量,我们还包括一个额外的类标签 ∅,它表示没有动作类别的小管可以分配给的“背景”类。

Training objective

我们的模型预测输入视频的每一帧的边界框和动作类。然而,许多数据集,如AVA[18],只在视频的选定关键帧上稀疏注释。为了利用可用的注释,我们在将预测与基本事实匹配后,仅在视频的带注释的帧上计算训练损失 Eq. 4。这表示为
在这里插入图片描述
其中 T 是标记帧的集合; y 和 ^y 表示匹配后的基本事实和预测的小管。

在这里插入图片描述

Matching

基于集合的检测模型,如DETR,可以以任何顺序进行预测,这就是为什么在计算训练损失之前,预测需要与GT匹配的原因。

我们考虑的第一种匹配形式是在每一帧独立执行二部匹配,在计算损失之前将模型的预测与地面真实(或∅背景类)对齐。
在这里插入图片描述

另一种方法是执行 Tubelet 匹配,其中所有具有相同空间索引 qs 的查询都必须与输入视频的所有帧中的相同地面实况注释相匹配。这里的排列是在S个元素上获得的

从直觉上讲,当我们有完整的tubelet注释可用时,tubelet匹配提供了更强的监督。请注意,无论我们执行何种类型的匹配,损失计算和整个模型架构都保持不变。请注意,我们没有在等式中对项进行加权。5,为了简化匹配和损失计算,并避免具有额外的超参数,也如[37]中所做的那样。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1152737.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【设计模式】第7节:创建型模式之“建造者模式”

Builder模式,中文翻译为建造者模式或者构建者模式,也有人叫它生成器模式。 在创建对象时,一般可以通过构造函数、set()方法等设置初始化参数,但当参数比较多,或者参数之间有依赖关系,需要进行复杂校验时&a…

安装终端 ·Terminator

安装终端 在 ROS 中,需要频繁的使用到终端,且可能需要同时开启多个窗口,推荐一款较为好用的终端:**Terminator。**效果如下: 1.安装 sudo apt install terminator2.添加到收藏夹 显示应用程序 —> 搜索 terminator —> 右击 选择 添…

Qt显示中文

中文: unicode:\u4e2d\u6587 utf8:0xE4,0xB8,0xAD,0xE6,0x96,0x87 str 是UI上直接写中文,在这里获取得出的是unicode; str1是得到unicode,相当于fromUtf8() 是将utf8转成unicode; str2是得到…

Linux MeterSphere测试平台远程访问你不会?来试试这篇文章

🎬 鸽芷咕:个人主页 🔥 个人专栏:《粉丝福利》 《C语言进阶篇》 ⛺️生活的理想,就是为了理想的生活! 文章目录 前言1. 安装MeterSphere2. 本地访问MeterSphere3. 安装 cpolar内网穿透软件4. 配置MeterSphere公网访问地址5. 公网…

《向心城市:迈向未来的活力、宜居与和谐》语录摘录

>> 规律背后,是普遍的人性。 >> 城市一直在两种力量的角逐之下生长。一种是向心力,它让你怀揣梦想;另一种是离心力,它让你肉身疲惫。 >> 有一点是肯定的,市场经济之所以重要,就在于承认人…

Linux命令之网络命令route

一、route命令简介 route命令是Linux系统中的一个网络管理工具,用于显示和操作IP路由表。它可以用来查看当前系统的路由表信息,添加、删除或修改路由表项,以及显示路由表中的详细信息。route命令可以帮助用户诊断和解决网络连接问题&#xff…

连铸生产线液压系统比例伺服阀放大器

连铸生产线液压系统是连铸机的关键组成部分,它由液压站组成,包括高压泵站、剪切机泵站、滑动水口站、塞棒液压站、中间罐车液压站和倾翻台液压站。这些站点通过管道连接,共同实现连铸机的各类动作,如升降、横移、定位、锁紧及辊缝…

2023香港秋灯展丨移远通信闪耀亮相,开启Matter生态互联新篇章

10月27日,2023香港国际秋季灯饰展于香港会议展览中心正式开幕。 移远通信携最新一站式Matter解决方案、Wi-Fi模组,以及多款代表前沿技术的智能灯具、插座等终端重磅亮相。同时,公司产品总监丁子文围绕“Matter生态互联新篇章”主题发表演讲&a…

什么是Vue.js中的指令(directive)?举例说明一些常见的指令。

聚沙成塔每天进步一点点 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 欢迎来到前端入门之旅!感兴趣的可以订阅本专栏哦!这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的。无论你是完全的新手还是有一些基础的开发…

目标检测:Proposal-Contrastive Pretraining for Object Detection from Fewer Data

论文作者:Quentin Bouniot,Romaric Audigier,Anglique Loesch,Amaury Habrard 作者单位:Universit Paris-Saclay; Universit Jean Monnet Saint-Etienne; Universitaire de France (IUF) 论文链接:http://arxiv.org/abs/2310.16835v1 内容…

JAVA深化篇_25—— IO流章节全网最全总结(附详细思维导图)

IO流章节全网最全总结(附详细思维导图) 本篇开始,先奉上思维导图:(下载下来为超高清图,不愁小伙伴看不清!) 按流的方向分类: 输入流:数据源到程序(InputStr…

Redux中,什么是reducer?它的作用是什么?

聚沙成塔每天进步一点点 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 欢迎来到前端入门之旅!感兴趣的可以订阅本专栏哦!这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的。无论你是完全的新手还是有一些基础的开发…

LeetCode | 88. 合并两个有序数组

88. 合并两个有序数组 OJ链接 将两个变量分别指向最后的位置&#xff0c;谁大谁就放到nums1的位置上~~ 但是有一个数组已经放完了&#xff0c;那个数组就可以直接放入另一个数组中&#xff0c;那么这个判断条件是什么呢&#xff1f; i2<0结束了&#xff0c;不需要处理 …

SurfaceFliger绘制流程

前景提要&#xff1a; 当HWComposer接收到Vsync信号时&#xff0c;唤醒DisSync线程&#xff0c;在其中唤醒EventThread线程&#xff0c;调用DisplayEventReceiver的sendObjects像BitTub发送消息&#xff0c;由于在SurfaceFlinger的init过程中创建了EventThread线程&#xff0c…

APP推荐:推荐一款免费无广告的本地音乐播放器,手机听歌必备

目录 一、软件简介 二、软件特色 三、软件使用 四、软件下载 相信很多朋友都喜欢听歌&#xff0c;今天给大家推荐一款非常棒的手机本地音乐APP——糖醋音乐&#xff0c;完全无广告、免费听歌&#xff0c;大家只需要把自己需要的歌曲下载到你的手机就可以愉快的听歌了&#…

19.0 Boost 基于ASIO网络编程技术

Boost ASIO库是一个基于C语言的开源网络编程库&#xff0c;该库提供了成熟、高效、跨平台的网络API接口&#xff0c;并同时支持同步与异步两种模式&#xff0c;ASIO库提供了多重I/O对象、异步定时器、可执行队列、信号操作和协程等支持&#xff0c;使得开发者可以轻松地编写可扩…

【设计模式】第18节:行为型模式之“迭代器模式”

一、简介 迭代器模式&#xff08;Iterator Design Pattern&#xff09;&#xff0c;也叫作游标模式&#xff08;Cursor Design Pattern&#xff09;。 在通过迭代器来遍历集合元素的同时&#xff0c;增加或者删除集合中的元素&#xff0c;有可能会导致某个元素被重复遍历或遍…

论文阅读 - Detecting Social Bot on the Fly using Contrastive Learning

目录 摘要&#xff1a; 引言 3 问题定义 4 CBD 4.1 框架概述 4.2 Model Learning 4.2.1 通过 GCL 进行模型预训练 4.2.2 通过一致性损失进行模型微调 4.3 在线检测 5 实验 5.1 实验设置 5.2 性能比较 5.5 少量检测研究 6 结论 https://dl.acm.org/doi/pdf/10.1145/358…

MySQL数据库操作、表操作和常用数据类型

1、数据库操作 1.1 创建数据库 语法&#xff1a;CREATE DATABASE [IF NOT EXISTS] 数据库名 charset utf8;&#xff08;注意字母不区分大小写&#xff0c;分号为英文输入法&#xff09;&#xff0c;[ ]为可选项&#xff0c;意思为如果系统没有想要创建&#xff08;数据库名&am…

python3 修行之基础篇(二)python VScode 配置

文章目录 VSCode Python插件安装创建一个 Python 代码文件 VSCode Python插件安装 安装 VS Code Python 扩展&#xff1a; 创建一个 Python 代码文件 打开Vscode 点击新建文件 选择python文件 输入代码&#xff1a; #!/usr/bin/python3print("Hello, World!")点…