【菜鸡读论文】MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection

news2024/7/4 5:12:41

【菜鸡读论文】MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection在这里插入图片描述

大家好哇!是谁美滋滋地准备开始放暑假了!没错!你没有听错!放暑假!
谁能想到都已经立秋了,竟然有人还在实验室,还没有放暑假!咱就是说,真的还有人比我更晚放暑假吗!
哈哈,不过不管怎么说,总算是可以回家啦!这次要好好回家休息一下。因为是周五了,今年的最后一个工作日,一起来读一篇论文吧!最近好久没有读论文了,之前读了一些论文,但因为各种事情(最重要的原因是我真的太懒了),就没有记录下来,现在还是要好好记录一下。
在这里插入图片描述

这是2022年CVPR的一篇文章做Action Detection,它提出使用一个多尺度的时域ConvTransformer:MS-TCT。首先我们来看一下提出的背景。

背景

在这里插入图片描述

  1. 动作检测数据包括复杂的时间关系,包括复合或共同发生的行动。为了在这些复杂的设置中检测行动,**有效地捕捉短期和长期的事件信息是至关重要的。**例如,如上图所示,“taking food”这个行为可以从“打开冰箱”和“制作三明治”中获得上下文信息,这对应于短期和长期的术语行动依赖关系。
  2. 为了对未修剪视频中的时间关系进行建模,之前的多种方法使用了一维时间卷积。然而,由于核大小的限制,基于卷积的方法只能直接访问局部信息。注意机制可以在视频的每个时间段(即时间标记)之间建议一对一的全局关系,以检测高度相关和复合动作。
  3. 为此,我们提出一种MS-TCT。该网络由三个主要组件组成:(1)时间编码器模块探索全局和局部时间关系在多个时间分辨率,(2)时间尺度混合器模块有效地融合多尺度特性,创建一个统一的特征表示,(3)分类模块学习每个动作实例在时间的中心相对位置,并预测帧级分类分数。

Multi-Scale Temporal ConvTransformer

如下图所示,MS-TCT包括(1)一个视觉编码器,它编码了一个初步的视频表示,(2)一个时间编码器,在不同时间尺度上的时间关系,(3)一个时间尺度混合器,被称为TS混合器,它结合了多尺度的时间表示,以及(4)一个预测类别概率的分类模块。
在这里插入图片描述

Visual Encoder

我们使用I3D backbone对视频进行编码。每个视频被分成T个不重叠的片段,每个片段包含8帧。这样的RGB帧作为一个输入段被输入到I3D网络中。每个段级特性(I3D的输出)都可以被视为一个时间步长的token。我们沿时间轴堆叠标记,形成一个T*D视频标记表示,并输入时间编码器。

在这里插入图片描述

Temporal Encoder

(1)使用1d时间卷积层,关注邻近的信息但忽略了直接长期时间依赖视频,或(2)transformer层全局编码一对一的交互,而忽略了局部语义;我们的时间编码器通过探索局部和全局上下文信息以交替的方法受益于两个方法的好处。
在这里插入图片描述
时间编码器遵循具有N个阶段的层次结构:早期阶段学习具有更多时间标记的细粒度动作表示,而后期阶段学习具有更少标记的粗表示。每个阶段对应于一个语义级别(即时间分辨率),并包括一个时间合并块和B个全局-局部关系块

在这里插入图片描述
其中:
Temporal Merging Block 它在增加特征维度的同时减少了token的数量(即时间分辨率)。这一步可以看作是相邻token之间的一个加权池化操作。在实践中,我们使用一个时间卷积层(核大小为k,步幅一般为2)来将token的数量减半,并扩展通道大小。

Global-Local Relational Block 在全局关系块中,我们使用标准的多头自注意层来建模长期的动作依赖关系,即全局上下文关系。在局部关系块中,我们使用一个时间卷积层(核大小为k),通过注入来自邻近token的上下文信息,即局部归纳偏差,来增强token表示。这增强了每个token在建模与一个动作实例对应的短期时间信息时的时间一致性。

Temporal Scale Mixer

为了预测动作的概率,我们的分类模块需要在原始的时间长度上进行预测,作为网络的输入。因此,我们需要在时间维度上插值标记,这是通过执行上采样和线性投影步骤来实现的。
在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述

Classification Module

MS-TCT是通过联合学习两个分类任务来实现的。在这项工作中,我们引入了一个新的分类分支来学习动作实例的热图。这个热图不同于地面真是标签,因为它根据动作中心和持续时间而变化。使用这种热图表示的目的是在MS-TCT的学习标记中编码时间相对定位。
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

与之前的工作类似,我们使用另一个分支来执行通常的多标签分类。热图分支鼓励模型学习实例中心在视频token相对位置。因此,分类分支也可以从这些位置信息中获益,从而做出更好的预测。

在这里插入图片描述

结果

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/894310.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java-IONIO

一、JAVA IO 1.1. 阻塞 IO 模型 最传统的一种 IO 模型,即在读写数据过程中会发生阻塞现象。当用户线程发出 IO 请求之后,内 核会去查看数据是否就绪,如果没有就绪就会等待数据就绪,而用户线程就会处于阻塞状态,用户线…

Codeforces Round 893 (Div. 2)B题题解

文章目录 [The Walkway](https://codeforces.com/contest/1858/problem/B)问题建模问题分析1.分析所求2.如何快速计算每个商贩被去除后的饼干数量代码 The Walkway 问题建模 给定n个椅子,其中有m个位置存在商贩,在商贩处必须购买饼干吃,每隔…

u8g2 自制字体

显示器 SSD1306 单片机ARDUINO NANO 使用U8G2 将表情生成字库文件 使用DRAWGLYPH 显示表情字库 GIF转成40X80 GIF转PNG PNG 转1位 PNG生成BDP BDP生成 C U8G2源代码的TOOL\FONT中包含了PNG转BDP BDP转.C 文件 下载原代码 : GitHub - olikraus/u8g2: U8gl…

python3 0基础学习----数据结构(基础+练习)

python 0基础学习笔记之数据结构 📚 几种常见数据结构列表 (List)1. 定义2. 实例:3. 列表中常用方法.append(要添加内容) 向列表末尾添加数据.extend(列表) 将可迭代对象逐个添加到列表中.insert(索引,插入内容) 向指定…

redis查看执行的命令+配置文件命令

1.SLOWLOG LEN 获取 Slowlog 的长度,以确定 Slowlog 中有多少条记录 2.SLOWLOG GET 获取 Slowlog 中的具体记录。你可以使用 SLOWLOG GET 命令来获取第 n 条记录的详细信息,其中 n 是记录的索引(从 0 开始) 3.如果你想获取多条最…

RFID赋能新能源电池生产的智慧演进

随着全球对可再生能源的需求不断增长,新能源电池作为储能和供电的重要组成部分,正逐渐成为关注的焦点。然而,新能源电池的生产过程中存在着一系列挑战,如追踪和管理电池的生命周期、确保质量和安全等。在这方面,RFID正…

【WPF】 本地化的最佳做法

【WPF】 本地化的最佳做法 资源文件英文资源文件 en-US.xaml中文资源文件 zh-CN.xaml 资源使用App.xaml主界面布局cs代码 App.config辅助类语言切换操作类资源 binding 解析类 实现效果 应用程序本地化有很多种方式,选择合适的才是最好的。这里只讨论一种方式&#…

微信公众平台发布小程序流程

最近因为部署小程序,学习了下如何部署小程序 1. 取消不检验合法域名并上传小程序 建议在小程序上传之前,先取消不校验合法域名并真机调试下。 2. 登录微信公众平台 登录微信公众平台 3. 设置服务器域名 在开放->开发管理->开发设置找到服务器…

Minio知识点+linux下安装+面试总结

一 Minio简介 MinIO 是一个基于Apache License v2.0开源协议的对象存储服务。它兼容亚马逊S3云存储服务接口,非常适合于存储大容量非结构化的数据,例如图片、视频、日志文件、备份数据和容器/虚拟机镜像等,而一个对象文件可以是任意大小&…

Word设置只读后,为什么还能编辑?

Word文档设置了只读模式,是可以编辑的,但是当我们进行保存的时候就会发现,word提示需要重命名并选择新路径才能够保存。 这种操作,即使可以编辑文字,但是原文件是不会受到影响的,编辑之后的word文件会保存到…

【Unity小技巧】Unity探究自制对象池和官方内置对象池(ObjectPool)的使用

文章目录 前言不使用对象池使用官方内置对象池应用 自制对象池总结源码参考完结 前言 对象池(Object Pool)是一种软件设计模式,用于管理和重用已创建的对象。在对象池中,一组预先创建的对象被维护在一个池中,并在需要时…

七夕节送礼物清单,总有一款他/她会喜欢!

马上就要到一年一度的七夕节了,你想好送给对方什么礼物了吗?送礼不一定是贵的好,但一定要表达出自己心意,也有人说,七夕不适合单身狗,其实是错的,单身狗正好可以趁七夕这个浪漫的节日&#xff0…

B站发布财报,正式会员数达2.14亿

KlipC报道:B站公布了截至2023年6月30日的未经审计的财务报告,据数据显示,B站总营收达同比增长8%达53.04亿元人民币,毛利润同比增长66%,其中广告业务收入同比增长36%达16亿人民币。财报发布后,B站美股盘前一…

深度云化时代,什么样的云网络才是企业的“心头好”?

科技云报道原创。 近年来企业上云的快速推进,对云网络提出了更多需求。 最初,云网络只是满足互联网业务公网接入。 随着移动互联网的发展,企业对云上网络安全隔离能力和互访能力、企业数据中心与云上网络互联、构建混合云的能力&#xff0…

骨传导耳机游泳能戴吗?骨传导游泳耳机哪个牌子好?

溽热的夏日,如果能够跳入水中畅游一番,那真的是再好不过了,既能强身健体,又能降温解暑。公共的游泳场馆人声鼎沸,像我这种“社恐”患者,如果在场馆中要待好几个小时,难免会觉得时间漫长&#xf…

韩国半导体巨头库存飙升,存储器市场面临挑战 | 百能云芯

最新财务报告揭示,韩国两大半导体巨头三星和SK海力士面临巨大的库存压力。截至今年6月底,两家公司的半导体库存金额已经飙升至超过50兆韩元,创下历史新高。这不仅显示了存储器市场库存过剩的严峻形势,也暗示着产业复苏步伐不容乐观…

Linux系统调试——valgrind内存泄露检测

代码可能存在内存泄露怎么办? 使用valgrind可以对代码进行内存泄露检测。 valgrind下载安装 下载:https://www.valgrind.org/downloads/ 安装: 1、tar –jxvf valgrind-3.21.0.tar.bz2 2、cd valgrind-3.21.0 3、./configure --prefix/ho…

GBU814-ASEMI逆变器专用整流桥GBU814

编辑:ll GBU814-ASEMI逆变器专用整流桥GBU814 型号:GBU814 品牌:ASEMI 芯片个数:1 封装:GBU-4 恢复时间:>50ns 工作温度:-55C~150C 浪涌电流:200A 正向电流&…

华为AR路由器配置双出口静态IP双链路负载

适用于:有多个以太WAN口的机型。 业务需求: 电信运营商1分配的接口pppoe拨号上网获取地址为116.24.65.19/32。 联通运营商2分配的接口pppoe拨号上网获取地址为10.59.7.238/32。 实现通过pppoe拨号获取动态IP双上行接入Internet,链路1和链…

[USACO1.5] 八皇后 Checker Challenge

题目描述 一个如下的 6 x 6 的跳棋棋盘,有六个棋子被放置在棋盘上,使得每行、每列有且只有一个,每条对角线(包括两条主对角线的所有平行线)上至多有一个棋子。 上面的布局可以用序列 2 4 6 1 3 5 来描述,第…