【Spatial-Temporal Action Localization(六)】论文阅读2021年

news2024/9/29 1:25:49

文章目录

  • 1. MultiSports: A Multi-Person Video Dataset of Spatio-Temporally Localized Sports Actions
    • 摘要和结论
    • 引言:针对痛点和贡献
    • 数据特点
  • 2. Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization
    • 摘要和结论
    • 引言:针对痛点和贡献
    • 模型框架
    • 实验
  • 3. Relation Modeling in Spatio-Temporal Action Localization
    • 摘要和结论
    • 模型框架
      • 长尾数据的学习策略

1. MultiSports: A Multi-Person Video Dataset of Spatio-Temporally Localized Sports Actions

[ICCV 2021] MultiSports:面向体育运动场景的细粒度多人时空动作检测数据集

摘要和结论

基于对现有数据集的分析,作者认为他们不能满足现实应用对时空动作检测技术的需求,需要提出一个新的数据集来推动这个领域的进步。
我们希望这个数据集满足以下特征:

  • 多人:在同一场景下,不同的人做不同的细粒度动作,减少背景提供的信息。
  • 分类:细粒度动作类别,定义准确,需要刻画人物本身动作,长时信息建模,人与人、与物、与环境的关系建模,推理。
  • 时序:动作边界定义准确。
  • 跟踪:运动速度快,形变大,存在遮挡

引言:针对痛点和贡献

痛点:
在这里插入图片描述

贡献:

提出了一个新数据集MultiSports。

数据特点

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

2. Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization


摘要和结论

最近的进展是通过对实体之间的直接成对关系建模来实现的。在本文中,我们更进一步,不仅模拟了对之间的直接关系,而且还考虑了建立在多个元素上的间接高阶关系。
设计了一个 Actor-Context-Actor 关系网络 (ACAR-Net),它建立在一个新的高阶关系推理算子和一个 Actor-Context 特征库的基础上,以实现时空动作定位的间接关系推理。

引言:针对痛点和贡献

痛点:

  • 以前的工作使用图神经网络 (GNN) 隐式建模参与者和上下文对象之间的高阶交互 。然而,在这些方法中,需要额外的预先训练的对象检测器,只使用定位的对象作为上下文
  • 这些方法中的高阶关系仅限于仅从上下文对象中推断出来,这可能会错过动作分类的重要环境或背景线索。
    贡献:
  • 推理操作使用 Actor-Context Feature Bank (ACFB) 进行扩展。

模型框架

在这里插入图片描述

  • 该框架是基于一个现成的人体检测器(例如 Faster R-CNN )和一个视频骨干网络(例如 I3D)。然后,建议的 ACAR 模块使用长期 Actor-Context 特征库处理人物和上下文特征,以进行最终动作预测。
  • ACAR 模块有两个主要操作。 (1) 它首先编码演员之间的一阶演员-上下文关系和时空上下文的空间位置。基于参与者-上下文关系,我们进一步集成了一个高阶关系推理算子( H R 2 O ) ( HR ^2 O)(HR 2 O),用于对一阶关系对之间的交互进行建模,这些一阶关系是以前的方法大多忽略的间接关系。 (2) 我们的推理操作通过 Actor-Context Feature Bank (ACFB) 进行了扩展。该库包含不同时间戳的参与者-上下文关系,并且可以提供比现有的仅包含参与者特征的长期特征库[46]更完整的时空上下文。

实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

热图说明了来自参与者-上下文-参与者关系推理的上下文区域的注意力权重 Atti,j。我们观察到我们的模型已经学会了关注参与者和上下文之间的有用关系,上下文是连接演员的桥梁。

3. Relation Modeling in Spatio-Temporal Action Localization

摘要和结论

  • 我们的解决方案利用多种类型的关系建模 Relation Modeling 方法进行时空动作检测
  • 并采用端到端集成多种关系建模的训练策略对两个大规模视频数据集进行训练。
  • 还研究了记忆库学习和长尾分布的微调,以进一步提高性能。

模型框架

首先采用现成的人体检测器来生成视频中的所有人体边界框。然后我们采用骨干模型来提取视觉特征,并通过 roi align 在每个人的特征图上构建关系模块。在关系模块之后,使用动作预测器为每个动作类别生成分数。

在这里插入图片描述

  • 给定输入视频剪辑,提取该剪辑的关键帧并将其输入 2D 人物检测器,以生成该剪辑内的人物边界框。
  • 整个视频剪辑按指定间隔采样为帧,并使用视频主干进行编码,例如SlowFast 和 CSN ,输出 3D 视频特征图。
  • 然后,2D 人物框沿时间维度膨胀,并用于通过 3D RoI-Align 从特征图中提取人物特征。
  • 池化的人物特征通过通道级联和卷积层进一步与视频特征图融合在一起。
  • 为了对同一视频剪辑中的人物之间的隐藏关系进行建模,以提高动作预测的有效性,我们使用基于transformer的块将人物特征输入到我们的关系建模模块中。
  • 为了指定空间和时间关系,我们从不同的人中选择沿相同空间或时间维度的特征。选定的特征被展平为一系列标记,并输入到transformer编码器块中,以通过注意机制对它们的关系进行建模。
  • 最后,所有块在空间或时间维度上的输出标记被全局平均并输入全连接层以预测每个检测到的人的动作类别。

长尾数据的学习策略

我们考虑[11]中的解耦策略。训练过程被解耦为两个阶段。第一阶段遵循使用随机采样数据的正常训练策略。在第二阶段,我们冻结除最终分类器之外的所有模型,并使用类平衡数据采样进行训练。这样的策略有助于提高小类的表现。

[11] Decoupling Representation and Classifier for Long-Tailed Recognition

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1025820.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

跨平台编译C代码问题之ARM平台char类型导致异常及其解决措施

目录 环境设备: 背景现象: 1、x86下的结果输出和打印输出 2、arm下的结果输出和打印输出 原因分析: 解决措施: 环境设备: x86的ubuntu、arm的麒麟 背景现象: 由于项目需要,需要将代码移植…

Linux编辑器-gcc的使用

一:背景知识 1.预处理(头文件展开、去注释、宏替换、条件编译) 2.编译(由C生成汇编) 3.汇编(生成及其可识别代码) 4.连接(生成可执行文件或库文件) 二:gcc…

解决ModuleNotFoundError: No module named ‘diffusers.models.cross_attention‘

目录 项目场景: 问题描述 原因分析: 解决方案: 方案一:

如何取消显示Notepad++每行显示的CRLF符号

新电脑中重新安装了Nodepad,打开记事本后发现出现了许多黑底的CR|LF标记,特别碍眼。 如何取消呢? 视图 -> 显示符号 -> 取消勾选 显示行尾符操作步骤 预期效果

秦丝9周年 | 各行业实体生意如何实现数字化转型?

近期,北京、深圳、天津、重庆等全国27个省都在推进“一刻钟便民生活圈”——以社区居民为服务对象,在步行15分钟左右的范围内,满足居民日常生活基本消费和品质消费。 而各行业的实体店是这个“圈”中的重要组成部分,很多入驻的实…

jupyter notebook进不去指定目录怎么办?

首先激活你要使用的虚拟环境 刚开始是现在 (base) C:\Users\lenovo>目录下 直接输入你想进入的盘 (base) C:\Users\lenovo>e:此时再cd (base) C:\Users\lenovo>cd E:\tim\learn_pytorch 就可以进入了 安装3.4.1.15问题 已经有了最新python版本的虚拟环境&#…

6-1 汉诺塔

汉诺(Hanoi)塔问题是一个经典的递归问题。 设有A、B、C三个塔座;开始时,在塔座A上有若干个圆盘,这些圆盘自下而上,由大到小地叠在一起。要求将塔座A上的圆盘移到塔座B上,并仍按同样顺序叠放。在…

微服务是个坏主意吗?

曾几何时,我记得我的手指疯狂地敲打键盘,与庞大而杂乱的代码库搏斗。那是巨石的时代,代码就像古老的城堡一样,由一块块石头砌成一个令人印象深刻的庞然大物。 几年过去了,时代变了。开发人员口中的流行语变成了“微服…

TS同时打包和监视所有ts文件或只指定ts文件

当我们项目中ts文件较多时,我们如何直接打包所有ts文件为js文件?而不是使用tsc 文件名 一个一个去打包文件 一、配置tsconfig.json文件 创建一个tsconfig.json文件,该文件中不需要配置任何信息 二、控制台输入打包命令 在控制台输入如下代…

手机机型响应式设置2

window.screen.height:屏幕高度 window.innerHeight:视口高度(去除浏览器头尾的高度) document.body.clientHeight:内容高度 vh:网页视口高度的1/100 vw:网页视口宽度的1/100 vmax&#xff…

2万多条汉字笔画笔顺查询ACCESS\EXCEL数据库

发现很多新华字典类的数据都没有笔顺的相关数据,因此就找了一下笔顺查询相关,发现有两个模式,一种是每个字每个笔画都有一张图片(很庞大的图片数据量);一种是笔画图片文件显示型,比如今天采集的…

Vue的详细教程--基础语法【下】

🥳🥳Welcome Huihuis Code World ! !🥳🥳 接下来看看由辉辉所写的关于Vue的相关操作吧 目录 🥳🥳Welcome Huihuis Code World ! !🥳🥳 一.事件处理器 ①.stop ②.prevent ③.on…

消费盲返模式:一种让消费者和商家都受益的新型消费返利模式

消费盲返是一种新型的消费返利模式,它的核心思想是:消费者在平台购买商品后,可以获得后续一定数量的订单的部分利润作为奖励。这样,消费者不仅可以享受商品的优惠,还有可能赚取更多的钱。 这种模式对于平台和消费者都有…

WorkPlus | 好用、专业、安全的局域网即时通讯及协同办公平台

自国家于2022年发布的《关于加强数字政府建设的指导意见》以来,我国数字政府建设已经迈入了一个全新的里程碑,迎来了全面改革和深化升级的全新阶段。 WorkPlus作为自主可控、可信安全、专属定制的数字化平台,扮演着政务机关、政府单位以及各…

mysql 导入sql文件

mysql 导入sql文件 sudo mysql -uroot -p123456 -h127.0.0.1 sudo mysql -uroot -p123456 -h127.0.0.1然后 show databases;然后 use 数据库名称; 然后 source 20230920031001.sql;如果不加 -h127.0.0.1 可能会出现错误 /var/lib/mysql.sock error 通过 navicat导入的话&am…

英语——分享篇——每日100词——201-300

chess——che车(拼音)ss两个美女(编码)——车里有两个美女在下国际象棋 April——ap阿婆(拼音)ri日(拼音)l棍子(编码)——四月份阿婆每日拿着棍子 palace——place地方——这个地方是宫殿 bottle——bo60(象形)ttle太太乐(拼音)——有60颗太太乐鸡精在瓶子里

VVICAPI接口解析,实现根据ID取商品详情

VVICAPI是一个虚构的API接口名称,我无法提供具体的VVICAPI接口解析。但是,我可以向您展示一般的API接口使用方法,以及如何根据ID获取商品详情的示例代码。 假设您有一个名为"VVICAPI"的接口,并且您已经获得了访问该接口…

epoll的并发服务器(TCP服务器与客户端通信)

服务器&#xff1a; #include<myhead.h> #define IP "192.168.250.100" #define PORT 8888 /* typedef union epoll_data {void *ptr;int fd;uint32_t u32;uint64_t u64; } epoll_data_t;struct epoll_event {uint32_t events; …

使用vmware安装虚拟机时“出现此主机支持Intel VT-x,但Intel VT-x处于禁用状态”。

1、出现问题 使用vmware安装虚拟机时“出现此主机支持Intel VT-x&#xff0c;但Intel VT-x处于禁用状态”。 已将该虚拟机配置为使用 64 位客户机操作系统。但是&#xff0c;无法执行 64 位操作。 此主机支持 Intel VT-x&#xff0c;但 Intel VT-x 处于禁用状态。 如果已在 BI…

JPA的注解@Field指定为Keyword失败,导致查询不到数据

一、背景 使用 jpa 对es操作&#xff0c;查询条件不生效&#xff0c;需求是批量查询课程编号。说白了&#xff0c;就是一个In集合的查询。在es里&#xff0c;如果是精准匹配是termQuery&#xff0c;比如&#xff1a; queryBuilder.filter(QueryBuilders.termQuery(“schoolId…