【Spatial-Temporal Action Localization(三)】论文阅读2018年

news2025/1/12 16:09:35

文章目录

  • 1. AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions 时空局部原子视觉动作的视频数据集
    • 摘要和结论
    • 模型框架
    • 思考不足之处
      • 时间信息对于识别 AVA 类别有多重要?
      • 定位与识别相比有何挑战性?
      • 哪些类别具有挑战性?训练样本的数量有多重要?
  • 2. A Proposal-Based Solution to Spatio-Temporal Action Detection in Untrimmed Videos 在未修剪视频中基于提案时空动作检测解决方案
    • 摘要和结论
    • 引言:针对痛点和贡献
    • 相关工作
    • 模型框架
      • Input Pre-processing

1. AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions 时空局部原子视觉动作的视频数据集

摘要和结论

  • 时空定位(spatiotemporally localized)原子视觉动作(AVA)
  • 主要介绍了数据集的制作过程,是如何筛选和标记的。AVA数据集是google发布的一个视频行为检测与定位的视频数据集,包含在430个15分钟的视频片段中标注了的80种原始动作,这些动作由时间和空间定位,产生了1.58M个动作标签。
  • 本文重点是介绍论文中所提出的action location模型。

模型框架

时空动作定位方法:依赖于经过训练的对象检测器object detection,以使用双流变体在帧级frame-level别区分动作类别,分别处理 RGB 和流数据。然后使用动态编程dynamic programming或跟踪tracking将生成的每帧检测链接起来linked。 所有这些方法都依赖于集成帧级检测。
在这里插入图片描述
使用 Faster-RCNN 在 RGB 关键帧上检测并回归区域提案。时空管用两流I3D卷积进行分类
在这里插入图片描述

思考不足之处

时间信息对于识别 AVA 类别有多重要?

表 4 显示了时间长度和模型类型的影响。所有 3D 模型在 JHMDB 和 UCF101-24 上的性能均优于 2D 基线。对于AVA,3D模型在使用超过10帧后表现更好。我们还可以看到,增加时间窗口的长度有助于跨所有数据集的 3D 双流模型。正如预期的那样,结合 RGB 和光流功能可提高单一输入模态的性能。此外,与 JHMDB 和 UCF101 相比,AVA 从更大的时间上下文中受益更多,后者的性能在 20 帧处达到饱和。这一增益和表 1 中的连续操作表明,人们可以通过利用 AVA 中丰富的时间上下文来获得进一步的增益。
在这里插入图片描述

定位与识别相比有何挑战性?

表 5 比较了端到端动作定位和识别与类不可知动作定位的性能。我们可以看到,虽然 AVA 上的动作定位比 JHMDB 更具挑战性,但 AVA 上的定位和端到端检测性能之间的差距接近 60%,而 JHMDB 和 UCF101 上的差距不到 15%。这表明 AVA 的主要困难在于动作分类而不是定位。图9显示了高分误报的示例,表明识别的难度在于细粒度的细节。
在这里插入图片描述

哪些类别具有挑战性?训练样本的数量有多重要?

在这里插入图片描述

图 8 按类别和训练示例数量细分了性能。虽然更多的数据通常会产生更好的性能,但异常值表明并非所有类别都具有相同的复杂性。尽管训练样本较少,但与场景和物体相关的类别(例如游泳)或多样性较低的类别(例如跌倒)仍获得了较高的性能。相比之下,具有大量数据的类别(例如触摸和吸烟)获得相对较低的性能,可能是因为它们具有较大的视觉变化或需要细粒度的辨别,从而激发了人与物体交互的工作。我们假设,识别原子动作的成果不仅需要 AVA 等大型数据集,还需要丰富的运动和交互模型。

2. A Proposal-Based Solution to Spatio-Temporal Action Detection in Untrimmed Videos 在未修剪视频中基于提案时空动作检测解决方案

摘要和结论

  • 提出一个two stage方法。第一阶段:用分层聚类 hierarchical clustering 和时间抖动 temporal jittering 技术在逐帧对象检测上生成dense spatio-temporal proposals。
  • 第二阶段:是一个时间细化 Temporal Refinement I3D (TRI-3D)网络,它对生成的建议proposals执行动作分类和时间细化。
  • 基于对象检测的提议生成步骤有助于检测视频帧的小空间区域中发生的动作,而时间抖动和细化有助于检测可变长度的动作。

引言:针对痛点和贡献

痛点:

  • 动作通常发生在相对于整个视频帧的小空间区域。这使得很难检测动作中涉及的演员/对象。
  • 其次,动作的持续时间可能会有很大差异,从几秒钟到几分钟不等。这需要检测过程对时间变化具有鲁棒性。

贡献:

  • 提出了一种使用层次聚类和时间抖动的算法,以使用逐帧对象检测生成动作建议。
  • 提出了用于动作分类和时间定位的时间细化 I3D (TRI-3D) 网络。
  • 在 DIVA 数据集上评估模型,该数据集是未修剪的安全视频数据集。

相关工作

  • 动作分类:以CNN为代表的工作,双流 C3D等
  • 现有的动作检测方法分类:end-to-end systems、proposal-based systems(端到端、基于提案)

模型框架

提案的方法我们的方法由三个不同的模块组成。
第一个从给定的未修剪视频序列生成与类无关的时空提案。
第二个模块使用深度 3D-CNN 对这些生成的建议执行动作分类和时间定位。
最后一个模块是后处理步骤,执行 3D 非极大值抑制 (NMS) 以实现精确的动作检测。
在这里插入图片描述
Action Proposal Generation
行动建议生成阶段的主要目标是从视频中生成具有高召回率且不考虑精度的时空长方体 (spatio-temporal cuboids) 。尽管时空空间中的滑动窗口搜索是提案生成的可行方法,但其计算成本非常昂贵。另一种解决方案是使用无监督方法对视频中的时空区域进行聚类。在我们的方法中,我们通过使用分层聚类在时空域中对从 Mask-RCNN 获得的逐帧对象检测进行分组来生成动作建议。生成的提案会进一步暂时抖动,以提高整体召回率。

Hierarchical Clustering
使用 Mask-RCNN 检测到的对象由 3 维特征向量 (x, y, f ) 表示,其中 (x, y) 表示对象边界框的中心,f 表示帧号。

Dense Action Proposals with Temporal Jittering
在这里插入图片描述

令现有提案的开始帧和结束帧分别由 fst 和 fend 表示。
首先通过沿着时间轴从 fst 滑动到以 s 的步幅来选择锚框。由此选择的锚帧是(fst,fst + s,fst + 2s,fst + 3s,…,fend)。于每个锚框 fa,我们生成四组具有时间边界的提案集 (fa − 16, fa + 16), (fa − 32, fa + 32)(64)(128)
数据集DIV的动作是在32-256帧内的。
在这里插入图片描述
对比中,可以看到,提出的方法确实有效。

Input Pre-processing

介绍了论文中提出的TRI-3D模型的输入预处理。首先,模型输入的是64 x 224 x 224的光流帧,这些帧是使用TV-L1光流算法计算得出的。由于生成的密集提议框的宽高比是任意的,因此需要对其进行填充和裁剪。为了处理不同数量的帧,会对每个提议框在时间跨度上进行等间隔采样。然后,将裁剪后的立方体从光流视频中采样,并将其大小调整为256 x 256,然后在训练期间随机采样224 x 224的裁剪。在训练时,对除了非对称动作(如向左转弯、向右转弯和掉头)之外的所有训练样例应用随机水平翻转来提高网络的鲁棒性。最后,TRI-3D网络使用光流帧作为输入,而不是使用双流I3D网络。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1013378.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python console cmd命令乱码(无论是os还是subprocess)

给我整无语了,花了一个多小时,根本没找到需要的答案。 网上全是改这样的 五花八门都有,我全部尝试并且还就再排列组合修改,累的。 在下文找到答案,直接os.system(chcp 65001),问题解决!引用文献…

IEC 61850扫盲

目录 1 简介 2 主要特点 2.1 信息分层 2.2 信息模型与通信协议独立 2.3 数据自描述 2.4 面向对象数据统一建模 2.5 带确认服务 2.6 不带确认的服务 2.7 VMD(虚拟制造设备) 2.8 GOOSE(Generic Object Oriented Substation Event&…

LeetCode(力扣)435. 无重叠区间Python

LeetCode435. 无重叠区间 题目链接代码 题目链接 https://leetcode.cn/problems/non-overlapping-intervals/ 代码 class Solution:def eraseOverlapIntervals(self, intervals: List[List[int]]) -> int:if not intervals:return 0intervals.sort(keylambda x: x[0])co…

ajax day4

1、promise链式调用 /*** 目标:把回调函数嵌套代码,改成Promise链式调用结构* 需求:获取默认第一个省,第一个市,第一个地区并展示在下拉菜单中*/let pname axios({url: http://hmajax.itheima.net/api/province,}).t…

徐亦达机器学习:Kalman Filter 卡尔曼滤波笔记 (一)

P ( x t P(x_t P(xt​| x t − 1 ) x_{t-1}) xt−1​) P ( y t P(y_t P(yt​| x t ) x_t) xt​) P ( x 1 ) P(x_1) P(x1​)Discrete State DM A X t − 1 , X t A_{X_{t-1},X_t} AXt−1​,Xt​​Any π \pi πLinear Gassian Kalman DM N ( A X t − 1 B , Q ) N(AX_{t-1}B,Q)…

open-interpreter +GTX1080+wxbot+codellama

https://github.com/KillianLucas/open-interpreter/ Open Interpreter(开放解释器) 可以让大语言模型(LLMs)在本地运行代码(比如 Python、JavaScript、Shell 等)。安装后,在终端上运行 $ inte…

窄边极简折叠玻璃门,实现自由推拉及折叠,遥控随意切换透明与磨砂效果

窄边极简折叠玻璃门是一种非常实用和创新的门设计,可以提供各种功能和效果。以下是一些关于窄边极简折叠玻璃门的相关技巧和应用: 1. 自由推拉和折叠:这种门设计允许你自由地推拉和折叠门,根据需要调整门的宽度和开启面积。这使得…

数字人员工成企业得力助手,虚拟数字人为企业注入高科技基因

随着互联网和人工智能技术的快速发展,以“数字员工”为代表的数字生产力,正在出现在各行各业的业务场景中。数字人员工的出现不是替代人类,而是通过技术提高工作效率,实现更加智能化的服务体验,帮助企业实现大规模自动…

C语言--字符串旋转笔试题

C语言–字符串旋转笔试题 文章目录 C语言--字符串旋转笔试题一、字符串左旋1.1 思路11.2 思路1代码1.3 思路21.4 思路2代码 二、字符串旋转结果判断2.1 思路12.2 思路2 一、字符串左旋 实现一个函数,可以左旋字符串中的k个字符。 例如: ABCD左旋一个字…

Truenas scale 配置Zerotier

Zerotier 注册 官网注册 zerotier, Truenas 安装 Zerotier Truenas的 APP -> Available Applications 中搜索 zerotier 在 Network中填入 zerotier 注册账户后给你的ID。 勾选 Host Network 在这里插入图片描述 Zerotier 中给定权限 左侧 框框 打钩&#…

Spring Boot集成Redis实现数据缓存

🌿欢迎来到衍生星球的CSDN博文🌿 🍁本文主要学习Spring Boot集成Redis实现数据缓存 🍁 🌱我是衍生星球,一个从事集成开发的打工人🌱 ⭐️喜欢的朋友可以关注一下🫰🫰&…

MyEclipse 用tomcat部署SSM项目后,项目名称和当前项目不一致

MyEclipse 用tomcat部署SSM项目后,项目成功启动,但是访问所有接口报404 从这里可以看到,部署的项目名为accurate_sugar_control_yc_api,但实际我们项目名字应该为accurate_sugar_control_otc_api 解决办法 在本地找到项目的根目…

SAFe大规模敏捷认证SAFeScrumMaster Leading SAFe6.0官方双认证班,双证培训班

课程简介 根据最新的敏捷行业调研报告,敏捷的实施越来越广泛和深入,已经超越了选择几个试点团队进行敏捷尝试的阶段,大规模敏捷的实施已经成为企业敏捷转型的重中之重,因此作为Scrum Master仅仅了解单团队敏捷的运作是不够的&…

详解哈希,理解及应用

全文目录 概念哈希冲突及原因解决哈希冲突的方法闭散列线性探测二次探测扩容 开散列扩容 哈希的应用位图布隆过滤器 概念 通过映射关系将关键字映射到存储位置,并实现增删改查操作。 通过上面的方法构造出来的结构就叫哈希表(散列表)&#x…

基础算法---区间合并

直接上题目,不废话! 题目 给定 n 个区间 [l,r],要求合并所有有交集的区间。 注意如果在端点处相交,也算有交集。 输出合并完成后的区间个数。 例如:[1,3] 和 [2,6] 可以合并为一个区间 [1,6]。 输入格式 第一行包含整数 n。 接下来 n 行&am…

Linux中如何执行命令

命令格式: 主命令 [选项...] [参数(要操作的对象)...] ——选项:决定了命令的执行方式 长选项 --version 短选项 -V,-i,-d ,-r ——参数:决定命令的作用对象 不同的命令参数不同 …

天府新区直播产业成型,成都直播产业基地开园倒计时!

直播,正逐渐衍化为当今社会的基础媒介,直播行业以“平台经济”为依托,构筑了数字经济一大“动脉”。 天府新区,数字激潮涌。蜂巢产业,让未来生长。 站在电商直播的时代风口上,树莓集团携手上市公司德商产投…

如何高效且优雅地使用Redis

本文从如下7个维度,带你全面理解Redis的最佳实践和优化: 内存性能可靠性运维安全资源规划监控 1、如何节省内存 1.1、控制Key的长度 在开发业务时,要提前预估Redis中写入key的数量,如果key数量达到了百万级别,那过…

【SpringMVC】之自定义注解

文章目录 一、Java注解1.1 简介1.2 分类1.2.1 JDK基本注解1.2.2 JDK元注解1.3 自定义注解 二、使用自定义注解2.1 **案例一(获取类与方法上的注解值)**2.2 **案例二(获取类属性上的注解属性值)**2.3 **案例三(获取参数…

easycms v5.5 分析 | Bugku S3 AWD排位赛

前言 这个awd打的悲,后台默认用户名密码为admin:admin,但是几乎所有人都改了 而且一进去看到这个cms就有点懵逼,都不知道这个cms是干嘛的(没用过相似的cms) 虽然网上找出了很多相关的漏洞,但是不知道为什…