CVPR2022 | 动作识别框架新范式 STRM,用最小的样本获得最高的精度

news2024/10/5 13:59:49
  • 论文题目:Spatio-temporal Relation Modeling for Few-shot Action Recognition

  • 论文连接:https://arxiv.org/abs/2112.05132v2

  • 代码连接:https://github.com/Anirudh257/strm

综述

我们提出了一种few-shot动作识别框架STRM,它在学习高阶时间表示的同时,增强了特定类特征的区分能力。我们的方法的重点是一个新的时空增强模块,它将空间和时间上下文与专用的局部帧级别和全局帧级别特征丰富子模块聚合在一起。局部帧级别的扩展捕获基于外观的动作特征。另一方面,全局帧级扩展明确编码了广泛的时间上下文,从而捕获了随时间推移的相关对象特征。然后,利用得到的时空丰富表示来学习查询和支持动作子序列之间的关系匹配。我们进一步在帧级丰富的特征上引入query类相似性分类器,通过在所提出的框架中的不同阶段加强特征学习来增强特定类特征的可区分性。在四个不同的少样本动作识别数据基准上进行了实验:Kinetics、SSv2、HMDB51和UCF101,我们所提的方法达到最佳水平。

少样本动作识别简介

少镜头(FS)动作识别是一个具有挑战性的计算机视觉问题,其任务是将未标记的视频分类为数据集中具有有限样本的动作类别之一。其识别问题与细粒度动作识别特别相关,因为收集足够多的标记示例是一项挑战。大多数现有的FS动作识别方法通常搜索单个支持视频或支持类视频的平均表示。然而,这些方法仅利用帧级表示,而不显式地利用视频子序列进行时间关系建模。

STRM算法介绍

  • 动机:它致力于增强类特定特征的可辨别性,同时减轻灵活性问题。

  • 特征可辨别性:与仅关注时间关系建模的TRX不同,我们的方法强调了在建模时间关系之前聚合空间和时间上下文以有效丰富视频子序列表示的重要性。学习丰富的空间和时间关系之后的局部表示能够增强特征的可分辨性,从而有效利用可用于FS动作识别的有限样本。

  • 模型灵活性:我们提出的方法学习以较低的基数对高阶关系进行建模,减少了归纳偏差,从而提高了模型的灵活性。

STRM总体框架

如上图所示,长度为L的视频帧通过一个图像特征提取器输出一个空间分辨率为PxP、维度为D的特征图,然后再把它展开成P^2xD的平面图。接下来,该特征图Xi输入到本文提出的PLE(Patch-Level enrichment)模块,该模块关注帧中patches的空间上下文信息,并输出空间特征丰富的, 然后对其进行空间平均以获得D维帧级表示,然后将其级联形成。接下来,帧级增强(FLE)子模块通过对视频中不同帧的时间上下文进行编码来全局增强帧表示,并输出时空增强的帧级表示。最后将E输入到时间关系建模(TRM)模块,该模块通过将查询视频的子序列与支持动作相匹配来对查询视频进行分类。此外,通过引入查询类相似性分类器对中间表示H进行分类,增强了不同阶段对应类级别信息的学习,并有助于进一步提高整体特征可辨别性。我们的框架分别使用来自TRM模块和查询类相似性分类器的类预测上的标准交叉熵损失项和来联合学习。

Spatio-temporal Enrichment

我们的方法引入时空增强模块,该模块致力于增强(i)单个帧中空间上的局部patches特征;(ii)视频中时间上跨帧的全局帧特征。

视频中空间和时间上下文信息的有效利用使得能够在建模查询和支持视频之间的时间关系之前改进特定于类别的特征可辨别性。

Enriching Local Patch Features

每帧中的patches特征一起对其空间信息进行编码。增强这些特征以编码帧中所有帧级空间上下文,这对于捕捉基于外观的相似性以及动作类之间的差异是必要的。为此,我们引入了一个patches增强(PLE)子模块,该子模块使用自注意力,通过聚合一致的patch上下文,让patch特征关注自己。PLE子模块如下图所示,具体计算公式见原论文。

PLE子模块

Enriching Global Frame Features

上述(PLE)子模块旨在在动作视频的每个帧内局部地聚集空间上下文,这使得能够聚焦于帧中的相关对象。然而,它没有明确地编码时间上下文,因此在遇到随时间推移的物体运动时会产生困难。在这里,我们通过引入包括MLP-mixer层的帧级增强(FLE)子模块,继续在视频内的帧之间全局地增强时间上下文。虽然自注意力是基于样本相关(输入特定)混合,由标记之间的成对相似性引导,但MLP- mixer中的标记混合通过独立于输入的持久关系记忆同化了整个全局感受场。token标识的这种全局同化使得MLP-mixer更适合于丰富全局帧表示。FLE子模块如下图所示。

FLE子模块

FLE子模块在时间上增强了帧表示,具有包含所有帧的全局接受场,并产生时间上丰富的特征表示。把该丰富的帧级全局表示输入到时间关系建模(TRM)模块,该模块对查询和支持动作之间的时间关系进行建模。

给定标签,TRM框架预测的结果与标签对比,使用标准交叉熵(CE)损失来进行端到端学习,损失函数如下:

总之,我们的时空增强模块利用了局部和全局、样本依赖和样本不可知的增强机制的优势,以改进行动的空间和时间上下文的聚合。结果,随着在较低基数表示中同化高阶时间关系,获得了特定于类的区分特征。

Query-class Similarity

如前面所述,包括特征提取器、时空增强模块和时间关系建模模块,是在输出概率为,损失函数为CE的基础上的进行端到端学习。然而,学习从中间层输出中分类查询视频表示增强了模型寻找在pipeline不同阶段类-特定的特征。

因此,这种多级分类提高了特征的可分辨性,导致查询和支持视频之间的更好匹配。为此,我们在patch-level增强特征表示上引入了一个查询类相似性分类器。由于公式比较复杂,具体内容看原论文。

因此,我们提出的STRM包括一个时空增强模块和一个中间查询类相似性分类器,增强了特征可分辨性(见下图),并改善了查询与其支持动作类之间的匹配。

不同模块对于结果贡献的影响

实验

模型所用的数据集:Something-SomethingV2(SSv2)、Kinetics、HMDB51和UCF101。

实验对比

不同模块对比的消融实验

增加模块对实验结果的影响

更改SSv2数据集中支持样本的数量时的性能比较

结论

文章提出了一个FS动作识别框架STRM,包括时空增强和时间关系建模(TRM)模块以及查询类相似性分类器。我们的STRM利用了结合局部和全局、样本依赖和样本不可知的增强机制的优势,以增强时空特征,以及增强不同阶段特征的可分类性。因此,这增强了时空特征的可分辨性,并且即使在较低基数表示中也能够学习高阶时间关系。我们的消融实验揭示了几个模块贡献的benefits,从而在所有基准上取得了最先进的结果。在当前工作范围之外,一个可能的未来方向是扩展少数镜头动作识别能力,以在不同领域进行推广。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/86946.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

非线性非高斯模型的改进粒子滤波算法(Matlab代码实现)

👨‍🎓个人主页:研学社的博客 💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜…

unordered_mapunordered_set的应用以及底层实现(哈希表)

文章目录1️⃣unordered系列关联容器unordered_setunordered_map2️⃣底层结构哈希概念哈希冲突哈希函数常见的哈希函数哈希冲突解决闭散列线性探测的实现开散列开散列的概念开散列的实现3️⃣模拟实现unordered_map&&unordered_set哈希表的改造unordered_setunordered…

Improving Convolutional Networks with Self-Calibrated Convolutions

Improving Convolutional Networks with Self-Calibrated Convolutions一、引言二、方法实现一、Self-Calibrated Convolutions二、Instantiations三、实验一、消融实验二、目标检测三、关键点检测论文: http://mftp.mmcheng.net/Papers/20cvprSCNet.pdf代码: http…

CUDA 编程简介(下)

文章目录Memoryshared memoryglobal memoryTransfer Data异步预取Threadsthread blockwarpGPU 性能查看性能测试性能CUDA 流Memory GPU 在 CUDA Mode 下,有多种存储类型: register: 位于 SM 上,共 819281928192 个。作用范围是 th…

01. Web漏洞靶场的搭建

01. Web漏洞靶场的搭建 Web漏洞靶场的搭建(上) 什么是Web安全? 什么是Web Web是互联网的总称,全称为World Wide Web,缩写WWW,即全球广域网,也称为万维网,它是一种基于超文本和HT…

前端入门教程:CSS标准盒模型和怪异盒模型区别

理解盒模型:CSS3 中的盒模型有以下两种:标准盒模型、IE盒子模型(怪异盒模型),盒模型是由4个部分组成,由内向外分别是content(下图蓝色部分)、padding、border、margin盒模型有5个属性: width 元素宽height 元素高borde…

计算机网络题库---第六章应用层

主要选取谢希仁第八版,复习资料,学校期末划重点 (一)课本答案 1.互联网的域名结构是怎样的?它与目前的电话网的号码结构有何异同之处? 答: 2.域名系统的主要功能及域名系统中的本地域名服务器、根域名服…

世界杯竞猜项目Dapp-第三章(ERC20)

ERC20 是标准的以太坊 Token 协议,它也是一个合约代码,只要在该合约内部实现了特定的 6 个方法,就会被系统判定为代币合约,具体总结为:6 个必要接口,2 个必要事件,3 个可选接口,详情…

信贷产品年终总结之客群特征画像

临近年末,围绕信贷产品业务的年终总结,是各家金融机构或科技公司的必要工作内容之一。根据实际业务的数据表现进行汇总分析,不仅为回顾过去业务经营的全貌特点,提供了客观的数据分布描述,而且对后期业务开展的策略制定…

H-03卷积神经网络中卷积的作用与原理

目录 1.前言 2.卷积的作用 3.卷积的参数 3.1 卷积核大小(kernel_size) 3.2 填充(padding) 3.2.1 same 3.2.2 valid 3.2.3 full 3.3 卷积核算子(operator) 3.3.1 Robert 算子 3.3.2 Prewitt算子 …

2023就要你换个方式过新年!富而喜悦一年一渡开启新方式!

过去的一年,你过得怎么样?是否有过艰难的逆流时刻,是否拥有过快乐和满足,又是否得到了成长和收获?富而喜悦2023一年一渡财富流新年主题活动就要给你一个礼物多多!美美的“礼物”活动! 为此&…

艾美捷ichorbio CD4体内抗体,无惧竞争对手

CD4(分化簇4)是一种在辅助T细胞、调节性T细胞、单核细胞、巨噬细胞和树突状细胞表面表达的糖蛋白。CD4与主要组织相容性复合体(MHC)的II类分子相互作用,增强T细胞活化的信号。 艾美捷ichorbio CD4体内抗体-低内毒素&am…

基于web得数字媒体资源库系统

摘 要 随着信息技术和网络技术的飞速发展,人类已进入全新信息化时代,传统管理技术已无法高效,便捷地管理信息。为了迎合时代需求,优化管理效率,各种各样的管理系统应运而生,各行各业相继进入信息管理时代&…

VCS2 VCS仿真的基础

1、基础知识 编译流程: -Mupdate :增量编译,作用是将需要修改的某个文件修改后重新编译,其.o文件再与其他文件相链接。 -R :编译后立马执行。 -gui :打开DVE的实时GUI。 -l :把编译过程中产生…

CDH6.3.2防止被攻击,打补丁(未授权漏洞)

参考:CDH6.3.2Hadoop默认配置下存在未授权漏洞,禁止匿名访问 - 民宿 - 博客园 这段时间公司的运维大佬扫描安全漏洞的时候,发现有漏洞会被攻击,原因是没有新增用户校验,允许匿名去访问。这样的话。可以操作HDFS和Yarn上…

【iOS】熟悉Objective-C

熟悉Objective-C Objective—C通过一套全新的语法,在C语言基础上添加了面向对象的特性 频繁使用方括号和极长的方法名,使得代码十分易读。 了解Objective-C的起源 Obejective-C与C,java等面向对象的语言类似,在语法上使用“消息结…

【GRU时序预测】基于门控循环单元GRU实现时间序列预测附matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。 🍎个人主页:Matlab科研工作室 🍊个人信条:格物致知。 更多Matlab仿真内容点击👇 智能优化算法 …

【云原生进阶之容器】第一章Docker核心技术1.3节——命名空间Namespace

1. Linux Namespaces机制简介 Linux Namespace是Linux提供的一种内核级别环境隔离的方法。很早以前的Unix有一个叫chroot的系统调用(通过修改根目录把用户jail到一个特定目录下),chroot提供了一种简单的隔离模式:chroot内部的文件系统无法访问外部的内容。Linux Namespace在…

文件包含漏洞相关协议详解

今天继续给大家介绍渗透测试相关知识,本文主要内容是文件包含漏洞相关协议详解。 免责声明: 本文所介绍的内容仅做学习交流使用,严禁利用文中技术进行非法行为,否则造成一切严重后果自负! 再次强调:严禁对未…

执行 pkg -t win index.js 报错 node.js使用pkg打包成exe可执行文件

文章目录一、问题:当执行命令 pkg -t win index.js 的时候报以下错误:二、解决办法:三、安装pkg流程四、其他的打包方法五、题外话:更换exe的icon图标一、问题:当执行命令 pkg -t win index.js 的时候报以下错误&#…