Simba:Mamba 增强了 U-ShiftGCN,用于视频中的骨骼动作识别

news2024/11/25 0:30:27

Simba:Mamba 增强了 U-ShiftGCN,用于视频中的骨骼动作识别

  • 摘要
  • Introduction
  • Related Works
  • Methodology
    • Down-sampling ShiftGCN Encoder
  • Experiments & Results
    • Datasets

Simba: Mamba augmented U-ShiftGCN for Skeletal Action Recognition in Videos

摘要

骨架动作识别(SAR)涉及使用骨骼关节坐标及其互联来识别人类动作。尽管已经尝试将普通的Transformer应用于这项任务,但它们与基于图卷积网络(GCNs)的当前领先方法相比仍有不足,这是由于缺乏结构先验。

最近,一种新颖的选择性状态空间模型Mamba作为Transformer中注意力机制的强有力替代品出现,它有效地建模了长序列。在这项工作中,据作者所知,作者首次提出了一个结合了Mamba的SAR框架。

作者模型的每个基本块采用了新颖的U-ShiftGCN架构,以Mamba为其核心组件。U-ShiftGCN的编码器部分设计用于从骨骼数据中提取空间特征,使用下采样的普通Shift S-GCN块。这些空间特征随后通过Mamba块进行中间时间建模,然后进入包含普通上采样Shift S-GCN块的编码器部分。

此外,在每个基本块的输出之前,还采用了Shift T-GCN(ShiftTCN)时间建模单元来细化时间表示。这种下采样空间、中间时间、上采样空间和最终时间子单元的特定集成对于骨架动作识别产生了有希望的结果。

作者将这个模型命名为Simba,在三个知名的骨架动作识别基准数据集上均取得了最先进的表现:NTU RGB+D、NTU RGB+D 120和Northwestern-UCLA。

有趣的是,仅U-ShiftGCN(没有中间Mamba块的Simba)本身就能表现相当出色,并且超过了作者的 Baseline 。

Introduction

基于骨骼的人类动作识别因其计算效率以及能够抵抗环境波动和不同摄像机视角差异的能力而越来越受到关注。基于骨骼的动作识别的一个显著优势在于,通过像Kinect 这样的传感器或者可靠的姿态估计算法 获取身体关键点相对容易。因此,这使得姿态成为一种相对于传统的RGB、光流或基于深度的方法更为可靠的模态。

近年来,图卷积网络(GCNs)在建模非欧几里得数据方面得到了广泛应用。Yan等人是最早将关节及其相互连接视为图结构中的节点和边的人之一。他们在预定义的图上使用图卷积网络(GCN)来分析关节间的交互。从那时起,GCNs已成为骨骼基础动作识别任务的主导选择。包括多种模态(例如,关节、骨、关节速度和骨速度)或如MV-IGNet 中看到的多视图图表示的GCN的几种变体已被用于解决捕捉节点间关系的挑战。此外,基于图 Transformer 的方法如ST-TR 和DSTA 也已被用于随时间进行的骨骼动作识别。

然而,最近在建模长序列方面出现了重大范式转变。Mamba ,一种选择性的结构化状态空间序列模型(S6),在语言领域和基因组学中高效地建模长时序数据方面表现出了卓越的能力。

这自然引出了几个问题:

Mamba能否在封装图关系方面显示其有效性?
它是否可以进一步利用来高效地建模视频中图快照的时间序列?
在本研究中,据作者所知,作者首次引入了将Mamba应用于时间图数据的骨骼动作识别框架。作者新颖的Simba模型中的每个组成模块都采用了U-ShiftGCN架构,其中Mamba是其基本核心。U-ShiftGCN的编码器部分设计为使用降采样vanilla Shift S-GCN 块从骨骼数据中提取丰富的空间特征。然后,这些空间特征通过Mamba块进行中间时间建模,再进入由vanilla Upsampling Shift S-GCN块组成的编码器部分。

此外,在每个组成块的输出之前部署了Shift T-GCN(ShiftTCN) 时间建模单元以增强时间表示。有趣的是,U-ShiftGCN架构本身尚未被探索过,并且比作者的 Baseline 取得了更好的性能。这种融合了降采样空间Shift S-GCN、中间时间Mamba和升采样空间Shift S-GCN以及ShiftTCN最终时间聚合的方法为骨骼动作识别带来了有希望的结果,作者的实验结果证实了这一点。

值得注意的是,作者的模型在三个著名基准骨骼动作识别数据集上均达到了最先进的表现:NTU RGB+D、NTU RGB+D 120和Northwestern-UCLA。

作者的主要贡献可以总结如下:

作者据作者所知首次提出了一个将Mamba用于图数据时间序列建模的骨骼动作识别(SAR)框架。
作者的模型Simba在三个流行基准数据集上的SAR任务上超过了之前的最先进水平。
值得注意的是,作者Simba框架的衍生物U-ShiftGCN本身就是一个全新的探索,显示出其能够超越 Baseline 性能。
本文的后续部分结构如下:在第2部分,作者深入研究与骨骼动作识别(SAR)相关的现有技术,并强调Mamba在高效促进长序列建模方面的重要性。作者提出的方法在第3部分进行详细阐述。第4部分展示了关于作者提出方法的实证发现,并与最先进(SOTA)方法进行了详尽的对比。最后,在第5部分,作者讨论了重要的观察结果,并描述了在作者提出研究范围内未来探索的未来方向。

Related Works

在本节中,作者概述了与作者的研究关于骨架表示相关的主要文献,以及在这些方向上进展显著的高效建模长序列数据的工作。

Skeleton-based action recognition
在以往的研究中,循环神经网络(RNNs) 和卷积神经网络(CNNs)[14, 22] 常被用于基于骨架的人类动作识别任务。然而,这些方法往往忽视了关节之间的空间相互作用。因此,图卷积网络(GCNs)在这一领域的突出性增加了,因为它们通过图建模巧妙地捕捉了空间配置。

基于GCN的方法 以Yan等人为首的GCN方法的开创性工作,他们最初使用GCNs[15]来捕捉关节关联,并强调了它们在动作识别中的有效性。随后,为了应对骨架动作识别(SAR)的挑战,引入了各种GCN的改编版本,如ShiftGCN[2]和ShiftGCN++[3]。与依赖繁重的常规图卷积不同,ShiftGCN集成了新颖的移位图操作和轻量级的点卷积。这些操作为空间和时间图提供了灵活的感受野。其后续版本ShiftGCN++是一种特别计算效率的模型,专为计算能力受限的低功耗和低成本设备设计。

基于Transformer的方法 最近,基于Transformer的策略作为一种替代方法出现,主要关注于管理额外的时间维度。例如,提出了一种双流模型,结合了空间和时间自注意力机制,分别捕捉帧内和帧间的关联。相比之下,DSTA-Net[30]使用了一种在空间和时间维度之间交替建模的Transformer。然而,这些方法并没有达到与最先进的基于GCN的方法相当的效果。这种性能上的不足归因于它们对传统Transformer设计的坚持,这些设计没有考虑到骨架数据的独特特性。

Long Sequence Modeling
自注意力机制的有效性归功于其在上下文窗口内的密集信息路由,这使得它能够模拟复杂的数据模式。然而,这一特性固有地存在限制:无法在有限窗口之外建模,并且与窗口长度成二次方增加的计算复杂度。近来,结构化状态空间序列模型(SSMs) 作为一类有前景的序列建模架构而出现。这些模型融合了循环神经网络(RNNs)和卷积神经网络(CNNs)的元素,从经典状态空间模型 [13] 中汲取灵感。它们展现出卓越的计算效率,在序列长度上呈线性或近线性扩展,并且可以作为循环或卷积操作实现。SSMs 作为独立的序列转换,可以无缝地整合到端到端的神经网络架构中。

H3[8] 利用 S4 扩展了这种循环,提出了一种具有两个门控连接的 SSM 的架构。此外,H3 还在主 SSM 层之前引入了一种标准的局部卷积,称为移位-SSM。同时,Hyena 采用了与 H3 类似的架构,但用由多层感知机(MLP) 参数化的全局卷积替换了 S4 层。在此基础上,[9] 引入了一种称为 选择性结构化状态空间序列模型(S6) 的新型模型类别,作为序列建模中与 Transformer 竞争的替代品。这一发展激发了作者将 Mamba 集成到骨架动作识别领域的兴趣,这需要大量的时间建模。

Methodology

在本节中,作者将熟悉将在整篇论文中使用的术语,并详细阐述作者提出的Simba模块的每个组成部分。

在这里插入图片描述

Down-sampling ShiftGCN Encoder

下采样ShiftGCN编码器包含一系列三个Shift S-GCN[2]块。在使用之前,输入张量经过初始Shift S-GCN操作,扩大了即将进入ShiftGCN编码器的张量的通道维度。这种增强使得编码器中的每个Shift S-GCN可以进行后续的2倍下采样(最后一个除外)。
ShiftGCN编码器的核心目标是在提取骨架中节点嵌入的复杂空间细节的同时,减少其通道维度。这种策略在准确性和计算效率之间实现了平衡,因为这一阶段的输出将被送入Mamba块,其中最佳的嵌入维度 ( (D_P \in \mathbb{R}^{V \times P}) ) 是必不可少的。这种维度确保了有效信息封装,同时不损害计算效率。从数学上讲,这一阶段可以用一个函数 ShiftGCNdoun (( a’ )) 表示,其中 ( a’ ) 是在进入当前块之前通过初始Shift S-GCN得到的张量。
在这里插入图片描述
在这一点上,a ∈ RN×DxTxV,其中N是有效的批处理大小,D是通道维度,T是时间维度,V对应于图中的顶点数量。作者对这个张量讲行置换和展平,得到形状为RNxTx(V*D)的输出。这随后被送入中间mamba块。

Experiments & Results

在本节中,作者首先将Simba架构与目前基于骨架的人类动作识别基准测试中的领先方法进行对比,以展示作者模型的卓越有效性。随后,作者进行消融研究,以更深入地探讨作者提出的方法,以获得更全面的理解。

Datasets

作者评估了作者提出的Simba在三个广泛认可的数据集上的有效性:NTU-RGB+D ,NTU-RGB+D 120 ,以及Northwestern-UCLA,以下是这些数据集的简要描述:

NTU-RGB+D 数据集是骨骼基础的人类动作识别的重要基准。它包含56,880个骨骼动作序列,每个序列由一个或两个人执行。这些序列由三个Microsoft Kinect-V2深度传感器同时捕捉,这些传感器高度相同但水平视角不同。

评估采用两个不同的基准:跨主体(X-Sub)和跨视角(X-View)设置。在X-Sub设置中,训练和测试数据集分别来自两个各有20个主体的独立队列。在X-View场景中,训练集由37,920个由摄像头视角2和3捕获的样本组成,而测试集由18,960个由摄像头视角1记录的序列组成。

NTU-RGB+D 120 数据集通过包括57,367个骨骼序列和60个补充动作类别来扩展NTU-RGB+D数据集。它是目前最大的带有3D关节标注的人类动作识别数据集,包含32个设置,每个设置代表不同的地点和背景。作者建议的两个基准评估包括跨主体(X-Sub)和跨设置(X-Setup)。

Northwestern-UCLA 数据集由三个Kinect传感器从不同视角捕捉,包含1,494个视频序列,跨越10个动作类别。

Implementation details
NTU RGB+D 60和NTU RGB+D 120. 作者的模型Simba和U-ShiftGCN进行了90个周期的训练,相较于之前研究中的典型140个周期,作者的模型更早地达到了收敛。学习率从0.025开始,在第75和85个周期时下降0.1。训练和测试批次分别包含64和512的大小。窗口大小(T),表示每个视频中采样的帧数,在数据预处理中设置为64,遵循中的方法。

Northwestern-UCLA. 训练和测试的批次大小分别设置为16和64。使用的窗口大小为52。作者的模型训练了400个周期以最大化其潜力,并且作者还遵循了[51]中概述的预处理策略。

对于NTU RGB+D 60和NTU RGB+D 120数据集,作者应用了0.0001的权重衰减,与之前的工作保持一致,而对于NW-UCLA,权重衰减设置为0.0004。在配置mamba块时,作者将嵌入维度(d-model)固定为500,与基于ViT-B[5]启发的 Baseline mamba架构紧密对齐,后者的嵌入维度为768。

为了确保一致性,作者根据NTU数据集和NW-UCLA数据集的骨骼节点数(分别为25和20)调整mamba相邻的Shift-GCN块的通道维度为20和25。作者还按照将模型的深度设置为(10)。有关实现的更多细节可以在附录材料部分找到。

Comparison with state-of-the-art
遵循该领域最近的进展,作者采用了多流融合方法。具体来说,作者整合了四个流,每个流针对不同的模态:关节、骨骼、关节运动和骨骼运动。关节模态包括原始骨架坐标,而骨骼模态捕捉空间坐标差分。另一方面,关节运动和骨骼运动模态分别关注关节和骨骼模态内的时间差分。为了整合这些流的信息,作者从每个流聚合softmax分数以得到融合分数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1606344.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机网络 -- 网络编程基础

一 学习准备 1.1 IP地址 在 前文中我们提到过: IP 是全球网络的基础,使用 IP 地址来标识公网环境下主机的唯一性,我们可以根据 目的IP地址 进行跨路由器的远端通信。 但是我们也提到了,通过 IP 地址,只能寻找到目标主机&#xff…

视频质量度量VQM算法详细介绍

视频质量评价 视频质量评价(Video Quality Assessment,VQA)是指通过主观、客观的方式对视频图像的内容、画质等,进行感知、衡量与评价。 ITU definations subjective assessment: the determination of the quality or impairment of programme-like pictures presented…

最新UI发卡盗U,支持多语言,更新UI界面,支持多个主流钱包,附带系统搭建教程

环境:Linux系统 进入宝塔安装环境:Nginx 1.22.1 MySQL 8.0 php7.4 phpMyAdmin 5.2 按照说明去安装环境,如果没有找到MySQL8.0版本去"软件商店"搜索Mysql切换至8.0 1.上传开源源码 2.上传数据库文件 3.上传猴导入数据库文件 4.修…

Flask 解决指定端口无法生效问题

问题重现 手动指定的IP端口是app.run(host0.0.0.0, port9304),但是启动的地址显示的却是http://127.0.0.1:5000。 if __name__ __main__:app.run(host0.0.0.0, port9304)启动地址如下: 解决方案 PyCharm会自动识别出来flask项目(即使你…

.Net RabbitMQ(消息队列)

文章目录 一.RabbitMQ 介绍以及工作模式1.RabbitMQ的介绍:2.RabbitMQ的工作模式: 二.RabbitMQ安装1.安装Erlang语言环境2.安装RabbitMQ 三.在.Net中使用RabbitMQ1.HelloWorld模式2.工作队列模式3.发布订阅模式4.Routing路由模式和Topics通配符模式 一.Ra…

114 接口中幂等性的保证

前言 同样是 面试问题 如何确保接口的 幂等性 幂等是一个 较为抽象的概念, 多次重复访问, 不会导致业务逻辑的异常 这里从增删改查, 几个方面列一下 一般来说, 我们核心需要关注的就是 新增 和 更新 对于 增加元素, 首先针对唯一约束进行校验, 然后再处理新增的相关业…

IDEA中Docker相关操作的使用教程

一、引言 Docker作为当前最流行的容器化技术,极大地简化了应用的部署和管理。而IntelliJ IDEA作为一款强大的集成开发环境,也提供了对Docker的集成支持。本文将介绍如何在IDEA中配置和使用Docker,包括远程访问配置、服务连接、Dockerfile编写…

【Linux冯诺依曼体系结构】

目录 1.冯诺依曼体系结构原理 1.冯诺依曼体系结构 我们常见的计算机,如笔记本。我们不常见的计算机,如服务器,大部分都遵守冯诺依曼体系。 截至目前,我们所认识的计算机,都是有一个个的硬件组件组成 输入单元&#…

HTML学习笔记:(一)基础方法

Html格式 里面文件使用平台为&#xff1a;w3school 1、基础功能&#xff1a; <html><head> <title>这是我的第一个html页面,会显示在浏览器的标题栏中</title> </head> <!--修改背景颜色 --> <body bgcolor"yellow"> …

如何合理利用多个中国大陆小带宽服务器?

我们知道在中国大陆带宽单价非常昂贵&#xff0c;一个1Mbps 带宽的机子一年就得卖好几百人民币&#xff0c;这是不值当的&#xff0c;当然我们可以去低价漂阿里云、腾讯云的轻量服务器&#xff0c;99包年&#xff0c;但是带宽太小很难崩。 所以&#xff0c;我们必须构建一个能够…

钉钉直播回放怎么下载到本地

钉钉直播回放如何下载到本地,本文就给大家解密如何下载到本地 工具我已经给大家打包好了 钉钉直播回放下载软件链接&#xff1a;https://pan.baidu.com/s/1_4NZLfENDxswI2ANsQVvpw?pwd1234 提取码&#xff1a;1234 --来自百度网盘超级会员V10的分享 1.首先解压好我给大家…

使用脚本启动和关闭微服务

使用脚本启动和关闭微服务 一、前言二、启动1、处理每个服务2、编写启动脚本3、其他启动脚本&#xff08;无效&#xff0c;有兴趣可以看看&#xff09;4、启动 三、关闭1、测试拿服务进程id的命令是否正确2、编写关闭脚本3、关闭 一、前言 假如在服务器中部署微服务不使用 doc…

ElasticSearch:基础操作

一、ES的概念及使用场景 ElasticSearch是一个分布式&#xff0c;高性能、高可用、可伸缩、RESTful 风格的搜索和数据分析引擎。通常作为Elastic Stack的核心来使用 我们通过将ES 和 mysql对比来更好的理解 ES&#xff0c;ES和mysql相关的基本概念的对比表格如下&#xff1a; …

从Linux角度具体理解程序翻译过程-----预处理、编译、汇编、链接

前言&#xff1a; 在C语言中&#xff0c;我们知道程序从我们所写的代码到可执行执行的过程中经历了以下过程 1.预处理 2.编译 3.汇编 4.链接 可以通过下图来理解 翻译过程 1.预处理 该过程主要进行以下操作&#xff1a; (1)头文件的包含 (2)define定义符号的替换&#xff…

稀碎从零算法笔记Day52-LeetCode:从双倍数组中还原原数组

题型&#xff1a;数组、贪心 链接&#xff1a;2007. 从双倍数组中还原原数组 - 力扣&#xff08;LeetCode&#xff09; 来源&#xff1a;LeetCode 题目描述 一个整数数组 original 可以转变成一个 双倍 数组 changed &#xff0c;转变方式为将 original 中每个元素 值乘以 …

EFK架构部署

7.17版本 准备工作 配置域名 cat >> /etc/hosts <<EOF 192.168.199.149 elk149daidaiedu.com 192.168.199.150 elk150daidaiedu.com 192.168.199.155 elk155daidaiedu.com EOF 修改主机名 hostnamectl set-hostname elk155.daidaiedu.com 免密登录 ssh-keyge…

# 从浅入深 学习 SpringCloud 微服务架构(一)基础知识

从浅入深 学习 SpringCloud 微服务架构&#xff08;一&#xff09;基础知识 1、系统架构演变&#xff1a; 1&#xff09;单体应用架构。如电商项目。 用户管理、商品管理、订单管理&#xff0c;在一个模块里。 优点&#xff1a;开发简单&#xff0c;快速&#xff0c;适用于…

VScode远程连接虚拟机提示: 无法建立连接:XHR failed.问题解决方案

一问题描述 在vscode下载插件Remote-SSH远程连接虚拟机时提示无法建立连接 二.最大嫌疑原因&#xff1a; 我也是在网上找了许久&#xff0c;发现就是网络原因&#xff0c;具体不知&#xff0c;明明访问别的网页没问题&#xff0c;就是连不上&#xff0c;然后发现下载vscode的…

前端CSS基础4(像素,颜色,字体属性大小复合属性)

前端CSS基础4&#xff08;像素&#xff0c;颜色&#xff0c;字体属性大小复合属性&#xff09; CSS代码编写位置CSS像素CSS颜色CSS常用字体属性和大小字体的复合属性 CSS代码编写位置 在HTML文件的头部使用 <head><style>/* 在这里编写CSS代码 */</style> …

Meta Llama 3强势来袭:迄今最强开源大模型,性能媲美GPT-4

前言 Meta的最新语言模型Llama 3已经发布&#xff0c;标志着在大型语言模型&#xff08;LLM&#xff09;领域的一次重大突破&#xff0c;其性能在行业内与GPT-4相媲美。此次更新不仅提升了模型的处理能力和精确性&#xff0c;还将开源模型的性能推向了一个新的高度。 Huggingf…