(4)步态识别论文研读——用于步态识别的分层时空表示学习

news2025/2/6 19:42:38

论文题目Hierarchical Spatio-Temporal Representation Learning for Gait Recognition

论文地址

https://arxiv.org/abs/2307.09856

1.摘要

步态识别是一种生物特征技术,通过其独特的行走方式识别个体,适用于无约束环境,具有广泛的应用。虽然目前的方法侧重于利用基于身体部位的表示,但它们通常忽略了局部运动模式之间的层次依赖关系。在本文中,我们提出了一个分层时空表示学习 (HSTL) 框架,用于从粗到细提取步态特征。我们的框架从层次聚类分析开始,从全身恢复多级身体结构到局部细节。接下来,设计了一个自适应基于区域的运动提取器(ARME)来学习与区域独立的运动特征。然后,所提出的 HSTL 以自上而下的方式堆叠多个 ARME,每个 ARME 对应于层次结构的特定分区级别。自适应时空池(ASTP)模块用于捕获不同层次的步态特征,以执行分层特征映射。最后,利用帧级时间聚合(FTA)模块通过多尺度时间下采样来减少步态序列中的冗余信息。在CASIA-B、OUMVLP、GREW和Gait3D数据集上的大量实验表明,我们的方法在保持模型精度和复杂性之间合理平衡的同时,优于最先进的方法

思考:1.分层是怎么体现的?          2 从粗到细 从整体到局部提取特征 设计了自适应基于区域的运动提取器ARME  怎么自适应 怎么基于区域 3如何自顶向下的方式堆叠多个ARME 什么是自顶向下4.ASTP自适应时空池捕获不同层次的步态特征 执行分层映射 怎么捕获步态特征 5FTP帧级别的时间聚合采取多尺度时间下采样减少冗余信息,怎么多尺度下采样 怎么减少冗余?

1 局部运动模式之间的层次依赖关系是什么 ?

例如大腿和小腿,由于它们之间的强运动相关性而重叠  如头部和脚,很容易分离 表明语义体区域可以在更高的聚类级别捕获,而无需精确定位身体部位,作者认为之前的基于整体和部分的表示都不够全面,基于整体的没有考虑到局部之间的细节,基于part 的 区域的划分 没有考虑到运动特征之间的依赖关系,比如大腿小腿 就有强运动关系  所以充分对区域进行划分 是关键问题。仅仅一次划分是不够的还要从整体到局部的由大面积到小面积划分。所以提出了分层的概念 level1提取全部 level2 分割成两部分 level 3分成四部分 level4 分成8部分  

2基于区域的运动提取器(ARME)来怎么学习与区域独立的运动特征?

在与个体身体区域对应的情况下使用了非共享3D卷积。这些区域是通过在固定水平分区上执行的分层聚类过程预先识别的,允许每个身体区域覆盖一个或多个身体部位

分层聚类的过程 对身体进行了预先识别  哪些部位该划分到一起 哪些身体部位是强相关的 是提前学习到的   提前划分了之后 在划分好的区域之内执行非共享3D卷积  ,因为非共享 所以参数独立 所以学习到了独立的运动特征

3 执行完运动特征提取 ,如何将提取到的特征进行映射嵌入   也就是说 自适应时空池的 作用是什么?

特征提取器提取到的特征往往是高维度,含参量比较大的,将原始的高维特征空间映射到一个低维连续的向量空间。这样做可以减少计算复杂性,使得模型在训练过程中能够更快地收敛,提高学习效率。分层嵌入是为了进一步优化和处理提取的特征

4.框架级时间聚合  如何在压缩序列长度的同时保留重要的运动信息?

2.introduction
与其他生物识别技术(如指纹、虹膜和面部)不同,人类步态可以在远处捕获,而不需要受试者合作[34]。通过评估个体特定的行走模式,步态识别已被应用于犯罪调查[31,29]、体育科学[17,6]和智能交通[47]等多个领域。然而,由于视点[28,18]、遮挡[33,43]和佩戴[50,48]的巨大变化,识别可能具有挑战性。

为了解决这些问题,已经提出了各种方法来从轮廓序列[4,25,16,15,55]、3D人体结构[1,22,42,59,20]或步态模板[10,35,51]中提取步态特征。基于轮廓的步态识别方法由于易于从原始视频中获取轮廓,同时保留必要的时间信息,受到越来越多的关注。输入轮廓的对齐使得一些方法可以通过水平切片轮廓图像[56]或中间层特征来提取局部身体特征[8,27]。这种分区策略,首先在人员重新识别 (ReID) [38] 中引入,已被证明对步态识别有效 [4, 8, 12, 3]。然而,上述基于部分的方法的主要限制是它们没有考虑局部身体运动的分层性质[2]。例如,在步态周期中,脚和下身具有不同的运动特征。因此,分别对待这些身体区域并调查它们的部分-整体关系很重要。我们的动机源于对身体部位特定的运动线索的检查。具体来说,CASIA-B[52]数据集中的每个原始步态序列沿身体轴均匀划分为8个部分序列,使每个划分大致匹配一个特定的身体部位,所有身体部位分布如图1左侧所示。值得注意的是,由于行走运动学的巨大变化,一些部位,如头部和脚,很容易分离。而其他部分,例如 大腿和小腿,由于它们之间的强运动相关性而重叠。此外,为了识别部分序列之间的关系结构,进行了层次聚类分析 [7]。结果如图1右侧所示,表明语义体区域可以在更高的聚类级别捕获,而无需精确定位身体部位。基于以上发现,我们提出了一种新的分层时空表征学习(HSTL)框架用于步态表征。HSTL框架由多个自适应基于区域的运动提取器(ARME)模块组成,这些模块被堆叠以学习步态序列中隐含的分层运动模式(如图1所示)。在ARME模块中,为了考虑区域间的差异,在与个体身体区域对应的情况下使用了非共享3D卷积。这些区域是通过在固定水平分区上执行的分层聚类过程预先识别的,允许每个身体区域覆盖一个或多个身体部位。因此,ARME越深,它倾向于提取更多的局部特征。此外,提出了一种自适应时空池(ASTP)模块,该模块与相应层次的ARME模块耦合,获得分层步态嵌入。此外,步态速度或采样频率的变化可能导致步态序列中出现多个冗余帧。虽然提出了几种时间融合策略,但它们都丢失了空间信息[8,15]或缺乏适应性[27,25]。为了解决这个问题,我们提出了一种框架级时间聚合策略(FTA)。FTA在多个时间步融合时间特征,在压缩序列长度的同时保留重要的运动信息。

本文的主要贡献总结如下

我们提出了一种用于步态识别的分层时空表征学习(HSTL)框架。HSTL考虑了步态运动中身体区域的依赖性,保证了结构设计的简单性和可扩展性。•我们引入了一个基于自适应区域的运动提取器(ARME)模块来学习步态序列的区域独立时空表示,一个自适应时空池(ASTP)模块来执行分层特征映射,以及一个帧级时间聚合(FTA)策略来通过去除冗余帧来压缩步态序列。•在广泛使用的步态数据集CASIA-B[52]上进行的大量实验,包括OUMVLP[39]、GREW[60]和Gait3D[59],表明我们的方法达到了先进水平的同时在模型准确性和复杂性之间提供了适当的权衡。

3.related work 略

3方法

 在本节中,我们详细描述了HSTL,

包括自适应基于区域的运动提取器(ARME)、

自适应时空池(ASTP)和帧级时间聚合(FTA)。

1.预处理 在预处理阶段,将每个步态序列Si水平均匀划分为k个部分序列,从1到k索引。然后,对这些部分序列应用层次聚类算法[7]来获得步态运动的通用层次结构表示为   

通过阅读代码 在代码中 k=8   L=4  一共有四层

2.先看一下最终的输出 一系列特征的concat 拼接

主分支输出的Y^{^{M}}是 也就是通过最后一个ASTP(4)的输出,输出的这些蓝色的特征

输入Sin 经过ARME(1)——ARME(2)——FTA—— ARME(3)——ATTP(4)  得到最后的Y^{^{M}}

3.辅助分支(2)式字 后面那几项 分别的 辅助分支的四个输出 绿 黄 粉 浅蓝输出 执行分层映射 得到最终的Gait embeiddings  然后对gaitembeddings 执行全连接 计算交叉熵损失和三元组损失

3.2. Adaptive Region-based Motion Extractor (ARME)

基于自适应区域的运动提取器 (ARME) 旨在提取与步态序列中不同人体部位相关的独立时空模式。与现有的沿高度轴均匀切片步态图像或序列的方法不同[56,8,27,25],ARME考虑了不同部分序列之间的内在层次关系,这允许ARME有效地捕获每个部分的独特行走运动学

 Hj 的表达不是很理解

 取绝对值这里不是很懂,根绝表2    P2={{1, 2, 3, 4, 5},{6, 7, 8}}  Hj 的长度应该是按照划分的比例对原长度进行划分    若是第一部分{1, 2, 3, 4, 5}个人理解 

 这个式字的意思是集合内元素个数求和 则第一部分长度(5/8)H  第二部分是3/5 H  如果H是64 则第一部分长度是40 第二部分长度是24 

f. 对每一部分执行独立的3D卷积,有效地捕获每个部分的独特行走运动学模式

3.3. Adaptive Spatio-Temporal Pooling(ASTP)

设计了自适应时空池化(ASTP)来构建分层特征映射(如图2所示)。与 3.2 节中描述的 ARME 模块类似,层次结构 P 使我们能够获得第 l 层的第 j 个区域,表示为 X(l)j。对应的ASTP,记为Γ(l)

Xj通过一个 帧级别全局最大池化MAX将T 维度变为1得到输出 经过一个全连接层扩大通道维度  通过GeMj 后得到最终的输出    C(l)×1×Kl ×1

3.4. Frame-level Temporal Aggregation

由于采集帧速率和速度频率等因素,步态序列可能包含几个冗余帧。为了减少计算成本,一些方法通过聚合步态序列的局部剪辑来压缩步态序列[27,25]。在提出的帧级时间聚合(FTA) 策略中,我们考虑了步态结构和多尺度时间信息。给定第 l 层的第 j 个步态区域 X(l)j ,我们首先使用以下公式融合两个时间尺度的特征:

 Eq.(5)、的输出是两个尺度 U (l)j,1 和 U (l)j,2 的聚合结果的元素求和,它将输入的时间维度从 T 减少到 T/3。

然后,FTA 模型产生帧级权重,可以表示为:其中 GAP (·) 表示沿空间维度的全局平均池化。FCj,1 (·) 和 FCj,2 (·) 是两个独立的全连接层,用于生成帧选择加权张量

 这个帧级别时间聚合看起来公式有些麻烦

由图和公式分析我们可以分析得出实现过程,特征进行分组以后,每个部分经过了两个3D池化操作 两个池化操作的输出结果大小是一样的(C, T?3 , H(l)j , W )两个尺度的聚合结果的元素求和 

FTA 模型产生帧级权重,其中 GAP (·) 表示沿空间维度的全局平均池化。FCj,1 (·) 和 FCj,2 (·) 是两个独立的全连接层,用于生成帧选择加权张量,权重在两个尺度上进一步归一化,可以写成如下

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1598589.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

链表OJ1——删除链表中等于给定值 val 的所有节点

题目 力扣OJ链接:. - 力扣(LeetCode) 解法 我们来看看这个题目啊,怎么做呢? 有两种解法 三指针法 我们完全可以定义三个指针来进行这个删除操作 假设我们要移除的是2 这样子就完成了 特殊情况 开头——假设我们…

一文速览铁威马TOS 6全新“文件管理”

TOS 6 Beta已经上线一段时间了,各位铁粉用着怎么样呢?今天就和大家分享,TOS 6全新文件管理。 为了向用户提供更流畅、更便捷的文件管理体验,铁威马的研发团队积极借鉴了Windows OS和Mac OS在文件管理方面的优点,投入巨…

系统学c#:2、基础语法(关键字、标识符、数据类型、变量、常量、字面量、运算符、类型转换)

关键字: 关键字是编程语言中具有特殊含义的单词或符号,它们通常被编程语言用于表示特定的语法结构、操作或约定。在C#中,关键字具有特定的语法和功能,用于定义语言的基本结构和规则。 以下是一些C#中常用的关键字及其功能&#xf…

使用colab进行yolov5小demo练习

输入一张动物的图片进行目标检测和分类 !pip install yolov5 import torch from PIL import Image from torchvision import transforms from yolov5.models.experimental import attempt_load from yolov5.utils.general import non_max_suppression# 加载YOLOv5模型 device …

Gradle 构建自动化工具入门

🏷️个人主页:牵着猫散步的鼠鼠 🏷️系列专栏:Java全栈-专栏 🏷️个人学习笔记,若有缺误,欢迎评论区指正 目录 1. 前言 2. 简介 3. 常见的项目构建工具 4. 安装 4.1. 安装说明 4.2. 下载…

【小风扇/移动电源升压芯片方案】FP6291是一款异步内置MOS管升压恒压芯片 小封装(SOT23-6)设计简单外围器件少

芯片概述 FP6291是一款异步内置MOS管升压恒压芯片,与肖特基和电感形成回路组成升压架构; 工作电压2.6-5.5V,可适用已单节电池和5V供电升压; 恒压基准(VFB)为0.6V2%,误差小提高输出的准确度&…

前端开发攻略---用JavaScript将数字转换为中文。支持万亿以下的正整数;深入解析:JavaScript 函数详解数字转换为中文的实现原理与流程

1、演示 2、实现思路 函数名为 toChineseNumber,它的作用是将一个数字转换成对应的中文表示形式。这个函数是一个自定义的实现,通过一系列步骤将数字转换成中文。我会逐步解释每一部分,以确保您对代码的理解清晰明了。 首先,让我们…

2024第十五届蓝桥杯 C/C++ B组 参赛经历分享(以及部分题解)

前言 emmmmmm,dp杯居然不考dp了,蓝桥一直没怎么出过的高精度居然也考了(当时居然因为没太复习那块知识直接模拟混分了),题量也改了,总的来说反而简单了?。。。还好天津竞赛弱省,但愿…

STM32学习和实践笔记(12):蜂鸣器实验

蜂鸣器主要分为两种,一种是压电式的无源蜂鸣器,一种是电磁式的有源蜂鸣器。 有源和无源是指其内部有没有振荡器。 无源的没有内部振荡器,需要输入1.5-5KHZ的音频信号来驱动压电蜂鸣片发声。 有源的内部有振荡器,因此只需要供给…

Jackson 2.x 系列【24】Spring Web 集成

有道无术,术尚可求,有术无道,止于术。 本系列Jackson 版本 2.17.0 源码地址:https://gitee.com/pearl-organization/study-jaskson-demo 文章目录 1. 前言2. Spring Web3. Jackson2ObjectMapperBuilder4. Jackson2ObjectMapperFa…

STL —— priority_queue

博主首页: 有趣的中国人 专栏首页: C专栏 本篇文章主要讲解 priority_queue 的相关内容 目录 1. 优先级队列简介 基本操作 2. 模拟实现 2.1 入队操作 2.2 出队操作 2.3 访问队列顶部元素 2.4 判断优先队列是否为空 2.5 获取优先队列的大小 …

分布式向量数据库-安装部署

下载 GitHub - pgvector/pgvector: Open-source vector similarity search for Postgres 源码编译 ##文件解压缩 unzip pgvector-0.6.2.zip ##编译 make && make install 功能验证 #安装扩展CREATE EXTENSION vector;#创建测试表CREATE TABLE items (id bigseri…

mysql题目1

tj11: ​ select * from t_student where grade 大一 and major 软件工程 ​ tj12: SELECTt_student.name, count(t_choice.cid)FROMt_choiceINNER JOINt_courseON t_choice.cid t_course.idINNER JOINt_studentON t_choice.sid t_student.id GROUP BYt_choice.sid HAVIN…

【Unity 实用工具篇】 | UIEffect 实现一系列UGUI特效,灰度、负片、像素化特效

前言 【Unity 实用工具篇】 | UIEffect 实现一系列UGUI特效,灰度、负片、像素化特效一、UGUI特效插件:UIEffect1.1 介绍1.2 效果展示1.3 使用说明及下载 二、组件属性面板三、代码操作组件四、组件常用方法示例4.1 使用灰度特效做头像(关卡)选择 总结 前…

win11电脑驱动怎么更新,windows11更新驱动

驱动是指计算机里软件的程序,硬件的运作离不开驱动的支持,因为驱动就是使得硬件和电脑系统沟通的桥梁。既然驱动如此重要,那么不装肯定不行,如果有问题,也要及时地修复和更新。最近,有位win11用户,想要了解win11电脑驱动怎么更新?接下来,教程会带来两种更新win11驱动的…

CodeForce[1500-2000]——1948D Tandem Repeats?

大概题目意思就是:给你一个只有小写字母和问号的字符串,可以在头或尾删除任意长度,得到一个字串,并且该字串要满足长度为偶数,前一半和后一半(问号可以匹配任意字符)相等,求这样的字…

专治Java底子差,线程操作篇(2)

💗推荐阅读文章💗 🌸JavaSE系列🌸👉1️⃣《JavaSE系列教程》🌺MySQL系列🌺👉2️⃣《MySQL系列教程》🍀JavaWeb系列🍀👉3️⃣《JavaWeb系列教程》…

2024五一杯数学建模A题B题C题思路汇总分析

文章目录 1 赛题思路2 比赛日期和时间3 组织机构4 建模常见问题类型4.1 分类问题4.2 优化问题4.3 预测问题4.4 评价问题 5 建模资料 1 赛题思路 (赛题出来以后第一时间在CSDN分享) https://blog.csdn.net/dc_sinor?typeblog 2 比赛日期和时间 报名截止时间:2024…

设计模式——2_9 模版方法(Template Method)

人们往往把任性也叫做自由,但是任性只是非理性的自由,人性的选择和自决都不是出于意志的理性,而是出于偶然的动机以及这种动机对感性外在世界的依赖 ——黑格尔 文章目录 定义图纸一个例子:从文件中获取信息分几步?Rea…

Hive概述与基本操作

一、Hive基本概念 1.什么是hive? (1)hive是数据仓库建模的工具之一 (2)可以向hive传入一条交互式的sql,在海量数据中查询分析得到结果的平台 2.Hive简介 Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS…