(ICIP-2022)GAITTAKE:通过时间注意和关键点引导嵌入进行步态识别

news2025/1/19 13:17:40

GAITTAKE:通过时间注意和关键点引导嵌入进行步态识别

论文题目:GAITTAKE: GAIT RECOGNITION BY TEMPORAL ATTENTION AND KEYPOINT-GUIDED EMBEDDING

论文是华盛顿大学发表在ICIP 2022的工作

论文地址

ABSTRACT

步态识别是指根据远距离采集的视频数据,根据人的体型和行走方式对人进行识别或识别,广泛应用于犯罪预防、法医鉴定和社会保障等领域。然而,据我们所知,大多数现有方法都使用外观、姿势和时间特征,而没有考虑用于全局和局部信息融合的学习时间注意机制。在本文中,我们提出了一种新颖的步态识别框架,称为时间注意和关键点引导嵌入(GaitTAKE),它有效地融合了基于时间注意的全局和局部外观特征以及时间聚合的人体姿势特征。实验结果表明,我们提出的方法在 CASIA-B 步态数据集上实现了步态识别的新 SOTA,rank-1 准确率为 98.0%(正常)、97.5%(包)和 92.2%(外套); OU-MVLP 步态数据集的准确率为 90.4%。

索引词——步态识别、时间注意力、人体姿势估计

1. INTRODUCTION

步态识别是利用远距离采集的视频数据,根据人的体型和行走方式对人进行识别或识别,广泛应用于犯罪预防、法医鉴定、社会保障等领域。行人重识别(ReID)是其中一种计算机视觉社区中最受欢迎的研究。然而,仅使用外观特征不足以应对一些困难的场景,例如同一身份穿着不同的衣服、低分辨率视频、黑暗照明情况。因此,步态识别可以作为克服这些问题的有效补充或替代方案。

文献中有两种流行的步态识别方法,即基于模型的 [1, 2, 3, 4] 和基于外观的 [5, 6, 7, 8]。基于模型的方法侧重于连接的人类特征,例如链接的大小或关节角度,这些特征可以容忍由于衣服或配饰而导致身份的外观变化。这些方法需要预处理原始 RGB 视频以捕捉姿势结构或轮廓。另一方面,一些研究提出了基于外观的步态识别方法,该方法使用 RGB 图像序列作为输入来直接识别身份。然而,基于模型的方法丢失了身体形状信息,并且需要高精度的人体姿态估计结果来进行步态识别。此外,基于外观的方法对身份的协变量(例如,着装和携带条件)敏感。

在本文中,我们提出了一种新的框架,以称为 GaitTAKE 的原则方式生成时间注意和关键点引导嵌入。 GaitTAKE 的直觉是同时考虑全局和局部外观特征,然后通过时间信息训练轮廓嵌入的学习。因此,我们不仅可以通过时间池来解决缺陷,还可以将时间信息融合到全局和局部特征中。此外,我们将人体姿势信息与上述全局和局部特征相结合,使我们的方法可以在步态识别的穿着外套场景中实现大量改进,这是步态识别中最困难的情况,因为外套将覆盖大部分人类腿部的面积。 GaitTAKE 使用全局和局部卷积神经网络 [9] 以及具有时间注意机制的人体姿势信息在多个帧上形成嵌入。根据我们的实验结果,GaitTAKE 在 CASIA-B [10] 和 OUMVLP [11] 基准测试中实现了最先进的性能。

2. RELATED WORKS

由于深度学习的发展,许多研究人员利用卷积神经网络 (CNN) 来实现步态识别的巨大改进 [8、12、13、14、15、16]。特征表示能力强,例如,仅基于CNN特征和精心设计的损失函数就可以识别跨视角步态序列。

在利用时间信息方面,有两种深度学习方法:循环神经网络 (RNN) 和 3D CNN。在 RNN 中,特征是通过一系列连续帧 [16、17、18] 学习的。对于 3D CNN,可以通过 3D 张量 [15、19、9] 提取时空信息。尽管如此,使用 3D CNN 进行步态识别存在局限性,即可变长度序列缺乏灵活性。

3. PROPOSED METHOD

3.1. TA-based Global and Local Feature Fusion


如图 1 所示,所提出的特征提取网络架构旨在同时从剪影图像中提取全局和局部特征信息以及时间信息。首先,应用 3D 卷积从剪影图像中提取更具代表性的特征,因为 3D 卷积网络被证明是步态识别的有效特征提取器 [9,15,19]。之后,通过将图像水平划分为几个身体分区来提取局部信息,并通过整个剪影图像提取全局信息。为了将时间信息聚合到局部和全局特征图中,两个 3D 卷积分别应用于局部特征图和全局特征图。局部特征图(即身体分区特征)共享相同的 3D 卷积权重。根据 [9],生成的全局和局部特征可以添加到一个特征图中,以集成全局和局部信息。然后,使用相同的网络配置和不同的卷积核重复这种全局和局部特征融合操作 n n n 次,以生成更稳健的全局和局部融合特征。

生成基于 TA 的全局和局部特征融合的第一步是首先分别生成全局和局部特征。我们用 X ∈ R c 1 × T × h × w X \in \mathbb{R}^{c_1 \times T \times h \times w} XRc1×T×h×w表示一个长度为 T T T的剪影序列(图像大小为 h × w h \times w h×w), { X local  i ∣ i = 1 , ⋯   , m } \left\{X_{\text {local }}^i \mid i=1, \cdots, m\right\} {Xlocal ii=1,,m}表示第 m m m个局部步态分区特征。 c c c是特征图的通道大小。因此,我们可以将全局步态特征 f global  f_{\text {global }} fglobal 表示为
f global  ( X ) = ϕ global  3 × 3 × 3 ( X ) ∈ R c 2 × T × h × w , f_{\text {global }}(X)=\phi_{\text {global }}^{3 \times 3 \times 3}(X) \in \mathbb{R}^{c_2 \times T \times h \times w}, fglobal (X)=ϕglobal 3×3×3(X)Rc2×T×h×w,
其中 ϕ global  3 × 3 × 3 \phi_{\text {global }}^{3 \times 3 \times 3} ϕglobal 3×3×3表示内核大小为 3 × 3 × 3 3 \times 3 \times 3 3×3×3的 3D 卷积运算。对于局部步态特征 f local  f_{\text {local }} flocal ,类似的机制适用于共享 3D 卷积核,
f local  ( X ) = f local  ( { X local  i ∣ i = 1 , ⋯   , m } ) = ϕ local  3 × 3 × 3 ( X local  1 ) ⊕ ⋯ ⊕ ϕ local  3 × 3 × 3 ( X local  m ) ∈ R c 2 × T × h × w \begin{aligned} f_{\text {local }}(X) & =f_{\text {local }}\left(\left\{X_{\text {local }}^i \mid i=1, \cdots, m\right\}\right) \\ & =\phi_{\text {local }}^{3 \times 3 \times 3}\left(X_{\text {local }}^1\right) \oplus \cdots \oplus \phi_{\text {local }}^{3 \times 3 \times 3}\left(X_{\text {local }}^m\right) \\ & \in \mathbb{R}^{c_2 \times T \times h \times w} \end{aligned} flocal (X)=flocal ({Xlocal ii=1,,m})=ϕlocal 3×3×3(Xlocal 1)ϕlocal 3×3×3(Xlocal m)Rc2×T×h×w
其中 ϕ local  3 × 3 × 3 \phi_{\text {local }}^{3 \times 3 \times 3} ϕlocal 3×3×3是内核大小为 3 × 3 × 3 3 \times 3 \times 3 3×3×3的共享 3D 卷积层; ⊕ \oplus 表示连接操作。

TA 融合模块由两种不同结构的全局和局部卷积 (GLConv) 层组成,即 GLConvA 和 GLConvB。图 1 显示该模块中有 n n n个 GLConv 层,用于生成全局和局部信息融合特征 f G L ( n = 3 ) f_{G L}(n=3) fGL(n=3)。最后一个 GLConv 层是 GLConvB,其余 GLConv 层是 GLConvA,
G L C o n v A ( X ) = f global  ( X ) + f local  ( X ) ∈ R c 2 × T × h × w . G L C o n v B ( X ) = f global  ( X ) ⊕ f local  ( X ) ∈ R c 2 × T × 2 h × w . \begin{aligned} G L C o n v A(X) & =f_{\text {global }}(X)+f_{\text {local }}(X) \\ & \in \mathbb{R}^{c_2 \times T \times h \times w} . \\ G L C o n v B(X) & =f_{\text {global }}(X) \oplus f_{\text {local }}(X) \\ & \in \mathbb{R}^{c_2 \times T \times 2 h \times w} . \end{aligned} GLConvA(X)GLConvB(X)=fglobal (X)+flocal (X)Rc2×T×h×w.=fglobal (X)flocal (X)Rc2×T×2h×w.
因此,我们可以应用展平操作 ξ ( ⋅ ) \xi(\cdot) ξ()来得到全局和局部信息融合的特征 f G L f_{G L} fGL
f G L = ξ ( G L C o n v B ( G L C o n v A ( G L C o n v A ( X ) ) ) ) ∈ R T × D G L , \begin{aligned} f_{G L} & =\xi(G L C o n v B(G L C o n v A(G L C o n v A(X)))) \\ & \in \mathbb{R}^{T \times D_{G L}}, \end{aligned} fGL=ξ(GLConvB(GLConvA(GLConvA(X))))RT×DGL,
其中 D G L D_{G L} DGL f G L f_{G L} fGL的维度。

在获得全局和局部信息融合特征 f G L f_{G L} fGL后,我们可以开始应用 TA 机制生成最终的嵌入 f T G L f_{T G L} fTGL。首先,每个主题的序列被分成几个片段。假设剪辑大小为 L L L S = ⌊ T L ⌋ S=\left\lfloor\frac{T}{L}\right\rfloor S=LT是剪辑的数量, D D D表示剪辑级特征的维度。
f G L c l i p = { f G L c l i p , 1 , ⋯   , f G L c l i p , S } ∈ R S × L × D f_{G L}^{c l i p}=\left\{f_{G L}^{c l i p, 1}, \cdots, f_{G L}^{c l i p, S}\right\} \in \mathbb{R}^{S \times L \times D} fGLclip={fGLclip,1,,fGLclip,S}RS×L×D
然后,有两个卷积层用于 TA 模块 T G L ( ⋅ ) \mathcal{T}_{G L}(\cdot) TGL()中的每个剪辑以产生特征向量。我们随后将 softmax 层应用于该特征向量以生成 1 × L 1 \times L 1×L-dim 注意力向量 A G L \mathcal{A}_{G L} AGL,用于对帧级特征进行加权,以便可以创建剪辑级特征 f T G L c l i p , i ∈ R 1 × D f_{T G L}^{c l i p, i} \in \mathbb{R}^{1 \times D} fTGLclip,iR1×D
f T G L c l i p , i = T G L ( f G L c l i p , i ) = A G L ⋅ f G L c l i p , i ∈ R 1 × D . A G L = σ G L ( δ G L , 2 ( δ G L , 1 ( f G L c l i p , i ) ) ) ∈ R 1 × L . \begin{gathered} f_{T G L}^{c l i p, i}=\mathcal{T}_{G L}\left(f_{G L}^{c l i p, i}\right)=\mathcal{A}_{G L} \cdot f_{G L}^{c l i p, i} \in \mathbb{R}^{1 \times D} . \\ \mathcal{A}_{G L}=\sigma_{G L}\left(\delta_{G L, 2}\left(\delta_{G L, 1}\left(f_{G L}^{c l i p, i}\right)\right)\right) \in \mathbb{R}^{1 \times L} . \end{gathered} fTGLclip,i=TGL(fGLclip,i)=AGLfGLclip,iR1×D.AGL=σGL(δGL,2(δGL,1(fGLclip,i)))R1×L.
其中 σ G L ( ⋅ ) \sigma_{G L}(\cdot) σGL()是softmax操作; δ G L , 1 \delta_{G L, 1} δGL,1 δ G L , 2 \delta_{G L, 2} δGL,2分别表示第一和第二卷积层。

最后,将一个平均池化层 ψ G L ( ⋅ ) \psi_{G L}(\cdot) ψGL()应用于这些剪辑级嵌入 f T G L clip  f_{T G L}^{\text {clip }} fTGLclip 以生成最终嵌入 f T G L f_{T G L} fTGL
f T G L = ψ G L ( f T G L c l i p ) ∈ R 1 × D f_{T G L}=\psi_{G L}\left(f_{T G L}^{c l i p}\right) \in \mathbb{R}^{1 \times D} fTGL=ψGL(fTGLclip)R1×D

3.2. Temporal Aggregated Human Pose Feature


在我们的框架中,我们不仅考虑了外观嵌入特征,还考虑了人体姿势特征,因为步态识别与相应的人体姿势显着相关。我们使用关键点 R-CNN [20] 来获取人体姿势信息。由于并非所有步态识别数据集都包含人体姿势信息,因此我们使用在 COCO 数据集上训练的预训练模型,根据可用的 RGB 图像作为ground-truth人体姿势标签来推断人体姿势信息。然后,我们使用人体姿势标签来训练基于剪影图像的关键点 R-CNN,以便我们可以使用训练好的关键点 R-CNN 模型来推断剪影图像上的人体姿势信息。

估计人体姿势后,我们使用生成的 2D 关键点(身体关节)作为步态识别的额外特征。每帧人体姿势特征 K \mathcal{K} K的维度为17×3,其中17为关节数,3表示2D关节坐标 ( x , y ) (x, y) (x,y)和对应的置信度得分 c c c。与外观特征类似,我们也将时间注意力技术应用于人体姿势特征,将帧级特征聚合为基于剪辑的人体姿势特征,然后将时间聚合的人体姿势特征与 f T G L f_{T G L} fTGL连接起来作为最终表示 f T A K E c l i p f_{T A K E}^{c l i p} fTAKEclip用于步态识别。

因此,我们使用广义均值池化 (GeM) [9] 将空间信息整合到特征图中。GeM 可以有效地从空间信息中生成更稳健的表示,传统上,研究人员通过加权和融合平均池和最大池结果的特征,另一方面,GeM 可以直接融合这两种不同的操作以形成特征图, p = 1 p=1 p=1等于平均池化, p = ∞ p=\infty p=等于最大池化,
f G e M = ( ψ G e M ( ( f T A K E ) p ) ) 1 p f_{G e M}=\left(\psi_{G e M}\left(\left(f_{T A K E}\right)^p\right)\right)^{\frac{1}{p}} fGeM=(ψGeM((fTAKE)p))p1
其中 ψ G e M ( ⋅ ) \psi_{G e M(\cdot)} ψGeM()是平均池化操作。

3.3. Loss Function


特征提取的最后一步是将 C C C个不同的全连接层应用于同一个 f G e M f_{G e M} fGeM,生成 C C C个一维嵌入f。因此,每个主题可以由 C C C个不同的嵌入表示,并且主题的所有 f f f用于独立计算损失。我们架构的损失函数是三元组损失,它被广泛使用并被证明在 ReID 任务中具有优越的性能。

三元组损失函数的定义如下:
l triplet  ( a ) = [ m + ∑ p ∈ P ( a ) w p D a p − ∑ n ∈ N ( a ) w n D a n ] + , l_{\text {triplet }}(a)=\left[m+\sum_{p \in P(a)} w_p D_{a p}-\sum_{n \in N(a)} w_n D_{a n}\right]_{+}, ltriplet (a)= m+pP(a)wpDapnN(a)wnDan +,
其中 m m m是margin, D a p D_{a p} Dap D a n D_{a n} Dan分别表示anchor样本 a a a形成正例和负例的距离。此外, w p w_p wp w n w_n wn表示正例和负例的权重。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/653736.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【服务器数据恢复】OneFS文件系统下误删除文件的数据恢复案例

EMC Isilon存储结构: Isilon群集存储系统使用的是分布式文件系统OneFS。Isilon群集存储系统的每个节点均为单一OneFS文件系统,Isilon在进行横向扩展时不会影响数据的正常使用。Isilon群集存储系统所有节点在工作时都提供相同的功能,节点没有主…

js数组高阶函数——map()方法

js数组高阶函数——map方法 map()语法map()的基本使用map()的优缺点map()的使用场景去重双重for循环配合splie去重map循环配合Array.from去重set()去重filter…

es中索引那些事

0、前言 在了解倒排索引之前先理解下索引的作用: 查询数据的时候,最耗时的操作并不是CPU计算,也不是内存聚合,而是去磁盘将文档查到并拉取回来的过程。我们都知道在磁盘IO的过程中,顺序读写效率高于随机读写&#xf…

JavaWeb学习路线(4)——请求响应与分层解耦

一、概述 二、请求 (一)概念: 全名为HttpServletRequest,其目标是获取请求数据。 (二)简单请求: web端发送基本数据类型数据到服务器进行处理。 1、获取方式 (1)原…

ESP32学习之JSON,和接入心知天气

注意:手机热点或者网络不能开5.0GHz频段和WIFI6,不然ESP32连不上 心知天气账号(免费版即可),网站:心知天气 - 高精度气象数据 - 天气数据API接口 - 行业气象解决方案 (seniverse.com) V3的用户手册-天气实…

【业务功能篇29】Assert断言

业务场景: 当我们需要对一个接口方法验证是,在单元测试中,主要用于程序代码的调试或测试阶段 基本的使用就是assert condition,当 condition 为 true,就继续往下运行;当 condition 为 false,就抛…

MySQL - 第2节 - MySQL库的操作

1.创建数据库 创建数据库的SQL如下: CREATE DATABASE [IF NOT EXISTS] db_name [[DEFAULT] CHARSETcharset_name] [[DEFAULT] COLLATEcollation_name];说明: • SQL中大写的表示关键字,[ ]中代表的是可选项。 • CHARSET用于指定数据库所采用…

「实在RPA·证券数字员工」革新证券数字化现状

2022年1月《金融科技发展规划(2022——2025年)》提出“十四五”时期金融科技发展愿景,明确了金融科技发展的指导思想和4个基本原则、6个发展目标,确定了8项重点任务和5项保障措施,进一步明确金融科技发展方向。近年来&…

ADB WIFI 链接

ADB WiFi链接手机 必须在同一网络下(本人用的台式机网线手机连路由器WIFI) 1.先确认USB数据线是否成功链接了手机 adb devices不管前面设备是什么名字,但是后面必须为device状态才算链接成功了,offline状态是不行的 有些没开启…

Linux Debian Jenkins快速搭建配置并运行

Jenkins安装 参考Debian Jenkins Packageshttps://pkg.origin.jenkins.io/debian-stable/ 加Key curl -fsSL https://pkg.jenkins.io/debian-stable/jenkins.io-2023.key | sudo tee \/usr/share/keyrings/jenkins-keyring.asc > /dev/null 加仓库 echo deb [signed-by/u…

什么是远程工具,远程工具推荐

在当今数字化时代,远程工作正在变得越来越普遍。这种趋势不仅使企业管理更加便利,节省了时间和资源,同时也使员工更加自由和灵活。许多远程工作都需要使用到远程工具。本文将对远程工具进行简介和阐述。 什么是远程工具 远程工具是一种数字…

类与对象知识总结+封闭类+const+this指针 C++程序设计与算法笔记总结(三) 北京大学 郭炜

//C程序到C程序的翻译 class CCar { public: int price; void SetPrice(int p); }; void CCar::SetPrice(int p) { price p; } int main() { CCar car; car.SetPrice(20000); return 0; }struct CCar { int price; }; void SetPrice(struct CCar * this, int p) { this-&g…

【ROS】URDF:统一机器人描述格式(XML)

1、简述 统一机器人描述格式(URDF)是描述机器人模型的 XML 文件,支持Xacro(XML宏),使用Xacro来引用已经存在的XML块,创建更短且可读的XML文件。 2、初始URDF描述文件 URDF描述文件为XML格式&…

测试左移-快速玩转Debug

目录 背 景 学习的意义 玩 转 Debug 一、基本介绍 二、断点设置 三、启动调试 四、调试技巧 定 位 问 题 总 结 背 景 一段代码的问题产生阶段可以分为:编译期和运行时 编译期的代码可以由工具(idea、eclipse)在程序编码过程中提示错误…

面对对象。

1.类: 类:是对象共同特征的描述。 对象:是真实存在的具体实例。 先设计类,才能创建对象并使用。 pulic class 类名{1.成员变量(代表属性,一般是名词)2.成员方法(代表行为&#x…

达梦主备守护集群相关概念和基本原理介绍

DM数据守护一主一备或一主多备是一种集成化的高可用、高性能数据库解决方案,是数据库异地容灾的首选方案。通过部署 DM 数据守护,可以在硬件故障(如磁盘损坏)、自然灾害(地震、火灾)等极端情况下&#xff0…

思科交换机与路由器基础命令(一)

作者:Insist-- 个人主页:insist--个人主页 作者会持续更新网络知识和python基础知识,期待你的关注 目录 一、Cisco交换机的命令行模式: 1、用户模式 2、 特权模式 3、 全局配置模式 4、 接口模式 5、退回命令 二、帮助机制 …

20. 算法之回溯算法

1. 概念 回溯算法实际上一个类似枚举的深度优先搜索尝试过程,主要是在搜索尝试过程中寻找问题的解,当发现已不满足求解条件时,就“回溯”返回(也就是递归返回),尝试别的路径。 回溯的处理思想&#xff0c…

必备:音乐的魅力,一边听歌一边练习英语!

音乐是一种跨越语言和文化的艺术形式,能够带给我们无限的感动和快乐。下面是我推荐的一些好听的英文歌曲,希望大家喜欢。 这首歌是英国歌手Ed Sheeran的代表作之一,曲调轻快,旋律优美,歌词简单易懂,非常容…

搞懂mysql事物隔离级别

事物是为交易而生 事物的英文单词 TRANSACTION,就是交易的意思. 交易和事物是一个东西. mysql的事物的4种隔离级别 mysql的事物隔离级设计的一点也不高级 隔离级别只是一个很烧脑的概念,并不是什么高大上的技术. RU,全称read-uncommitted, 中文翻译:读未提交,能够读到未提交…