CTR-GCN 论文解读

news2025/1/17 16:08:24
  • 论文名称:Channel-wise Topology Refinement Graph Convolution for Skeleton-Based Action Recognition
  • 论文下载:https://arxiv.org/pdf/2107.12213.pdf
  • 论文代码:https://github.com/Uason-Chen/CTR-GCN

CTR-GCN 是中科院自动化所发表在 ICCV 2021 会议上的一个基于骨骼关键点的动作识别模型,其在学界的常用的几个基准数据集上均取得了目前最优的结果。

论文:基于骨骼动作识别的通道拓扑细化图卷积

摘要

图卷积网络(GCNs)在基于骨骼的动作识别中得到了广泛的应用并取得了显著的效果。在 GCNs 中,图拓扑在特征聚集中占主导地位,因此是提取代表性特征的关键

在这项工作中,我们提出了一种新的通道拓扑优化图卷积(CTR-GC),以动态学习不同的拓扑,并有效地聚合不同通道中的关节特征,用于基于骨骼的动作识别。提出的 CTR-GC 通过学习共享拓扑作为所有通道的通用先验,并使用每个通道的特定通道相关性对其进行细化,从而对通道拓扑进行建模。

我们的细化方法引入了很少的额外参数,并显著降低了建模通道拓扑的难度。此外,通过将图卷积重新定义为统一的形式,我们发现 CTR-GC 放松了图卷积的严格约束,从而获得了更强的表示能力。

结合 CTR-GC 和时间建模模块,我们开发了一个名为 CTR-GCN 的强大的图卷积网络,它在 NTU RGB+D, NTU RGB+D 120和 NW-UCLA 数据集上明显优于最先进的方法。

引入

早期基于深度学习的方法将人体关节视为一组独立的特征,并将其组织成一个特征序列或伪图像,输入 RNN 或 CNN 来预测动作标签。然而,这些方法忽略了关节之间的内在关联,而这些关联揭示了人体的拓扑结构,是人体骨骼的重要信息。

Yan 等[32]首先用图形建模人体关节之间的相关性,并应用 GCNs 和时间卷积来提取运动特征。而他们采用的人工定义拓扑很难实现非自然连接节点之间的关系建模,限制了 GCNs 的表示能力。

为了提高 GCNs 的能力,最近的方法[24,35,34]通过注意或其他机制自适应地学习人类骨骼的拓扑结构。它们对所有通道使用一个拓扑,这迫使 GCNs 在不同通道中聚合具有相同拓扑的特征,从而限制了特征提取的灵活性。由于不同的通道代表不同类型的运动特征,不同运动特征下的关节之间的相关性并不总是相同的,因此使用一种共享拓扑并非最优。

Cheng 等[3]为信道组设置了单独的参数化拓扑。但是,不同组的拓扑结构都是独立学习的,在设置通道参数化拓扑时,模型变得过于沉重,增加了优化的难度,阻碍了通道拓扑的有效建模。此外,参数化拓扑对所有样本保持相同,这无法模拟样本相关。

基于 GCN 的算法所有通道共享同一拓扑结构,这样限制了模型的能力上限。作者认为拓扑结构(邻接矩阵A)可以继续被细化训练。即 A[0],A[1],A[2]分别参与训练。针对这一问题作者提出了通道拓扑细化网络,以此来提高模型的上限。

在本文中,我们提出了一种信道拓扑优化图卷积,该卷积可以动态有效地对信道拓扑进行建模。CTR-GC 不是独立地学习不同通道的拓扑,而是以细化的方式学习基于通道的拓扑。具体来说,CTR-GC 同时学习共享拓扑和特定于通道的相关性。

共享拓扑是一个参数化的邻接矩阵,作为所有通道的拓扑先验,并提供顶点之间的一般相关性

针对每个样本动态推断特定于信道的相关性,并捕获每个信道内顶点之间的微妙关系。通过使用特定于通道的相关性细化共享拓扑,CTR-GC 获得了通道拓扑(如下图所示)。

我们的细化方法避免了对每个通道的拓扑进行独立建模,并且很少引入额外的参数,这大大降低了建模通道拓扑的难度。此外,通过将四类图卷积重新表述为统一的形式,我们验证了所提出的 CTR-GC 从本质上放松了其他类型图卷积的严格约束,提高了表示能力。

在这里插入图片描述

上图为通道拓扑优化图。不同颜色的线条对应不同通道中的拓扑结构,线条的粗细表示节点之间的关联强度。

将 CTR-GC 与时间建模模块相结合,构建了一个功能强大的图卷积网络 CTR-GCN,用于基于骨骼的动作识别。在 NTU RGB+D、NTU RGB+D 120和 NW-UCLA 上的大量实验结果表明:

  • 我们的 CTR-GC 在参数和计算成本相当的情况下,显著优于其他提出的基于骨骼的动作识别图卷积;
  • 我们的 CTR-GCN 在所有三个数据集上都超过了最先进的方法。

我们的贡献总结如下:

  • 我们提出了一种信道拓扑优化图卷积,该卷积以一种优化方法对信道拓扑进行动态建模,从而实现灵活有效的相关建模。
  • 我们从数学上统一了基于骨骼的动作识别中现有图卷积的形式,并发现 CTR-GC 放松了其他图卷积的约束,提供了更强大的图建模能力。
  • 大量的实验结果突出了通道拓扑和细化方法的好处。提出的 CTR-GCN 在三个基于骨骼的动作识别基准上显著优于目前最先进的方法。

相关工作

图卷积网络

卷积神经网络(Convolutional Neural Networks, CNNs)在处理图像等欧氏数据方面取得了显著的效果。为了处理像图这样的非欧几里得数据,人们对开发图卷积网络(GCNs)越来越感兴趣。GCNs 通常分为光谱方法和空间方法。

  • 谱方法对谱域进行卷积[1,5,11]。但是,它们依赖于与图结构相关的拉普拉斯特征基,因此只能应用于具有相同结构的图
  • 空间方法直接在图上定义卷积[7,21,29],空间方法的挑战之一是处理不同大小的邻域

在不同的 GCN 变体中,Kipf 等人[11]提出的 GCN 因其简单而广泛适用于各种任务。[11]中的特征更新规则包括两个步骤:
(1)将特征转换为高级表示
(2)根据图的拓扑结构聚合特征

我们的工作采用相同的特征更新规则。

基于 GCN 的骨骼动作识别

GCNs 已成功应用于基于骨骼的动作识别[20,24,32,34,36,27],大多数 GCNs 遵循[11]的特征更新规则。由于拓扑(即顶点连接关系)在 GCN 中的重要性,许多基于 GCN 的方法都侧重于拓扑建模。根据拓扑结构的不同,基于 GCN 的方法可分为以下几类:

  • 根据推理过程中拓扑结构是否动态调整,基于 GCN 的方法可分为静态方法和动态方法。
  • 根据拓扑在不同通道间是否共享,基于 GCN 的方法可分为拓扑共享方法和拓扑非共享方法。

静态/动态方法

  • 对于静态方法,GCNs 的拓扑结构在推理过程中保持固定。Yan 等[32]提出了一种 ST-GCN,根据人体结构预定义拓扑,在训练和测试阶段拓扑都是固定的。Liu et al[20]和 Huang et al[9]将多尺度图拓扑引入 GCNs,实现多范围联合关系建模。
  • 对于动态方法,在推理过程中动态推断 GCNs 的拓扑结构。Li 等[15]提出了一个 A-llinks 推理模块来捕获特定行为的相关性。Shi 等[24]和 Zhang等[35]利用自注意机制增强拓扑学习,该机制对给定相应特征的两个关节之间的相关性进行建模。这些方法通过局部特征推断两个关节之间的相关性。Ye 等[34]提出了一种动态 GCN,其中所有关节的上下文特征都被纳入其中,以学习任何关节对之间的相关性。由于拓扑结构的动态性,动态方法与静态方法相比具有更强的泛化能力

拓扑共享/拓扑非共享方法

  • 对于拓扑共享方法,静态或动态拓扑在所有通道中共享。这些方法迫使 GCNs 聚合具有相同拓扑的不同通道中的特征,限制了模型性能的上限。大多数基于 GCN 的方法都遵循拓扑共享的方式,包括前面提到的静态方法[9,20,32]和动态方法[15,24,34,35]。
  • 拓扑非共享方法在不同的信道或信道组中使用不同的拓扑,自然克服了拓扑共享方法的局限性。Cheng 等[3]提出了一种 DC-GCN,它为不同的信道组设置单独的参数化拓扑。然而,DC-GCN在设置通道拓扑时,由于参数过多而面临优化困难。据我们所知,在基于骨骼的动作识别中,拓扑-非共享图卷积很少被探索,而这项工作是第一次对动态通道拓扑进行建模。

注意,我们的方法也属于动态方法,因为拓扑在推理过程中是动态推断的。

方法

在本节中,我们首先定义相关的符号,并制定常规的图卷积。然后,我们详细阐述了我们的通道拓扑精致图卷积(CTR-GC),并从数学上分析了 CTR-GC 和其他图卷积的表示能力。最后,我们介绍了我们的 CTR-GCN 的结构。

前期准备

符号

人体骨骼被表示为一个以关节为顶点,以骨骼为边的图。图记为 G = ( V , E , X ) \mathcal G = (\mathcal V, \mathcal E, \mathcal X) G=(V,E,X),其中,

  • V = v 1 , v 2 , ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ , v N \mathcal V = {v_1, v_2, ······, v_N} V=v1,v2,⋅⋅⋅⋅⋅⋅,vN N N N 个顶点的集合。
  • E \mathcal E E 为边集,表示为邻接矩阵 A ∈ R N × N A∈ \mathbb R^{N×N} ARN×N,其元素 a i j a_{ij} aij 反映了 v i v_i vi v j v_j vj 之间的相关性强度。 v i v_i vi 的邻域表示为 N ( v i ) = { v j ∣ a i j ≠ 0 } \mathcal N (v_i) = \{v_j |a_{ij} ≠ 0\} N(vi)={vjaij=0}
  • X \mathcal X X N N N 个顶点的特征集,表示为矩阵 X ∈ R N × C \mathbf X∈\mathbb R^{N×C} XRN×C, v i v_i vi 的特征表示为 x i ∈ R C \mathbf x_i∈\mathbb R^C xiRC

拓扑共享图卷积

正则拓扑共享图卷积利用权值 W \mathbf W W 进行特征变换,通过 a i j a_{ij} aij v i v_i vi邻居顶点进行聚合表示来更新其表示 z i \mathbf z_i zi,表示为 z i = ∑ v j ∈ N ( v i ) a i j x j W (1) \mathbf z_i = \sum_{v_j∈\mathcal N(v_i) }a_{ij} \mathbf {x_j} \mathbf W \tag{1} zi=vjN(vi)aijxjW(1) 对于静态方法, a i j a_{ij} aij 是手动定义或设置为可训练参数。对于动态方法, a i j a_{ij} aij 通常由模型根据输入样本生成

信道拓扑优化图卷积

在这里插入图片描述

上图为所提出的通道拓扑优化图卷积的框架。基于通道的拓扑建模使用推断出的特定于通道的相关性来细化可训练的共享拓扑特征转换的目的是将输入特征转换为高级表示形式。最终,通过通道聚合获得输出特征。

我们的 CTR-GC 的一般框架如上图所示。我们首先将输入特征转换为高级特征,然后动态推断通道拓扑,以获取不同类型运动特征下输入样本关节之间的成对相关性,并将每个通道中的特征与相应的拓扑进行聚合,得到最终输出。

具体来说,我们的 CTR-GC 包含三个部分

  • 特征转换,通过变换函数 T ( ⋅ ) \mathcal T(·) T() 进行特征变换;
  • 通道拓扑建模,包括相关建模函数 M ( ⋅ ) \mathcal M(·) M() 和细化函数 R ( ⋅ ) \mathcal R(·) R()
  • 通道聚合,由聚合函数 A ( ⋅ ) \mathcal A(·) A() 完成。

给定输入特征 X ∈ R N × C \mathbf X∈\mathbb R^{N×C} XRN×C,则 CTR-GC 的输出 Z ∈ R N × C ′ \mathbf Z∈\mathbb R^{N×C'} ZRN×C 表示为 Z = A ( T ( X ) , R ( M ( X ) , A ) ) (2) \mathbf Z = \mathcal A( \mathcal T(\mathbf X) , \mathcal R( \mathcal M(\mathbf X) , \mathbf A ) ) \tag{2} Z=A(T(X),R(M(X),A))(2)其中 A ∈ R N × N \mathbf A∈\mathbb R^{N×N} ARN×N 为可学习共享拓扑。

接下来,我们将详细介绍这三个部分。

特征转换

如上图中的橙色块所示,特征转换的目的是通过 T ( ⋅ ) \mathcal T(·) T() 将输入特征转换为高级表示。这里我们采用一个简单的线性变换作为拓扑共享图卷积,表达式为 X ~ = T ( X ) = X W (3) \widetilde {\mathbf X} = \mathcal T( \mathbf X ) = \mathbf X \mathbf W \tag{3} X =T(X)=XW(3)其中 X ~ ∈ R N × C ′ \widetilde {\mathbf X} ∈\mathbb R^{N×C'} X RN×C 是变换后的特征, W ∈ R C × C ′ \mathbf W∈\mathbb R^{C×C'} WRC×C 是权值矩阵。注意,其他转换也可以使用,例如,多层感知器。

T ( ⋅ ) \mathcal T(·) T() 用于将输入转化为高级特征表示。(代码使用的是卷积核为1的 2d 卷积)。

通道拓扑建模

通道拓扑建模显示在上图中的蓝色块。邻接矩阵 A \mathbf A A 被用作所有通道的共享拓扑,并通过反向传播学习

此外,我们学习了通道特定的相关性 Q ∈ R N × N × C ′ \mathbf Q∈\mathbb R^{N×N×C'} QRN×N×C,以建模 C ′ C' C 通道中顶点之间的特定关系。

通过对共享拓扑 A \mathbf A A Q \mathbf Q Q 进行细化,得到通道型拓扑 R ∈ R N × N × C ′ \mathbf R∈\mathbb R^{N×N×C'} RRN×N×C

网络各个通道有一个共享的邻接矩阵 A \mathbf A A,这个 A \mathbf A A 可学习,会根据反向传播而变化。 Q \mathbf Q Q 是不同通道的特有拓扑结构。细化 A \mathbf A A Q \mathbf Q Q,得到通道拓扑 R \mathbf R R

具体来说,我们首先使用相关建模函数 M ( ⋅ ) \mathcal M(·) M() 来建模顶点之间的通道相关性。为了降低计算成本,我们在将输入特征发送到 M ( ⋅ ) \mathcal M(·) M() 之前,利用线性变换 ψ \psi ψ ϕ \phi ϕ降低特征维数

ψ \psi ψ ϕ \phi ϕ 在代码中是卷积核大小为1的2d 卷积。

给定一对顶点 ( v i , v j ) (v_i, v_j) (vi,vj) 及其对应的特征 ( x i , x j ) (\mathbf {x_i}, \mathbf {x_j}) (xi,xj),我们设计了两个简单而有效的相关建模函数。

第一个相关建模函数 M 1 ( ⋅ ) \mathcal M_1(·) M1() 表述为 M 1 ( ψ ( x i ) , ϕ ( x j ) ) = σ ( ψ ( x i ) − ϕ ( x j ) ) (4) \mathcal M_1(\psi( \mathbf{x_i} ), \phi( \mathbf{x_j}) ) = \sigma( \psi( \mathbf{x_i}) - \phi(\mathbf{x_j})) \tag{4} M1(ψ(xi),ϕ(xj))=σ(ψ(xi)ϕ(xj))(4)其中 σ ( ⋅ ) σ(·) σ() 为激活函数。 M 1 ( ⋅ ) \mathcal M_1(·) M1() 本质上计算了沿通道维度的 ψ ( x i ) \psi(\mathbf{x_i}) ψ(xi) ϕ ( x j ) \phi(\mathbf{x_j}) ϕ(xj) 之间的距离,并利用这些距离的非线性变换作为 v i v_i vi v j v_j vj 之间通道特定的拓扑关系。

σ ( ⋅ ) σ(·) σ() 为 Tanh 激活函数。

第二个相关建模函数 M 2 ( ⋅ ) \mathcal M_2(·) M2() 表示为 M 2 ( ψ ( x i ) , ϕ ( x j ) ) = M L P ( ψ ( x i ) ∣ ∣ ϕ ( x j ) ) (5) \mathcal M_2( \psi(\mathbf{x_i}), \phi(\mathbf{x_j})) = MLP( \psi(\mathbf{x_i}) || \phi(\mathbf{x_j})) \tag{5} M2(ψ(xi),ϕ(xj))=MLP(ψ(xi)∣∣ϕ(xj))(5)其中 ∣ ∣ || ∣∣ 为串联运算, M L P MLP MLP 为多层感知器。我们在这里使用 M L P MLP MLP 是因为它强大的拟合能力。

基于相关建模函数,利用线性变换 ξ ξ ξ 提高信道维数,得到信道特定相关 Q ∈ R N × N × C ′ \mathbf Q∈\mathbb R^{N×N×C'} QRN×N×C,式为 q i j = ξ ( M ( ψ ( x i ) , ϕ ( x j ) ) ) , i , j ∈ { 1 , 2 , . . . , N } (6) \mathbf{q_{ij}} = \xi( \mathcal M( \psi(\mathbf{x_i}), \phi(\mathbf{x_j})) ), i,j \in \{ 1, 2, ..., N\} \tag{6} qij=ξ(M(ψ(xi),ϕ(xj))),i,j{1,2,...,N}(6)其中, q i j ∈ R C ′ \mathbf{q_{ij}} ∈\mathbb R^{C'} qijRC Q \mathbf Q Q 中的一个向量,反映了 v i v_i vi v j v_j vj 之间通道特定的拓扑关系。注意 Q \mathbf Q Q 不强制对称,即不要求 q i j ≠ q j i \mathbf {q_{ij}} ≠ \mathbf {q_{ji}} qij=qji,这增加了相关建模的灵活性。

最终,通过细化共享拓扑 A \mathbf A A 和特定通道相关 Q \mathbf Q Q,可以得到通道相关拓扑 R ∈ R N × N × C ′ \mathbf R \in \mathbb R^{N×N×C'} RRN×N×C, R = R ( Q , A ) = A + α ⋅ Q (7) \mathbf R = \mathcal R( \mathbf Q, \mathbf A) = \mathbf A + \alpha · \mathbf Q \tag{7} R=R(Q,A)=A+αQ(7)其中 α α α 是一个可训练的标量来调整细化的强度。加法以广播的方式进行, A \mathbf A A 添加到 α × Q α × \mathbf Q α×Q的每个通道

α α α 初始值为0,是一个可训练的标量,用于调整细化的强度。

Channel-wise 聚合

给定经过细化的通道拓扑 R \mathbf R R 和高级特征 X ~ \widetilde{\mathbf X} X ,CTR-GC 以通道方式聚合特征。

具体来说,CTR-GC 为每个通道构建了对应细化拓扑 R c ∈ R N × N \mathbf {R_c}∈\mathbb R^{N×N} RcRN×N 和特征 x ~ : , c ∈ R N × 1 \tilde {\mathbf x}_{:, c}∈\mathbb R^{N×1} x~:,cRN×1 的通道图,其中 R c \mathbf {R_c} Rc x ~ : , c \tilde {\mathbf x}_{:, c} x~:,c 分别来自 R c \mathbf {R_c} Rc X ~ ( c ∈ { 1 , ⋅ ⋅ ⋅ , C ′ } ) \widetilde{\mathbf X}(c \in \{ 1, ··· , C'\}) X (c{1,⋅⋅⋅,C}) 的第 c c c 个通道( c ∈ { 1 , ⋅ ⋅ ⋅ , C ′ } c∈\{1, ···, C'\} c{1,⋅⋅⋅,C})。

每个通道图都反映了某种运动特征下顶点之间的关系。因此,对每个通道图进行特征聚合,将所有通道图的输出特征串联起来,得到最终的输出 Z \mathbf Z Z,表示为 Z = A ( X ~ , R ) = [ R 1 x ~ : , 1 ∣ ∣ R 2 x ~ : , 2 ∣ ∣ ⋅ ⋅ ⋅ ∣ ∣ R C ′ x ~ : , C ′ ] (8) \mathbf Z = \mathcal A( \widetilde{\mathbf X}, \mathbf R ) = [ \mathbf R_1 \mathbf { \tilde x_{:, 1}} || \mathbf R_2 \mathbf {\tilde x_{:, 2}} || ··· || \mathbf {R_{C'}} \mathbf {\tilde x_{:, C'}} ]\tag{8} Z=A(X ,R)=[R1x~:,1∣∣R2x~:,2∣∣⋅⋅⋅∣∣RCx~:,C](8)其中 ∣ ∣ || ∣∣ 为级联操作。在整个过程中,信道特定相关性 Q \mathbf Q Q 的推断依赖于输入样本,如式(6)所示。因此,提出的 CTR-GC 是一个动态的图卷积,它随不同的输入样本而自适应地变化。

通道聚合将 R \mathbf R R 与 Feature transformation 得到的高维特征 X ~ \widetilde{\mathbf X} X 做一些操作达到聚合特征的效果。
代码中用的爱因斯坦求和约定。

图卷积的分析

我们通过将不同的图卷积重新表述为统一的形式,并将其与 CNN 中使用的动态卷积[2,33]进行比较,分析了不同图卷积的表示能力。

我们首先回顾动态卷积,它用动态权值增强了香草卷积。在动态卷积中,中心像素 p i p_i pi 的每个邻居像素 p j p_j pj 在卷积核中都有相应的权值,并且权值可以根据不同的输入样本动态调整,这使得动态卷积具有较强的表示能力。动态卷积可以表述为 z i k = ∑ p j ∈ N ( p i ) x j k W j k (9) \mathbf{z^k_i}= \sum_{p_j \in \mathcal N(p_i)} \mathbf{x^k_j W^k_j} \tag{9} zik=pjN(pi)xjkWjk(9)其中 k \mathbf k k 为输入样本的指标。 x j k \mathbf{x^k_j} xjk z i k \mathbf{z^k_i} zik p j p_j pj 的输入特征和 p i p_i pi 的第 k \mathbf k k 个样本的输出特征。 W j k \mathbf {W^k_j} Wjk 为动态权值。

由于图的结构不规则,相邻顶点和权值之间的对应关系很难建立。因此,图卷积(GC)将卷积权值降级为邻接权值(即拓扑)和邻域共享权值。然而,共享邻域权值限制了 GC 的表示能力。为了分析不同 GC 和动态卷积之间的表示能力差距,我们将邻接权值和邻域共享权值整合为广义权值矩阵 E i j k \mathbf {E^k_{ij}} Eijk。也就是说,我们用 z i k = ∑ v j ∈ N ( v i ) x j k E i j k \mathbf z_i^k = \sum_{v_j∈\mathcal N(v_i)} \mathbf {x^k_j E^k_{ij}} zik=vjN(vi)xjkEijk 的形式来表示所有的 GC,其中 E i j k \mathbf {E^k_{ij}} Eijk 是广义权值。如前所述,我们将 GC 分为四类。

静态共享拓扑 GC

在静态共享拓扑 GC 中,拓扑对不同样本保持固定,并在所有通道上共享,可以表示为 z i k = ∑ v j ∈ N ( v i ) a i j x j k W = ∑ v j ∈ N ( v i ) x j k ( a i j W ) (10) \mathbf{z^k_i} = \sum_{v_j∈\mathcal N(v_i)} a_{ij} \mathbf {x^k_j W} = \sum_{v_j∈\mathcal N(v_i)} \mathbf {x^k_j}(a_{ij} \mathbf W) \tag{10} zik=vjN(vi)aijxjkW=vjN(vi)xjk(aijW)(10)其中 a i j W a_{ij} \mathbf W aijW 是静态拓扑共享 GC 的广义权值。由式(9)和式(10)可以看出,动态卷积和静态拓扑共享 GC 的区别在于它们的(广义)权值。具体来说,对于每个 j j j k k k,动态卷积 W j k \mathbf {W^k_j} Wjk 的权值是独立的,而静态拓扑共享 GC 的广义权值受以下约束:

约束1:强制 E i j k 1 \mathbf {E^{k_1}_{ij}} Eijk1 E i j k 2 \mathbf {E^{k_2}_{ij}} Eijk2 相同。
约束2: E i j 1 k \mathbf {E^k_{{ij}_1}} Eij1k E i j 2 k \mathbf {E^k_{{ij}_2}} Eij2k 相差一个比例因子。

注意 k 1 \mathbf k_1 k1, k 2 \mathbf k_2 k2 是不同的样本指标, j 1 \mathbf {j_1} j1, j 2 \mathbf {j_2} j2 是不同的相邻顶点指标。这些约束导致静态拓扑共享 GC 与动态卷积在表示能力上存在差距。注意,我们关注的是基于 v i v_i vi 的邻域,为了简单起见,我们没有考虑 v i v_i vi 的变化。

动态共享拓扑 GC

与静态共享拓扑 GC 相比,动态共享拓扑 GC 具有更好的泛化能力。动态共享拓扑 GC 的公式为 z i k = ∑ v j ∈ N ( v i ) a i j k x j k W = ∑ v j ∈ N ( v i ) x j k ( a i j k W ) , (11) \mathbf z^k_i = \sum_{v_j∈\mathcal N(v_i)} a^k_{ij} \mathbf {x^k_j W} = \sum_{v_j∈ \mathcal N(v_i)} \mathbf {x^k_j} (a^k_{ij} \mathbf W),\tag{11} zik=vjN(vi)aijkxjkW=vjN(vi)xjk(aijkW)(11) 其中 a i j k a^k_{ij} aijk v i v_i vi v j v_j vj 之间的动态拓扑关系,且依赖于输入样本。可以看出,动态拓扑共享 GC 的广义权值仍然受到约束2的影响,但将约束1放宽为以下约束:

约束3: E i j k 1 \mathbf {E^{k_1}_{ij}} Eijk1 E i j k 2 \mathbf {E^{k_2}_{ij}} Eijk2 相差一个比例因子。

静态非共享拓扑 GC

这种 GC 对不同的信道(组)使用不同的拓扑结构。这里我们只分析具有通道拓扑的静态 GC,因为它是静态拓扑非共享 GC 的最通用形式,并且可以退化为其他形式,例如静态组拓扑 GC。具体的公式是
在这里插入图片描述
其中 ⊙ \odot 为元素乘, p i j ∈ R C ′ \mathbf {p_{ij}}∈\mathbb R^{C'} pijRC v i v_i vi, v j v_j vj 之间的通道拓扑关系。 p i j c p_{ijc} pijc p i j \mathbf {p_{ij}} pij 的第 c c c 个元素。 w : , c \mathbf {w_{:,c}} w:,c W \mathbf W W 的第 c c c 列。(为了清晰起见,我们省略了公式(12)和(13)的推导。详情可参阅补充资料。)由式(13)可知,由于拓扑结构是静态的,这类 GC 的广义权值受到约束1的约束,而将约束2松弛为以下约束:

约束4: E i j 1 k \mathbf {E^k_{{ij}_1}} Eij1k E i j 2 k \mathbf {E^k_{{ij}_2}} Eij2k 对应的不同列有不同的缩放因子。

动态非共享拓扑 GC

静态非共享拓扑 GC 与动态非共享拓扑 GC 的唯一区别是,动态非共享拓扑 GC 动态推断非共享拓扑,因此动态非共享拓扑 GC 可表示为 z i k = ∑ v j ∈ N ( v i ) x j k ( [ r i j 1 k w : , 1 , . . . , r i j C ′ k w : , C ′ ] ) (14) \mathbf{z^k_i} = \sum_{v_j \in \mathcal N(v_i)} \mathbf{x^k_j}([ r^k_{{ij}_1} \mathbf{w_{:,1}, ..., r^k_{ijC'} \mathbf {w_{:, C'}} }]) \tag{14} zik=vjN(vi)xjk([rij1kw:,1,...,rijCkw:,C])(14)其中 r i j c k r^k_{ijc} rijck 为第 k k k 个样本在第 c c c 个通道中 v i v_i vi v j v_j vj 之间的动态拓扑关系。显然,动态非共享拓扑图卷积的广义权值同时放松了约束1和约束2。其中,将约束2松弛为约束4,将约束1松弛为以下约束:

约束5: E i j k 1 \mathbf {E^{k_1}_{ij}} Eijk1 E i j k 2 \mathbf {E^{k_2}_{ij}} Eijk2 对应的不同列有不同的缩放因子。

我们在下表中总结了不同类别的图卷积及其约束。可以看出,动态非共享拓扑 GC 的约束最小。我们的 CTR-GC 属于动态非共享拓扑 GC,公式(8)可以重新表述为公式(14),说明理论上 CTR-GC 比以前的图卷积具有更强的表示能力[3,24,32,34]。具体推理详见补充材料。

在这里插入图片描述
不同类别的图卷积和相应实例的约束。数字1-5对应五个约束。红色、绿色、蓝色分别表示相对高、中、低约束强度。

模型架构

基于 CTR-GC 构建了一个功能强大的图卷积网络 CTR-GCN,用于基于骨骼的动作识别。我们将每个关节的邻域设置为整个人体骨架图,这在之前的工作中被证明是更有效的[4,24]。

整个网络由十个基本块组成,然后是一个全局平均池和一个 s o f t m a x softmax softmax 分类器来预测动作标签。十个块的通道数为64-64-64-64-128-128-256-256。在第5块和第8块通过跨步时间卷积将时间维度减半。

我们的 CTR-GCN 的基本块如下图所示,每个块主要由空间建模模块、时间建模模块和残差连接组成。

在这里插入图片描述
(a)我们的 CTR-GCN 的基本区块。(b)带有 M 1 ( ⋅ ) \mathcal M_1(·) M1() M 2 ( ⋅ ) \mathcal M_2(·) M2() 相关建模函数的 CTR-GC。

空间建模

在空间建模模块中,我们使用三个 CTR-GC 并行提取人体关节之间的相关性,并将其结果汇总为输出。为了清晰起见,上图(b)展示了一个带有 M 1 ( ⋅ ) \mathcal M_1(·) M1() 的 CTR-GC 实例。我们的 CTR-GC 被设计用于提取具有输入特征 X ∈ R N × C \mathbf X∈\mathbb R^{N×C} XRN×C 的图的特征。为了对骨架图序列 S ∈ R T × N × C \mathbf S∈\mathbb R^{T×N×C} SRT×N×C 采用 CTR-GC,我们沿着时间维度将 S \mathbf S S 池化,并使用池化特征来推断通道拓扑。

具体来说,CTR-GC 首先利用约简率为 r r r ϕ \phi ϕ ψ \psi ψ 来提取紧凑表示,然后使用时间池来聚合时间特征。之后,CTR-GC 按照公式(4)进行两两相减和激活。然后用 ξ ξ ξ 值提高激活的通道维数,以获得通道特定的相关性,用于细化共享拓扑 A \mathbf A A,以获得通道级拓扑。最后,在每个骨架图中进行通道聚合(通过批量矩阵乘法实现),以获得输出表示 S o \mathbf {S^o} So

时序建模

为了模拟不同持续时间的动作,我们设计了一个基于[20]的多尺度时序建模模块。主要的区别是我们使用更少的分支,因为太多的分支会降低推断速度。如图3 (a)所示,该模块包含四个分支,每个分支包含一个 1 × 1 1 × 1 1×1 的卷积以降低信道维数。前三个分支分别包含2个不同扩张的时间卷积和 1 × 1 1 × 1 1×1 卷积后的
MaxPool。将四个分支的结果连接起来得到输出。

实验

数据集介绍

三个数据集:

  • NTU RGB+D
  • NTU RGB+D 120
  • Northwestern-UCLA

实现细节

所有实验都在一个 RTX 2080 TI GPU 上进行,并使用 PyTorch 深度学习框架。我们的模型用 SGD 训练,动量为0.9,权值衰减为 0.0004。训练 epoch 设置为65,前5个 epoch 使用热身策略[8],使训练过程更加稳定。学习率设置为0.1,在第35和55 epoch 衰减为0.1因子。对于 NTU RGB+D 和 NTU RGB+D 120,批大小为64帧,每个样本大小调整为64帧,我们采用[35]中的数据预处理。对于 Northwestern-UCLA,批大小为16,我们采用了[4]中的数据预处理。

总结

在这项工作中,我们提出了一种新的基于骨骼的动作识别的通道拓扑细化图卷积(CTR-GC)。CTR-GC 以细化的方式学习信道拓扑,显示出强大的关联建模能力。数学分析和实验结果都表明,与其他图卷积相比,CTR-GC 具有更强的表示能力。在三个数据集上,提出的 CTR-GCN 优于目前最先进的方法。

这篇文章最大的创新就是细化训练了拓扑结构,CTR-GCN 的代码完全基于2s-AGCN 改进的。
文章除了在空间建模做处理外,时间建模也借鉴了其他文章的多尺度时间建模,有啥作用作者没指出,也没有实验对比。
代码数据处理部分貌似去除了很多“无用帧”,貌似这就会长点了吧,真正靠算法的创新会涨多少点,可以实验一下。

参考文章:动作识别论文—CTR-GCN

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/428062.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

项目二,easyx的加入

今天是项目的第二天 与昨天的迷离比起来今天大大的有进步 我对实现啥的功能有了一个基本的方案 1对所有路的查询那就是用dfs 2对最短路的查询就是用的floyed但是,查询是要保存路径的,所以想到了,保存每条最短路的时候 同时把最短路的前驱保存下来,我们可以通过前驱把完整的…

InnoDB中索引的实现

B树索引的使用 5.6.1 不同应用中B树索引的使用 在OLTP应用中,查询操作只从数据库中取得一小部分数据,一般可能都在10条记录以下,甚至在很多时候只取1条记录,如根据主键值来取得用户信息,根据订单号取得订单的详细信息…

Linux下最小化安装CentOS-7.6(保姆级)

文章目录安装包开始安装一、 新建一个虚拟机二、配置安装CentOS7.6二、开始安装CentOS三、配置CentOS并下载基本信息安装包 链接:https://pan.baidu.com/s/1DodB-kDy1yiNQ7B5IxwYyg 提取码:p19i 开始安装 一、 新建一个虚拟机 1、 打开VMWare&#x…

UVCCamera 源码解析

本文将通过UVCCamera源码研究 概述相机传感器数据采集至USB数据传输整个过程 下载源码配置调试环境 git clone GitHub - saki4510t/UVCCamera: library and sample to access to UVC web camera on non-rooted Android device 注释调原有 ndk-build编译方式 //tasks.with…

使用 /permissive- 编译器开关时变量名or被识别为关键字

使用 /permissive- 编译器开关时变量名被识别为关键字 VS2022已经默认开启对c14的支持。并且,一般同时开启的还有/permissive-开关。项目属性如下所示: 然而,在许多早期代码中,函数名和变量名使用了c14等新标准中的关键字&#…

德国访问学者申请签证事宜

德国访问学者长期签证所需材料,下面就随知识人网小编一起看一看。 1、护照及复印件两份。 2、申请表附加表两份(里面有好多注意事项,最重要的是用德文填写,当时我就谷歌翻译后写上去的,最后附加表上的地点,有好多人问填办大使馆还…

谷歌seo快速排名优化方法,谷歌seo需要哪些技术手段?

谷歌seo快速排名优化方法怎么做? 答案是:利用GLB推广技术可以实现谷歌快速排名。 具体请阅读:什么叫GLB外推? 你只想快速曝光你的企业品牌,GLB外推技术是一个不错的选择。 但如果你想优化自己的外贸官网&#xff0…

【springcloud】服务熔断——Hystrix

官方资料:Home Netflix/Hystrix Wiki GitHub 服务雪崩 多个微服务之间调用的时候,假设微服务A调用微服务B和微服务C,微服务B和微服务C又调用其他的微服务,这就是所谓的“扇出”,如果扇出的链路上某个微服务的调用响…

配置python的opencv环境

1、核心 opencv与numpy包的版本必须适配。核心包版本: numpy1.15.0 opencv4.1.0 2、创建opencv环境 (1)创建一个opencv的虚拟环境 conda create -n cv_python python3.6.0(2)激活虚拟环境 activate cv_python (3)安装numpy的1.15.0版本 pip install numpy1.1…

windows自定时间显示格式(将星期几调出来)

一般的情况下是不是显示星期几的 添加红色方框中的内容

ctfshow 愚人杯菜狗杯部分题目(flasksession伪造ssti)

目录 <1>愚人杯 (1) easy_signin (2) easy_ssti(无过滤ssti) (3) easy_flask(flash-session伪造) (4) easy_php(C:开头序列化数据) <2> 菜狗杯 (1) 抽老婆(flask_session伪造) (2) 一言既出&#xff0c;驷马难追(intval) (3) 传说之下&#xff08;js控制台&…

0101quick_find_union-union_find-动态连通性-算法研究

文章目录1 前言2 动态连通性3 算法3.1 算法设计3.1 union-find算法API3.2 数据结构和通用实现3.3 quick-find算法3.3.1 思想和实现3.3.2 分析3.4 quick-union算法3.4.1 算法描述3.4.2 算法实现3.4.3 性能分析结语1 前言 为了说明我们设计和分析算法的基本方法&#xff0c;我们…

通过SSD对齐功能轻松将 HDD 克隆到 SSD

由于 SSD 的优越性能&#xff0c;越来越多的用户正在考虑将他们的操作系统从 HDD 转移到 SSD。然而&#xff0c;一些用户反馈&#xff0c;在迁移之后&#xff0c;SSD 的启动速度并未提升。 为什么将操作系统从 HDD &#xff08;机械硬盘&#xff09;迁移到 SSD&#xff08;固态…

【leetcode hot 100】【7】11. 盛最多水的容器

题目 给定一个长度为 n 的整数数组 height 。有 n 条垂线&#xff0c;第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线&#xff0c;使得它们与 x 轴共同构成的容器可以容纳最多的水。 返回容器可以储存的最大水量。 说明&#xff1a;你不能倾斜容器。 示…

JUC-多线程(11.面试问题简析)学习笔记

文章目录1. synchronized 关键字底层原理以及其与 lock 的区别2. 对CAS的理解以及底层实现原理3. ConcurrentHashMap实现线程安全的底层原理是什么4.对JDK中的AQS了解吗&#xff1f;AQS的实现原理是什么&#xff1f;5. 线程池的核心配置参数是干什么的&#xff1f;应该怎么用&a…

电子表格软件与一站式BI的区别

看完本节内容&#xff0c;相信您能够了解到电子表格软件&#xff08;代号电子表格软件&#xff09;与「一站式 BI」的主要区别。所谓一站式BI在官网上的名称就是Smartbi V10.5&#xff0c;代号就是Smartbi一直在使用insight。 这两个产品都属于商业智能BI软件的品类&#xff0…

文献阅读:Semantic Communications: Principles and Challenges

传统通信和语义通信的对比 语义信道容量&#xff08;从公式角度解释为什么语义通信的信道容量可以高于传统通信的信道容量&#xff09; 离散无记忆信道的语义信道容量表示为&#xff1a; Cssup⁡p(Z∣X){I(X;V)−H(Z∣X)HS(V)‾}C_s\sup _{p(Z \mid X)}\left\{I(X ; V)-H(Z \m…

再识华为云数据库——GaussDB

目录 一、GaussDB: 立足创新与自研&#xff0c;助力企业核心数据安全高效上云 二、GaussDB: 基于华为openGauss开放生态打造的 金融级分布式数据库 三、GaussDB(for MySQL): 基于开源生态打造的企业级自研云原生数据库 四、DRSUGO&#xff1a;数据库结构应用数据一站式迁移…

Vue学习——【第四弹】

前言 上一篇文章 Vue学习——【第三弹】 中我们了解了MVVM模型&#xff0c;这篇文章接着学习Vue中的数据代理。 简单介绍 数据代理就是**一个对象(A)来代理对另一个对象(B)的属性操作(A一定要包含B)。**直接看定义大家可能觉得有些抽象&#xff0c;我们可以用代码来实现。 …

网络编程

网络编程 1.1、概述 计算机网络&#xff1a; 计算机网络是指将地理位置不同的具有独立功能的多台计算机及其外部设备&#xff0c;通过通信线路连接起来&#xff0c;在网络操作系统&#xff0c;网络管理软件及网络通信协议的管理和协调下&#xff0c;实现资源共享和信息传递的计…