实时手势识别（2）- 基于关键点分类实现零样本图片的任意手势的识别

前言

1.实现效果

2.关键点分类网络

3.KPNet训练测试数据准备

4.训练结果

4.1训练过程可视化

4.2验证集上的混淆矩阵

4.测试结果

4.1不同规模模型的测试结果对比

4.2分类结果投影到第一象限

4.3测试集上的混淆矩阵

4.4 二义性手势结果

4.5视频实测

5.零样本的任意手势识别

5.1任意手势关键点获取

5.2任意手势特征编码

6.训练和测试关键代码

6.1dataset.py

6.2dataloader.py

6.3engine.py

6.4train.py

6.5test.py

前言

先使用YOLOv8检测手部区域，然后使用YOLOv8-pose对放大的手部区域检测关键点，最后使用PointNet分类关键点，可以实现对任意手势的高精度实时识别。

对于非遮挡手势，仅需1W个参数，即可实现98%的准确率，极限情况下，仅需400个参数，可以达到80%的准确率。

手部关键点数据集准备：基于YOLOv8-pose的手部关键点检测（1）- 手部关键点数据集获取（数据集下载、数据清洗、处理与增强）

手部关键点检测模型训练：基于YOLOv8-pose的手部关键点检测（2）- 模型训练、结果分析和超参数优化

实现手部关键点实时检测：

基于YOLOv8-pose的手部关键点检测（3）- 实现实时手部关键点检测

1.实现效果

hand使用yolov8-m检测得到，resnt表示ResNet18的分类结果，shfnt表示用shufflenet_v2的分类结果，kpnet表示使用关键点分类网络的分类结果，conf是置信度。

类别效果如下，将原始的18个类别映射为以下的14个类别：

mapping_dict = {'call': 0, 'dislike': 1, 'fist': 2, 'four': 3, 'like': 4, 'mute': 5, 'ok': 6, 
                'one': 5, 'palm': 7, 'peace': 8, 'peace_inverted': 8, 'rock': 9, 'stop': 10, 
                'stop_inverted': 10, 'three': 11, 'three2': 12, 'two_up': 13, 'two_up_inverted': 13}

2.关键点分类网络

论文地址：PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation

项目地址：(tensorflow) https://github.com/charlesq34/pointnet

(pytorch) https://github.com/yanx27/Pointnet_Pointnet2_pytorch

PointNet主要用于3D点云分类，这里将手部关键点看做3D点到2D平面的投影。如果有深度估计（例如mediapipe）可以取得更好的效果，可以更准确识别正反面手、左右手。

mlp1_layers和mlp2_layers分别表示编码层和解码层全连接的节点数，调整节点数，可以获得不同规模大小的模型。最小的模型nn仅需[8, 8, 8]和[8, 8, 8]，48个神经元，即可实现80%的分类准确率。将PointNet简化为关键点（KeyPoint）分类网络（Net）KPNet：

import torch
import torch.nn as nn

class KPNet(nn.Module):
    def __init__(self, num_classes, dropout_rate=0.3):
        super(KPNet, self).__init__()

        # shared-MLP1 in encode layers
        # mlp1_layers = [2, 64, 128, 1024]   # X
        # mlp2_layers = [1024, 512, 256, 128, num_classes]    # X

        # mlp1_layers = [2, 64, 128, 512]    # L
        # mlp2_layers = [512, 256, 128, num_classes]    # L

        mlp1_layers = [2, 64, 128, 256]    # M
        mlp2_layers = [256, 128, 64, num_classes]    # M

        # mlp1_layers = [2, 32, 64, 128]    # S
        # mlp2_layers = [128, 64, 32, num_classes]  # S

        # mlp1_layers = [2, 32, 32, 64]    # n
        # mlp2_layers = [64, 32, 32, num_classes]    # n

        # mlp1_layers = [2, 8, 8, 8]  # nn
        # mlp2_layers = [8, 8, 8, num_classes]  # nn

        # mlp1_layers = [2, 64, 128, 512]    # visual
        # mlp2_layers = [512, 256, 128, 2, num_classes]    # visual

        self.mlp1 = nn.ModuleList()
        self.mlp2 = nn.ModuleList()

        # MLP1 layers (Conv1d + BatchNorm1d + ReLU)
        for i in range(len(mlp1_layers) - 1):
            self.mlp1.append(nn.Conv1d(mlp1_layers[i], mlp1_layers[i + 1], 1))
            self.mlp1.append(nn.BatchNorm1d(mlp1_layers[i + 1]))
            self.mlp1.append(nn.ReLU())

        # MLP2 layers (Linear + BatchNorm1d + ReLU)
        for i in range(len(mlp2_layers) - 2):  # Exclude last layer for linear
            self.mlp2.append(nn.Linear(mlp2_layers[i], mlp2_layers[i + 1]))
            self.mlp2.append(nn.BatchNorm1d(mlp2_layers[i + 1]))
            self.mlp2.append(nn.ReLU())
            if i >= 1:  # Apply dropout after the third linear layer
                self.mlp2.append(nn.Dropout(p=dropout_rate))

        # Final layer without ReLU, dropout, or batch normalization
        self.mlp2.append(nn.Linear(mlp2_layers[-2], mlp2_layers[-1]))

    def forward(self, x):
        # MLP1
        x = x.transpose(2, 1)  # (B, 2, N)
        for layer in self.mlp1:
            x = layer(x)
        x = torch.max(x, 2)[0]  # (B, 1024) global feature

        # MLP2
        # feat = None
        for i, layer in enumerate(self.mlp2):
            x = layer(x)
            # if x.shape[1] == 2:
            #     feat = x

        return x    #, feat

# 测试 KPNet
if __name__ == "__main__":
    B, N, C = 32, 100, 2  # Batch size = 32, 100 points, each with 2 dimensions
    num_classes = 10

    model = KPNet(num_classes)
    x = torch.randn(B, N, C)  # Random input
    output = model(x)
    print("Output shape:", output.shape)  # Expected output shape: (32, 10)

3.KPNet训练测试数据准备

将手部patch的关键点坐标归一化得到。patch如下图：

将每个类别坐标统一保存为txt文件：

每行保存一个patch的关键点信息：

对一行关键点进行可视化，外观特征较为明显：

关键点相对于点云更容易训练：点云需要随机采样（满足平移、旋转和置换不变性），而关键点的输入顺序是固定的，方向也是可以固定的。(根据需要，训练时可以加入旋转)。

4.训练结果

4.1训练过程可视化

可以看到约40轮就收敛了，每轮训练约13秒（2W条关键点），大概10分钟就能训练完。

4.2验证集上的混淆矩阵

主要错误：将three2错误预测为two（16个），将palm错误预测为stop（8个），将two错误预测为two_up。这也是符合预期的，这几类手势本身相似，会很容易受视角影响。其余每类准确率都在99%以上。

4.测试结果

4.1不同规模模型的测试结果对比

X号对应于原PointNet的网络设计，nn号为每层最小神经元尝试，总共参数仅400多个，就可以达到80+%的分类准确率：

模型型号	size (KB)	param	instance (test)	P (test)	R (test)	mAP (50:95)	Loss (test)	dropout
nn	14	438	122,720	0.8614	0.8258	0.8474	0.4693	0
n	43	7,862	122,720	0.9804	0.9761	0.9784	0.0997	0.3
S	103	18,722	122,720	0.9842	0.9803	0.9826	0.0912	0.3
M	357	40,834	122,720	0.9865	0.9840	0.9860	0.0762	0.3
L	992	224,218	122,720	0.9868	0.9836	0.9863	0.0731	0.3
X	3,400	1,701,514	122,720	0.9848	0.9848	0.9863	0.0737	0.3

4.2分类结果投影到第一象限

将特征映射为2为特征，在第一象限进行投影，可以看到14个类别被有效分开。不过，由于将负值强行映射到第一象限，导致原点处存在聚集（这也是为什么，分类网络的全连接层最后一层，不要加Relu的原因）：

4.3测试集上的混淆矩阵

测试集上的效果与验证集上类似：

归一化的混淆矩阵如下图所示，绝大部分手势准确率都在99%以上，fist只用200个训练，导致准确率最低：

4.4 二义性手势结果

如下图，存在二义性的手势，由于光线等问题，分类网络预测为stop和three，但是利用关键点可以预测为four：

4.5视频实测

使用分类网络可以区分正反面，可以学习到旋转等特征，比如call都是写着的，横着时候resnet依然可以识别出，但关键点分类无法识别。（因为训练时，没有加入旋转，这样关键点分类可以识别更多的手势语义。）

5.零样本的任意手势识别

5.1任意手势关键点获取

方式1：

由于我们已经知道了标准手势，我们不需要在获取图片后，再提取关键点。我们可以自己在白板上直接画几个点表示关键点，然后加入随机抖动（限制一定范围内的）产生大量的手势关键点。

方式2：

我们已经训练好了YOLOv8-pose的手部关键点检测网络，我们只需自己用电脑摄像头，调整远近、角度、视角等，即可自动标注获取大量的标准手势。（如果是分类网络，需要不同背景、手部样式，关键点则不需要考虑这些）。