Human-M3 多模态姿态估计数据集-初步解读

news2025/7/13 21:33:25

文章概述（个人总结）：该论文重点提出一个用于人体姿态估计的RGB+点云数据集，针对该多模态数据集，作者阐述了数据集的收集、数据标注以及该数据集的特点。并提出了一个简单的多模态3D人体姿态估计算法，对比其他模型，该方法性能较好。最后总结了该数据集和该方法的限制。

动机

现有的3D HPE数据集大多局限于单一模态（如RGB图像或点云），并且场景中的人数有限，导致数据多样性不足，无法应对复杂的现实场景。

论文的主要贡献如下：

Human-M3数据集：该数据集是第一个综合了多摄像头和LiDAR点云的户外3D人体姿态数据集。它包含了多视角RGB视频以及相应的LiDAR点云数据，能够同时捕捉多个个体的姿态，涵盖了不同的场景如篮球场、广场和街道交叉口等。
数据采集方法：提出了一种有效的方法，在不需要佩戴设备的情况下，获取户外场景中多个个体的3D人体姿态数据。每个采集单元包含了一个LiDAR传感器和一个摄像头，利用多模态信息结合的方式，解决了户外大范围场景中准确获取姿态的难题。
多模态3D姿态估计算法：论文提出了一种基于多模态数据（即RGB图像和LiDAR点云）的3D人体姿态估计算法，展示了多模态输入在姿态估计任务中的优势。这种算法通过融合RGB图像和点云的特征，在多视角数据上训练模型，大幅提高了3D姿态估计的精度。

**3D HPE算法通常使用多视角的RGB图像或LiDAR点云作为输入，来估计人体的三维姿态和形状。这些算法在*人类行为识别、场景感知、增强/虚拟现实、仿真、自动驾驶等众多下游应用中起到了关键作用。

激光雷达（LiDAR）点云数据，是由三维激光雷达设备扫描得到的空间点的数据集，每一个点都包含了三维坐标信息，也是我们常说的X、Y、Z三个元素，有的还包含颜色信息、反射强度信息、回波次数信息等

稀疏性、无序性、空间分布不均匀性、表示信息的有限性

在过去的几十年中，研究人员提出了许多3D人体姿态估计的数据集和基准测试，大大推动了这一领域的发展。这些数据集主要分为两类：室内场景和室外场景。

室内场景数据集使用光学跟踪系统、摄像头阵列或RGB-D传感器来捕捉部分人体姿态。但这些设备在自然光下表现不佳，且缺乏深度信息，无法适用于室外场景。此外，摄像头阵列的同步也带来了物理限制。
室外场景数据集通常通过在人体上安装IMU传感器（惯性测量单元）来捕捉人体的3D姿态。然而，IMU传感器在长时间的采集过程中容易产生漂移，从而导致姿态估计不准确。

引言还指出，当前室外3D人体姿态数据集存在几个主要的挑战：