文章概述(个人总结):该论文重点提出一个用于人体姿态估计的RGB+点云数据集,针对该多模态数据集,作者阐述了数据集的收集、数据标注以及该数据集的特点。并提出了一个简单的多模态3D人体姿态估计算法,对比其他模型,该方法性能较好。最后总结了该数据集和该方法的限制。
动机
现有的3D HPE数据集大多局限于单一模态(如RGB图像或点云),并且场景中的人数有限,导致数据多样性不足,无法应对复杂的现实场景。
论文的主要贡献如下:
- Human-M3数据集:该数据集是第一个综合了多摄像头和LiDAR点云的户外3D人体姿态数据集。它包含了多视角RGB视频以及相应的LiDAR点云数据,能够同时捕捉多个个体的姿态,涵盖了不同的场景如篮球场、广场和街道交叉口等。
- 数据采集方法:提出了一种有效的方法,在不需要佩戴设备的情况下,获取户外场景中多个个体的3D人体姿态数据。每个采集单元包含了一个LiDAR传感器和一个摄像头,利用多模态信息结合的方式,解决了户外大范围场景中准确获取姿态的难题。
- 多模态3D姿态估计算法:论文提出了一种基于多模态数据(即RGB图像和LiDAR点云)的3D人体姿态估计算法,展示了多模态输入在姿态估计任务中的优势。这种算法通过融合RGB图像和点云的特征,在多视角数据上训练模型,大幅提高了3D姿态估计的精度。
背景(引言)
**3D HPE算法通常使用多视角的RGB图像或LiDAR点云作为输入,来估计人体的三维姿态和形状。这些算法在*人类行为识别、场景感知、增强/虚拟现实、仿真、自动驾驶等众多下游应用中起到了关键作用。
激光雷达(LiDAR)点云数据,是由三维激光雷达设备扫描得到的空间点的数据集,每一个点都包含了三维坐标信息,也是我们常说的X、Y、Z三个元素,有的还包含颜色信息、反射强度信息、回波次数信息等
三维激光点云数据特点
稀疏性、无序性、空间分布不均匀性、表示信息的有限性
在过去的几十年中,研究人员提出了许多3D人体姿态估计的数据集和基准测试,大大推动了这一领域的发展。这些数据集主要分为两类:室内场景和室外场景。
- 室内场景数据集使用光学跟踪系统、摄像头阵列或RGB-D传感器来捕捉部分人体姿态。但这些设备在自然光下表现不佳,且缺乏深度信息,无法适用于室外场景。此外,摄像头阵列的同步也带来了物理限制。
- 室外场景数据集通常通过在人体上安装IMU传感器(惯性测量单元)来捕捉人体的3D姿态。然而,IMU传感器在长时间的采集过程中容易产生漂移,从而导致姿态估计不准确。
引言还指出,当前室外3D人体姿态数据集存在几个主要的挑战:
- 获取精准的姿态真值困难,尤其是在大范围的室外场景中,很难为人群佩戴动作捕捉设备。
- 行人在图像中的尺寸较小,因为他们离传感器较远,给姿态估计带来挑战。
- 行人常常被其他个体或物体遮挡,使得姿态难以分辨。
为了解决这些问题,论文提出了Human-M3数据集,它采用了多视角RGB视频和LiDAR点云的结合,并且无需使用穿戴设备来捕捉人体的3D姿态。通过这种多模态的密集信息,提出的算法能够在复杂的多人物场景中提供更精确的姿态估计和真值标注。
点云数据格式
该数据集给出的是PCD格式,PCD 格式标准是为了更好支持 PCL 库而诞生的。
PCL库是什么?*
PCL(Point Cloud Library) 是一个大型跨平台开源的 C++ 编程库。该库实现了大量点云相关的通用算法和高效数据结构。涉及到点云获取、过滤、分割、配准、检索、特征提取、识别、追踪、曲面重建、可视化等。
关于 PCL 更多相关知识,可查看 PCL 官网 :https://pointclouds.org/