动作识别数据集:“NTU RGB+D”数据集和“NTU RGB+D 120”数据集
(还包括AUTH UAV手势数据集:NTU 4级)
本页介绍两个数据集:“NTU RGB+D”和“NTU RGB+D 120”。
“NTU RGB+D”包含60个动作类和56,880个视频样本。
“NTU RGB+D 120”扩展了“NTU RGB+D”,增加了另外60个类和另外57,600个视频样本,即“NTU RGB+D 120”总共有120个类和114,480个样本。
这两个数据集都包含每个样本的 RGB 视频、深度图序列、3D 骨骼数据和红外 (IR) 视频。每个数据集由三个 Kinect V2 相机同时捕获。
RGB视频的分辨率为1920x1080,深度图和红外视频均为512x424,3D骨骼数据包含每帧3个身体关节的25D坐标。
- 行动类
这两个数据集中的动作分为三大类:日常行动、相互行动和医疗状况,如下表所示。
注意:从 A1 到 A60 标记的操作包含在“NTU RGB+D”中,从 A1 到 A120 标记的操作包含在“NTU RGB+D 120”中。
6. 使用条款和条件
数据集仅供学术研究之用,教育或研究机构的研究人员可免费用于非商业目的。
这两个数据集的使用受以下条款和条件的约束: • 未经 ROSE 实验室明确许可,以下任何行为都将被视为非法:
从该数据集重新分发、派生或生成新数据集,以及以任何方式或形式(部分或全部)将任何这些数据集用于商业用途。
• 为了保护隐私,任何这些数据集中所有主题的图像只允许在学术出版物和演示文稿中进行演示。
• “NTU RGB+D”和“NTU RGB+D 120”动作识别数据集的所有用户同意对ROSE实验室及其管理人员、员工和代理商进行赔偿、辩护并使其免受任何和所有损失、费用和损害。
如果有兴趣,研究人员可以注册一个帐户,提交申请表并接受发布协议。我们将验证您的请求并批准下载数据集。登录ID可用于“NTU RGB+D”和“NTU RGB+D 120”。
- 相关出版物
所有使用“NTU RGB+D”或“NTU RGB+D 120”动作识别数据库或任何派生数据集(见第8节)的出版物都应包括以下确认:“(部分)本文中的研究使用了南洋理工大学ROSE实验室提供的NTU RGB + D(或NTU RGB + D 120)动作识别数据集, 新加坡。
此外,这些出版物应引用以下论文:
Amir Shahroudy, Jun Liu, Tian-Tsong Ng, Gang Wang, “NTU RGB+D: A Large Scale Dataset for 3D Human Activity Analysis”, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016 [PDF].
Jun Liu,Amir Shahroudy,Mauricio Perez,Gang Wang,Ling-Yu Duan,Alex C. Kot,“NTU RGB + D 120:3D人类活动理解的大规模基准”,IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI),2019。 [PDF]。
关于RGB+D动作识别的一些相关著作:
Amir Shahroudy, Tian-Tsong Ng, Qingxiong Yang, Gang Wang, “深度视频中动作识别的多模态多部分学习”, TPAMI, 2016.
Amir Shahroudy,Tian-Tsong Ng,Yihong Gong,Gang Wang,“RGB + D视频中动作识别的深度多模态特征分析”TPAMI,2018。
Amir Shahroudy, Gang Wang, Tian Tsong Ng, “RGB-D 序列中动作识别的多模态特征融合”, ISCCSP, 2014.
刘军,Amir Shahroudy,徐东,王刚,“具有3D人类行为识别信任门的时空LSTM”,ECCV,2016。
刘军, 王刚, 胡平, 段玲宇, Alex C. Kot, “用于 3D 动作识别的全局上下文感知注意力 LSTM 网络”, CVPR, 2017.
刘军,Amir Shahroudy,徐东,Alex C. Kot,王刚,“基于骨架的动作识别使用时空LSTM网络与信任门”,TPAMI,2018。
Jun Liu, Gang Wang, Ling-Yu Duan, Kamila Abdiyeva, Alex C. Kot, “基于骨骼的人类行为识别与全球上下文感知注意LSTM网络”, TIP, 2018.
刘军,Amir Shahroudy,王刚,段玲宇,Alex C. Kot,“基于骨骼的在线动作预测使用尺度选择网络”,TPAMI,2019。
杨思源、刘军、卢世建、二孟华和Alex Kot,“基于多阶特征分析的手势识别和3D手部姿势估计的协作学习”,ECCV 2020。
杨思源、刘军、卢世建、二梦华和 Alex Kot,“用于无监督 3D 动作表示学习的骨架云着色”,ICCV 2021。
- 基于NTU RGB+D数据集的衍生作品
以下是一些派生自或部分使用NTU RGB + D数据集的数据集:
8.1. LSMB19:用于在连续运动数据流中搜索和注释的大规模运动基准 (http://mocap.fi.muni.cz/LSMB)。
J. Sedmidubsky,P. Elias,P. Zezula,“连续人类骨骼序列中的基准搜索和注释”,ICMR,2019 年。
8.2. AUTH 无人机手势数据集 (https://aiia.csd.auth.gr/auth-uav-gesture-dataset/ ).
F. Patrona,I. Mademlis,I. Pitas,“用于自主无人机处理的手势语言概述”,在空中机器人系统与环境物理相互作用研讨会 (AIRPHARO) 的论文集,2021 年。
您可以使用相同的申请表请求NTU RGB+D数据集的相关4类子数据集,并从下载页面的第3.0节下载
参考资料
https://rose1.ntu.edu.sg/dataset/actionRecognition/
代码参考:
https://github.com/shahroudy/NTURGB-D
https://github.com/kchengiva/Shift-GCN
https://github.com/Hrener/3D-Action-recognition
https://blog.csdn.net/Hren0412/article/details/89495678