任务:action recognition and pose estimation
思路:对动作和姿态进行统一建模,将动作分成姿态,再将姿态分成part,学习三种level特征,通过动态规划有效的推断动作标签和姿态。
方法:统一建模,划分,推理,SVM
1.intro
1.1动机
动作识别和姿态估计都是基于视觉的人体运动理解重要任务。虽然两任务目标不同,但是这两个任务是高度耦合的,现有方法中分别训练两个模型,并一次组合推理:将姿态估计作为动作识别的输入。对于由身体部位的特定集合构型定义的某些动作,单张图像的姿态估计可能足以进行动作识别。
这类方法也有全店:动作识别的准确率高度依赖获得的姿态估计,由于姿态变化大且复杂,在动作数据集的背景中,具有鉴别性的部分(如手臂,手,腿,和腿)在姿态估计中经常被遗漏,从而恶化了后续的动作识别。然后这些人体部位再动作中有较大的运动,可以通过运动信息进行恢复。例如图1,用姿态估计方法错误检测到的手臂和腿被我们的方法成功检测到,除了手臂和腿部的运动信息外,动作识别还提供了对姿态序列的强先验。此外,如果动作限制再预定义的分类中,动作在空间和时间上对似然姿态提供了强约束。
1.2方法概述
首先建立一个时空和或图模型来联合表示动作和姿态,以及后续帧中的横向时间姿态关系。在顶层,通过粗层次特征捕获低分辨率动作信息,对动嘴进行分解胃每一帧的姿态。每一个姿态分解成五个独立的中层ST-part,所有细级别的部分都以他们的stpart父母为条件,每个st-part通过聚类被离散成几个组件。
2.贡献
(1)提出了时空AOG模型进行集成动作识别和姿态估计,两任务是互利的
(2)代表了三个尺度的的动作。粗,中和细的特征与pose特征联合训练。
3.表示以及建模
3.1. Spatial-Temporal And-Or Graph Model
时间帧上,动作表示成姿态
姿态表示为part ,以及part里面的特征表示
ST-part中特征:classification feature 和 detection feature
classification feature for action classification
detection feature for regularization其实就是姿态特征
然后还有两种边的特征,
3.2 Score Functions
主要就是之前的集中特征,放进去算评分,一步一步算下去
4. Inference
通过推理得到动作标签内和part的位置,粗水平和中水平特征直接通过SVM得来,细水平特征对应M个独立想,每项对应一个st-part的医院粉丝和二元转换分数的总和,用动态规划来寻找最佳路径。
5. Learning
5.1st-part学习
ST-parts分为:head, left elbow, right elbow, left knee, right knee.
st-part的特征可以表示为,作为聚类距离
5.2 ST-part Clustering
主要就是通过上面的聚类距离,来分类每个part