姿态估计:从给定的图像中识别人脸、手部、身体等关键点
输入:图像I
输出:所有关键点的像素坐标
2D姿态估计:在图像上定位人体关键点的坐标
基本思路:
1.将关键点检测建模为回归问题,让模型直接回归关键点的坐标
2.基于热力图,预测关键点位于每个位置的概率,热力图可以通过求极大值方法得到关键点的坐标
预测热力图比回归坐标相对容易,模型精度相对更高,但计算消耗大于直接回归
多人姿态估计—自顶向下方法:
1.使用目标检测算法检测出每个人体
2.基于单人图像估计每个人的姿态
多人姿态估计—自底向上方法:
1.使用关键点模型检测出所有人体关键点
2.基于位置关系或其他辅助信息将关键点组合成不同的人
多人姿态估计—单阶段方法:
基于回归的自顶向下的方法
DeepPose以分类网络为基础,将最后一层分类改为回归,一次性预测所有关键点的坐标,通过最小化平方误差训练网络
通过级联提升精度 第一级以全身图像为输入,预测所有关键点坐标,位置精度较低;以每个预测点位中心,剪裁局部图像送入第二季网络,再次回归该坐标,提升精度,可级联多级
RLE:将简单的高斯分布替换为一个可学习的、表达能力更强的分布,更好拟合关键点位置的实际分别
HRNet:在下采样时通过保留原分辨率分支来保持网络全过程特征图的高分辨率与空间位置信息,并设计了独特的网络结构实现不同分辨率的多尺度特征融合
基于回归的自底向上的方法
Part Affinity Fields&OpenPose:基于图像同时预测关节位置和四肢走向,利用肢体走向辅助关键点的聚类,即若两个关键点由某段肢体相连,则这两个关键点属于同一人
基于亲和度匹配关键点:关键点之间的亲和度构成一个带权重的K部图,关键点的聚类问题转变为K部图最优匹配问题,只考虑人体相连的关键点,将KK部图匹配问题分解为K-1个独立的二部图匹配问题,再借助匈牙利算法求解
单阶段算法
SPM:首次提出姿态估计单阶段解决方案
SPR:引入一个辅助的根关节以标识人员实例位置,是唯一标识关节
Hierarchical SPR:根据自由度和变形程度将根关节和身体关节划分为四个层次:根节点—颈、肩、臀—头、肘、膝—手腕、脚踝
基于Transformer的方法
PRTR两阶段算法:人体检测阶段,使用DETR检测出图中的不同的人—关键点检测阶段,使用DETR结构,query学习关键点信息,最终回归关键点位置
PRTR单阶段算法:人物检测和关键点检测共用一个图像特征网络,设计出一个STN模块,从完整特征图中剪裁出单人对应的图像特征用于后续关键点检测
TokenPose:将视觉token和关键点token一起送入encoder可以同时从图像中学习外观视觉表现和关键点见的约束关系
3D姿态估计:通过给定的图像预测人体关键点在三维空间中的坐标,可以在三维空间中还原人体的姿态
输入:图像
输出:所有人的关键点的空间坐标
绝对坐标:各关节点在相机坐标系中的坐标
相对坐标:关键点相对于骨盆点的坐标
1.直接预测:直接基于从2D图像回归到3D坐标,但2D图像不包含深度,实际上隐式的借助了语义特征或者人体的刚性实现3D姿态的推理
2.利用视频信息:运用视频来获得更多的帧间信息辅助推断
3.利用多视角图像:直接运用同一对象的多视角拍摄的图片来预测和还原出3D信息
Coarse-to-Fine Volumetric Prediction :单张图像输入卷积网络,预测3D热力图,模型为Hourglass级联,每级直接预测关键点的3D热力图
对于每个关节点,预测目标为6464d的3D热力图,d即深度方向的分辨率,逐级增加,每级取值
为{1,2,4,8,16,32,64}
Simple Baseline 3D:直接用2D坐标预测3D坐标而不需要借助图像
VideoPode3D:基于单帧图像预测2D关键点,再基于多帧2D关键点结果预测3D关键点位置
VoxelPose:使用HRNet产生不同视角的特征图,根据相机参数将图像特征整合到一个特征体中,再使用3D特征体给出该人所有关键点的空间坐标
评估指标
Percentage of Correct Parts(PCP)以肢体检出率为评价指标
Percentage of Detected Joints(PDJ)以关节点的位置精度作为评价指标
Percentage of Correct Key-Points(PCK)以关键点的检测精度作为评价指标
Object Keypoint Similarity based mAP(OKS)以关键点相似度作为评价指标
DensePose
将人体表面分为24个部分,并将每个部分参数化至同样大小(256*256)的UV平面
网络结构:Mask-RCNN+DenseReg=DensePose-RCNN
身体表面网格:有多边形网格组成的人体表面模型,由具有3D位置坐标的定点来定义
混合蒙皮技术:使身体表面网格随内在的骨骼结构形变(线性混合蒙皮和双四元数混合蒙皮)
SMPL人体参数化模型:针对构建人体参数化模型,将人体建模成6890各顶点和23个关节点为基础的身体表面网格,并设计了形态参数和姿态参数来控制人体的变化
SMPLify算法