AI实战营：人体姿态估计与MMPose

news2025/4/4 11:32:41

人体姿态估计的介绍与应用

2D姿态估计

多人姿态估计：自顶向下方法

多人姿态估计：自底向上方法

多人姿态估计：单阶段方法

基于Transformer的方法

基于回归的自顶向下方法

DensePose(2014)

通过级联提升精度

回归方法的优势与劣势

Residual Log-likelihood Estimation(RLE)(2021)

背景知识：回归和最大似然估计的联系

背景知识：标准化流Normalizing Flow

RLE的整体设计

残差似然函数

完整的RLE模型

基于热力图的自顶向下方法

Hourglass(2016)

局部图像的局限

级联Hourglass模块

不同的级联和监督方式

Hourglass模块

Simple Baseline(2018）

HRNet(2020)

HRNet的特征融合方式

HRNet配合不同任务头

自底向上方法

Part Affinit Fields & OpenPose(2016)

关键点与肢体的预测

关键点与关节预测

基于亲和度匹配关键点

单阶段方法

SPM(2019)

Structrued Pose Representation(SPR)

Hierarchical SPR

网络设计

回归策略

基于Transformer的方法

PRTP 2021

PRTR两阶段算法

PRTR单阶段算法

TokenPose(2021)

2D姿态估计小结

3D姿态估计

任务描述

绝对坐标VS相对坐标

难点

思路1：直接预测

思路2：利用视频信息

思路3：利用多视角图像

直接预测：Coarse-to-Fine Volumetric Prediction 2017

直接预测：Simple Baseline 3D(2017)

利用视频信息：VideoPose3D(2018)

利用多角度图像：VoxelPose(2020)

人体姿态估计的评估方法

Percentage of Correct Parts(PCP)

Percentage of Detected Joints(PDJ)

Percentage of Correct Key-points(PCK)

Object Keypoint Similarity (OKS) base mAP

DensePose(2014)与人体参数模型

SMPL人体参数化模型

SMPLify

HMR

总结

人体姿态估计的介绍与应用
- 什么是人体姿态估计
  - 从给定的图像中识别人脸、手部、身体等关键点。
- 3D姿态估计
  - 预测人体关键点在三维空间中的坐标，可以在三维空间中还原人体的姿态
- 人体参数化模型
  - 从图像或视频中恢复出运动的3D人体模型
- 下游任务：行为识别、人机交互、动作行为分析
2D姿态估计
- 任务描述
基本思路：基于回归（Regression Based）
基本思路：基于热力图（Heatmap Based）
- 热力图可以基于原始关键点坐标生成，作为训练网络的监督信息
- 网络预测的热力图也可以通过求极大值等方法得到关键点的坐标
- 模型预测热力图比直接回归坐标相对容易，模型精度相对更高，因此主流算法更多基于热力图，但预测热力图的计算消耗大于直接回归
从数据标注生成热力图
使用热力图训练模型
从热力图还原关键点
多人姿态估计：自顶向下方法
多人姿态估计：自底向上方法
多人姿态估计：单阶段方法
基于Transformer的方法
基于回归的自顶向下方法
- DensePose(2014)
- 通过级联提升精度
- 回归方法的优势与劣势
  - 优势：
    - 回归模型理论上可以达到无线精度，热力图方法的精度受限于特征图的空间分辨率
    - 回归模型不需要维持高分辨率特征图，计算层面更高效，相比之下，热力图方法需要计算和存储高分辨率的热力图和特征图，计算成本高
  - 劣势：
    - 图像到关键点坐标的映射高度非线性，导致回归坐标比回归热力图更难，回归方法的精度也弱于热力图方法，因此DeepPose提出之后的很长一段时间内，2D关键点预测算法主要基于热力图
- Residual Log-likelihood Estimation(RLE)(2021)
- 背景知识：回归和最大似然估计的联系
- 背景知识：标准化流Normalizing Flow
- RLE的整体设计
- 残差似然函数
- 完整的RLE模型
基于热力图的自顶向下方法
- Hourglass(2016)
- 局部图像的局限
- 级联Hourglass模块
- 不同的级联和监督方式
- Hourglass模块
- Simple Baseline(2018）
- HRNet(2020)
- HRNet的特征融合方式
- HRNet配合不同任务头
自底向上方法
- Part Affinit Fields & OpenPose(2016)
- 关键点与肢体的预测
- 关键点与关节预测
- 基于亲和度匹配关键点
单阶段方法
- SPM(2019)
- Structrued Pose Representation(SPR)
- Hierarchical SPR
- 网络设计
- 回归策略
- 损失函数
基于Transformer的方法
- PRTP 2021
- PRTR两阶段算法
- PRTR单阶段算法
- TokenPose(2021)
- 2D姿态估计小结
3D姿态估计
- 任务描述
- 绝对坐标VS相对坐标
- 难点
- 思路1：直接预测
- 思路2：利用视频信息
- 思路3：利用多视角图像
- 直接预测：Coarse-to-Fine Volumetric Prediction 2017
- 直接预测：Simple Baseline 3D(2017)
- 利用视频信息：VideoPose3D(2018)
- 利用多角度图像：VoxelPose(2020)
人体姿态估计的评估方法
- Percentage of Correct Parts(PCP)
- Percentage of Detected Joints(PDJ)
- Percentage of Correct Key-points(PCK)
- Object Keypoint Similarity (OKS) base mAP
DensePose(2014)与人体参数模型
- 人体表面参数化
- 标注方法
- 网络结构
- 改进设计
- 身体表面网格(Body Mesh)
- 混合蒙皮技术(Blend Skinning)
- 线性混合蒙皮LBS(Linear Blend Skinning)
- SMPL人体参数化模型
- 形参参数与姿态参数
- SMPL的基本设计逻辑
- SMPL人体模型表示
- 训练设计
- SMPL模型的应用
- SMPLify
- SMPLify算法流程
- 关键点投影损失
- 人体姿态约束
- “胶囊”近似人体
- 人体形态约束
- 损失函数
- HMR
- 算法设计
- 回归模型设计
- 2D投影损失
- 引入判别器
- 损坏函数