简要介绍 | 基于深度学习的姿态估计技术

news2024/11/19 21:27:49

注1:本文系“简要介绍”系列之一,仅从概念上对基于深度学习的姿态估计技术进行非常简要的介绍,不适合用于深入和详细的了解。
注2:"简要介绍"系列的所有创作均使用了AIGC工具辅助

基于深度学习的姿态估计技术

在这里插入图片描述

背景介绍

姿态估计 是计算机视觉领域的一个重要研究方向,它主要关注如何从图像或视频中提取人体的三维姿态信息。随着深度学习技术的快速发展,基于深度学习的姿态估计方法在近年来取得了显著的进展。本文将对这一领域的背景、原理、研究现状、挑战和未来展望进行详细介绍。

原理介绍与推导

1. 姿态估计基本概念

  • 关节点检测:姿态估计的第一步是检测人体的关键点,如头、肩、手腕等。这些关键点可以用二维坐标表示,如 ( x , y ) (x, y) (x,y)

  • 骨架表示:姿态估计的第二步是根据关键点的位置构建人体的骨架模型,以表达人体的姿态。

2. 深度学习模型

基于深度学习的姿态估计方法主要依赖卷积神经网络(CNN)来检测关键点。其中,Hourglass网络Stacked Hourglass网络 是两个具有代表性的深度学习模型。

2.1 Hourglass网络

Hourglass网络具有对称的编码器-解码器结构,通过多尺度信息处理和跳跃连接来提高关键点检测的精度。Hourglass网络的基本结构如下图所示:

在这里插入图片描述

2.2 Stacked Hourglass网络

Stacked Hourglass网络是一种多级Hourglass网络的结构,通过堆叠多个Hourglass网络来实现更精确的关键点检测。Stacked Hourglass网络的基本结构如下图所示:

在这里插入图片描述

研究现状

近年来,基于深度学习的姿态估计技术在各种应用中取得了显著的成果,如虚拟现实、增强现实、人机交互、运动分析、医学影像等。这一领域的研究现状可以从以下几个方面进行介绍:

1. 数据集

为了训练和评估姿态估计模型,研究者们构建了许多具有挑战性的数据集,如 MPII Human Pose DatasetCOCO Keypoint ChallengeLSP Dataset 等。

2. 姿态估计方法

基于深度学习的姿态估计方法可以分为两大类:自顶向下方法自底向上方法

  • 自顶向下方法:先检测图像中的所有人体,然后对每个人体进行关键点检测。这类方法的优点是可以针对每个人体单独进行姿态估计,但同时也需要更多的计算资源。

  • 自底向上方法:先检测图像中的所有关键点,然后根据关键点之间的关系将它们组合成人体姿态。这类方法的优点是可以在关键点检测阶段就并行处理多个人体,从而降低计算复杂度。

3. 评价指标

在姿态估计领域,常用的评价指标包括:

  • 平均精度(Average Precision,AP)和平均召回率(Average Recall,AR):这两个指标通常用于评价目标检测算法。在姿态估计中,可以将每个关键点视为一个目标,然后计算AP和AR。具体来说,对于每个关键点,可以计算其预测的置信度(confidence score)和与真实关键点之间的距离,然后根据置信度对所有关键点进行排序,最后根据不同的阈值计算AP和AR。AP和AR的计算方法比较复杂,可以参考目标检测领域的相关文献进行学习。

  • PCK(Percentage of Correct Keypoints):PCK指标是衡量预测关键点与真实关键点之间距离是否小于一定阈值的百分比。通常情况下,阈值取头部尺寸的一定比例,即PCKh指标。假设 d i d_i di表示预测关键点 i i i与真实关键点之间的距离, s s s表示头部尺寸的一半,则PCKh计算公式为:

P C K h = 1 n ∑ i = 1 n [ d i ≤ α s ] PCKh = \frac{1}{n}\sum_{i=1}^{n}[d_i \leq \alpha s] PCKh=n1i=1n[diαs]

其中, α \alpha α是一个预定义的常数,通常取0.5。PCKh指标的计算比较简单,但它只考虑了预测关键点与真实关键点之间的距离,而没有考虑它们之间的相对位置关系。

  • PCK3D(Percentage of Correct Keypoints in 3D):PCK3D指标是PCK指标的扩展,考虑了预测关键点与真实关键点在三维空间中的距离。假设 d i d_i di表示预测关键点 i i i与真实关键点之间的欧氏距离, s s s表示头部尺寸的一半,则PCK3D计算公式为:
    P C K 3 D = 1 n ∑ i = 1 n [ d i ≤ α s ] PCK3D = \frac{1}{n}\sum_{i=1}^{n}[d_i \leq \alpha s] PCK3D=n1i=1n[diαs]

与PCKh指标类似,PCK3D指标也只考虑了预测关键点与真实关键点之间的距离,而没有考虑它们之间的相对位置关系。

  • MPJPE(Mean Per Joint Position Error):MPJPE指标是评价预测关键点与真实关键点之间平均欧氏距离的指标。具体来说,假设 p i p_{i} pi表示预测关键点 i i i的位置, q i q_{i} qi表示真实关键点 i i i的位置,则MPJPE计算公式为:
    M P J P E = 1 n ∑ i = 1 n ∣ ∣ p i − q i ∣ ∣ MPJPE = \frac{1}{n}\sum_{i=1}^{n}||p_i - q_i|| MPJPE=n1i=1n∣∣piqi∣∣

MPJPE指标比较直观,但对于不同关键点之间的重要性没有进行区分,可能会忽略某些关键点的重要性。

除了上述指标,还有一些基于人体姿态相似性的评价指标,如PCK-Skeleton和PCK-Object,这些指标可以更加直观地反映姿态估计模型的性能。

挑战

尽管基于深度学习的姿态估计技术已经取得了显著的进展,但仍然面临着以下挑战:

  1. 遮挡:当人体的一部分被遮挡时,关键点检测和姿态估计的准确性可能会受到影响。
  2. 姿态多样性:人体姿态的多样性是一个巨大的挑战,需要姿态估计模型具有很高的泛化能力。
  3. 实时性:为了满足实际应用的需求,姿态估计模型需要在较短的时间内完成关键点检测和姿态估计,这对模型的计算效率提出了很高的要求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/653839.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【备战秋招】每日一题:2023.05-B卷-华为OD机试 - 告警抑制

2023大厂笔试模拟练习网站(含题解) www.codefun2000.com 最近我们一直在将收集到的各种大厂笔试的解题思路还原成题目并制作数据,挂载到我们的OJ上,供大家学习交流,体会笔试难度。现已录入200道互联网大厂模拟练习题&a…

基于Dlib的疲劳检测系统

需要源码的朋友可以私信我 基于Dlib的疲劳检测系统 1、设计背景及要求2、系统分析3、系统设计3.1功能结构图3.2基于EAR、MAR和HPE算法的疲劳检测3.2.1基于EAR算法的眨眼检测3.2.2基于MAR算法的哈欠检测3.3.3基于HPE算法的点头检测 4、系统实现与调试4.1初步实现4.2具体实现过程…

使用MATLAB画SCI论文图

从gcf和gca说起 不论是 Python 绘图还是Matlab绘图,想要获得更好看的图,都会用到这两个单词。 gcf:get current figure,是目标图像的图形句柄对象 gca:get current axes,是目标图像的坐标轴句柄对象 Mat…

pandas---数学函数、离散化处理、分组聚合

1. 数学函数 方差:当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和 较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越 …

【计算机网络】如何学好计网-第一章概论

相关术语 URI:Uniform Resource Identifier 统一资源标识符,指的是一个资源 URL:Uniform Resource Location 统一资源定位符,URI的子集,用地址定为的方式指定一个资源 URN:Uniform Resource Name 统一资…

北京论道|光环云李卓然:以“云”为帆 赋能文化出海行业创新增长

2023年6月15~16日,由流媒体网主办,北京新媒体(集团)有限公司、北京联通、北京电信、北京移动共同协办的「北京论道暨第25届中国智能视听与科技创新高峰论坛」在北京隆重举行。 本届论道以“电视的未来与未来的电视”为主题&#…

java语言中方法的重载

文章目录 前言一、重载是什么?二、使用步骤 1.实操展示2.注意事项总结 前言 小时候,我们学会了十以内的加法,却对十以外的加法感到害怕,但从现在来看,它们都属于加法,只是计算方法略有不同。方法的重载也一…

【备战秋招】每日一题:2023.05-B卷-华为OD机试 - 阿里巴巴找黄金宝箱(IV)

2023大厂笔试模拟练习网站(含题解) www.codefun2000.com 最近我们一直在将收集到的各种大厂笔试的解题思路还原成题目并制作数据,挂载到我们的OJ上,供大家学习交流,体会笔试难度。现已录入200道互联网大厂模拟练习题&a…

Computer Graphics From Scratch - Chapter 9

系列文章目录 简介:Computer Graphics From Scratch-《从零开始的计算机图形学》简介 第一章: Computer Graphics From Scratch - Chapter 1 介绍性概念 第二章:Computer Graphics From Scratch - Chapter 2 基本光线追踪 第三章:Computer Gr…

IEEE 最佳论文提名 | TraND:用步态算法优化身份识别

来源:投稿 作者:小灰灰 编辑:学姐 论文标题:TraND: Transferable Neighborhood Discovery for Unsupervised Cross-domain Gait Recognition 论文链接: https://arxiv.org/pdf/2102.04621v1.pdf 步态识别开始应用在公共场域身份…

centos mysql安装配置远程访问

包含以下三个部分:mysql安装,mysql密码重置、mysql配置远程访问。 一 centos安装mysql 1、wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm 2、yum -y install mysql57-community-release-el7-10.noarch.rpm 3、yum…

to be delete

一、grafana版本升级 1.1 还是先跟着官网简单走一波 建议经常升级Grafana,以获取最新的修补程序和增强功能。 为了实现这一点,Grafana升级向后兼容,并且升级过程简单快捷。升级通常是安全的(在许多次要版本和一个主要版本之间&a…

Python习题进阶

1.十六进制数字的大小 描述 计算的世界,除了二进制与十进制,使用最多的就是十六进制了,现在使用input读入一个十六进制的数字,输出它的十进制数字是多少? 输入描述: input读入一个十六进制数字&#xf…

微信支付服务商接入指引(企业)

目录 一、官方指引二、申请流程1.进入服务商平台2.填写资料3.账户验证&资料审核 三、登录 一、官方指引 https://kf.qq.com/faq/161220iqeAfA1612202yeURB.html 二、申请流程 1.进入服务商平台 https://pay.weixin.qq.com/static/partner_guide/service_provider.shtml…

【JVM快速入门篇】

本笔记内容为狂神说JVM快速入门篇部分 目录 一、JVM的位置 二、JVM体系结构 三、类加载器(ClassLoader) 四、双亲委派机制 双亲委派机制的作用 五、沙箱安全机制 六、Native ​编辑Native Method Stack 本机方法栈 Native Ilnterface本地接口…

低代码靠谱吗?实操一遍就知道了

一、前言 最近一段时间,“低代码”概念特别流行,有些人特别推崇它,也有些人对此不屑一顾。 推崇它的人认为,它有很多优点,比如说能够降低开发周期,提高系统开发效率,降低开发成本,学…

使用HBuilder将h5网站打包成app 自行打包

1、点击manifest.json,基础配置,APP名字,是否全面屏 2、然后点击图标配置,选好后点自动生成所有图标并替换 点击模块配置,选VideoPlayer和X5内核 然后顶部菜单选发行,选择原生App-云打包 选公测证书然后…

WPF教程-XAML介绍

XAML介绍 1.定义 为构建应用程序用户界面而创建的一种新的“可扩展应用程序标记语言”,提供一种便于扩展和定位的语法来定义和程序业务逻辑分离的用户界面。 XAML 是一种 XML(Extensible Markup Language)的扩展,XAML 是 WPF 中…

云计算——云计算与虚拟化的关系

作者简介:一名云计算网络运维人员、每天分享网络与运维的技术与干货。 座右铭:低头赶路,敬事如仪 个人主页:网络豆的主页​​​​​ 目录 前言 一.虚拟化 1.什么是虚拟化 2.虚拟化技术作用 二.云计算与虚拟化的关系 三.虚…

一文让非技术宅读懂为什么AI更“喜欢”GPU而不是CPU?

一、引言 随着人工智能(AI)技术的快速发展,深度学习等算法在图像识别、自然语言处理、数据挖掘等方面表现出了强大的能力。而这些算法的底层计算,往往对硬件有着极高的要求。为了满足这些需求,越来越多的研究和工程实…