【深度学习:人体姿态估计】计算机视觉人体姿态估计完整指南

news2024/10/7 4:29:08

在这里插入图片描述

【深度学习:人体姿态估计】计算机视觉人体姿态估计完整指南

    • 什么是人体姿态估计?
      • 2D 人体姿态估计
      • 2D 人体姿态估计示例
      • 2D 与 3D 人体姿态估计
      • 人体姿态估计如何工作?
    • 机器学习中人类姿态估计的挑战
    • 用于人体姿态估计的流行机器学习模型
      • #1: OmniPose
      • #2: RSN
      • #3: DARKPose
      • #4: OpenPose
      • #5: AlphaPose (RMPE)
      • #6: DeepCut
      • #7: MediaPipe
      • #8: High-Resolution Net (HRNet)
    • MediaPipe 与 OpenPose
    • 如何实现机器学习视频标注的人体姿态估计
    • 如何对姿态估计模型进行基准测试
    • 进行人体姿态估计时的常见错误
    • 部署机器学习视频注释工具时的人体姿态估计用例

当机器学习模型应用于图像和视频注释时,人体姿态估计 (HPE) 是一个强大的工具。

计算机视觉技术使机器能够执行高度复杂的图像和视频处理以及注释任务,这些任务模仿了人眼和大脑在几分之一秒内处理的内容。

在本文中,我们概述了机器学习模型和视频注释的人体姿态估计的完整指南,以及用例示例。

什么是人体姿态估计?

人体姿态估计 (HPE) 和跟踪是一项计算机视觉任务,随着计算能力和资源的不断增加,它变得越来越容易实施。它需要大量的计算资源和高度准确的算法模型来估计和跟踪人类的姿势和动作。

姿态估计涉及检测、关联和跟踪语义关键点。例如人脸上的关键点,例如嘴角、眼角和鼻子。或肘部和膝盖。借助姿态估计,计算机视觉机器学习 (ML) 模型可让您跟踪、注释和估计人类、动物和车辆的运动模式。

2D 人体姿态估计

2D 人体姿态估计估计 2D 位置,也称为图像和视频中人体关键点的空间位置。传统的 2D 方法使用手绘方法来识别关键点并提取特征。

早期的计算机视觉模型将人体简化为简笔画;想想艺术家用来绘制人体的小型木制模型的计算渲染。然而,一旦现代深度机器学习和基于人工智能的算法开始解决与人类姿态估计相关的挑战,就有了重大突破。我们将在本文中更详细地介绍这些模型和方法。

2D 人体姿态估计示例

2D 姿态估计仍然用于人体运动的视频和图像分析。它是基于 ML 和 AI 的注释分析模型最新进展背后的基础理论。2D 人体姿势估计用于医疗保健、人工智能驱动的瑜伽应用程序、机器人强化学习、动作捕捉、增强现实、运动员姿势检测等等。

2D 与 3D 人体姿态估计

在原始 2D 方法的基础上,3D 人体姿态估计可预测并准确识别三维 (3D) 中关节和其他关键点的位置。这种方法为整个人体提供了广泛的 3D 结构信息。3D 姿态估计有许多应用,例如 3D 动画、增强现实和虚拟现实创建以及动作预测。

可以理解的是,3D 姿势动画更耗时,尤其是当注释者需要花费更多时间在 3D 中手动标记关键点时。解决 3D 姿态估计的许多挑战的更流行的解决方案之一是 OpenPose,它使用神经网络进行实时注释。

人体姿态估计如何工作?

当注释者和机器学习算法、模型和系统使用人类姿势、方向和运动来精确定位和跟踪图像或视频中一个人或多个人的位置时,姿势估计就会起作用。

在大多数情况下,它是一个两步框架。首先,绘制一个边界框,然后使用关键点来识别和估计关节和其他特征的位置和运动。

机器学习中人类姿态估计的挑战

人体姿态估计具有挑战性。我们动态地移动,伴随着服装、面料、照明、任意遮挡、视角和背景的多样性。此外,视频中是否有多个人被分析,并了解一个或多个人或动物之间的运动动态。

姿态估计机器学习算法需要足够强大,以考虑每一种可能的排列。 当然,视频中的天气和其他跟踪对象可能会与人互动,使人类姿势估计更具挑战性。

最常见的用例是将机器学习模型应用于图像和视频中的人体运动注释的行业。体育、医疗保健、零售、安全、情报和军事应用是人体姿态估计视频和图像注释和跟踪最常应用的地方。

在进入用例之前,让我们快速浏览一下部署在人体姿态估计中最流行的机器学习模型。

用于人体姿态估计的流行机器学习模型

多年来,已经为人体姿态估计数据集开发了数十种机器学习 (ML) 算法模型,包括 OmniPose、RSN、DarkPose、OpenPose、AlphaPose (RMPE)、DeepCut、MediaPipe 和 HRNet 等。随着计算能力和 ML/AI 算法准确性的提高,随着数据科学家不断完善和迭代它们,新模型一直在不断发展。

在这些方法被开创之前,人类姿态估计仅限于勾勒出人类在视频或图像中的位置。它需要算法模型、计算能力和基于人工智能的软件解决方案的进步来准确估计和注释人体语言和动作。

好消息是,您通常将哪种算法模型与最强大、用户友好的机器学习或人工智能 (AI) 工具一起使用并不重要。借助 Encord 等基于 AI 的工具,这些模型中的任何一个都可以应用于注释和评估人体姿态估计图像和视频。

#1: OmniPose

OmniPose 是一个单程可训练框架,用于端到端多人姿态估计。它使用敏捷瀑布方法,其架构利用多尺度特征表示,可提高准确性,同时减少对后处理的需求。

包括上下文信息,并使用高斯热图调制进行联合定位。OmniPose 旨在实现最先进的结果,尤其是与 HRNet 结合使用(更多内容见下文)。

#2: RSN

残差步长网络(RSN)是一种创新方法,它“有效地聚合具有相同空间大小的特征(层内特征),以获得精细的局部表示,从而保留丰富的低层空间信息,并实现精确的关键点定位。

此方法使用姿态优化机 (PRM) 来平衡“输出特征中的局部和全局表示”之间的权衡,从而优化关键点特征。RSN 赢得了 2019 年 COCO Keypoint 挑战赛,并根据 COCO 和 MPII 基准记录了最先进的结果。

#3: DARKPose

DARKPose - 关键点的分布感知坐标表示 (DARK) 姿势 - 是一种改进传统热图的新方法。DARKPose 将“预测的热图解码为原始图像空间中的最终联合坐标”,并实现了“更有原则的分布感知解码方法”。生成更准确的热图分布,改善人体姿态估计模型结果。

#4: OpenPose

OpenPose 是一种流行的自下而上的机器学习模型,用于实时多人跟踪、估计和注释。它是一种开源算法,非常适合检测面部、身体、脚部和手部关键点。

OpenPose 是一个 API,可轻松与各种闭路电视摄像机和系统集成,其轻量级版本非常适合边缘设备。

#5: AlphaPose (RMPE)

也称为区域多人姿态估计 (RMPE),是一种用于姿态估计注释的自上而下的机器学习模型。它可以更准确地检测边界框内的人体姿势和运动模式。该架构适用于图像和视频中的单人和多人姿势。

#6: DeepCut

DeepCut 是另一种自下而上的方法,用于检测多人并准确定位图像或视频中的关节和这些关节的估计运动。它是为检测多人的姿势和运动而开发的,通常用于体育领域。

#7: MediaPipe

MediaPipe 是一个开源的“跨平台、可定制的直播和流媒体机器学习解决方案”,由 Google 开发和支持。MediaPipe 是一个强大的机器学习模型,专为面部检测、手部、姿势、实时眼动追踪和整体使用而设计。Google 在 Google AI 和 Google Developers Blog 上提供了大量深入的用例,甚至在 2019 年和 2020 年还举办了几次 MediaPipe Meetup。

#8: High-Resolution Net (HRNet)

高分辨率网络 (HRNet) 是一种用于姿态估计的神经网络,旨在更准确地找到图像或视频中的关键点(人体关节)。与其他算法模型相比,HRNet保持高分辨率表示,用于估计人类姿势和运动。因此,在为电视体育比赛拍摄的视频进行注释时,它是一种有用的机器学习模型。

MediaPipe 与 OpenPose

将一个模型与另一个模型进行比较需要尽可能准确和公平地设置测试条件。波兰AI/ML教育非营利组织 Hear.ai 进行了一项实验,将MediaPipe与OpenPose进行了比较,测试一个是否比另一个更准确检测视频中的手语。你可以在这里阅读它。

两者的准确性都被描述为“良好”,MediaPipe 在处理模糊、视频中的物体(手)变化速度和重叠/覆盖率时被证明更有效。在测试的某些时候,OpenPose 完全失去了检测。事实证明,与 OpenPose 合作具有足够的挑战性——出于多种原因——MediaPipe 显然是赢家。对这两个模型的其他比较得出了类似的结论。

现在让我们仔细看看如何实现机器学习视频标注的人体姿态估计。

如何实现机器学习视频标注的人体姿态估计

在这里插入图片描述

Encord 中的人体姿态估计

视频注释已经足够具有挑战性了,注释者需要处理诸如可变帧速率、重影帧、帧同步问题等困难。为了应对这些挑战,您需要一个视频注释工具,该工具可以处理任意长的视频并预处理视频,以减少帧同步问题。

将这些挑战与与人体姿态估计相关的层(识别关节、动态运动、多人、衣服、背景、照明和天气)相结合,您就会明白为什么强大的算法和计算能力对 HPE 视频注释至关重要。

因此,您需要一个具有以下功能的视频注释工具:

  • 轻松定义用于姿态估计视频注释的对象基元。 例如,注释者可以清楚地定义和绘制人体上任何需要的关键点,例如关节或面部特征。
  • 使用姿势中的关键点定义骨架模板。 创建骨架模板后,可以编辑这些模板并将其应用于机器学习模型。使用 Encord 的对象跟踪功能进行姿态估计,您可以大大减少任何项目开始时的手动注释工作量。借助功能强大且灵活的编辑套件,您可以减少模型所需的数据量,同时还可以在项目开发过程中手动编辑标签和关键点。
  • 对象跟踪和姿态估计。 凭借强大的对象跟踪算法,合适的工具可以支持各种计算机视觉模式。考虑到人体运动和肢体语言,考虑了人体姿势估计的所有固有挑战,例如灯光、衣服、背景、天气,以及在一个视频中跟踪多个人的移动。

如何对姿态估计模型进行基准测试

对视频标注机器学习模型进行基准测试的一种方法是使用 COCO;上下文中的常见对象。

“COCO 是一个大规模的目标检测、分割和字幕数据集”,专为对象分割、上下文识别和超像素对象分割而设计。这是一个开源架构,由Microsoft,Facebook和几家AI公司支持。

研究人员和注释者可以应用此数据集来检测人体运动中的关键点,并在上下文中更准确地区分视频中的对象。除了人体运动跟踪和注释外,COCO在分析赛马视频时也很有用。

进行人体姿态估计时的常见错误

一些最严重的错误涉及在动物身上使用人类姿态估计算法和工具。自然地,动物的移动方式与人类完全不同,除了那些与我们共享最接近DNA的动物,例如大型灵长类动物。

但是,其他更常见的错误涉及使用错误的工具。无论使用哪种机器学习模型,使用错误的工具,都可能浪费数天或数周的注释。一两个帧同步问题,或者需要将较长的视频分解成较短的视频,可能会让注释团队付出高昂的代价。

可变帧、重影帧或计算机视觉工具无法准确标记关键点可能会对项目成果和预算产生负面影响。每个视频注释项目都会发生错误。作为项目负责人,使用最有效的工具和机器学习模型最大限度地减少这些错误是按时和按预算实现项目目标的最佳方式。

部署机器学习视频注释工具时的人体姿态估计用例

人体姿态估计、机器学习模型和工具在各行各业都非常有用。从体育到医疗保健;工作人员、利益相关者或注释者需要评估和分析人类运动模式和肢体语言的影响或预期结果的任何部门。

HPE 机器学习分析在体育分析、打击犯罪、军事、情报和反恐领域同样有用。政府、医疗机构和运动队在实施人体姿态估计注释项目时,经常使用基于人工智能和机器学习的视频注释工具。

这是另一个强大的、改善生活的例子,用于养老院领域的机器学习注释和跟踪。这是 Encord 对 Teton AI 首席技术官的采访,Teton AI 是一家计算机视觉公司,为丹麦各地的医院和护理院设计防坠落工具。Teton AI 使用 Encord 的 SDK 将相同的数据快速应用于不同的项目,利用 Encord 的姿态估计标记工具来训练一个更大的模型,然后将其应用于医院和疗养院。

正如你所看到的,人类姿态估计并非没有挑战。借助正确的计算机视觉、机器学习注释工具和算法模型,您可以在实施下一个视频注释项目时克服这些困难。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1460247.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

线阵相机之帧超时

1 帧超时的效果 在帧超时时间内相机若未采集完一张图像所需的行数,则相机会直接完成这张图像的采集,并自动将缺失行数补黑出图,机制有以下几种选择: 1. 丢弃整张补黑的图像 2. 保留补黑部分出图 3.丢弃补黑部分出图

大数据分析/开发就业班新年钜惠活动来啦

2月26日-3月20日 开年钜惠活动 大数据分析/开发就业班即将开班 免费试学一周,额满即止

【sgCreateTableData】自定义小工具:敏捷开发→自动化生成表格数据数组[基于el-table]

源码 <template><!-- 前往https://blog.csdn.net/qq_37860634/article/details/136141769 查看使用说明 --><div :class"$options.name"><div class"sg-head">表格数据生成工具</div><div class"sg-container&quo…

友点CMS image_upload.php 文件上传漏洞

免责声明&#xff1a;文章来源互联网收集整理&#xff0c;请勿利用文章内的相关技术从事非法测试&#xff0c;由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失&#xff0c;均由使用者本人负责&#xff0c;所产生的一切不良后果与文章作者无关。该…

【PostgreSQL实现psql连接时候提示用户的密码有效时间】

如下内容使用session_exec插件结合自定函数实现。类似于触发器的原理。 功能需要严格在测试环境测试后&#xff0c;才可在正式环境使用。没有相关要求&#xff0c;还是建议直接查询pg_roles/pg_authid/pg_user&#xff1b; 一、判断是否需要修改用户密码和有效期的检查SQL 首…

Android | ArcGIS入门

一、概述 ArcGIS是由Esri开发的地理信息系统&#xff08;GIS&#xff09;软件。它用于制图、空间分析和数据可视化。ArcGIS允许用户以各种格式创建、管理、分析和共享地理信息。它通常用于城市规划、环境管理和应急响应等领域。该软件包括一系列工具&#xff0c;用于创建地图、…

专业定制线缆厂家推荐:精工电联-小批量、多品类集成线缆定制的领航者

高品质定制线缆厂家推荐&#xff1a;精工电联-小批量、多品类集成线缆定制的领航者 在当今这个多元化、个性化的时代&#xff0c;定制化产品和服务越来越受到市场的青睐。精工电联作为高科技智能化产品及自动化设备专用连接线束和连接器配套服务商&#xff0c;致力于为高科技行…

【Flink状态管理(八)】Checkpoint:CheckpointBarrier对齐后Checkpoint的完成、通知与对学习状态管理源码的思考

文章目录 一. 调用StreamTask执行Checkpoint操作1. 执行Checkpoint总体代码流程1.1. StreamTask.checkpointState()1.2. executeCheckpointing1.3. 将算子中的状态快照操作封装在OperatorSnapshotFutures中1.4. 算子状态进行快照1.5. 状态数据快照持久化 二. CheckpointCoordin…

基于PSO优化的CNN多输入回归预测(Matlab)粒子群算法优化卷积神经网络回归预测

目录 一、程序及算法内容介绍&#xff1a; 基本内容&#xff1a; 亮点与优势&#xff1a; 二、实际运行效果&#xff1a; 三、部分代码&#xff1a; 四、完整程序下载&#xff1a; 一、程序及算法内容介绍&#xff1a; 基本内容&#xff1a; 本代码基于Matlab平台编译&am…

Stable Diffusion 绘画入门教程(webui)-图生图

通过之前的文章相信大家对文生图已经不陌生了&#xff0c;那么图生图是干啥的呢&#xff1f; 简单理解就是根据我们给出的图片做为参考进行生成图片。 一、能干啥 这里举两个例子 1、二次元头像 真人转二次元&#xff0c;或者二次元转真人都行&#xff0c; 下图为真人转二次…

电脑任务栏一直转圈圈怎么办 电脑底部任务栏卡死桌面没事的解决办法

最近有一些用户反映&#xff0c;自己的电脑底部任务看卡死桌面没事&#xff0c;不知道是什么原因&#xff0c;也不清楚应该如何解决&#xff0c;是由于资讯和兴趣页面加载时卡死导致的&#xff0c;将其关闭后即可解决&#xff0c;以下是小编提供的电脑任务栏一直转圈圈的解决方…

c语言结构体与共用体

前面我们介绍了基本的数据类型 在c语言中 有一种特殊的数据类型 由程序员来定义类型 目录 一结构体 1.1概述 1.2定义结构体 1.3 结构体变量的初始化 1.4 访问结构体的成员 1.5结构体作为函数的参数 1.6指向结构的指针 1.7结构体大小的计算 二共用体 2.1概述 2.2 访…

网络编程知识整理

目录 1.1 引言 1.2 分层 1.3 TCP/IP的分层 1.4 互联网的地址 1.5 域名服务 1.6 封装 1.7 分用 1.8 端口号 1.1 引言 很多不同的厂家生产各种型号的计算机&#xff0c;它们运行完全不同的操作系统&#xff0c;但 T C P / I P协议族允许它们互相进行通信。这一点很让人感…

小红书家居种草商品笔记,需要注意哪些?

家居赛道一直都是小红书的强势赛道之一。那么如果想要成为一个家居博主&#xff0c;或者家居品牌想要入驻小红书&#xff0c;提升影响力&#xff0c;该如何进行推广呢?今天我们就从家居商品笔记的角度&#xff0c;和大家探讨下小红书家居种草商品笔记&#xff0c;需要注意哪些…

PHP分析二维数据表(长度|数字字段|空值|纯姓名|英文用户名|科学计数|是否等长|是否唯一)

先看图&#xff0c;后有完整代码 <?php $t "Excel数据转Sql查询系统字段半智能分析"; $s "Excel复制过来的二维结构表内容,分析查询条件&#xff01;"; $x "字段|最大长度|长度有|数字字段|空值存在|纯姓名|英文用户名|科学计数|是否等长|是否…

pandas DataFrame 导出到Excel格式美化

默认情况下&#xff0c;DataFrame 的 to_excel() 方法导出到 Excel 格式是比较丑的&#xff0c;本篇的代码演示了用一种比较简单的方法进行美化。要点&#xff1a; 使用 Excel 的 Table &#xff08;经常被称为超级表&#xff09;自动列宽 美化前&#xff0c;输出的格式如下&…

高级统计方法 第2次作业

概念 1. &#xff08;a&#xff09; 光滑度高的好&#xff0c;样本足够多光滑度越高就越能表征真实情况&#xff0c;也能对预测变量更好的预测。 &#xff08;b&#xff09; 光滑度低的好&#xff0c;因为可能“过拟合”&#xff0c;一些误差大的数可能会较大的影响到预测…

微信小程序video 点击自动全屏播放

//因为这个地址可能是图片也可能是视频 点击 图片可以预览&#xff0c;点击视频可放大全屏自动播放。 代码如下 <view v-else :class{contentImg: x.picture.length0} style"margin-top: 10px;"v-for"(x1, y1) in x.picture" :key"y"><…

【Docker】Linux主机部署Docker

Docker部署 1.二进制文件部署 到如下地址&#xff0c;下载二进制包。 Docker官网&#xff1a;https://docs.docker.com/engine/install/binaries/ 网易镜像源&#xff1a;https://mirrors.163.com/docker-ce/linux/static/stable/x86_64/ 下载好的二进制包上传到主机&#xf…

【LeetCode】递归精选8题——基础递归、链表递归

目录 基础递归问题&#xff1a; 1. 斐波那契数&#xff08;简单&#xff09; 1.1 递归求解 1.2 迭代求解 2. 爬楼梯&#xff08;简单&#xff09; 2.1 递归求解 2.2 迭代求解 3. 汉诺塔问题&#xff08;简单&#xff09; 3.1 递归求解 4. Pow(x, n)&#xff08;中等&…