MMPose（openmmlab AI实战营二期第一节）

MMPose（openmmlab AI实战营二期第一节）

news2025/7/16 20:29:18

链接：人体关键点检测与MMPose_哔哩哔哩_bilibili

赶了个进度，实际上没听到，一个方向被浓缩成50分钟是有点难度。后续有需要再回顾吧

人体姿态估计：识别人体关键点坐标。模式识别任务，难点是始终在变化。以关键点连线，2/3D中还原人体姿态。PoseC3D：基于人体姿态识别行为动作。CG动画追踪表情、手势姿态等。

人体姿态估计的介绍与运用
2D姿态估计
- 自顶向下
- 自底向上
- 单阶段
- 基于transformer
3D姿态估计
人体姿态估计的评估方法
DensePose
人体参数化模型

一、2D姿态估计

1.1基于regression based

将关键点的检测变成一个回归问题 $(x_{1},y_{1},...,x_{j},y_{j})=f_{\Theta }(I)$

输入一张图像，输出一个回归的坐标，类似于boundingbox回归的感觉。但是精度不高。是监督学习。

1.2 Heatmap Based

不直接回归关键点坐标，量预测关键点任务变成每个位置的概率 $H_{1...J}=f_{\Theta }(I)$

$H_{j}(x_{j},y_{j})=1$ 表示关键点 $j$ 位于 $(x_{j},y_{j})$ 的概率为1， $H$ 是热力图，尺寸与原图像 $I$ 相同或者按比例缩小，概率图啊。

类似于分类概率了吧。可以通过求极大值的方法得到关键点的坐标。

热力图相对回归坐标容易一些，模型精度也更高（讲着认为热力图识别关键点符合神经网络特性），但是热力图计算量也比较大。

1.3关键点热力图的标注

搜索

将每个点的概率，通过高斯核变成一个热力的概率图。

1.4使用热力图训练模型

输入图像->预测热力图

关键点->高斯模糊后的热力图

损失函数是1范式或者2范式

1.5 从热力图中还原关键点

朴素方法：求最大概率点。多个点不够鲁棒，另外讲着提到结果不是高斯的？
归一化概率，取其期望，即高斯重心

因为是网络是反向传播，模型可以求导，热力图是可以求导的，坐标也可以求导，从而指引热力图

1.6 自顶向下的方法（多人估计）

先检测人，然后做单肢体的估计

整体精度受限于检测器的精度，也就是第一环节的行人识别者确度影响随后的环节。也就是精度
速度和计算量与人数成正比。也就是速度。
多阶段模型

1.7 自底向上（多人估计）

先检测关键点，然后在组合成单个任务形态

1.8 单阶段（多人估计）

1.9 基于回归的自顶向下方法

DeepPose(2014)

通过级联提升精度

所有预测类的网络都里能发现这种思路，多阶段变成单阶段，然后单网络变成级联网络。

回归方法的优势与劣势

优势：

回归精度无上限，但热力图受限特征图空间分辨率。
热力图计算需要在高分辨率特征图上，因此计算成本高。

劣势：

图像到关键点坐标映射是高度非线性的，更难收敛，精度也比热力图差。2D关键点预测大部分集中于基于热力图。

Residual Log-likelihood Estimation(RLE) (2021)

对关键点位置进行更准确的概率建模，从而提高位置预测的精度

高斯分布不一定符合数据的真实分布？？？使用均值比较，就是默认服从高斯分布，如果均值一致，服从的分布一致？？？这里的高斯核刚才讲到的热力图，通过高斯模糊是一个意思，点位置的高斯。

RLE主要是构建概率分布，然后通过最大似然。

回归和最大似然估计的联系。

这里揭示了为啥基于均值比较的二范数回归问题暗含高斯分布。固定方程和各向同性？？？

RLE是一个可学习的分布？？？

标准化流 Normalizing Flow

这个是什么意思呢？神经网络学习一个映射？将最初的概率分部映射成复杂的概率密度函数？

正向变换是求解映射函数？逆向映射就可以将复杂概率函数恢复成原始的概率分部。

实际上应该是复杂、都类型的分布以通用形式组合而来，类似于小波变换什么的。。。

重参数化设计

也就是将复杂的概率分部通过使用高斯分布去表示，这个是网络模型中常用的方案，在VAE等模型中也提到过。

残差似然函数

也就是在高斯分布x的基础上有一个x_0的概念，这个x_0就是残差似然

完整的RLE模型

残差似然 x 基础似然，通过均值和方差进行平移拉伸，得到最终的似然函数P

基于热力图的自顶向下的方法

网络模型少不了的几大内容都提到了，局部信息、全局信息、残差链接，最终的目的生成热力图

级联的hourglass模块

常规的级联套路，就是一级一级的裁剪、细化

simple Baseline

特征提取网络改成resnet了

HRNet

多分辨率网络结构的特征融合，实际上这种网络画起来这种形式反而不好看懂。

这里讲的更多的是融合策略，maxpooling，感觉这种网络结构比较复杂，鲁棒性可能更低，因为相对而言被过拟合了。

HRNet配合不同任务头

自底向上

Part Affinity Fields & OpenPose

先检测关键点，和四肢走向（四肢走向？），然后利用聚类，两个关键点有某段肢体相连，则关键点属于同一人。

关键点与肢体预测

预测全部肢体的方向场，关键点和对应向量，下一个点也能得到。

肢体定义的关键点亲和度

这里类似于不连续线段检测，如何将不连续的线段组合成一条长的连续线段。

基于亲和度匹配关键点

K部图？？？不是很懂，大意可能就是首先所有节点全连接，然后按照一定拓扑结合删掉某些链接

单阶段方法

SPM

structured pose representation(spr)

位置和不同的方向的回归

hierarchical SPR

降低由于形变带来的关节点距离差异变化导致的回归难度。

网络设计

回归策略

根节点+稠密位移图

损失函数

基于transformer的方法

PRTR2021

主要是全局信息吧

STN网络就很常见了，主要是应对多种变化的

TokenPose(2021)

每个关键点是一个token？？？是把位置信息作为关键点，和token组合了？那预测呢

3D人体姿态估计

任务描述

感觉原理上和2D是一样的，难度就是代码上。

绝对坐标VS相对坐标

难点：从2D图像中回复3D信息

语义信息中包含刚性变换

视频帧之间的变换

单张图片

Coarse-to-fine

为每一个关节点预测一个64x64xd的3D热力图

Simple Baseline 3D

VideoPose3D

这个是不是就是利用时空信息

VoxelPose

评估指标

DensePose

mesh

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/606662.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

chatgpt赋能python：如何使用Python匹配IP地址

chatgpt赋能python：如何使用Python匹配IP地址

如何使用Python匹配IP地址如果你是一位网络管理员或是网络安全专家，那么你很可能需要经常处理IP地址。在一些情况下，你需要使用Python来自动化匹配或验证IP地址。在本文中，我们将介绍如何使用Python匹配IP地址。 IP地址的基础知识在介绍…

阅读更多...

地震segy数据高效读写库cigsegy在windows系统的编译

地震segy数据高效读写库cigsegy在windows系统的编译

https://github.com/JintaoLee-Roger/cigsegy 一个读写 segy 格式地震数据的 python 和 c 工具。可以将 segy 格式文件读到内存或者直接转为二进制文件，也可以将一个 numpy 数据存储为segy格式的文件。特点: 快，底层使用c实现可以在python中使用&…

阅读更多...

皮卡丘XXE/URL重定向/SSRF

皮卡丘XXE/URL重定向/SSRF

一.XXE 1.概述 XXE -"xml external entity injection" 既"xml外部实体注入漏洞"。概括一下就是"攻击者通过向服务器注入指定的xml实体内容,从而让服务器按照指定的配置进行执行,导致问题" 也就是说服务端接收和解析了来自用户端的xml数据,而又…

阅读更多...

chatgpt赋能python：Python升级所有包：一步引导所有Python开发者升级你的Python环境

chatgpt赋能python：Python升级所有包：一步引导所有Python开发者升级你的Python环境

Python升级所有包：一步引导所有Python开发者升级你的Python环境 Python作为一种动态的编程语言，一直在不断发展和更新。每个Python版本都有自己的新功能和改进。因此，许多Python开发者在使用Python时都会尝试升级到最新的版本。但是&#xf…

阅读更多...

论文笔记--Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

论文笔记--Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

论文笔记--Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context 1. 文章简介2. 文章概括3 文章重点技术3.1 Segment-Level Recurrence with State Reuse3.2 相对位置编码 4. 文章亮点5. 原文传送门 1. 文章简介标题：Transformer-XL: Attent…

阅读更多...

Spring集合

Spring集合

目录 SpringSpring简介Spring概述Spring FrameworkSpring Framework特征 IOC1、IOC的思想(1)传统方式的获取资源(2)控制反转方式的获取资源(3)DI 2、IOC 容器的两种实现BeanFactoryApplicationContext 基于XML管理bean1.创建Maven2.引入依赖3.创建HelloWorld.Java类4.创建sprin…

阅读更多...

【Java】单例设计模式-饿汉模式和懒汉模式

【Java】单例设计模式-饿汉模式和懒汉模式

单例模式概念如何设计饿汉模式懒汉模式分析造成线程不安全的原因解决方法总结单例模式概念单例是一种设计模式。单例指的是在全局范围内只有一个实例对象。比如在学习JDBC编码时使用的DataSource，定义了数据库的用户名，密码和连接串，定…

阅读更多...

以太网交换机自学习和转发帧的流程

以太网交换机自学习和转发帧的流程

以太网交换机自学习和转发帧的流程笔记来源： 湖科大教书匠：以太网交换机自学习和转发帧的流程声明：该学习笔记来自湖科大教书匠，笔记仅做学习参考以太网交换机工作在数据链路层（也包括物理层） 以太网交…

阅读更多...

大数据处理领域的经典框架：MapReduce详解与应用【上进小菜猪大数据】

大数据处理领域的经典框架：MapReduce详解与应用【上进小菜猪大数据】

上进小菜猪，沈工大软件工程专业，爱好敲代码，持续输出干货。 MapReduce是一个经典的大数据处理框架，可以帮助我们高效地处理庞大的数据集。本文将介绍MapReduce的基本原理和实现方法，并给出一个简单的示例。一、MapR…

阅读更多...

文件上传漏洞、XSS漏洞、RCE漏洞

文件上传漏洞、XSS漏洞、RCE漏洞

文件上传漏洞 1.定义：指用户上传了一个可执行的脚本文件（常见头像，简历，资源，附件，编辑器），并通过此脚本文件获得了执行服务器端命令的能力。 2.所需条件 （1&#xff0…

阅读更多...

什么是“支付二清”，“二清”的定义

什么是“支付二清”，“二清”的定义

“二清”的定义： 支付行业的"二清"是指二次清算，也称为二级清算。在支付行业中，清算是指在交易完成后，将资金从付款人账户转移到收款人账户的过程。一级清算通常由银行完成，而二级清算则是指由支付机构或清…

阅读更多...

正则表达式命令

正则表达式命令

文章目录一.基础命令1.grep命令1.1grep格式1.2grep命令选项 2.特殊的符号2.1空行——^$2.2以什么为开头—^,以什么为结尾—$2.2.1以什么为开头的格式：2.2.2以什么为结尾的格式： 3.只匹配单行——^匹配的字符$ 二.文本处理命令1.sort命令1.1命令解释及格…

阅读更多...

打电话用什么耳机好，推荐几款性能表现高的骨传导耳机

打电话用什么耳机好，推荐几款性能表现高的骨传导耳机

近几年有一种新型传播方式的耳机，将声音转化为振动，从而让我们的听觉神经感知到。这种声音传播方式叫做"骨传导"，所以叫做骨传导耳机。因为它不需要通过耳膜进行传播声音，所以可以让耳朵在不接触外界的情况下听到声音。…

阅读更多...

SpringCloud(四)

SpringCloud(四)

文章目录 Ribbon负载均衡负载均衡原理源码跟踪1）LoadBalancerIntercepor2）LoadBalancerClient3）负载均衡策略IRule4）总结 Ribbon负载均衡在springcloud（三）中，我们添加了LoadBalanced注解&…

阅读更多...

Burp模块

Burp模块

Target模块记录流量 1.Target按主机或域名分类记录 2.HTTP History 按时间顺序记录且会记录很多次 3.Target模块的作用 （1）把握网站的整体情况 （2）对一次工作的域进行分析 （3）分析网站存在的攻击面 …

阅读更多...

day 38,509. 斐波那契数70. 爬楼梯；# 746. 使用最小花费爬楼梯

day 38,509. 斐波那契数70. 爬楼梯；# 746. 使用最小花费爬楼梯

动态规划五步分析509. 斐波那契数1. dp数组以及下标名义2. 递归公式3. dp数组如何初始化4. 遍历顺序（背包问题先遍历背包还是物品）5. 打印dp数组：debug6.代码 70. 爬楼梯1. dp数组以及下标名义2. 递归公式3. dp数组如何初始化4. 遍历顺序5. …

阅读更多...

idea部署Tomcat

idea部署Tomcat

创建Web项目我们首先使用IDEA创建一个普通的java项目创建好后的项目结构如上图，我创建的项目名称为tomcat，这个项目现在还是一个普通的java项目，想要开发web程序，我们还要做一下操作，首先我们先给项目添加依赖首先…

阅读更多...

皮卡丘Unsafe Fileupload

皮卡丘Unsafe Fileupload

1.不安全的文件上传漏洞概述文件上传功能在web应用系统很常见，比如很多网站注册的时候需要上传头像、上传附件等等。当用户点击上传按钮后，后台会对上传的文件进行判断比如是否是指定的类型、后缀名、大小等等，然后将其按照设计的格式进行…

阅读更多...

chatgpt赋能python：Python升序数函数：从入门到实战

chatgpt赋能python：Python升序数函数：从入门到实战

Python升序数函数：从入门到实战 Python是一门广泛应用于软件开发、数据分析、人工智能等领域的高级编程语言。其中，对数值类型的处理尤为突出，而Python中提供了许多方便实用的数学函数来支持数值类型的计算。本篇文章将主要介绍Python中如何…

阅读更多...

皮卡丘存储型xss、DOM型xss、DOM型xss-x

皮卡丘存储型xss、DOM型xss、DOM型xss-x

1.存储型xss 看题目，我们先留言，看它的过滤机制发现可以永久存储并输出我们的留言之后插入payload: <script>alert(xss)</script> 成功弹窗！ 2.DOM型xss Dom型xss，简单的说，就是向文档对象传入xss参…

阅读更多...

推荐文章

最新文章