Human Pose Regression with Residual Log-likelihood Estimation

news2024/9/22 12:57:13

Abstract   

        通过似然热图对输出分布进行建模的基于热图的方法在人体姿态估计领域占据主导地位。相比之下,基于回归的方法更有效,但效果较差。 在这项工作中,我们探索了最大似然估计(MLE),以开发一种高效有效的基于回归的方法。从MLE的角度来看,采用不同的回归损失是对输出密度函数做出不同的假设。密度函数越接近真实分布,回归性能越好。有鉴于此,我们提出了一种新的残差对数似然回归范式估计(RLE),以捕获潜在的输出分布。具体来说,RLE学习分布的变化而不是未引用的底层分布,以促进训练过程。通过所提出的重新参数化设计,我们的方法与现成的流动模型兼容。所提出的方法是有效的、高效的和灵活的。我们通过综合实验展示了它在各种人体姿态估计任务中的潜力。与传统的回归范式相比,RLE回归在没有任何测试时间开销的情况下,使MSCOCO提高了12.4mAP。此外,我们的回归方法首次优于基于热图的方法,尤其是在多人姿态估计方面。我们的代码可在https://github.com/Jeff-sjtu/resloglikelihood-regression

1. Introduction

        人体姿态估计在计算机视觉领域得到了广泛的研究[23,24,1,32,21]。最近,随着深度卷积神经网络的发展,已经取得了重大进展。现有的方法可分为两类:基于热图的[60,59,65,4,67,57,49,55]和基于回归的[61,5,56,73,45,64]。这些方法展示了绘制每个关节的热图,并使用argmax[59,67,49]或软argmax[43,34,57]操作将关节定位为点的可能性。尽管具有优异的性能,但基于热图的方法仍存在较高的计算和存储需求。将热图扩展到3D或4D(空间+时间)将是昂贵的。此外,很难用现代单阶段方法部署热图

        基于回归的方法直接将输入映射到输出关节坐标,这对于各种人体姿态估计任务和实时应用来说是灵活高效的,尤其是在终端设备上。标准热图头(3个去卷积层)的成本为ResNet-50主干的1.4×FLOP,而回归头的成本仅为相同主干的1/20000 FLOP。然而,回归表现不佳。在具有挑战性的情况下,如遮挡、运动模糊和截断,基本事实标签本质上是模糊的。基于热图的方法对于
通过利用可能性热图来消除这些模糊性。但目前的回归方法很容易受到这些嘈杂标签的影响。

……介绍省略

3. Method

        在这项工作中,我们的目标是将基于回归的方法的性能提高到基于热图的方法的竞争水平。与基于热图的方法相比,基于回归的方法有很多优点:i)摆脱了高分辨率热图,并且具有较低的计算和存储复杂性。ii)它具有连续输出,不存在量化问题。iii)它可以以最小的成本扩展到各种场景(例如,单阶段方法、基于视频的方法、3D场景)。然而,现有的基于回归的方法性能较差,这是致命的,并限制了其广泛使用。

        在本节中,在介绍我们的解决方案之前,我们首先从§3.1中的最大似然估计的角度回顾了回归的一般公式。然后,在§3.2中,我们提出了残差对数似然估计(RLE),这是一种利用归一化流来捕获潜在的残差对数似然函数并促进人体姿态回归的方法。最后,§3.3中提供了必要的实施细节。

3.1. General Formulation of Regression

        标准的回归范式是将L1或L2损失应用于回归输出。损失函数是根据经验,为不同的任务选择的。在这里,我们从最大似然估计的角度来回顾回归问题。给定输入图像,回归模型预测分布,该分布指示gt真值出现在位置x的概率,其中θ表示可学习的模型参数。
由于标签中固有的模糊性,标记位置是标注人员人为标注的结果。学习过程是优化模型参数θ,使观察到的标签最有可能出现。因此,损失函数该最大似然估计(MLE)过程的最大似然估计被定义为:

 

         在这个公式中,不同的回归损失本质上是输出概率分布的不同假设。例如,在物体检测[18,29,28]和密集对应[40]的一些工作中,假设密度是高斯分布。该模型需要预测两个值,,以构建密度函数。为了最大化观察到的标签的可能性,损失函数变为:

 

         如果我们假设密度函数具有常数方差,即是常数,则损失函数退化为标准的L2损耗:此外,如果我们假设密度遵循具有恒定方差的拉普拉斯分布,则损失函数成为标准的L1损失”。在推理阶段,用于控制分布位置的值,用作回归输出。

         从这个角度来看,损失函数取决于分布的形状。因此,更精确的密度函数可以产生更好的结果。然而,由于潜在分布的分析表达式是未知的,该模型不能简单地回归几个值来构建密度函数,如方程2。为了估计潜在分布并促进人体姿势回归,在下一节中,我们通过利用归一化流提出了一种新的回归范式。

 3.2. Regression with Normalizing Flows

        在本小节中,我们介绍了所提出的范式的三种变体,它们利用归一化流进行回归(见图2)。

 Basic Design.

         所提出的具有归一化流的回归范式的基本设计如图所示。

        第2(a)段。这里,归一化流[52,11,26,46,25]学习 通过可逆映射变换简单分布来构造复杂分布。我们考虑随机变量z上的分布作为初始密度函数。它是由回归模型Θ的输出定义的。为了简单起见,我们假设即高斯分布。一个光滑且可逆的映射将z变换为x,即,其中φ是流模型的可学习参数。

         变换后的变量x遵循另一个分布。概率密度函数取决于回归模型θ和流量模型fφ,可以计算为:

 

        其中是的倒数,。这样,给定任意x,可以通过方程3通过反向计算z来估计相应的对数概率。此外,是可学习的,并且只要足够复杂,就可以拟合任意分布。在实践中,我们可以通过组合多个简单的映射来成功的表达一个负责的函数,即

        对学习的分布执行最大似然过程。因此,损失函数公式化为:

 

        请注意,潜在的最优分布是未知的。流模型通过最大化标记位置的可能性以无监督的方式学习。例如,具有挑战性的情况(例如,cclusions),对于标注者的标签偏差较大的,预测的分布应该具有较大的方差,以最大化对数概率。 

 Reparameterization.

         虽然基本设计看起来合理,但在实践中并不可行。的学习,依赖于损失函数中的。因此,φ将学会跨越所有图像拟合(真值)的分布。然而,我们想要了解的分布是关于输出如何偏离对输入图像的基本事实条件,而不是基本事实本身在所有图像中的分布。

         在这里,为了使我们的回归框架可行并与现成的流模型兼容,我们进一步设计了具有重新参数化策略的回归范式。新的范例如图2(b)所示。我们假设所有潜在分布共享相同的密度函数族,但在输入上具有不同的均值和方差条件。首先,利用流量模型fφ来映射零均值初始分布到零平均变形分布。然后,回归模型Θ预测两个值,,以控制分布的位置和规模。通过将x移动和重新缩放到来获得最终分布,其中

         因此,具有重新参数化的损失函数可以写成:

         式中,通过重新参数化设计,现在流量模型可以专注于学习的分布,这反映了输出与真值的偏差。

Residual Log-likelihood Estimation. 

残差对数似然估计。在重新参数化之后,可以以端到端的方式训练回归框架。根据损失函数中的项,回归值的训练和流量模型耦合在一起(等式5)。然而,这两个模型之间存在着复杂的依赖关系。回归模型的训练完全依赖于流量模型估计的分布。在训练的初始阶段,分布的形状远远不正确,这增加了训练回归模型的难度,并可能降低模型的性能。

        为了便于训练过程,我们开发了一种gradient shortcut来减少这两个模型之间的依赖性。形式上,由流动模型估计的分布试图拟合最优的基本分布,它可以分为三项:

 

         其中,项Q(x)可以是一个简单的分布,例如高斯分布是我们所说的残差对数似然,常数s是为了确保残差项是一个分布。我们假设可以大致匹配基本分布,但不能完全匹配。剩余对数似然是为了补偿差异。因此,我们以与等式6相同的方式划分的对数概率:

 

         其中是通过流模型学习的分布。的值可以用来近似。s的推导见补充文件。

         通过这种方式,Gφ(x)将试图拟合潜在的残差似然,而不是学习整个分布。最后,结合重新参数化设计(等式5)和残差对数似然估计(等式7),总损失函数可以定义为:

 

 这个过程如图所示。在训练过程中,来自的反向传播梯度不依赖于流模型,这加速了回归模型的训练。此外,正如ResNet[16]的假设,优化残差映射比优化原始未引用映射更容易。

        在极端情况下,如果预设近似是最优的,那么将残差对数概率推至零比通过fφ中的可逆映射堆栈拟合恒等映射更容易。残差对数似然估计的有效性在§4.1中得到验证 

3.3. Implementation Details 

        在训练阶段,以端到端的方式同时优化回归模型和流模型。我们将标准回归损失L1和L2替换为所提出的残差对数似然估计损失。默认初始密度设置为拉普拉斯分布。在测试阶段,预测的平均值作为回归输出。因此,在推理过程中不需要运行流模型。这一特性使得所提出的方法灵活且易于应用于各种回归算法,而没有任何测试时间开销。此外,预测置信度可以从

 

其中,是第i个关节的学习偏差,K表示关节的总数。用sigmoid型函数预测偏差。因此,我们有

Flow Model. 

 所提出的回归范式对流量模型是不可知的。因此,可以应用各种现成的流量模型[52,11,26,46,25]。在实验中,我们采用RealNVP[11]进行快速训练。我们将具有Nn个神经元的Lfc完全连接层的可逆函数表示为Lfc×Nn。默认情况下,我们设置Lfc=3和Nn=64。流模型是轻量级的,几乎不会影响训练速度。补充文件(§A)中提供了流模型体系结构和更多细节。

Task

所提出的回归范式是通用的,可以用于各种人体姿态估计任务。在实验中,我们在五项任务中的七种不同算法上验证了所提出的回归范式:单人2D姿势估计、自上而下的2D姿势估计和一阶段
2D姿态估计、单阶段3D姿态估计和两阶段3D姿态评估。§4和§5提供了详细的培训设置。补充文件中提供了关于单人2D姿势估计的实验。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/465294.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于朴素贝叶斯的垃圾邮件分类系统项目开发教程

项目资源下载 基于朴素贝叶斯的垃圾邮件分类系统源码 项目简介 本项目基于朴素贝叶斯算法来解决垃圾邮件分类问题,并使用混淆矩阵进行了验证,得到了非常好的准确率和召回率(96%和97%)。此外还开发了一个可视化的垃圾邮件分类系统…

前端通过ajax上传文件到七牛云

1. 从服务端获取七牛云上传的token,生成token参考官方文档https://developer.qiniu.com/kodo/1208/upload-token 2. 在七牛云文档查找上传的存储区域 https://developer.qiniu.com/kodo/1671/region-endpoint-fq 在七牛云控制台找到空间管理的cdn加速域名https://portal.qiniu…

【Thinkphp 6】框架基础知识

文章目录 环境搭建框架基础规则继承引入单应用模式多应用模式自定义路由调试器空控制器 视图模板引擎安装渲染模板facade代理变量传递view.php语法查看编译后的文件默认值数组按键取值md5加密 请求request信息参数接收生成URL 文件上传上传及验证 验证功能验证器表单令牌 中间件…

android不可不知调试技巧

目录 1、条件断点 2、评估表达式(Evaluate Expression) 3、日志断点 4、方法断点 5、异常断点 6、Field WatchPoint 1、条件断点 假设我们列表循环的某个元素时候才暂停,就用这种方式。具体方式在循环列表打断点,对着断点右…

Nginx简介和快速入门

前言: 在一个小型的个人博客网站中,因为没什么流量,并发量小,一般可以直接在一个服务器上的tomcat中直接运行jar包.由tomcat直接响应给客户。 到后面之后随着流量的增大,一台服务器的资源不够用了,此时就需要再多开一…

浏览器渲染页面的原理及流程

1、渲染引擎首先通过网络获得所请求文档的内容 2、解析HTML文件,构建 DOM Tree 3、解析CSS,构建 CSSOM Tree(CSS规则树) 4、将 DOM Tree 和 CSSOM Tree合并,构建Render tree(渲染树) 5、reflow(重排、回流):根据Render tree进行节…

功率器件的仿真评估

功率器件的仿真评估 1.功率器件仿真评估概述2.IGBT温升模型整理3.Matlab仿真计算4.仿真评估报告 1.功率器件仿真评估概述 功率器件的仿真评估共五个步骤: a.根据IGBT数据手册整理中热阻参数、开关损耗参数温升模型; b.带入到Matlab中仿真堵转、中速运行…

一键免费部署你的私人 ChatGPT 网页应用

主要功能 在 1 分钟内使用 Vercel (https://vercel.com/)免费一键部署精心设计的 UI,响应式设计,支持深色模式极快的首屏加载速度(~100kb)海量的内置 prompt 列表,来自中文和英文自动压缩上下文…

CUDA下载,以及下载GPU版本的pytorch

一、下载anaconda 因为这步我之前就下好了,主要参考这个链接:史上最全最详细的Anaconda安装教程 二、下载CUDA 1.首先观察自己需要什么版本的CUDA,以及是否安装过CUDA 先cmd,输入命令 nvidia-smi结果如下,所以我们…

论文笔记:Hidden Markov Map MatchingThrough Noise and Sparseness

sigspatial 2009 1 方法介绍 1.0great circle和route距离 1.1 和ST-matching的比较 1.1.1 转移概率和观测概率 和同一年的ST-matching很类似,也是使用HMM来进行路网匹配论文笔记:Map-Matching for low-sampling-rate GPS trajectories(ST…

【Redis7】Spring Boot集成Redis(重点:集成RedisTemplate)

【大家好,我是爱干饭的猿,本文重点介绍Redis7 Spring Boot集成Redis,包括Jedis、lettuce、集成RedisTemplate、集群时一台master宕机,java报错的情况分析。 后续会继续分享Redis7和其他重要知识点总结,如果喜欢这篇文…

linux-02-软件安装-centos7配置jdk、tomcat、mysql、lrzsz、项目部署(Git、Maven)、shell脚本自动从git仓库获取项目更新★

文章目录 Linux-Day02课程内容1. 软件安装1.1 软件安装方式1.2 安装JDKshell脚本里写 cd命令不生效 1.3 安装Tomcat1.3.1 Tomcat安装好多方便的自定义命令:1.3.2 Tomcat进程查看1.3.3 防火墙操作1.3.4 停止Tomcat 1.4 安装MySQL1.4.1 MySQL安装1.4.2 MySQL启动1.4.3 MySQL登录1…

几何算法——7.Blending(倒角)的调研、设计及算法

几何算法——7.Blending(倒角)的调研、设计及算法 1 Parasolid的Blending1.1 关于Parasolid的BlendSurface1.2 Edge Blending1.2.1 Rolling-ball blends1.2.2 Variable rolling-ball blends1.2.3 Chamfers1.2.3.1 face offset chamfers1.2.3.2 apex-rang…

自学黑客/网络渗透,一般人我劝你还是算了

写在开篇 笔者本人 17 年就读于一所普通的本科学校,20 年 6 月在三年经验的时候顺利通过校招实习面试进入大厂,现就职于某大厂安全实验室。 我为啥说自学黑客,一般人我还是劝你算了吧。因为我就是那个不一般的人。 首先我谈下对黑客&…

AMBA总线协议AXI——学习笔记

文章目录 前言一、AXI(Advanced eXtensible Interface)1、定义2、信号2.1 全局信号2.2 写数据通路2.3 写地址通道2.4 写回复通道2.5 读数据通道2.6 读地址通道2.7 低功耗接口信号 3、AXI-Lite协议特点4、读写时序图4.1 读burst4.2 读重叠burst4.3 写burs…

Baklib母公司探码科技荣获甲子光年:2023中国AI数据平台创新企业

4月25日,由中国科技产业智库「甲子光年」主办、上海市信息服务业行业协会支持的「共赴山海2023甲子引力X智能新世代」峰会在上海召开。峰会上为了表彰在AI领域中取得卓越成就的公司,甲子光年在峰会现场颁布了星辰20:创新企业,表彰…

鹏程·盘古

鹏程盘古模型基于 1.1 TB 高质量中文训练数据,采用全场景人工智能计算框架 MindSpore 自动并行技术实现了五维并行训练策略,从而可将训练任务高效扩展到 4 096 个处理器上。 对比实验表明,在少样本或零样本情况下,鹏程盘古模型在…

Mysql高级知识-------索引

mysql索引的创建,新增,删除 查询索引: 语法: show index from 表 主要参数: 新建表中添加索引 ① 普通索引 create table t_dept( no int not null primary key, name varchar(20) null, sex varchar(2) null, inf…

讯飞星火大模型申请及测试:诚意满满

“ 大家好,我是可夫小子,关注AIGC、读书和自媒体。解锁更多ChatGPT、AI绘画玩法。加:keeepdance,备注:chatgpt,拉你进群。 最近国产大模型跟下饺子似,隔几天就发布一个。厂家发布得起劲&#xf…

ArduPilot之posHoldRTL实测

ArduPilot之posHold&RTL实测 1. 源由2. 模式配置3. 测试步骤4. 飞行实测5. 总结6. 参考资料7. 附录-关于QGC 暂不支持MAVLink2 signing Protocol问题7.1 问题描述7.2 硬件配置7.3 逻辑分析7.4 配置Signature7.5 总结(QGC目前尚不支持MAVLink2 Signature&#xf…