读论文-MHFormer

news2024/11/27 12:56:56

论文:Multi-hypothesis representation learning for transformer-based 3D human pose estimation

在这里插入图片描述

摘要
尽管取得了重大进展,但由于深度模糊和自遮挡,从单目视频中估计3D人体姿势仍然是一项具有挑战性的任务。大多数现有的作品都试图通过利用空间和时间关系来解决这两个问题。然而,这些工作忽略了这样一个事实,即它是一个逆问题,其中存在多个可行解(即假设)。为了消除这一限制,我们提出了一个多假设转换器来学习多个貌似合理的姿势假设的时空表征。为了有效地建模多假设依赖关系并在假设特征之间建立强关系,我们引入了一个一对多对一的三阶段框架:(i)生成多个初始假设表示;(ii)对自我假设沟通进行建模,将多个假设合并为一个收敛的表示,然后将其划分为几个发散的假设;(iii)学习交叉假设交流,汇总多假设特征,合成最终的3D姿态。通过以上的处理,最终的表现得到了增强,合成的姿态更加准确。大量实验表明,该方法在Human3.6M和MPI-INF-3DHP两个具有挑战性的数据集上取得了最先进的结果。代码和模型可在https://github.com/Vegetebird/MHFormer 上获得。

在这里插入图片描述
步骤
在第一阶段,引入基于级联图转换器架构的多假设生成(MHG)模块,对人体关节的全局和局部固有结构信息进行建模,并在空间域中生成多个多层次特征。这些特征包含不同深度的不同语义信息,从浅到深,因此可以看作是多个假设的初始表示。

在第二阶段,提出了一个自假设细化(SHR)模块来细化每个单假设特征。SHR由两个新的区块组成。第一个模块是多假设自关注(MH-SA),它独立建模单假设依赖关系以构建自假设通信,使每个假设内的消息传递能够增强特征。第二个块是一个假设混合多层感知器(MLP),它在假设之间交换信息。将多个假设合并为一个收敛的表示,然后将该表示划分为几个发散的假设。虽然这些假设经过SHR的改进,但由于SHR中的MHSA仅传递假设内部信息,因此不同假设之间的联系不够强。
在最后阶段,交叉假设交互(CHI)模块对多假设特征之间的交互进行了建模。它的关键组件是多假设交叉注意(MH-CA),它捕获相互的多假设相关性来构建跨假设通信,使消息在假设之间传递,从而更好地进行交互建模。然后,使用假设混合MLP对多个假设进行聚合以合成最终预测。

贡献

  1. 我们提出了一种新的基于 Transformer 的方法,称为 MultiHypothesis Transformer (MHFormer++),用于从单目视频中估计 3D 人体姿势。构建了一个一对多对一的框架,可以端到端有效地学习多个姿态假设的时空表征。
  2. 多假设生成(Multi-Hypothesis Generation, MHG)模块旨在捕获每帧内人体关节的全局和局部信息,并在空间域中生成包含不同语义信息的多个假设表示。
  3. 引入了自假设细化(SHR)模块和交叉假设交互(CHI)模块来建模跨框架的时间一致性,并在时域内独立和相互通信多个假设特征。
  4. 该方法在 Human3.6M[23]和 MPI-INF-3DHP[24]数据集上达到了最先进的性能。

本文是我们的 CVPR 2022 会议论文[25]的延伸.与[25]相比,新的贡献包括:
(1)我们用图Transformer 编码器替换了原始MHG模块中的标准 Transformer 编码器。与原始版本只关注捕获全局上下文不同,图转换器编码器通过在变形器中引入图卷积网络(GCNs)来建模人体关节的全局和局部信息,能够更好地约束估计的三维人体姿势的物理结构,提高估计精度的性能。
(2)在原始CHI模块后增加融合块,更有效地将多个假设特征聚合为一个增强的假设表示。它可以通过在回归头中使用低维向量来缓解过拟合,从而提高性能。
(3)采用这些新设计,将[25]中提出的 MHFormer 升级为 MHFormer++。此外,实验结果表明,我们的 MHFormer++ 可以达到更好的性能和泛化能力。(4)我们进行了更广泛的定量和定性比较,包括平均每个关节速度误差(MPJVE),平均每个关节位置误差(MPJPE)分布,逐帧 MPJPE,关节方向MPJPE,以及具有挑战性的野外视频的可视化,以系统地显示所提出方法的有效性。

方法

MHFormer++

所提出的MHFormer++的概述如图3所示。
在这里插入图片描述

给定由现成的 2D 姿态检测器从视频中估计的连续 2D 姿态序列 X ∈ R N × J × 2 X∈R^{N×J×2} XRN×J×2,我们的方法旨在通过充分利用多假设特征层次中的时空信息来重建中心帧 X ∈ R J × 3 X∈R^{J×3} XRJ×3 的 3D 姿态。为了实现我们提出的一对多对一三阶段框架,MHFormer++ 建立在:
(i)三个主要模块:多假设生成(MHG)、自假设细化(SHR)和交叉假设交互(CHI)
(ii)两个辅助模块:时间嵌入和回归头。
具体而言,在空间领域,MHG 模块对人体关节之间的空间相关性进行建模,并生成多个初始假设表示。然后,时间嵌入模块将特征嵌入到高维向量中,并添加时间位置嵌入。在时域中,SHR 和 CHI 模块都捕获帧之间的时间相关性。此外,SHR 细化了单假设特征,CHI 捕获了多个假设之间的相互作用。最后,回归头模块进行回归预测最终的 3D 姿态。

MHG

在这里插入图片描述
具有三个不同假设的多假设生成(MHG)模块架构。MHG是一种基于级联图Transformer的架构,它在每帧内提取人体关节的内在结构信息,并生成多个假设表示。其中,N表示输入帧数,T表示换位操作。红色矩形突出显示了我们在MHFormer上的扩展

Self-hypothesis refinement

在这里插入图片描述
基于三种不同假设的自假设精化(SHR)和交叉假设交互(CHI)模块架构。利用SHR对单假设特征进行细化,利用CHI对多假设特征之间的相互作用进行建模。红色矩形突出显示了我们在MHFormer上的扩展。

在时域,我们首先构建SHR来细化单假设特征(见图5)。每个SHR层由一个多假设自注意(MH-SA)块和一个假设混合MLP块组成。
多个假设在MH-SA中被独立处理,但假设之间没有信息交换。为了解决这个问题,我们在MH-SA之后添加了一个混合假设的MLP。多个假设的特征被连接并输入到假设混合MLP中以合并(即收敛)它们自己。然后,将收敛的特征沿通道维度均匀分割(即发散)为不重叠的块,形成精细的假设表示。

Cross-hypothesis interaction

包含两个块:多假设交叉注意(MH-CA)和混合假设的MLP(HM-MLP)
MH-SA缺乏假设之间的联系,这限制了它的相互作用建模。为了在交叉假设通信中相互捕获多假设相关性,提出了由多个MCA元素并行组成的MH-CA。
MCA测量交叉假设特征之间的相关性,具有与MSA相似的结构。MCA的常见配置在键和值之间使用相同的输入。
然而,这种配置的一个问题是,它将导致更多的区块(例如,三个假设有6个MCA区块)。在这里,我们采用了一种更有效的策略,通过使用不同的输入(只需要3个MCA块)来减少参数的数量,如图6(右)所示。多个假设Zm交替被视为查询、键和值,并被输入MHCA:
在这里插入图片描述
左:多头自我注意(MSA)。右:多头交叉注意(MCA)。

结论

本文提出了一种基于多假设变压器(Multi-Hypothesis Transformer, MHFormer++)的新方法,用于单目视频中三维人体姿态估计的模糊逆问题。与现有的多假设方法遵循一对多映射不同,我们引入了一对多对一框架,该框架首先在空间域中生成多个姿态假设的初始表示,然后在时间域中以独立和相互的方式进行通信。它提高了每个假设的表征能力,同时也增强了多个假设之间的联系。大量的实验表明,所提出的方法比单假设变形器具有根本的优势,并且在两个流行的3D人体姿态数据集上实现了最先进的性能。我们希望我们的方法能够促进2d到3d姿态提升的进一步研究,考虑到各种模糊性。
我们的方法的一个限制是相对较大的计算复杂度。变压器的优异性能是以高昂的计算成本为代价的。未来,我们将探索更有效的策略来应对这一具有挑战性的任务。此外,由于我们方法的目标与输出单个解的一般单假设方法相同,因此生成的假设的多样性可能低于现有的多假设方法。目前,我们采用端到端方式训练具有多假设中间表示的一对多对一确定性框架。应用多阶段优化策略或使用混合密度网络[17]或归一化流[62]等概率建模方法来增加生成假设的多样性并提高性能将是未来有希望的研究方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/615664.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

驱动程序接口和HAL层区别和联系

驱动程序接口(Device Driver Interface)和硬件抽象层(Hardware Abstraction Layer,HAL)是在软件系统中用于处理硬件的两个不同层次的概念。 驱动程序接口(Device Driver Interface):…

设计模式(二、三):创建型之工厂方法和抽象工厂模式

设计模式系列文章 设计模式(一):创建型之单例模式 设计模式(二、三):创建型之工厂方法和抽象工厂模式 设计模式(四):创建型之原型模式 设计模式(五):创建型之建造者模式 设计模式(六):结构型之代理模式 目录 一、…

校园综合能效平台建设的意义

摘 要:为响应国家绿色校园建设的号召,切实提高高校能源利用水平,促进学校能源资源合理配置,服务学校高质量发展大局,根据教育部印发的《关于开展节能减排学校行动的通知》《关于勤俭节约办教育建设节约型校园的通知》…

Linux内核超级装备eBPF技术详细研究

定义一(http://ebpf.io的定义) eBPF (which is no longer an acronym for anything) is a revolutionary technology with origins in the Linux kernel that can run sandboxed programs in a privileged context such as the operating system kernel.…

物联网通信之串口服务器,RS485/RS232双串口并行、远程虚拟串口调试

随着现代工业信息技术发展,串口服务器在工业应用中越来越常见,那么什么是串口服务器呢,今天智联物联小编就与大家分享一下物联网通信中的串口服务器。 为帮助大家理解,智联物联小编从串口服务器的接口为大家开始讲解,一…

高分子PEG:mPEG-Maleimide MW:3400,甲氧基-聚乙二醇—马来酰亚胺,常用作聚合物试剂

【产品描述】 陕西新研博美生物科技有限公司供应的​mPEG-Maleimide属于高分子PEG,马来酰亚胺和巯基的偶合是蛋白和多肽偶联中的一个非常有用的反应。mPEG-MAL被用来合成具有确定结构和生物活性的PEG-蛋白质偶合物。mPEG-MAL也常用作聚合物试剂来选择性诱捕含巯基的…

易基因:小檗碱通过介导m6A mRNA甲基化调控斑马鱼肝细胞氧化应激、凋亡和自噬|科研进展

大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。 中药小檗碱(Berberine,BBR,化学式C20H18NO4)是从几种药用植物中分离出的一种异喹啉季生物碱,包括小檗(Berberis ar…

让你不再好奇怎样同声传译

众所周知,同声传译技术在国际交流和商务领域发挥着重要的作用,它能够帮助人们跨越语言障碍,促进人们之间的有效沟通。那么,你知道如何同声传译吗?接下来我将教你三个方法,帮助你更好的进行同声传译操作。 方…

springboot+vue餐厅点餐系统在线点餐系统(含源码+数据库)

1.系统分析 系统用例图如下所示。 从用户、餐厅等方面进行需求分析如下。 1.用户需求:系统应该提供简单易用的用户界面,用户可以浏览餐厅菜单,选择菜品,下订单。此外,应该允许用户管理个人信息和查看历史订单。 2.餐…

SQL-多表查询-事务

SQL-多表查询-事务 多表查询顾名思义就是从多张表中一次性的查询出我们想要的数据 前期表准备 DROP TABLE IF EXISTS emp; DROP TABLE IF EXISTS dept;# 创建部门表CREATE TABLE dept(did INT PRIMARY KEY AUTO_INCREMENT,dname VARCHAR(20));# 创建员工表CREATE TABLE emp (i…

一文3000字从0到1用Python做安全测试攻击实战(建议收藏)

在本文中,我们将使用Python进行一次安全测试的实战演练,目标是找出并利用应用程序的安全漏洞。请注意,这个演练仅用于教育和研究目的,切勿将这些技术用于非法活动。 注意:未经授权的攻击是违法的。确保你在拥有明确权…

准实时刷新集群中各节点本地缓存的解决方案

目录 背景 Redis发布订阅 MQ广播消息 配置中心Nacos,Zookeeper监听 注册中心获取服务节点ip端口接口调用 本地定时任务兜底 背景 我们在系统开发过程中,为了减少数据库和redis缓存的查询以提升接口性能,有时候会把一些常用的、变动不是…

[数据结构 -- C语言] 堆实现Top-K问题,原来王者荣耀的排名是这样实现的,又涨知识了

目录 1、什么是Top-K问题? 1.1 Top-K基本思路 2、Top-K问题逻辑分析 2.1 建堆,大小为K的小堆 2.2 将剩余的N - K 个元素依次与堆顶元素比较,大于就替换 2.3 打印堆 3、TopK实现代码 4、Top-K问题完整代码 结果展示: TopK…

做IT运维的,哪有人不疯的

网飞最新的剧集《怒呛人生》大受欢迎的一大原因就是:发疯。 在2023年,发疯已经从一种人身攻击,拯救语言匮乏的恶评转移成一个中性词,在某些语境下,等同于冒犯、破罐子破摔。连快乐都不敢的东亚人,为啥发疯…

C++:智能指针

目录 一. 智能指针的概念及原理 1.1 什么是智能指针 1.2 智能指针的原理 二. 智能指针的拷贝问题 三. auto_ptr 3.1 auto_ptr的拷贝构造和赋值问题 3.2 auto_ptr的模拟实现 四. unique_ptr 五. shared_ptr 5.1 shared_ptr的常用接口 5.2 shared_ptr的拷贝构造和赋值…

软件工程导论(四)软件编码测试与维护

一、软件编程 1.1良好的编程习惯 变量命名有意义并且使用统一的命名规则 编写自文档代码(序言性注释 or 行内注释) 提前进行可维护性考量(可以用常量的方式存在的数值最好以变量的方式存在) 良好的视觉安排可以提高代码的可读性(…

ChatGPT训练一次要耗多少电?

如果开个玩笑:问ChatGPT最大的贡献是什么? “我觉得它对全球变暖是有一定贡献的。”知名自然语言处理专家、计算机科学家吴军在4月接受某媒体采访时如是说。 随着ChatGPT引爆AIGC,国内外巨头纷纷推出自己的AI大模型,大家为人工智…

2023 开放原子全球开源峰会“开发者之夜”高能剧透!

开发者之夜~即将高燃启动 最潮!最嗨!最青春! 肆意!亲切!嗨 FUN 派! 这是一场面向开发者的线下狂欢! 也是一场精心准备的答谢盛宴! 更是一场开源圈的老友聚会! 开发者之夜…

IP地址中的子网掩码和CIDR

将常规的子网掩码转换为二进制,将发现子网掩格式为连续的二进制1跟连续0,其中子网掩码中为1的部分表示网络ID,子网掩中为0的表示主机ID。比如255.255.0.0转换为二进制为11111111 11111111 00000000 00000000。 ​ 在前面所举的例子中为什么不…

Yakit: 集成化单兵安全能力平台使用教程·Web Fuzzer篇

Yakit: 集成化单兵安全能力平台使用教程Web Fuzzer篇 1.数据包共享2.数据包扫描3.使用Web Fuzzer进行模糊测试4.常用 fuzz 标签5.热加载Fuzz1.数据包共享 分享/导入功能可用于信息分享,分享可以设置有效时长和分享密码,凭分享id和密码可以导入分享者的请求包 注意:数据包是…