【论文阅读】-姿态识别

news2025/1/18 11:49:56

记录论文阅读,希望能了解我方向的邻域前沿吧

粗读

第一篇

ATTEND TO WHO YOU ARE: SUPERVISING SELF-ATTENTION FOR KEYPOINT DETECTION AND INSTANCE-AWARE ASSOCIATION
翻译:https://editor.csdn.net/md?not_checkout=1&spm=1001.2014.3001.5352&articleId=129070593
无代码
摘要:
本文提出了一种利用Transformer解决关键点检测和实例关联问题的新方法。对于自底向上(Bottom up)的多人姿态估计模型,需要检测关键点并学习关键点之间的关联信息。我们认为,Transformer可以完全解决这些问题。具体来说,vision Transformer中的自注意度量任何一对位置之间的依赖关系,这可以为关键点分组提供关联信息。然而,朴素注意模式仍然没有被主观控制,因此不能保证关键点总是注意到它们所属的实例。为了解决这一问题,我们提出了一种监督多人关键点检测和实例关联的自我注意方法。通过使用**实例掩码(instance mask)**来监督自注意,使其具有实例感知性,我们可以根据成对的注意分数将检测到的关键点分配给相应的实例,而无需使用预定义的偏移向量字段或像基于CNN的自底向上模型那样的嵌入。该方法的另一个优点是,可以直接从监督注意矩阵中获得任意人数的实例分割结果,从而简化了像素分配流程。通过对COCO多人关键点检测任务和人实例分割任务的实验,验证了该方法的有效性和简单性,为特定目的的自我注意行为控制提供了一种很有前景的方法。

本文采用自底向下的方法,自底向上的方法需要首先检测所有的身体关节,然后将它们分组到人体实例中。
文中,我们探讨是否我们可以利用实例语义线索,来将检测到的关键点分组到单独的实例中。我们的主要直觉是,当模型预测特定关键点的位置时,它可能知道该关键点所属的人类实例区域,这意味着模型将相关关节隐含地关联在一起。例如,当一个肘关节被识别时,模型可能会在邻近的手腕或肩膀上识别出它的强空间依赖性,但在其他人的关节上识别出弱空间依赖性。因此,如果我们可以在模型中读出这些学习和编码的信息,检测到的关键点可以被正确地分组到实例中,而不需要人类预定义的联想信号的帮助。
在这里插入图片描述
提到2个模式
朴素自我注意模式和监督自我注意模式:关节点分组提供关联信息。
我们认为,基于自我注意的Transformer满足这一要求,因为它可以在任何一对位置之间提供特定于图像的成对相似性,而不受距离限制,并且产生的注意模式显示了与对象相关的语义。因此,我们尝试利用自我注意机制进行多人姿态估计。但是,我们没有采用以单人区域作为输入的自顶向下策略,而是向Transformer提供包含多人的高分辨率输入图像,并期望它输出编码多人关键点位置的热图。初步结果表明,
1)Transformer输出的热图也能准确响应多个候选位置的多人关键点;
2)检测到的关键点位置之间的注意得分在同一个体内较高,而在不同个体间较低。
基于这些发现,我们引入了一种基于注意力的解析算法来将检测到的关键点分组到不同的人实例中。

不幸的是,naive的自我注意力并不总是表现出令人满意的特性。在许多情况下,一个被检测到的关键点也可能与那些属于不同的人实例的关键点具有相对较高的注意力得分。
解决办法:
利用一个损失函数,通过每个人实例的掩码来显式地监督每个人实例的注意区域。

模型
在这里插入图片描述
模型体系结构由三个部分组成:一个常规ResNet、一个常规Transformer编码器和几个转置的卷积层。两种类型的损失函数被用来监督模型训练。模型的最终输出由groundtruth关键点热图监督。直接的自我注意层之一由实例掩码稀疏地监督。特别地,我们根据每个人实例的可见关键点位置对所选注意层的注意矩阵行进行采样,将其重塑为类似于2d的maps,然后使用每个实例的掩模来监督average map。在该图中,为了简单起见,我们只显示每个实例的几个关键点。

网络架构参照Transpose设计

naive self-attention 我们从热图中获取关键点位置,并进一步可视化这些位置的关注区域。如图1的例子所示,使用朴素的自注意矩阵作为关联参考。

关键点分组

掩膜预测

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/378568.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

设计模式系列 - 代理模式及动态代理详解

定义 为其他对象提供一种代理以控制对这个对象的访问。在某些情况下,一个对象不适合或者不能直接引用另一个对象,而代理对象可以在客户端和目标对象之间起到中介的作用。 结构 抽象角色:通过接口或抽象类声明真实角色实现的业务方法。 代…

系列七、索引

一、索引概述 1.1、概述 索引(index)是帮助MySQL高效获取数据的数据结构(有序)。在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据, 这样就可以…

NCRE计算机等级考试Python真题(七)

第七套试题1、在面向对象方法中,一个对象请求另一对象为其服务的方式是通过发送___________。A.命令B.口令C消息D.调用语句正确答案: C2、下面不属于软件需求分析阶段主要工作的是___________。A.需求评审B.需求获取C.需求变更申请D.需求分析正确答案&am…

MySQL 索引失效场景

1,前言 索引主要是为了提高表的查询速率,但在某些情况下,索引也会失效的情况。 2,失效场景 2.1 最左前缀法则 查询从索引最左列开始,如果跳过索引中的age列,那么age后面字段的索引都将失效,…

接电话蓝牙耳机什么牌子好?语音质量好的蓝牙耳机

越来越多的人都离不开蓝牙耳机了,因为它用起来是真的太方便了,相信后续智能手机也会更多地取消3.5耳机孔,届时蓝牙耳机将会更加普遍,甚至是人手一部,下面分享几款语音质量好的蓝牙耳机。 第一款:南卡小音舱…

云端IDE系列教程7:解决 WeTTY 在 Ubuntu 非 root 用户不能运行的问题

原文作者:行云创新技术总监 邓冰寒 概述 上一期在使用官方容器镜像快速成功地在 TitanIDE 运行起来了 WeTTY,但是不适合开发人员使用,而我自己编译构建出来的容器镜像无法直接运行指定的应用(/bin/bash 或 /bin/zsh)&…

HBase基础知识

1、HBase特点 1)海量存储 Hbase适合存储PB级别的海量数据,在PB级别的数据以及采用廉价PC存储的情况下,能在几十到百毫秒内返回数据。这与Hbase的极易扩展性息息相关。正式因为Hbase良好的扩展性,才为海量数据的存储提供了便利。…

收下这份十万商家称赞的开店攻略,带你发家致富!

理想与现实之间的距离,大概就是开店吧!总觉得自己投点钱,一两年回本,后面每月轻松赚几万、几十万;结果却发现房租太贵、人工太贵、自己什么都不懂,然后随波逐流的没有特色。其实,细心的朋友会发…

经常打电话的人用什么蓝牙耳机好?通话功能比较好的蓝牙耳机

无线耳机市场发生了翻天覆地的变化,开始越来越频繁地出现不一样的功能。现在,选择不于 Apple,还包括一大堆可用的耳机,下面就来看看以下通话功能好的蓝牙耳机。 第一款:南卡小音舱蓝牙耳机 售价:299元 推…

【数电基础】——逻辑代数运算

目录 1.概念 1.基本逻辑概念 2.基本逻辑电路(与或非) 逻辑与运算 与门电路: 逻辑或运算 或门电路: ​逻辑非运算(逻辑反) 非门电路​编辑 3.复合逻辑电路(运算) 与非逻辑…

初探推荐系统-01

文章目录一、什么是推荐系统是什么为什么长尾理论怎么做二、相似度算法杰卡德相似系数余弦相似度三、基于内容的推荐算法如何获取到用户喜欢的物品如何确定物品的特征四、推荐算法实验方法评测指标推荐效果实验方法1、离线实验2、用户调查3、在线实验评测指标1、预测准确度评分…

【组织架构】中国国家铁路集团有限公司

1 公司简介 中国国家铁路集团有限公司(简称“中国铁路”)是经国务院批准、依据《中华人民共和国公司法》设立、由中央管理的国有独资公司。经国务院批准,公司为国家授权投资机构和国家控股公司。公司注册资本为17395亿元,由财政部…

CAD拉伸后标注尺寸不变?快来看看是不是这个原因!

CAD拉CAD拉伸后标注尺寸不变?快来看看是不是这个原因!CAD拉命令作为常用的图形编辑命令之一,有些设计师在使用过程中发现,CAD拉伸后标注尺寸没有变化,这是什么情况?本节课程小编就以浩辰CAD软件为例来给大家…

心系区域发展,高德用一体化出行服务平台“聚”力区域未来

交通,是城市的血脉。通过对人、资源、产业的连接,交通建设往往是城市和区域经济发展的前提。不过,在度过了“要想富,先修路”的初级建设阶段后,交通产业内部也出现了挑战,诸如城市秩序、发展成本、用户使用…

《爆肝整理》保姆级系列教程python接口自动化(二十五)--unittest断言——下(详解)

简介 本篇还是回归到我们最初始的话题,想必大家都忘记了,没关系看这里: 没错最初的话题就是登录,由于博客园的登录机制改变了,本篇以我找到的开源免费的登录API为案例,结合 unittest 框架写 2 个用例。同样…

想学计算机,应该学什么专业?

我们在考虑想学计算机,应该学什么专业?这个问题的时候,每个人都应该结合自己的兴趣来确定。有的喜欢编程、有的喜欢设计、有的喜欢做产品跟人打交道……自己有兴趣再加上自己的努力,掌握好专业技能,就一定能进入高薪的…

【Spark分布式内存计算框架——Spark Streaming】7. Kafka集成方式

集成方式 Spark Streaming与Kafka集成,有两套API,原因在于Kafka Consumer API有两套, 文档:http://spark.apache.org/docs/2.4.5/streaming-kafka-integration.html。 方式一:Kafka 0.8.x版本 老的Old Kafka Consum…

MyBatis学习笔记(八) —— 字段名和属性不一致的情况下,如何处理映射关系

EmpMapper.java /** * 根据id查询员工信息 * param empId * return */ Emp getEmpByEmpId(Param("empId") Integer empId);EmpMapper.xml <?xml version"1.0" encoding"UTF-8" ?> <!DOCTYPE mapper PUBLIC "-//mybatis.org//D…

Android仿QQ未读消息拖拽粘性效果

效果图原理分析首先是在指定某个位置画一个圆出来&#xff0c;手指按到这个圆的时候再绘制一个可以根据手指位置移动的圆&#xff0c;随着手指的移动两个圆逐渐分离&#xff0c;分离的过程中两圆中间出现连接带&#xff0c;随着两圆圆心距的增大&#xff0c;半径也是根据某一比…

LeetCode经典例题|134. 加油站|运用坐标系数学思维一步解决

134. 加油站 这道题刚看很容易就想到了暴力或者回溯剪枝。 这是一个有增有减的过程&#xff0c;就好像坐标系上的一个个点&#xff0c;连在一起形成一条上下起伏的折线。 1. 做坐标轴 比如 gas [1,2,3,4,5], cost [3,4,5,1,2] 从0号汽车站开始出发&#xff0c;一直到回到起…