深度学习人体解析

news2025/1/19 7:50:48

在这里插入图片描述

人体解析旨在将图像或视频中的人体分割成多个像素级的语义部分。在过去的十年中,它在计算机视觉社区中获得了极大的兴趣,并在广泛的实际应用中得到了应用,从安全监控到社交媒体,再到视觉特效,这只是其中的一小部分。尽管基于深度学习的人工解析方案已经取得了显著的成就,但许多重要的概念、存在的挑战和潜在的研究方向仍然令人困惑。全面回顾了单人体解析、多人体解析和视频人体解析这3个核心子任务,介绍了它们各自的任务设置、背景概念、相关问题和应用、代表性文献和数据集。还在基准数据集上对所审查的方法进行了定量的性能比较。此外,为了促进社区的可持续发展,提出了基于Transformer的人体解析框架,通过通用、简洁和可扩展的解决方案,为后续研究提供了高性能的基线。最后,指出了该领域一些未被充分研究的开放问题,并提出了未来研究的新方向。我们还提供定期更新的项目页面,以持续跟踪这个快速发展的领域的最新发展:https://github.com/soeaver/awesome-human-parsing。

文章目录

  • 1. 引言
  • 2. 基于深度学习的人体解析方法

1. 引言

人体解析[1]-[5]是以人类为中心的视觉理解[6]的基础任务,旨在对图像或视频中的人体部位和服装配饰进行像素级分类。人体解析在安防监控、自动驾驶、社交媒体、电子商务、视觉特效、艺术创作等广泛应用领域发挥着重要作用,已经开展了大量的研究,催生了各种优秀的人体解析解决方案和应用。早在本世纪初,就有研究试图在非常有限的情况下识别上半身服装[10]的水平、服装[11]的语法表征以及人体轮廓[12]的变形。这些早期研究促进了像素级人体部位和服装识别的研究,即人体解析任务。随后,利用传统的机器学习和计算机视觉技术,如结构化模型[1]、[13]、[14]、聚类算法[15]、语法模型[16]、[17]、条件随机场[18]-[20]、模板匹配[21]、[22]和超像素[23]-[25]等,解决了人体句法分析问题。随后,深度学习和卷积神经网络[26]-[32]的繁荣进一步推动了人体解析的蓬勃发展。注意力机制[33]-[36]、尺度感知特征[37]-[40]、树形结构[3]、[41]、图结构[4]、[42]、[43]、边缘感知学习[44]-[46]、姿态感知学习[2]、[47]、[48]等技术[49]-[52]大大提高了人体解析的性能。然而,目前存在的一些挑战和研究不足使得人体解析仍然是一项值得进一步探索的任务。
在这里插入图片描述
随着人体解析的快速发展,出现了大量的文献综述。然而,现有的研究并不精确和深入:一些研究仅从宏观的时尚/社交媒体角度对人体解析进行了肤浅的介绍[53],[54],或者仅从微观的人脸解析角度对人体解析的子任务[55]进行了回顾。此外,由于分类的模糊性和方法的多样性,全面和深入的研究是非常必要的。本文提供了第一篇综述,系统地介绍了背景概念、最新进展,并对人体解析进行了展望。
本综述从一个全面的角度回顾了人体解析,不仅包括单个人体解析(图1 (a)),还包括多个人体解析(图1 (b))和视频人体解析(图1 ©)。在技术层面,对近10年基于深度学习的人体分析方法和数据集进行综述。为了提供必要的背景,还介绍了非深度学习等领域的相关文献。在实践层面,对各种方法的优缺点进行了比较,并给出了详细的性能比较。在总结和分析现有工作的基础上,展望了人体解析的未来机遇,并提出了一个新的基于transformer的基线,以促进社区的可持续发展。人工解析方法和数据集以及提出的基于transformer的基线列表可以在https://github.com/soeaver/awesome-human-parsing上找到。

在这里插入图片描述
图2显示了这个综述的大纲。§2简要介绍了问题的形成和挑战(§2.1)、人体分析的分类(§2.2)、相关任务(§2.3)和人体分析的应用(§2.4)。§3详细回顾了具有代表性的基于深度学习的人体分析研究。常用的数据集和性能比较见§4和§5。在§6中提出了对人体分析未来机会的展望,包括一个新的基于transformer的基线(§6.1),几个未被研究的开放问题(§6.2)和未来研究的新方向(§6.3)。结论将在§7中得出。

2. 基于深度学习的人体解析方法

现有的人体解析可分为单人体解析、多人体解析和视频人体解析3个子任务,分别关注部件关系建模、人体实例判别和时间对应学习。根据这种分类法,我们对具有代表性的作品(图3下半部分)进行了梳理,并在下文进行了详细的回顾。
在这里插入图片描述
单人体解析(SHP)模型

SHP考虑通过部件关系建模来提取人体特征。根据建模策略,SHP模型可分为3类:上下文学习、结构化表示和多任务学习。此外,考虑到一些特殊但有趣的方法,我们将其作为“其他建模模型”进行综述。表1总结了审查过的SHP模型的特点。
在这里插入图片描述
多人体解析(MHP)模型MHP寻求在图像平面上定位和解析每个人体。任务设置类似于实例分割,因此也称为实例级人工解析。根据其识别人类实例的管道,将MHP分为三种范式:自下而上、单阶段自上而下和两阶段自上而下。表3列出了所审查的MHP模型的基本特征。
在这里插入图片描述
视频人体解析(Video humanparsing, VHP)模型现有的VHP研究主要集中在通过亲和力矩阵将第一帧传播到整个视频中,亲和力矩阵表示从原始视频数据中学习到的时间对应关系。考虑到无监督学习范式,可以将其分为三类:周期跟踪、重构学习和对比学习。我们在表5中总结了所审查的VHP模型的基本特征。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/150730.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Markdown语法大全(够你用一辈子)

标题 # 一级标题 ## 二级标题 ### 三级标题 #### 四级标题 ##### 五级标题 ###### 六级标题一级标题 二级标题 三级标题 四级标题 五级标题 六级标题 文本样式 > 引用文本 > 最外层 > > 第一层嵌套 > > > 第二层嵌套引用文本 最外层 第一层嵌套 第二层…

js中的call和apply

js中的call和apply1.call()可以调用某一函数2.call()可以这个函数的this指向3.call()也可以接受参数每次看到js中的call方法,都是懵逼的要去查查百度,自己研究记录下1.call()可以调用某一函数 testCall() {let person {fullName: function () {console.…

webpack基本使用

1、内置模块path (1)path模块用于对路径和文件进行处理,提供了很多好用的方法。 (2)我们知道在Mac OS、Linux和window上的路径时不一样的 window上会使用 \或者 \\ 来作为文件路径的分隔符,当然目前也支…

SpringBoot+VUE前后端分离项目学习笔记 - 【17 SpringBoot文件上传下载功能 MD5实现文件唯一标识】

Sql 数据库新建sys_file用来保存上传文件信息 CREATE TABLE sys_file (id int(11) NOT NULL AUTO_INCREMENT COMMENT id,name varchar(255) COLLATE utf8mb4_unicode_ci DEFAULT NULL COMMENT 文件名称,type varchar(255) COLLATE utf8mb4_unicode_ci DEFAULT NULL COMMENT 文…

STM32——I2C通信

文章目录I2C通信使用I2C通信的硬件设备硬件电路I2C时序基本单元起始与终止发送接收发送应答与接收应答I2C时序指定地址写当前地址读指定地址读连续读与写MPU6050简介MPU6050参数硬件电路MPU6050框图系统时钟MPU6050的中断源寄存器映像软件I2C读写MPU6050电路设计关键代码I2C通信…

C语言-扫雷

文章目录完整扫雷1. 说明2. 思路3. 各个功能实现3.1 雷盘初始化与打印1)雷盘定义2) 随机布置雷3.2 玩家排查雷1) 获取坐标周围雷数2) 递归展开3)胜负判断3) 显示雷位置4. 游戏试玩5. 游戏完整代码game.htes…

【定时任务】---- xxl-job、@Scheduled

一、Scheduled注解实现的定时任务 要实现计划任务,首先通过在配置类注解EnableScheduling来开启对计划任务的支持,然后在要执行计划任务的方法上注解Scheduled,声明这是一个计划任务。 在Spring Boot 的入口类 XXXApplication 中,必然会有S…

东南大学洪伟教授评述:毫米波与太赫兹技术

今日推荐文章作者为东南大学毫米波国家重点实验室主任、IEEE Fellow 著名毫米波专家洪伟教授,本文选自《毫米波与太赫兹技术》,发表于《中国科学: 信息科学》2016 年第46卷第8 期——《信息科学与技术若干前沿问题评述专刊》。 本文概要介绍了毫米波与太…

CSS知识点精学6-精灵图、背景图片大小、文字阴影、盒子阴影、过渡

目录 一.精灵图 1.精灵图的介绍 2.精灵图的使用步骤 二.背景图片大小 三.文字阴影 四.盒子阴影 五.过渡 一.精灵图 1.精灵图的介绍 场景:项目中将多张小图片,合成一张大图片,这张图片称之为精灵图 优点:减少服务器发送次…

clickhouse入门学习以及数据迁移

本文主要介绍如何入门clickhouse,以及将mariadb数据迁移过来,最后介绍当前几种的训练的示例数据库集。1、中文教程:中文教程:中文教程有了教程,需要有数据可以训练,教程提供示例数据集,但是数据…

Java基础之《netty(22)—Protobuf》

一、Protobuf基本介绍 1、Protobuf是Google发布的开源项目,全称Google Protobuf Buffers,是一种轻便高效的结构化数据存储格式,可以用于结构化数据串行化,或者说序列化。它很适合做数据存储或RPC数据交换格式。 2、参考文档 htt…

粒子系统-主模块参数

目录 Duration Looping Prewarm Start Lifttime Start Speed Start Size 3D Start Rotation Start Rotation Start color Simulation Space Max Particles Duration 粒子系统的工作时长,如果不勾选Looping的话,在5秒后就再也没有粒子发射 L…

HTTPS头部的Referer字段

目录 Referrer-policy 如何设置referer 盗链 防盗链的工作原理 绕过图片防盗链 利用https网站盗链http资源网站,refer不会发送 利用iframe伪造请求referer 利用XMLHttpRequest Referer请求头包含了当前请求页面的来源页面的地址,即表示当前页面是…

【Proteus仿真】【STM32单片机】智能窗帘控制系统设计

文章目录一、功能简介二、软件设计三、实验现象联系作者一、功能简介 本项目使用Proteus8仿真STM32单片机控制器,使用LCD1602显示模块、按键模块、HC05蓝牙、DHT11温湿度、PCF8591 ADC模块、光线传感器、28BYJ48步进电机等。 主要功能: 系统运行后&…

链表算法-回文结构、两个链表公共节点

最近一直在刷算法,以前没有重视这块,偶然巧合下,想到了某几次的面试,虽然没有以这个为主,但是也都有问过算法的题,因为没有这方面的积累,所以心底里一直抗拒,最近也有时间&#xff0…

git第n次学习笔记

git工作流程git四个工作区域Workspace:工作区,就是你平时存放项目代码的地方Index/Stage:暂存区,用于临时存放你的改动,事实上它只是一个文件,保存即将提交到文件列表信息Repository:仓库区&…

CDGA|想做好数据安全,数据治理是核心

在数字化转型渐进成熟下,企业加强数据治理,保障数据安全,为数字经济持续发展筑牢安全屏障,是时代发展的客观需要。 首先,整个安全能力是在应用内部的,我们对数据流的精确感知和管控,能做到和应用…

【七】Netty JBoss Marshallin 编解码

Netty JBoss Marshallin 编解码介绍Marshallin 开发环境maven 依赖业务场景模拟流程图代码展示订购采购消息 POJO 类订购应答消息 POJO 类SubscribeReqServer 服务端启动类MarshallingCodeCFactory服务端业务处理类 SubscribeServerHandler客户端启动类 SubscribeClient客户端 …

leetcode.2471 逐层排序二叉树所需的最少操作数目 - bfs + 置换环算法 + 并查集

2471. 逐层排序二叉树所需的最少操作数目 目录 1、循环标记置换环 2、并查集置换环 思路: 总操作数目 每一层最小操作数之和 每一层元素个数 - 置换环数 先用bfs对树进行层序遍历,一层一层地计算 置换环:对每个节点,将其指向…

全国首例:新一代仿生型人工心脏在福建成功植入

此时此刻,福建福清吴先生的体内正搏动着一颗新款的“人工心脏”。心脏是生命的中枢,一旦衰竭生命也将终止,人工心脏为这些心衰患者带来了新的希望。福建医科大学附属协和医院心外科团队,将科幻电影里装着人工心脏的“钢铁侠”变成…