[ICCV2023]DIR-用于从单个RGB图像重建交互手部的解耦迭代细化框架

news2024/12/23 8:36:43

这篇论文的标题是《Decoupled Iterative Refinement Framework for Interacting Hands Reconstruction from a Single RGB Image》,作者是Pengfei Ren, Chao Wen, Xiaozheng Zheng, Zhou Xue, Haifeng Sun, Qi Qi, Jingyu Wang, Jianxin Liao。他们来自北京邮电大学网络与交换技术国家重点实验室和字节跳动的PICO IDL。

摘要

从单个RGB图像中重建交互的双手是一个非常具有挑战性的任务。一方面,双手之间的严重遮挡和相似的局部外观会混淆视觉特征的提取,导致估计的手部网格与图像错位。另一方面,交互的双手之间存在复杂的空间关系,这显著增加了手部姿态的解空间,增加了网络学习的难度。在本文中,我们提出了一个解耦的迭代细化框架,以实现像素级对齐的手部重建,同时有效建模双手之间的空间关系。具体来说,我们定义了两个具有不同特征的特征空间,即2D视觉特征空间和3D关节特征空间。首先,我们从视觉特征图中获得关节特征,并使用图卷积网络和变换器分别在3D关节特征空间内进行手内和手间信息交互。然后,我们将具有全局信息的关节特征以无歧义的方式投影回2D视觉特征空间,并使用2D卷积进行像素级增强。通过在两个特征空间中进行多次交替增强,我们的方法可以实现对交互双手的准确和鲁棒重建。我们的方法在InterHand2.6M数据集上大幅度超越了所有现有的双手重建方法。
在这里插入图片描述
在这里插入图片描述

主要贡献

  • 提出了一个解耦的迭代细化框架,用于重建交互的双手。
  • 通过紧凑且语义明确的关节节点建模双手的空间关系,这对计算友好并可以利用手骨结构的先验知识。
  • 提出了一种无歧义的方式来将关节特征投影到视觉特征空间,这减轻了由于自相似性和自我遮挡引起的视觉线索缺失所导致的歧义。
  • 方法在InterHand2.6M数据集上大幅度超越了最近的SOTA方法,并对野外图像显示出强大的泛化能力。

相关工作

论文回顾了单手重建和交互手重建的相关研究,包括使用深度数据或多相机系统的早期工作,以及最近的基于RGB的深度学习方法。

方法

  • 采用编码器-解码器网络结构,编码器从输入图像中提取多尺度视觉特征,并使用全局特征估计初始手部网格和双手的相对偏移。
  • 解码器逐步增强视觉特征图并细化手部网格和相对偏移。
  • 在解码过程中,迭代地以解耦的方式进行双手空间关系建模和视觉特征细化。

实验

  • 在单个NVIDIA A100 Tensor Core GPU服务器上实现和评估网络,使用PyTorch实现。
  • 在InterHand2.6M数据集上进行主要实验,该数据集提供多视角RGB图像,带有双手网格和关节的3D注释。
  • 还对RGB2Hands数据集、EgoHands数据集、100DOH数据集和Tzionas等人提出数据集上的定性实验进行了评估。

结论

本文提出的解耦迭代细化框架可以从单个RGB图像中重建交互的双手。通过在3D关节特征空间中使用GCN和变换器进行手内和手间信息交互,有效地建模了双手之间的空间依赖性。为了实现估计网格与观测图像的更好对齐,我们将具有全局信息的关节特征以无歧义的方式投影回视觉特征空间,为视觉特征提供了强大的消歧线索,减轻了自遮挡和自相似性问题。消融实验表明,解耦迭代细化可以有效地解决交互手重建中的两个主要挑战,即建模复杂的手部空间关系和视觉特征消歧。在InterHand2.6M上的定量实验表明,我们的方法大幅度超越了以前的SOTA。同时,在野外图像上的实验表明,我们的方法具有很强的泛化能力。

限制和未来工作

  • 方法没有显式建模手部之间的碰撞,因此即使在建模手部的内部和外部关系时,手部之间的交叉仍然发生,有时会导致失败。
  • 方法没有充分利用估计的3D网格信息。网格信息可能有助于对手部之间关系的细粒度理解。
  • 为了实现更细粒度的网格图像对齐,高保真的参数化手部模型可能是有益的。

致谢

该工作得到了中国国家自然科学基金的部分支持,以及教育部和中国移动联合基金、北京邮电大学-中国移动研究院联合创新中心的部分支持,以及中国博士后科学基金会资助项目的部分支持。

补充材料

补充材料包括网络结构和计算需求的详细信息、网格平滑损失的详细信息、更多的定量结果、更多的消融实验和现实场景中的定性结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1615468.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Nodejs安装与配置--基于Linux系统--RedHat7.9

nodejs安装从未这么简单 1、nodejs版本设置? curl -fsSL https://rpm.nodesource.com/setup_16.x | sudo bash - 其他版本如下: * https://rpm.nodesource.com/setup_16.x — Node.js 16 "Gallium" (deprecated) * https://rpm.nodesource.co…

vue-project-tree vue3 树形结构展示组件

GitHub:vue-project-tree by one-ccs Gitee:vue-project-tree by one-ccs 遵循 MIT 开源协议 文章目录 vue-project-tree一、使用二、API1、属性2、事件3、方法4、插槽 vue-project-tree 使用 Vue3 TS 实现的树形结构展示组件,有拖拽、排序…

数字化革新:可视化墨水屏引领基板工艺MSAP贴膜阶段迈向无纸化高端制造应用背景

随着科技的飞速发展和环境保护意识的日益增强,制造印刷电路板(PCB)行业正面临着提升生产效率、降低资源消耗和推动绿色制造的迫切需求。 问题: PCB生产过程对洁净度要求高,传统打印的纸张会有粉尘,纸屑&am…

cookie与session区别和联系

在Web应用中,HTTP协议是无状态的,每次请求都是独立的,服务器无法直接识别一个用户的不同请求之间的关联。这就导致了如果我们希望在一个会话中保持一些数据的状态,比如用户的身份认证信息、购物车内容等,就需要借助Coo…

网络靶场实战-Qiling Fuzz实例分析

背景 在上一小节中,介绍了qiling框架的背景和基础使用,并以相关的CTF和qilinglab实例进行练习加深对qiling框架的使用,后续并简单介绍了qiling fuzz的功能。 在这一小节,我们将对qiling fuzz iot设备进行测试以及以实例的方式对…

【LLM】LLM API 开发

文章目录 LLM API 开发LLM入门基本概念LLM API使用实名认证创建应用使用API Prompt Engineering思考总结 参考文章 什么是提示工程(Prompt Engineering)? ChatGPT Prompt 最佳指南一 LLM API 开发 LLM入门基本概念 Prompt Prompt 最初是 NL…

EelasticSearch的介绍和基于docker安装

1.概述 Elasticsearch 是一个基于 Apache Lucene 构建的开源分布式搜索引擎和分析引擎。它专为云计算环境设计,提供了一个分布式的、高可用的实时分析和搜索平台。Elasticsearch 可以处理大量数据,并且具备横向扩展能力,能够通过增加更多的硬…

AR爆发的前夜,Rokid站在了门口

文|刘俊宏 摆脱6寸的手机屏幕,栖居在300寸大屏的智慧生活是什么样子? 4月20日,Rokid在新品AR Lite空间计算套装的发布会上,“硬刚”了苹果的Vision Pro。 Rokid AR Lite空间计算套装 Rokid AR Lite与苹果Vision Pro…

必应搜索广告与谷歌搜索广告对比那个更好?

搜索引擎广告作为企业获取潜在客户的重要渠道之一,其效果直接关系到营销策略的成功与否。两大搜索引擎巨头——谷歌(Google)和必应(Bing)各自提供了广告平台,即谷歌广告(Google Ads)…

eNSP-路由引入与过滤简单配置

目录 实验要求 IP配置 配置动态路由协议 RIP OSPF 查看建邻情况 双向重发布 路由过滤 地址前缀列表 静默接口 实验要求 1、按照图示配置 IP 地址,R1,R3,R4 上使用 loopback 口模拟业务网段 2、R1 和R2 运行 RIPv2,R2&am…

Mendix是谁?作为致力于企业低代码服务平台的领头羊,它解决了哪些问题?

一、Mendix 成立的背景 Mendix的成立是为了解决软件开发中最大的问题:业务和IT之间的脱节。这一挑战在各个行业和地区都很普遍,很简单:业务需求通常被描述为IT无法正确解释并转化为软件。业务和IT之间缺乏协作的原因是传统的代码将开发过程限…

前端开发攻略---拖动归类,将元素拖拽到相应位置

1、演示 2、代码 <!DOCTYPE html><html lang"en"><head><meta charset"UTF-8" /><meta http-equiv"X-UA-Compatible" content"IEedge" /><meta name"viewport" content"widthdevice-…

001-谷粒商城-微服务剖析

1、架构图 还是很强的&#xff0c;该有的都有 2、微服务模块 SpringCloudAlibaba组件包括 SentinelNacosRocketMQSeata 搭配SpringCloudAlibaba组件 OpenFeignGateWayRibbn gateway使用了SpringWebFlux&#xff0c;前几天研究到&#xff0c;为什么springboot不直接使用Spri…

私人密码管理储存库!Bitwarden 部署安装教程

日常生活中我们每个人都会拥有大量网站或社交平台帐号&#xff0c;时间久远了密码很容易忘记。因此&#xff0c;像 1Password 等密码管理 同步 一键登录的工具成为了很多人的首选。 然而 1Password 毕竟要付费&#xff0c;也有人会担心这类工具有隐私泄露的风险。其实&#…

【昇腾产品应用】英码科技EA500I基于昇腾Mind SDK实现实时人体关键点检测

在教育、体育、安防、交通、医疗等领域中&#xff0c;实时人体关键点检测应用发挥着至关重要的作用&#xff0c;比如在体育训练时&#xff0c;实时人体关键点检测可以精确、实时地捕捉运动员的动作&#xff0c;从而进行动作分析和优化&#xff1b;在安防应用场景中&#xff0c;…

AI边缘计算盒子+ThingSense管理平台,推动明厨亮灶智慧监管新篇章

背景随着“互联网”时代的浪潮汹涌而至&#xff0c;国家及各地政府纷纷在“十四五”规划中明确指出&#xff0c;强化食品安全管理&#xff0c;利用技术手段实现智慧监管是刻不容缓的任务。为此&#xff0c;各地正加速推进“互联网明厨亮灶”的建设步伐&#xff0c;实现系统对接…

VideoComposer: Compositional Video Synthesis with Motion Controllability

decompose videos into three distinct types of conditions: textual conditions, spatial conditions, temperal conditions 条件的内容&#xff1a; a. textual condition: coarse grained visual content and motions, 使用openclip vit-H/14的text encoder b. spatial co…

社会工程渗透测试教程(二)

原文&#xff1a;annas-archive.org/md5/db987a87e1478b8a8617c263c631b477 译者&#xff1a;飞龙 协议&#xff1a;CC BY-NC-SA 4.0 第六章&#xff1a;通过有效的威胁建模确保价值 Richard Ackroyd&#xff0c;随机风暴有限公司高级安全工程师 大多数客户意识到他们需要社会…

Linux文件chattr/lsattr/Linux权限(搭建权限测试环境实战)引申到内部原理及Linux删除系统文件原理-7539字详谈

企业高薪思维: 每一个阶段什么时候是最重要的&#xff1f;&#xff08;快速定位&#xff09; 1.学习最重要的事情 &#xff08;学生阶段&#xff0c;找工作前阶段&#xff09; 2.家庭&#xff0c;女朋友 &#xff08;工作阶段/学生阶段&#xff0c;学习不受到影响&#xff09; …

网络常识!!!

网络常识!!! 一:网络的发展史二:关键的概念三:IP地址四:端口号二级目录二级目录二级目录二级目录三级目录 一:网络的发展史 从游戏方面发展历程进行理解: 从单机游戏-----游戏支持局域网对战-------游戏支持广域网对战-------移动端 (1)局域网对战:在同一个网吧里,不同的游戏…