论文解读 | IROS 2022:MV6D:在RGB-D图像上使用深度逐点投票网络进行多视角6D姿态估计

news2025/1/24 22:44:29

原创 | 文 BFT机器人

01 研究背景

在计算机视觉领域,6D姿态估计是一种重要的任务,用于确定物体在3D空间中的位置和方向。它在许多应用领域具有广泛的应用,如机器人操作、虚拟现实、增强现实、物体跟踪等。

然而,传统的6D姿态估计方法存在一些限制。

这些方法通常只使用单个视角的相机数据或点云数据进行估计,忽略了其他视角的信息。这种单一视角的方法容易受到其他物体的遮挡影响,导致估计结果不准确。当物体被其他物体遮挡部分或部分视角无法观测到时,传统方法可能无法准确地估计物体的姿态。

为了解决这个问题,本文提出了一种新颖的多视角6D姿态估计方法,称为MV6D。

该方法基于RGB-D图像从多个视角准确地预测杂乱场景中所有物体的6D姿态。MV6D使用了一个深度点投票网络(PVN3D)来预测目标物体关键点,并通过密集融合层(DenseFusion)将多个视角信息融合起来以提高精度。

02  该篇论文的创新点

1. 提出了一种新颖的多视角6D姿态估计方法,称为MV6D。

该方法可以从多个视角准确地预测杂乱场景中所有物体的6D姿态,并且可以处理不同相机设置和不同数量的输入图像。

2. 使用深度学习技术将RGB图像和深度图像进行联合处理,以提高6D姿态估计的精度。

MV6D使用了一个深度点投票网络(PVN3D)来预测目标物体关键点,并通过密集融合层(DenseFusion)将多个视角信息融合起来。

3. 介绍了三个新颖的真实场景数据集:YCB-Video、LineMod-Video和Home-Video。

这些数据集具有严重遮挡和随机性质,并采用领域随机化技术来增加数据集的多样性和泛化能力。

4. MV6D方法在实验中表现出比传统方法更高的精度和鲁棒性

即使在相机位置不准确或存在其他物体遮挡时也能够准确地估计物体的6D姿态。

03  算法具体介绍

本文提出了一种名为MV6D的多视角6D物体姿态估计方法。

该方法接受多个RGB-D图像作为输入(图1),并从中提取视觉特征。同时,通过融合所有深度图像创建的点云,提取几何特征。接下来,DenseFusion网络将这些视觉和几何特征进行融合。

然后,通过使用三维关键点检测、三维中心点检测和实例语义分割模块,预测目标物体的6D姿态。最后,采用最小二乘拟合算法对结果进行优化。具体地说,本文的算法包含三个阶段:特征提取、实例分割和6D姿态估计(图2)。

在第一个阶段,使用一个深度神经网络从多个RGB-D图像中提取相关特征,并将它们融合成整个输入场景的联合特征表示。

具体地说,使用了一个名为PVN3D的单视角网络作为基础模型,该模型可以从单个RGB-D图像中提取物体的3D几何信息和2D视觉信息。然后,对PVN3D进行了修改,使其能够处理多个RGB-D图像,并将它们融合成一个一致的特征表示。这样做可以增强算法对场景中物体的几何结构和外观信息的理解。

在第二个阶段,使用实例语义分割和3D关键点检测来识别每个物体,并确定其边界框和关键点位置。

具体地说,使用了两个独立的CNN网络来处理RGB图像和深度图像,并将它们的特征进行融合。然后,使用实例语义分割模块来识别每个物体,并确定其边界框。接下来,使用3D关键点检测模块来预测每个物体的关键点位置。这些关键点可以用于计算物体的3D中心点和姿态。

在第三个阶段,使用最小二乘拟合算法来估计每个物体的6D姿态。

具体地说,使用了一个基于迭代最近点(ICP)算法的最小二乘拟合方法来优化物体的姿态。该方法可以将预测的3D关键点与真实的3D关键点进行拟合,以确定物体的旋转和平移。

图1所示。概述MV6D方法。MV6D接受多个RGB-D输入图像,并预测混乱场景中所有物体的6D姿势。

图2 MV6D网络架构。

04  实验

表1

表1列出了MV-YCB MovingCam数据集上不同物体类别的AUC结果。

AUC是评估6D位姿估计性能的一种指标,其值越高表示性能越好。从表格中可以看出,MV6D网络在所有物体类别和不同视角数量下都取得了最佳结果,并且相比于PVN3D和CosyPose有更高的AUC值。这表明MV6D网络在多视角3D物体检测和位姿估计方面具有很高的准确性和鲁棒性。

图3

图3展示了MV6D网络在MV-YCB FixCam数据集上的6D位姿预测结果,并与PVN3D 、CosyPose 和ground truth进行了比较。

三行显示了三个不同的示例场景,代表了网络的典型性能。为了清晰起见,只有五个最难的物体的姿势被可视化:金枪鱼罐头(橙色),香蕉(黄色),番茄汤罐头(绿色),明胶盒(蓝色)和布丁盒(红色)。从图中可以看出,本文的算法可以准确地预测所有物体的6D位姿,即使一些物体被严重遮挡。

相比之下,PVN3D只能从所示视角获取单个RGB-D图像,因此无法检测到某些物体,例如第一行中的金枪鱼罐头和明胶盒。CosyPose通常比PVN3D表现更好,但对于严重遮挡的物体,MV6D仍然优于它。

05  结论

本篇论文提出的多视角方法在6D位姿估计任务中表现出卓越的性能,即使相机位置存在不准确的情况下也能取得良好的结果。

与当前使用更复杂架构的多视角姿态估计方法相比,本文的方法表现更出色。具体而言,在MV-YCB FixCam数据集上,MV6D算法可以准确地预测所有物体的6D位姿,即使某些物体被严重遮挡。

相比之下,其他方法如PVN3D和CosyPose在某些情况下无法检测到物体或者性能不及MV6D。因此,本文提出的算法可以为实际应用场景中的机器人视觉、自动驾驶等领域提供更准确和鲁棒的解决方案。

标题:

MV6D: Multi-View 6D Pose Estimation on RGB-D Frames

Using a Deep Point-wise Voting Network

更多精彩内容请关注公众号:BFT机器人

本文为原创文章,版权归BFT机器人所有,如需转载请与我们联系。若您对该文章内容有任何疑问,请与我们联系,将及时回应。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/572758.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Jmeter实现分布式并发

Jmeter实现分布式并发,即使用远程机执行用例。 环境: VMware Fusion Windows系统是win7。 操作过程 1、Master在jmeter.properties添加remote_hosts 2、Slave在jmeter.properties添加server_port 同时把remote_hosts修改为和主机(Master…

超100篇! VAD论文梳理汇总!

GitHub的一位博主整理了上百篇语音活动检测(VAD)的论文,按照其中使用的特征方法以及适用的环境进行了分类整理,时间跨度为从198*年至2019年。此外,还提供了几个VAD代码,它们的性能表现较好。需要的同学可以…

我的创作纪念日---[需要更开阔的视野!]

文章目录 头绪收获日常 憧憬英语人工智能 希望 头绪 工作很长时间之后,才发现知识的根本,还是在于积累。俗话说好记性不如烂笔头。不管是特定产品相关的知识还是系统类的知识,又或者是语言类的知识,都有很多知识点需要积累。有了…

不会数据分析?无从下手?一文帮你打开数据分析思路

掌握了很多数据分析工具和技能,却依然做不好数据分析。 面对具体的业务问题,我们还是容易两眼一抹黑?除了数据和专业之外,还需要一定的方法论支撑。 文章有点长(误区解释方法论分享)但干货满满&#xff0c…

药用辅料数据查询网站系统-药品辅料数据

药用辅料是指在制药过程中,用于增加药品稳定性、改善口感、提高吸收率等功效的辅助材料。药用辅料的种类繁多,不同的药品需要使用不同的辅料,因此对于药企来说,了解并选用适合自己的药用辅料显得尤为重要。本文将介绍如何利用药用…

jvm之对象大小分析

写在前面 本文看下计算对象大小相关内容。 1:基础内容 1.1:对象的结构 一个对象由对象头和对象体组成,其中对象头包含如下内容: 标记字(mark word):存放GC年龄信息,对象锁信息等…

Hightopo 使用心得(1)- 基本概念

Hightopo 公司 3D 可视化产品有对应的官方手册。但是这些手册内容比较多。对于想学习的新同学来说可能相对比较繁琐。这里本人根据个人使用经验做了一些总结。希望对读者有所帮助。 官方手册地址:Structure (hightopo.com) 本文会提到一些前端开发的概念&#xff…

pdf怎么压缩得小一点?软件压缩更高效

PDF可以在不同操作系统和设备上实现高保真的排版和格式化。然而,随着文档的不断增多和文件大小的增加,传输和存储PDF文件也变得越来越困难。为了解决这个问题,可以使用PDF压缩技术来减小文件大小,提高传输效率。本文将介绍PDF压缩…

pdf转jpg怎么转?转换软件分享

随着数字化时代的到来,我们处理和共享信息的方式也在不断进步。在许多情况下,我们需要将PDF文档转换为图像格式,以便更方便地在网站、社交媒体或其他数字平台上与他人共享。本文将介绍如何将PDF文件转换为JPG图像格式。 有许多在线工具和软件…

1929-2022年全球站点的逐月平均气温数据

气象数据是在各项研究中都经常使用的数据,气象指标包括气温、风速、降水、湿度等指标,其中又以气温指标最为常用!说到气温数据,最详细的气温数据是具体到气象监测站点的气温数据!本次我们为大家带来的就是具体到气象监…

制船业智慧转型,3D轻量化工具赋能数字化!

随着科技的不断进步,计算机辅助设计(CAD)和三维建筑模型技术在造船业中扮演着重要角色。造船业是一个复杂而庞大的行业,涉及到船舶设计、建造模型、制造和施工等多个环节。 为了提高效率、降低成本并保证质量,传统的手…

记录为什么程序跑着跑着突然重启

这里写自定义目录标题 欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants 创建一个自定义列表如何创建一个…

3. 自然语言处理NLP:具体用途(近义词类比词;情感分类;机器翻译)

一、求近义词和类比词 1. 近义词 方法一:在嵌入模型后,可以根据两个词向量的余弦相似度表示词与词之间在语义上的相似度。 方法二:KNN(K近邻) 2. 类比词 使用预训练词向量求词与词之间的类比关系。eg:man&a…

同等学力申硕在职研究生,到底有没有含金量

🔎 同等学力申硕的含金量怎么样?值得报考吗? 所谓同等学力申硕的含金量,其实就是指硕士学位证书所能带来的价值。 同等学力申硕不属于学历教育,硕士学位证书不能提高学历,也就是说我们毕业之后&#xff0…

如何在 GNU Linux 上通过 Nvm 安装 Node 和 Npm?

Node.js 是一个流行的 JavaScript 运行时环境,用于开发服务器端和网络应用程序。它带有一个强大的软件包管理器 npm,可以方便地安装和管理 JavaScript 包和依赖项。在 GNU/Linux 系统上,使用 Nvm(Node Version Manager&#xff09…

项目部署——后端Springboot+前端VUE3

后端: 1.JDK环境配置: 服务器本身是没有装JDK的, 输入:java -version;会显示让你安装JDK, 输入:apt install openjdk-17-jre-headless 我们项目后端开发用的是JDK17,所以服务器也安…

ADManager Plus:微软的全面活动目录管理解决方案

摘要:ADManager Plus是微软推出的一款全面活动目录(Active Directory)管理解决方案。它提供了一系列强大的功能,帮助组织简化和自动化活动目录管理,提高安全性和效率。本文将介绍ADManager Plus的特点、优势以及在企业…

如何在华为OD机试中获得满分?Java实现【递增字符串】一文详解!

✅创作者:陈书予 🎉个人主页:陈书予的个人主页 🍁陈书予的个人社区,欢迎你的加入: 陈书予的社区 🌟专栏地址: Java华为OD机试真题(2022&2023) 文章目录 1. 题目描述2. 输入描述3. 输出描述4. Java算法源码5. 测试6.解题思路1. 题目描述 定义字符串完全由“A’和…

【Linux】编译器gcc和g++与调试器gdb的使用

文章目录 一、Linux编译器-gcc/g1.程序运行的四个阶段1.1 预处理1.2 编译1.3 汇编1.4 链接 2.链接方式与函数库2.1 动态链接与静态链接2.2 动态库与静态库3.gcc/g的使用 二、Linux调试器--gdb1.debug与release2.gdb 的使用 一、Linux编译器-gcc/g 1.程序运行的四个阶段 我们知…

RK3588-EDGE Ethernet驱动(一)

一:概述 以太网从硬件层来讲大致可分为三部分:CPU,MAC,PHY。 上述三部分有以下几种组成方式,而非封装在一颗IC种。 CPU内部集成了MAC和PHY,难度较高CPU内部集成MAC,PHY采用独立芯片(主流方案)CPU不集成MAC和PHY,MAC和PHY采用独立芯片或者集成芯片(高端采用)其中常说的…