ICCV 2023 | Prior真的重要吗?IST-Net:更强更快的category-level物体位姿估计模型

news2024/12/23 11:57:01

论文链接: https://arxiv.org/abs/2303.13479
代码链接: https://github.com/CVMI-Lab/IST-Net

01.背景介绍

Category-level 的物体姿态估计旨在让模型学习到类别独有的特征,从而能够在面对未见过的同类别物体时展现出良好的泛化性。为了解决 inrta-class variation 的问题,SPD 在早期提出了一种 Prior-based 的框架,现已被大多数主流的方法所采用。具体操作是当我们想估计一个 RGBD 图片的位姿时,使用预先训练好的一个 shape prior 作为辅助,学习 deformation 和 matching 的矩阵让 prior 通过先重建 RGBD 图片所对应的 3D 模型再进一步转换到世界坐标系下的视角(NOCS)。有了匹配的相机坐标系和世界坐标系下的视角,求解位姿便是一件十分容易的事情。

图1. Prior deformation的流程


02.Prior-based 方法对于 3D 模型的开销


3D 模型的标注是昂贵和耗时的,因此减少对于 3D 模型的依赖对于算法的实际应用是十分重要的。Prior-based 方法所产生的对于 3D 模型的数据开销主要来源于两个方面。一方面是训练过程中,网络在学习 deformation 的矩阵时(图 1)需要来自 3D 模型的监督。而另一方面是,prior 的产生需要依赖于大量的 3D 模型。
如图 2 所示,首先使用大量的 3D 模型训练一个 auto-encoder, 在训练完成后将相同类别的所有 3D 模型输入到 encoder 中得到 latent embeddings。再将这些 latent embedings 取平均再送入 decoder,重建得到的输出就是当前类的 shape prior。在这个过程中,为了得到一个通用的表征需要收集大量的 3D 模型。而当所需要预测的类别数量增多时,对于 3D 模型的依赖会变成一个严重的问题。

图2. Prior产生方法的图解,摘自SPD原文



03.Prior 真的重要吗?


当作者重新审视 prior-based 的方法时也逐渐产生了疑问,假设随机给一个 object shape 是否可以变换到 target shape 上呢?将这个过程拆解开就可以发现,random shape 到 target 的变换可以拆解为:从 random shape 到 prior 的变换加上 prior 到 target 的变换。其中 prior 到 target 的变换前述方法已经证明是可行的,而 random shape 到 prior 的变换,由于这两个量都是给定的,所以这个变换矩阵是直接可以求解的。因此作者猜想其实对于任意 shape 网络都可以将其变换到 target shape。

图3. 从 random shape 到 target shape 变换的分析


作者进一步在目前 SOTA 的 prior-based 方法上做了验证性实验–对 shape prior 进行替换,共有三组对照组:(1)使用默认的 prior; (2)所有类都使用相同的 prior(fixed prior);(3)使用 random noise 作为 prior。可以观察到即使使用 noise 作为 prior 网络也可以很好重建出 target shape,同时各项指标都与 baseline 几乎相同。而只有当去掉了 deformation 这个模块后才会产生明显的掉点。作者因此得出结论:真正重要的是如何构建世界坐标系与相机坐标系的对应关系,而不是 prior 本身

图4. Shape prior实验


04.解决方案


基于上述分析,作者提出了 IST-Net,一个高效且简洁的姿态估计器。旨在摒弃 prior 的同时,从 feature 层面完成从相机坐标系到世界坐标系的变换。IST-Net 包含如下三个模块:

图5. IST-Net框架结构


05.实验结果

作者在 REAL275 数据集上验证了 IST-Net 的性能。结合图 6 和表 1,可以看到 IST-Net 在各项指标上都有十分优异的表现,同时在速度上大幅度领先之前的方法。

图6. 速度与精度比较

表1. REAL275 benchmark上性能表现


作者将在 REAL275 和 CAMERA25 上训练好的模型直接在 Wild6D 数据集上进行测试结果如下表。IST-Net 展现出了良好的泛化性能甚至在很多指标上超过了在 Wild6D 上训练过的方法。

表2. Wild6D benchmark上性能表现


下表 3 展示了,仅在少量数据上(REAL275)训练得到的模型的性能。IST-Net 显著优于 prior-based 方法。

表3. 仅在REAL275上训练得到的模型性能


下表 4 展示了模型对于新的类别的迁移能力。在面对新的类别时,prior-based 方法对于 prior 的依赖导致了较弱的泛化能力。而 IST-Net 在面对相对相对简单的物体时 (bowl),展现出了明显更好的泛化性。

表4. 模型对于新类的迁移能力



06.总结

本文分析了基于 prior 的姿态估计方法中被忽视的问题,通过实验发现:prior 不会对性能提升做出贡献。真正重要的实际上是 deformation 的过程:它构建了相机和世界坐标之间的对应关系,重建了世界坐标系中的物体形状。受到此启发,作者设计了一个隐式空间变换网络(IST-Net) 将相机空间特征转换为世界空间的特征。它无需目标对象的 prior 或是 3D 模型即可构建空间对应关系。此外,作者还设计了两个独立的增强器进一步增加了几何约束。大量实验表明所提出的方法在效率和准确性方面的有效性。希望这篇文章能为该领域未来的研究提供新的见解。

参考文献


[1] Tian, Meng, Marcelo H. Ang, and Gim Hee Lee. “Shape prior deformation for categorical 6d object pose and size estimation.” Computer Vision–ECCV 2020
[2] Lin, Jiehong, et al. “Category-level 6D object pose and size estimation using self-supervised deep prior deformation networks.” European Conference on Computer Vision.
[3] Chen, Kai, and Qi Dou. “Sgpa: Structure-guided prior adaptation for category-level 6d object pose estimation.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.
[4] Di, Yan, et al. “Gpv-pose: Category-level object pose estimation via geometry-guided point-wise voting.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
[5] Zhang, Ruida, et al. “RBP-Pose: Residual bounding box projection for category-level pose estimation.” European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.


 关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/826185.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

私人网盘搭建(利用阿里云oss搭建)

1、个人网盘场景说明 个人网盘架构 使用ECS安装Cloudreve提供网盘服务,OSS提供存储服务。当用户使用个人网盘时,访问部署Cloudreve ECS的公网IP地址即可完成文件上传、下载、删除、分享等服务。 什么是Cloudreve Cloudreve可帮助您即刻构建出兼备自用…

下载vue-router的环境变量与创建路由包

目录 一、查看路由是否存在 二、vue路由介绍 三、操作步骤 (一)查看vue路由的版本号并记住 (二)vscode里面下载 一、查看路由是否存在 1.点击package.json文件查看里面是否有路由router的依赖,这里面没有发现&a…

Spring框架——AOP配置文件方式

目录 Spring框架的核心功能之AOP技术 AOP的概述 Spring的AOP的简单介绍 AOP概述 什么是AOP? Spring底层AOP实现 Spring的AOP的简介 AOP开发的相关术语 Spring框架的AOP的底层实现 JDK的动态代理(代码了解,理解原理) CGLIB的代理技…

Unity-数据持久化-PlayerPrefs

一、数据持久化概念 数据持久化就是将内存中的数据模型转换为存储模型,以及将存储模型转换为内存中的数据模型的统称。 简单来说:就是将游戏数据存储到硬盘,将硬盘中数据读取到游戏中,也就是传统意义上的存盘。 是Unity提供的可以…

软考A计划-系统集成项目管理工程师-项目合同管理-上

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例点击跳转>软考全系列点击跳转>蓝桥系列 👉关于作者 专注于Android/Unity和各种游…

软件测试报告的作用在哪?

软件测试报告是测试工作的重要成果之一,它是测试人员向项目团队和相关利益相关者传递测试结果和评估软件质量的文档。软件测试报告具有以下几个重要作用: 1、向项目团队和管理层提供测试结果软件测试报告会详细汇报测试的执行情况、测试用例覆盖的范围、…

【Linux】学习systemctl这一篇就够了--systemctl 命令完全指南

Systemctl是一个systemd工具,主要负责控制systemd系统和服务管理器。 Systemd是一个系统管理守护进程、工具和库的集合,用于取代System V初始进程。Systemd的功能是用于集中管理和配置类UNIX系统。 在Linux生态系统中,Systemd被部署到了大多数…

数据结构——搜索二叉树

文章目录 一. 概念二. 二叉搜索树的操作1.查找2. 插入3. 删除(重点)4.遍历5.拷贝构造与析构 三.二叉搜索树的递归实现1.递归查找2.递归插入3.递归删除 四.二叉树搜索的应用五.源码 前言: 本章我们将认识一种新的二叉树——搜索二叉树。这棵树…

【2023】Redis实现消息队列的方式汇总以及代码实现

Redis实现消息队列的方式汇总以及代码实现 前言开始前准备1、添加依赖2、添加配置的Bean 具体实现一、从最简单的开始:List 队列代码实现 二、发布订阅模式:Pub/Sub1、使用RedisMessageListenerContainer实现订阅2、还可以使用redisTemplate实现订阅 三、…

win10 64位 vs2017 qt5.12.6 pcl1.9.1 vtk8.1.1配置安装步骤

由于我电脑中有 QT5.12.6 VS2017,就不介绍怎么安装了,只介绍cmake,pcl及vtk的配置步骤 为了便于后续QT的调用,以下所有安装路径中均不能出现中文及空格等 PCL自带VTK是不完整的,所以需要下载VTK源码进行重新编译使其…

激光切割机在镂空技术中的运用场景具体包括哪些部分

本文将为您呈现一些激光镂空工艺的实际应用情况。激光切割机应用在镂空工艺上的一些地方。 首先,纸艺激光镂空的应用: 纸是中国古代四大发明之一,激光则是20世纪以来人类的一项重大发明。当传统文化与现代科技相互碰撞时,使得纸雕…

分享低成本非隔离PWM控制AC-DC开关芯片 YB5011

简介: YB5011系列是一款高性能低成本PWM控制功率开关,适用于离线式小功率降 压型应用场合,外围电路简单、器件个数少。同时产品内置高耐压MOSFET可提高 系统浪涌耐受能力,集成有完备的带自恢复功能的保护功能:VDD欠压保护、逐周期…

使用傲梅 VMware 备份软件保障数据保护

VMware数据保护一直是热门话题,因为VMware是虚拟化的驱动力。96% 的用户至少经历过数据丢失的主要原因之一:人为错误、硬盘驱动器故障、断电、火灾和自然灾害。 有效的 VMware 备份解决方案可以保护您的虚拟环境,并能够在需要时快速保护和恢…

Kafka-Broker工作流程

kafka集群在启动时,会将每个broker节点注册到zookeeper中,每个broker节点都有一个controller,哪个controller先在zookeeper中注册,哪个controller就负责监听brokers节点变化,当有分区的leader挂掉时,contro…

在商业广告领域中,LDE透明屏有哪些应用表现?

LDE透明屏是一种新型的显示技术,它能够在显示内容的同时保持屏幕的透明度,使得用户可以透过屏幕看到背后的物体。LDE透明屏的出现,为我们的生活带来了许多新的可能性。 首先,LDE透明屏可以应用于商业广告领域。 传统的广告牌需要…

浅谈实际工程中智能照明系统的节能设计

安科瑞 华楠 摘要:本文介绍了智能照明系统在实际工程中的应用,简单介绍了智能照明控制设计系统,阐述当前智能照明对建筑节能的重要意义,合理地分析了智能照明系统的发展前景。 关键词:智能照明系统控制,…

​17款画流程图的工具全面分析,功能一览!

流程图又称框图,是以特定的图形符号加上说明,表示算法的图。流程图相对于纯文字的表达而言在视觉上更清晰,能帮助我们进行更加有效的沟通和分析。流程图制作软件是一种提供创建图表功能的应用程序,解决了手动绘制流程图比较耗费时…

Roboflow制作yolov8数据集

进入官网网页 Sign in to Roboflow 先注册,因为是外网,注册前可以选择》》fanqiangruanjian 链接:https://pan.baidu.com/s/1YhLxSynvtcY1_FAbhc9q0g 提取码:f3es Roboflow标注平台使用----小白都能看懂_李大帅哥哈哈的博客-…

spring.config.location 手动指定配置文件文件

–spring.config.locationD:\javaproject\bangsun\ds-admin\ds-oper-mgr\src\main\resources\application.yml

海康视频插件VideoWebPlugin在vue中的实现

一,将js文件放在public文件下 二,在index中全局引入 三.在视频页面写方法,创建实例,初始化,我写的是1*4屏的 <template><!--视频窗口展示--><div idplayWnd classNameplayWnd refplayWnd styleleft: 0; bottom: 0;height: 902px;width: 60vw></div>&…