《ODIN: A Single Model for 2D and 3D Segmentation》CVPR2024

news2024/12/27 6:30:53

斯坦福和微软:

代码链接:ODIN: A Single Model For 2D and 3D Perception 

论文链接:2401.02416

摘要

这篇论文介绍了ODIN(Omni-Dimensional INstance segmentation),一个能够同时处理2D RGB图像和3D点云的单模型,用于进行2D和3D的实例分割。ODIN采用Transformer架构,交替融合2D内视图和3D跨视图信息。该模型通过位置编码区分2D和3D特征操作,捕捉2D补丁标记的像素坐标和3D特征标记的3D坐标。ODIN在多个3D实例分割基准测试中取得了最先进的性能,并在2D COCO基准测试中展现了竞争力。此外,当ODIN作为可指令实体代理架构中的3D感知引擎时,它在TEACh动作对话基准测试中设定了新的最先进性能。代码和检查点可以在项目网站找到。

拟解决的问题

论文挑战了2D和3D感知需要不同模型架构的观点,提出了一个统一的模型来处理2D和3D分割任务。现有的3D分割模型通常在特定领域内训练,不利用大规模的2D预训练,而且性能上超过了那些将RGBD多视图图像特征化的方法。ODIN旨在通过一个模型处理2D和3D数据,减少这种性能差距,并提高对实际传感器数据的处理能力。

创新之处

  1. 统一架构:提出了一个单一模型,能够处理2D图像和3D点云,挑战了2D和3D感知需要不同架构的传统观点。
  2. Transformer架构:模型使用Transformer架构,交替融合2D内视图和3D跨视图信息,这有助于提高分割的准确性。
  3. 位置编码:通过位置编码区分2D和3D特征操作,这是一个新颖的方法来处理不同维度的数据。
  4. 跨视图融合:模型在2D到3D转换时使用深度图和相机参数,这有助于提高3D实例分割的性能。
  5. 开放词汇类解码器:引入了能够处理任意数量语义类别的开放词汇类解码器,这对于多数据集的联合训练至关重要。
姿态RGB-D图像是指一组与相机姿态(位置和方向)相关联的RGB图像和相应的深度图像。
右图:在每个 2D 到 3D 转换中,ODIN 使用感知深度和相机内在和外在将 2D 特征标记投影到它们的 3D 位置。

方法

ODIN的架构包括以下几个关键部分:

  • 2D内视图融合:使用预训练的2D骨干网络(如ResNet50或Swin Transformer)处理单个RGB图像或多视图RGB-D图像。
  • 3D跨视图融合:通过3D注意力机制和相对位置编码,实现跨视图的特征融合。
  • 2D到3D的反投影:将2D特征映射到3D位置,使用深度图和相机参数。
  • 3D到2D的投影:将3D特征投影回2D位置,以便后续的2D模块处理。
  • 跨尺度融合和上采样:合并不同分辨率的特征图,并使用上采样层提高分辨率。
  • 共享2D-3D分割掩码解码器:使用Transformer架构,输出2D或3D分割掩码和语义类别。

ODIN的体系结构如图2所示。它采用单个RGB图像或一组提出的RGB-D图像(即与深度图和相机参数相关的RGB图像),并输出相应的2D或3D实例分割掩码及其语义标签。为了实现这一点,ODIN 在 2D 视图内融合和基于 3D 注意力的跨视图融合之间交替,如图 2 中的蓝色块和黄色块所示。分割解码头预测实例掩码和语义标签。值得注意的是,ODIN 在 RGB 和多视图 RGB-D 输入之间共享大部分参数。

4.1 视图内2D融合

ODIN使用预训练的2D骨干网络(如ResNet50或Swin Transformer),这些网络在2D COCO实例分割任务上进行了预训练。当只有一个 RGB 图像可用时,将其传递给完整的主干以获得多个尺度的 2D 特征。当姿势的 RGB-D 序列可用时,这种 2D 处理与 3D 阶段交错,通过交错视图内和跨视图上下文化,能够利用来自 2D 主干的预训练特征,同时还融合跨视图的特征,使它们 3D 一致。

4.2 跨视图3D融合

跨视图融合的目标是使单个图像的表征在视图之间保持一致,跨视图特征一致性对于 3D 实例分割至关重要:它使分割头能够意识到从多个视图观察到的 3D 对象确实是单个实例,而不是每个视点中的一个单独实例。

1. 2D到3D反投影:每个2D特征图被映射到3D空间,使用深度图和相机的内外参。这可以通过以下公式表示:

3D位置=相机内参×(相机外参×2D位置)+相机外参的平移部分

然后,这些3D位置通过体素化(voxelization)处理,将3D空间离散化为体素网格,并对每个体素内的特征和坐标进行平均池化,得到3D特征标记。

2. 3D k-NN Transformer与相对位置编码:使用k最近邻(k-NN)注意力机制来融合3D标记之间的信息。每个3D标记只关注其k个最近邻。相对位置编码通过一个多层感知机(MLP)实现,将标记之间的距离向量编码为相对位置嵌入。公式如下:

 其中,p_{i}(N × 1 × 3)代表3D标记,p_{j}(N ×k ×3)代表每个p_{i}的k个最近邻。

通过这种方式,注意力操作对 3D 令牌的绝对坐标是不变的,仅取决于它们的相对空间排列。虽然每个 3D 令牌总是关注相同的 k 个邻居,但它的有效感受野跨层增长,因为当邻居执行自己的注意力时,邻居的特征会更新

3. 3D到2D投影:将3D特征投影回其原始2D位置。首先,将每个体素的特征复制到该体素内的所有点,然后将这些点重新塑形为多视图2D特征图。在这个转换中,特征向量是不变的;差异在于它们的解释和形状。在 2D 中,特征的形状为 V × H × W × F ,表示每个视图的特征图,在 3D 中,它们的形状为 N ×F ,表示统一的特征云,其中 N = V · H · W。(V代表试图个数,N代表总的体素数或点数)

4.3 跨尺度融合和上采样

多尺度注意力:在三个最低分辨率尺度(1/32、1/16、1/8)上,使用可变形的2D注意力机制合并特征图。

额外的3D融合层:在每个尺度上,对于3D输入,应用额外的3D融合层以恢复3D一致性。

上采样:在1/8分辨率的特征图上使用上采样层,将其带到1/4分辨率,并与骨干网络中的1/4特征图进行跳跃连接。

 4.4 传感器深度到网格点云特征传递

对于需要在网格点云上进行标签的任务(如ScanNet),使用三线性插值将1/8分辨率的特征图特征插值到网格点云上。

4.5 共享2D-3D分割掩码解码器

Transformer解码器:类似于Mask2Former的解码器头,输入上采样的2D或3D特征图,输出相应的2D或3D分割掩码和语义类别。

可学习的物体查询:初始化一组可学习的物体查询,负责解码单个实例。这些查询通过查询细化块进行迭代细化,包括对上采样特征的交叉注意力和查询之间的自注意力。

4.6 放词汇类解码器

引入了一种能够处理任意数量的语义类的替代分类头。这种修改对于在多个数据集上联合训练至关重要。与BUTD-DETR和GLIP类似,使用通过将对象类别连接到句子中形成的检测提示(例如,“Chair.表。Sofa.”)并使用RoBERTa对其进行编码。在查询细化块中,查询在关注上采样的特征图之前额外关注这些文本标记。对于语义类预测,我们首先在查询和语言标记之间执行点积操作,在检测提示中生成每个令牌的一个 logit。然后将与特定对象类的提示标记对应的 logits 进行平均以导出每个类的 logits。这可以处理多词名词短语,例如“淋浴窗帘”,其中我们对对应于“淋浴”和“curtain”的 logits 进行平均。分割掩码由像素/逐点点积预测,其方式与前面描述的相同。

结论

ODIN模型在多个3D实例分割基准测试中取得了最先进的性能,并在2D COCO基准测试中展现了竞争力。实验表明,ODIN在处理实际传感器数据时性能优于其他方法,并且通过联合训练2D和3D数据集,模型在3D任务上的表现得到了提升。此外,ODIN在作为实体代理架构中的3D对象分割器时,也在TEACh基准测试中设定了新的最先进性能。论文的结论强调了ODIN在2D和3D分割任务中的有效性和潜力,并指出了未来的研究方向,包括提高模型对噪声的鲁棒性以及探索更大规模的2D和3D数据集的联合训练。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2254298.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

多行为推荐-KBS 24|基于HyperGRU对比网络的短视频推荐多行为序列建模

论文:https://www.sciencedirect.com/science/article/abs/pii/S0950705124004751?via%3Dihub 关键词:短视频推荐,多行为推荐,对比学习,RNN 1 动机 这是我第一次看短视频推荐里涉及到多行为的论文,动机还…

企业网双核心交换机实现冗余和负载均衡(MSTP+VRRP)

MSTP(多生成树协议) 通过创建多个VLAN实例,将原有的STP、RSTP升级,避免单一VLAN阻塞后导致带宽的浪费,通过将VLAN数据与实例绑定,有效提升网络速率。 VRRP(虚拟路由冗余协议) 用…

图解RabbitMQ七种工作模式生产者消费者模型的补充

文章目录 1.消费者模型2.生产者-消费者模型注意事项2.1资源释放顺序问题2.2消费者的声明问题2.3虚拟机和用户的权限问题 3.七种工作模式3.1简单模式3.2工作模式3.3发布/订阅模式3.4路由模式3.5通配符模式3.6RPC通信3.7发布确认 1.消费者模型 之前学习的这个消息队列的快速上手…

制造业管理系统中ERP与MES的区别

在当今工业4.0的背景下,数字化管理已成为现代工厂不可或缺的一部分。在这一进程中,企业资源计划(ERP)系统和制造执行系统(MES)扮演着关键角色。尽管如此,许多工厂的管理者对于ERP和MES的理解仍存…

面向初学者的 Ansys Mechanical 中的接触建模

接触概述 Ansys Mechanical 中的接触建模是仿真结构不同部分在各种条件下如何相互作用的关键方面。它涉及定义表面的接触方式,即它们是接触、滑动还是分离。Ansys Mechanical 提供了广泛的接触选项来准确建模这些交互,包括粘合、摩擦和无分离接触。每个…

【C++指南】C++内存管理 深度解析

💓 博客主页:倔强的石头的CSDN主页 📝Gitee主页:倔强的石头的gitee主页 ⏩ 文章专栏:《C指南》 期待您的关注 目录 引言 一、C 内存管理概述 二、C内存区域划分 三、C 内存管理方式 🍃1.自动内存管理…

聚类算法全面解析:理论与实践结合

聚类(Clustering)是数据挖掘和机器学习中一类重要的无监督学习方法,旨在将数据划分为多个类别,使得类别内部的数据相似度高,而类别之间的数据差异较大。聚类广泛应用于图像分割、市场分析、生物信息学、文本挖掘等领域…

Python 批量剪辑视频片头片尾工具

Python 批量剪辑视频片头片尾工具 1.简介: 批量剪辑片头片尾的软件,让你的视频创作事半功倍,视频剪辑处理完成后,用户可以在指定文件夹中查看已经剪切完片头片尾的视频‌。这些工具不仅适用于个人用户进行日常的视频编辑工作&am…

大模型分类1—按应用类型

版权声明 本文原创作者:谷哥的小弟作者博客地址:http://blog.csdn.net/lfdfhl根据应用领域,大模型可分为自然语言处理、计算机视觉和多模态大模型。 1. 自然语言处理大模型(NLP) 1.1 应用领域与技术架构 自然语言处理大模型(NLP)的应用领域广泛,包括但不限于文本分类、…

保姆级教程用vite创建vue3项目并初始化添加PrimeVue UI踩坑实录

文章目录 一、什么是PrimeVue二、详细教程1.添加PrimeVue2.配置main.js3.添加自动引入4.配置vite.config.js5.创建测试页面 一、什么是PrimeVue PrimeVue 是一个用于 Vue.js 3.x 开发的一款高质量、广受欢迎的 Web UI 组件库。 官网地址:https://primevue.org/ 二、…

Go的Gin比java的Springboot更加的开箱即用?

前言 隔壁组的云计算零零后女同事,后文简称 云女士 ,非说 Go 的 Gin 框架比 Springboot 更加的开箱即用,我心想在 Java 里面 Springboot 已经打遍天下无敌手,这份底蕴岂是 Gin 能比。 但是云女士突出一个执拗,非我要…

php 系统函数 记录

PHP intval() 函数 PHP函数介绍—array_key_exists(): 检查数组中是否存在特定键名 如何使用PHP中的parse_url函数解析URL PHP is_array()函数详解,PHP判断是否为数组 PHP函数介绍:in_array()函数 strpos定义和用法 strpos() 函数查找字符串在另一字符串…

关于Chrome自动同步书签的解决办法

前言 并不一定适用所有用户, 目前我在网上搜集了一些资料,也做了一些尝试。 就我个人总结的经验来讲,分享大家以下几种办法: 1.书签同步插件 点击如下🔗: Chrome书签同步https://bm.famend.cn/ …

matrixzq:基于ℤq的纯python矩阵库

1. 引言 当希望使用纯 Python 代码对整数 q 模矩阵进行操作,以演示使用学习误差 (Learning-With-Errors,LWE) 的基于格的加密方案的一些原理时,找到了 Thom Ives 编写的优秀代码“纯 Python 中无需 Numpy 或 Scipy 的 BASIC 线性代数工具”&…

深度学习笔记——模型压缩和优化技术(蒸馏、剪枝、量化)

本文详细介绍模型训练完成后的压缩和优化技术:蒸馏、剪枝、量化。 文章目录 1. 知识蒸馏 (Knowledge Distillation)基本概念工作流程关键技术类型应用场景优势与挑战优势挑战 总结 2. 权重剪枝 (Model Pruning)基本原理二分类1. 非结构化剪枝(Unstructur…

【单片机】ESP32-S3+多TMC2209控制步进电机系列1 UART通信及无传感回零 硬件部分

目录 1. 硬件选型1.1 esp32硬件型号1.2 TMC2209 硬件型号 2 原理接线图2.1 esp32接线2.2 TMC2209接线2.2.1 单向通讯 不配置地址2.2.2 单向通讯 配置地址2.2.3 双向通讯 单UART 【本文采用】2.2.4 双向通讯 多UART 3. 成品效果 1. 硬件选型 1.1 esp32硬件型号 采用的是微雪ES…

【论文复刻】雾霾污染及ZF治理与经济高质量发展(2004-2020年)

一、数据来源: PM2.5数据根据美国哥伦比亚大学社会经济数据与应用中心提供的全球PM2.5的年均浓度数据整理计算而得,人均实际GDP是以2000年为基期进行平减处理获得的实际GDP,控制变量来自《中国城市统计年鉴》、国家统计局,内含原…

行列式计算方法

行列式(Determinant)是线性代数中一个重要的概念,用来描述方阵的一些性质,尤其是与矩阵的可逆性、特征值等有关。下面是几种常见的计算行列式的方法: 1. 2x2矩阵的行列式 对于一个2x2矩阵: 行列式计算公式…

Elastic Cloud Serverless:深入探讨大规模自动扩展和性能压力测试

作者:来自 Elastic David Brimley, Jason Bryan, Gareth Ellis 及 Stewart Miles 深入了解 Elasticsearch Cloud Serverless 如何动态扩展以处理海量数据和复杂查询。我们探索其在实际条件下的性能,深入了解其可靠性、效率和可扩展性。 简介 Elastic Cl…

基于SpringBoot的旅游管理系统设计与实现

标题: 《基于SpringBoot的旅游管理系统设计与实现》 摘要: 本研究的主要目标是设计与实现基于Spring Boot的现代化旅游管理系统,旨在有效解决传统系统存在的多项问题,如用户体验不佳、功能不完善以及安全性方面的隐患。随着互联网…