Voxel mamba :基于Mamba的3D目标检测算法解析

news2025/1/12 15:25:07

目录

  • 1 算法简介
      • 1.1 前提补充
        • 空间填充曲线(Space-filling Curve)
        • 点云分组
  • 2 模块介绍
      • 2.1 希尔伯特输入层(Hilbert Input Layer)
      • 2.2 双尺度 SSM 模块(Dual-scale SSM Block)
      • 2.3 隐式窗口分区 (Implicit Window Partition)
      • 2.4 Voxel Mamba Backbone
      • 2.5 有效感受野 Effective Receptive Field of Voxel Mamba

github链接: https://github.com/gwenzhang/Voxel-Mamba/tree/master
参考链接: https://www.bilibili.com/read/cv35707685/

1 算法简介

  • 背景:传统的基于序列化方法的三维体素(voxel)在输入到 Transformer 前会牺牲体素的空间邻近性,这限制了模型的性能。
  • Voxel Mamba:提出了一种无组(group-free)策略,将整个体素空间序列化为单一序列,减少了空间邻近性的损失。
  • Dual-scale SSM Block:提出了一种双尺度状态空间模块,通过建立层次结构来增强模型的接收域。
  • Implicit Window Partition:隐式窗口划分通过位置编码增强空间邻近性,无需显式进行空间窗口划分。

在这里插入图片描述

1.1 前提补充

空间填充曲线(Space-filling Curve)

空间填充曲线是一系列分形曲线,可以不重复地穿过多维空间中的每个点。经典的空间填充曲线包括希尔伯特曲线、Z阶曲线和扫描曲线等。这些方法可以在保持空间拓扑和局部性的同时进行降维。许多研究人员引入了用于点云处理的空间填充曲线。 例如HilbertNet使用希尔伯特曲线将 3D 结构折叠到 2D 空间中,以减少计算量和 GPU 占用。对于 3D 对象检测,一些方法也采用窗口扫描曲线对体素特征进行分组以进行并行计算。本文采用希尔伯特曲线是因为它具有保局部性的有利特性。

点云分组

LiDAR 点云稀疏且分布不均匀,密度各异。因此,现有方法对点或体素进行分组以促进并行计算并降低复杂度。然而,分组只是计算复杂性的折衷方案,限制了信息的流动和有效的感受野。为了解决这个问题,本论文将整个体素建模为一个序列,并允许每个体素了解全局上下文信息

2 模块介绍

在这里插入图片描述

Voxel Mamba 的概述如图所示。

  • 首先,Voxel Mamba 通过体素特征编码策略将点云转换为稀疏体素。
  • 然后,使用希尔伯特输入层将整个场景的体素序列化为单个序列(与之前执行大量窗口分区和体素分组的基于 Transformer 的方法不同)。
  • 随后,提出了一种作用于体素序列的双尺度 SSM 块,它允许在全局上下文中处理体素。
    为了扩大有效感受野,DSB在前向路径中采用更细粒度的体素序列感知;
    在后向路径中对体素序列进行下采样。后向路径从低分辨率 BEV 表示中提取特征,并在更深的块中增加下采样因子。
  • 最后,为了增强序列中的空间接近度,Voxel Mamba 采用隐式窗口分区来保留提取的体素特征中的 3D 位置信息,并将其投影到 BEV 特征图。

2.1 希尔伯特输入层(Hilbert Input Layer)

希尔伯特曲线可以遍历空间中的所有元素而不重复,并保留空间拓扑
为了提高序列化中体素的接近度,文中提出希尔伯特输入层来重新排序体素序列。

  1. 将体素特征的坐标表示为 C = { ( x , y , z ) ∈ R 3 ∣ 0 ≤ x , y , z ≤ n } \begin{aligned}\mathcal{C}=\{(x,y,z)\in\mathbb{R}^3|0\leq x,y,z\leq n\}\end{aligned} C={(x,y,z)R3∣0x,y,zn}
  2. 将体素映射到其在希尔伯特曲线内的遍历位置 h h h 上。即将 ( x , y , z ) (x, y, z) (x,y,z) 转换为其具有 l o g 2 n log_{2}n log2n 位的二进制格式。例如, x x x 转换为 ( x m x m − 1 . . . x 0 ) (x_mx_{m-1}...x_0) (xmxm1...x

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2164589.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

安全使用微软Azure OpenAI:使用 Azure AI Studio 实现企业安全的 5 种方法

Azure 是一个受到数百万客户信赖的创新平台,目前有超过 60,000 名客户正在使用 Azure AI,通过 AI 将他们的雄心勃勃的想法变为现实。Azure AI Studio是一个值得信赖的企业级平台,可用于大规模构建、测试、部署和管理生成式 AI 应用程序。企业…

一键启动,停止,重启nginx

1.一键启动nginx 启动的时候只能启动当前目录的nginx.exe echo off echo 正在启动nginx cmd /c "start nginx.exe" timeout /t 1 /nobreak > NUL2.一键关闭nginx 关闭的时候只能关闭当前目录的nginx.exe echo off echo 正在关闭nginx cmd /c "nginx -s quit&…

kubernetes网络(三)之bird的路由反射器的使用

一、摘要 上一篇文章中我们用 bird 程序实现了三台服务器之间的BGP full mesh。本文我们将实验把full mesh方式改为RR 路由反射器方式 ,让宿主的BIRD相互学习到对方的容器网段,从而达到容器网段能相互通信的目的。 二、bird 实验 bird简介 BIRD 实际…

awvs漏洞扫描工具使用教程

一、工具简介 AWVS(Acunetix Web Vulnerability Scanner)是一款常用的Web应用程序漏洞扫描工具,业界排名Top3,它可以自动扫描Web应用程序并发现其中可能存在的漏洞,包括SQL注入、跨站脚本、文件包含等安全漏洞。AWVS具…

Java语言程序设计基础篇_编程练习题**18.39(拖动树)

目录 题目:**18.39(拖动树) 代码示例 代码逻辑解析 类定义和变量初始化 main 方法 start 方法 drawRecursiveTree 方法 动画演示 题目:**18.39(拖动树) 修改编程练习题18.38, 将树移动到鼠标所拖动到的位置 Java语言程序设计基础篇_编程练习题…

elementUi / elementPlus自定义上传方法 Upload自定义文件上传

🚀 个人简介:某大型国企资深软件研发工程师,信息系统项目管理师、CSDN优质创作者、阿里云专家博主,华为云云享专家,分享前端后端相关技术与工作常见问题~ 💟 作 者:码喽的自我修养&#x1f9…

二进制文件与文本文件的区别【字符集Charset】

计算机上存储的文件在比特位上都是以二进制数字0或1表示,因此在物理层面上,文本文件和二进制文件没有本质差异,都是由数字0或1组成的比特位集合。 文本文件和二进制文件,两者的差异体现在编码逻辑,需要根据文件头中标…

SpringSecurity-用户认证

1、用户认证 1.1 用户认证核心组件 我们系统中会有许多用户,确认当前是哪个用户正在使用我们系统就是登录认证的最终目的。这里我们就提取出了一个核心概念:当前登录用户/当前认证用户。整个系统安全都是围绕当前登录用户展开的,这个不难理…

百度在线翻译神器?这3款工具让你秒变语言达人!

在数字化的今天,我们早已离不开在线翻译工具了!从日常的简单翻译到专业级的文献翻译,这些翻译工具就像是我们的“翻译官”,为我们的生活带来了便利;在这里,我给大家分享一下我的百度在线翻译使用感受&#…

Elasticsearch 分片迁移与移除集群节点操作

Elasticsearch 分片迁移与移除集群节点操作 问题背景 在单台服务器上部署了 7 个 Elasticsearch 节点,分别为 es-node1 到 es-node7,端口从 9201 到 9207。每个节点都承载大量数据,但没有设置副本分片。由于多个节点共享同一台服务器的硬件…

自动化测试常用函数:弹窗、等待、导航、上传与参数设置

目录 一、弹窗 1. 警告弹窗确认弹窗 2. 提示弹窗 二、等待 1. 强制等待 2. 隐式等待 3. 显示等待 三、浏览器导航 1. 打开网站 2. 浏览器的前进、后退、刷新 四、文件上传 五、浏览器参数设置 1. 设置无头模式 2. 页面加载策略 一、弹窗 弹窗是在页面是找不到任何…

震撼!最强开源模型通义千问2.5 72B竟在4GB老显卡上成功运行!

炸裂!最强开源模型一夜之间易主。阿里发布千问2.5模型,72B版本在MMLU、MATH、MBPP等大部分评测指标上都超过了Llama3 405B,甚至一些指标也超过了GPT4o。正式加冕最强开源模型新王! 今天要挑战用我的4GB老显卡不做量化、不做压缩&…

光伏仿真:排布设计如何优化用户体验?

1、屋顶绘制精准 光伏系统的性能直接受到屋顶结构的影响,因此,屋顶绘制的精准性是光伏仿真设计的首要任务。现代光伏仿真软件通过直观的界面和强大的图形编辑功能,使得用户能够轻松导入或绘制出待安装光伏系统的屋顶形状。无论是平面屋顶、斜…

LLM - 使用 XTuner 指令微调 多模态大语言模型(InternVL2) 教程

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/142528967 免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。 XTuner…

国庆节到了,扣子智能体coze画板功能实现贺卡编辑智能体自动添加logo和二维码,让海报品牌化

大家好,我是Shelly,一个专注于输出AI工具和科技前沿内容的AI应用教练,体验过300+款以上的AI应用工具。关注科技及大模型领域对社会的影响10年+。关注我一起驾驭AI工具,拥抱AI时代的到来。 自媒体时代,不管是一个人、一个团队还是一家公司,都是一个IP。那么添加品牌的标志…

JavaWeb校园二手交易平台

目录 1 项目介绍2 项目截图3 核心代码3.1 Controller3.2 Service3.3 Dao3.4 spring-mybatis.xml3.5 spring-mvc.xml3.5 login.jsp 4 数据库表设计5 文档参考6 计算机毕设选题推荐7 源码获取 1 项目介绍 博主个人介绍:CSDN认证博客专家,CSDN平台Java领域优…

AI大模型助力数据消费,构建数据飞轮科学、高效的体系

随着互联网的技术高速发展,越来越多的应用层出不穷,伴随着数据应用的需求变多,为快速响应业务需求,很多企业在初期没有很好的规划的情况下,存在不同程度的烟囱式的开发模式,这样会导致企业不同业务线的数据…

Java Map类

欢迎来到Cefler的博客😁 🕌博客主页:折纸花满衣 🏠个人专栏:Java 目录 👉🏻map1. 常见的实现2. 主要方法2.1. put(K key, V value)2.2. get(Object key)2.3. remove(Object key)2.4. containsKe…

西部移动硬盘怎么恢复数据?4种详细且实用的方法

面对西部移动硬盘数据丢失的问题,用户往往感到焦虑和无助。本文将为您提供一系列详细且实用的数据恢复方法,帮助您轻松应对数据丢失的挑战,重拾宝贵信息。 图片来源于网络,如有侵权请告知 一、西部移动硬盘数据丢失原因 西部移动…

生成式AI在电商场景的应用、前景与挑战,零基础入门到精通,收藏这一篇就够了

编者按 百舸争流的AI时代,“AI”行动在千行百业迅速开展。电商是一个重要场景,**据阿里调研,在电商平台,约30%受访商家已经使用生成式AI,成为生成式AI技术普惠的最佳试验场之一。**目前,已使用生成式AI的商…