【论文阅读】三平面相关与变体

news2025/1/11 11:13:45

文章目录

  • 1. 【CVPR2023】Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction
    • 动机
    • 可视化
    • 方法
    • Pipeline
  • 2. 【2023/08/31】PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic Occupancy Prediction
    • 动机(针对雷达点云、与TPV相比)
    • 可视化
  • 3. 【2024/04/时空】Unified Spatio-Temporal Tri-Perspective View Representation for 3D Semantic Occupancy Prediction
  • 4. 【CVPR2024】SparseOcc: Rethinking Sparse Latent Representation for Vision-Based Semantic Occupancy Prediction
    • 针对痛点和贡献
    • 模型框架
  • 5. Tri-Perspective View Decomposition for Geometry-Aware Depth Completion
    • 贡献
    • 框架及即插即用模块

社区开放麦#42 | 面向自动驾驶场景的纯视觉三维语义占有预测

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1. 【CVPR2023】Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction

动机

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

可视化

在这里插入图片描述

在这里插入图片描述

方法

具体而言,为了获得 3D 空间中点的特征,我们首先将其投影到三个平面中的每一个平面中,并使用双线性插值来获得每个投影点的特征。然后,我们将三个投影特征相加作为 3D 点的综合特征。因此,TPV 表示能够以任意分辨率描述 3D 场景,并为 3D 空间中的不同点生成不同的特征。我们进一步提出了一种基于变换器的编码器 (TPVFormer),以便有效地从 2D 图像中获取 TPV 特征。我们首先在 TPV 网格查询和相应的 2D 图像特征之间执行图像交叉注意,以将 2D 信息提升到 3D 空间。然后,我们在 TPV 特征之间执行跨视图混合注意,以实现三个平面之间的交互。

在这里插入图片描述

我们提出了一种三视角视图 (TPV) 表示,它能够在不抑制任何轴的情况下对全尺寸的 3D 空间进行建模,并避免立方复杂性,如图 3 所示。正式地,我们学习三个轴对齐的正交 TPV 平面:
在这里插入图片描述
直观地讲,从不同角度检查复杂场景可以更好地理解,因为这些角度可能提供有关场景的互补线索。

给定现实世界中 (x, y, z) 处的查询点,TPV 表示会尝试聚合其在顶视图、侧视图和前视图上的投影,以获得该点的全面描述。具体来说,我们首先将该点投影到 TPV 平面上以获得坐标 [(h, w),(d, h),(w, d)],在这些位置对 TPV 平面进行采样以检索相应的特征 [th,w, td,h, tw,d],并聚合这三个特征以生成最终的 fx,y,z:

在这里插入图片描述

其中采样函数 S 和聚合函数 A 分别采用双线性插值和求和实现,并且每个投影函数 P 对两个相关坐标执行 简单的缩放,因为TPV 平面与真实世界轴对齐。【O(HW + DH + W D)<<O(HWD)】

相当于点查询公式,TPV 平面沿各自正交方向扩展并相加时,构造出类似于体素特征空间的全尺寸 3D 特征空间,但存储和计算复杂度仅为 O(HW + DH + W D),比体素对应项低一个数量级。与 BEV 相比,由于 TPV 中的三个平面彼此垂直,因此沿一个平面正交方向的点特征会被从其他两个平面采样的特征所多样化,而 BEV 表示会忽略这一点。此外,每个 TPV 平面中的网格特征仅负责相应柱区域的视图特定信息,而不是像 BEV 中那样编码完整信息。总而言之,TPV 表示将 BEV 从单一顶视图推广到互补且正交的顶视图、侧视图和前视图,并且能够在保持高效的同时提供对 3D 周围环境的更全面、更细粒度的理解。

Pipeline

在这里插入图片描述

2. 【2023/08/31】PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic Occupancy Prediction

在这里插入图片描述

动机(针对雷达点云、与TPV相比)

  • 考虑到 LiDAR 点云的距离分布,我们在圆柱坐标系中构建了三透视视图,以便对较近区域进行更细粒度的建模。
  • 虽然 TPVFormer 在笛卡尔坐标系中使用三个垂直平面,但我们通过经验发现,由于点云分布不均匀(即点的稀疏性取决于它们与自车的距离),它们不能很好地描述 LiDAR 点云。
  • 最近,TPVFormer [16] 提出了一种基于视觉的 3D 感知的三视角 (TPV) 表示,它使用三个正交互补的 2D 平面来建模 3D 场景。由于这三个平面的互补特性,TPV 表示可以在保持效率的同时有效地恢复 3D 结构。尽管如此,TPVFormer 仅使用 TPV 来建模已经提取的图像特征。如何将 LiDAR 点云转换为 TPV 以及如何使用 2D 图像主干处理它们仍然未知。据我们所知,我们是第一个将 TPV 有效地应用于基于 LiDAR 的 3D 感知的人。我们进一步提出了一种圆柱形 TPV 表示来适应 LiDAR 点云,并采用空间组池化方法将 LiDAR 有效地转换为 TPV,同时将信息损失降至最低

可视化

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

3. 【2024/04/时空】Unified Spatio-Temporal Tri-Perspective View Representation for 3D Semantic Occupancy Prediction

在这里插入图片描述

4. 【CVPR2024】SparseOcc: Rethinking Sparse Latent Representation for Vision-Based Semantic Occupancy Prediction

针对痛点和贡献

痛点:

  • 现有方法使用鸟瞰图 (BEV) 或三视角视图 (TPV) 等投影来压缩密集表示。虽然有效,但这些投影会导致信息丢失,尤其是对于语义占用预测等任务。

贡献:

  • 首先,3D sparse diffuser 使用空间分解的 3D 稀疏卷积核执行潜在完成。

  • 构建了一个特征金字塔,其中包含稀疏插值操作,以使用来自其他尺度的信息来增强尺度。

  • 3D 稀疏变换器头,负责生成语义占用预测。通过仅分割占用的体素而不是整个 3D 体积,我们实现了计算成本的显着降低。

  • 有趣的是,它还提高了准确率,这在一定程度上可以归因于稀疏表示能够避免在空体素上产生幻觉

模型框架

在这里插入图片描述

在这里插入图片描述

5. Tri-Perspective View Decomposition for Geometry-Aware Depth Completion

贡献

  • (1) TPVD巧妙地将原始点云分解为三个二维视图,其中一个对应于稀疏深度输入。
  • (2) 我们设计了TPV融合来通过递归的二维-三维-二维聚合更新二维TPV特征,其中应用了距离感知球面卷积(DASC)【编码在紧凑球面空间中变化分布的点,有助于提炼出精细的几何结构】。
  • (3) 通过自适应选择TPV亲和邻居,新提出的几何空间传播网络(Geometric Spatial Propagation Network,GSPN)【即插即用】进一步提高了几何一致性。

框架及即插即用模块

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

GSPN通过在三个分解的2D TPV空间及其联合的3D投影空间中构建亲和性,同时保留了邻域信息和3D几何结构。这种设计使得GSPN能够逐步细化深度图,生成具有一致几何结构的精细深度结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2250215.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java - JSR223规范解读_在JVM上实现多语言支持

文章目录 1. 概述2. 核心目标3. 支持的脚本语言4. 主要接口5. 脚本引擎的使用执行JavaScript脚本执行groovy脚本1. Groovy简介2. Groovy脚本示例3. 如何在Java中集成 Groovy4. 集成注意事项 6. 与Java集成7. 常见应用场景8. 优缺点9. 总结 1. 概述 JSR223&#xff08;Java Spe…

定时/延时任务-ScheduledThreadPoolExecutor的使用

文章目录 1. 概要2. 固定速率和固定延时2.1 固定速率2.2 固定延时 3. API 解释3.1 schedule3.2 固定延时 - scheduleWithFixedDelay3.2 固定速率 - scheduleWithFixedDelay 4. 小结 1. 概要 前三篇文章的地址&#xff1a; 定时/延时任务-自己实现一个简单的定时器定时/延时任…

什么是sfp,onu,​为什么PON(​俗称“光猫”​)模块使用SC光纤接口

在现代网络设备中&#xff0c;我们经常会看到SFP或SFP接口的身影&#xff0c;这些接口有时被简称为光口&#xff0c;但这个称呼并不严谨。有些厂商则称之为多功能口或多用途口&#xff0c;然而这对于不了解的人来说可能还是一头雾水。SFP&#xff0c;即Small Form-Factor Plugg…

005 MATLAB符号微积分

前言&#xff1a; 在MATLAB中&#xff0c;数值与符号的主要区别在于它们的处理方式和应用场景 数值计算适用于实际的数值计算问题&#xff0c;如矩阵运算、数据分析等。符号计算适用于符号推导、公式化简和符号解析&#xff0c;如理论物理和工程计算。 01 符号对象 1.基本符…

深入实践:从零开始掌握GPT的应用开发

1. 为什么选择GPT&#xff1f; GPT&#xff08;Generative Pre-trained Transformer&#xff09;是当下最具影响力的语言生成模型之一&#xff0c;适用于生成文本、分析语言情感、翻译、多任务对话等多种场景。相比传统算法和模型&#xff0c;GPT有以下显著优势&#xff1a; …

WRF-Chem模式安装、环境配置、原理、调试、运行方法;数据准备及相关参数设置方法

大气污染是工农业生产、生活、交通、城市化等方面人为活动的综合结果&#xff0c;同时气象因素是控制大气污染的关键自然因素。大气污染问题既是局部、当地的&#xff0c;也是区域的&#xff0c;甚至是全球的。本地的污染物排放除了对当地造成严重影响外&#xff0c;同时还会在…

开源项目:纯Python构建的中后台管理系统

来源&#xff1a;Python大数据分析 费弗里 大家好我是费老师&#xff0c;目前市面上有很多开源的「中后台管理系统」解决方案&#xff0c;复杂如「若依」那种前端基于Vue&#xff0c;后端基于Java的框架&#xff0c;虽然其提供了较为完善的一整套前后端分离权限管理系统解决方…

汽车免拆诊断案例 | 2017款捷豹F-PACE车发动机偶尔怠速不稳

故障现象  一辆2017款捷豹F-PACE车&#xff0c;搭载2.0 L GTDi发动机&#xff0c;累计行驶里程约为16万km。车主反映&#xff0c;车辆组合仪表上发动机故障灯点亮&#xff08;图1&#xff09;&#xff0c;且发动机偶尔怠速不稳。 图1 发动机故障灯点亮 故障诊断 接车后试车…

SQL进阶技巧:非等值连接--单向近距离匹配

目录 0 场景描述 1 数据准备 2 问题分析 ​编辑 ​编辑 3 小结 数字化建设通关指南 0 场景描述 表 t_1 和表 t_2 通过 a 和 b 关联时&#xff0c;有相等的取相等的值匹配&#xff0c;不相等时每一 个 a 的值在 b 中找差值最小的来匹。 表 t_1&#xff1a;a 中无重复值…

泷羽sec-云技术

基础之云技术 声明&#xff01; 学习视频来自B站up主 泷羽sec 有兴趣的师傅可以关注一下&#xff0c;如涉及侵权马上删除文章&#xff0c;笔记只是方便各位师傅的学习和探讨&#xff0c;文章所提到的网站以及内容&#xff0c;只做学习交流&#xff0c;其他均与本人以及泷羽sec…

element ui select绑定的值是对象的属性时,显示异常.

需要声明 value-key"value",如果还不行可能是数据类型不一致数字0和字符串0是不一致的. el-select v-model"value" clearable placeholder"Select" value-key"value" style"width: 240px"><!-- <el-option v-for&…

【ChatGPT大模型开发调用】如何获得 OpenAl API Key?

如何获取 OpenAI API Key 获取 OpenAI API Key 主要有以下三种途径&#xff1a; OpenAI 官方平台 (推荐): 开发者用户可以直接在 OpenAI 官方网站 (platform.openai.com) 注册并申请 API Key。 通常&#xff0c;您可以在账户设置或开发者平台的相关页面找到申请入口。 Azure…

沸点 | 嬴图Powerhouse全面发布:从用户视角看嬴图实时图数据库的成长与价值

嬴图Powerhouse&#xff0c;直译过来就是能量站、动力站&#xff0c;它是嬴图自2019年发布高密度并行图计算引擎以来的一个里程碑&#xff0c;包括对整个产品架构的一个彻底革新&#xff0c;为大量复杂数据进行计算、分析和存储提供了快速和强大的动力支持。目前嬴图的用户正在…

深入理解计算机系统,源码到可执行文件翻译过程:预处理、编译,汇编和链接

1.前言 从一个高级语言到可执行程序&#xff0c;要经过预处理、编译&#xff0c;汇编和链接四个过程。大家可以思考下&#xff0c;为什么要有这样的过程&#xff1f; 我们学习计算机之处&#xff0c;就应该了解到&#xff0c;计算机能够识别的只有二进制语言&#xff08;这是…

Gitee markdown 使用方法(持续更新)

IPKISS 获取仿真器件的名称 引言正文标题换行第一种------在行末尾手动键入两个空格第二种------额外换行一次&#xff0c;即两行中间留一个空行 缩进与反缩进代码块行内代码添加图片添加超链接 加粗&#xff0c;倾斜&#xff0c;加粗倾斜 引言 有些保密性的文件或者教程&…

Element UI 打包探索【1】

目录 第一个命令 第二个命令 node build/bin/iconInit.js node build/bin/build-entry.js node build/bin/i18n.js node build/bin/version.js 总结 最近在接触组件库的项目&#xff0c;所以特意拿来Element UI借鉴学习一下&#xff0c;它算是做前端的同学们离不开的一…

关于IDE的相关知识之一【使用技巧】

成长路上不孤单&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a; 【14后&#x1f60a;///C爱好者&#x1f60a;///持续分享所学&#x1f60a;///如有需要欢迎收藏转发///&#x1f60a;】 今日分享关于ide使用技巧的相关内容&#xff01; 关于…

【C语言】字符串字面量的特殊性

博客主页&#xff1a; [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: C语言 文章目录 &#x1f4af;前言&#x1f4af;字符串字面量的定义和存储位置&#x1f4af;字符串字面量的不可修改性&#x1f4af;字符数组与字符串字面量的区别字符数组的定义和可修改性指针与数组的区别 &#x1…

linux(redhat8)如何安装mysql8.0之rpmtar双版本(最新版)(内网)(离线)

一.环境 系统版本&#xff1a;Red Hat 8.5.0-20 Java环境&#xff1a;build 1.8.0_181-b13 MYSQL&#xff1a;8.x版本 二、查看内核版本 #查看内核版本&#xff0c;根据内核版本下载对应的安装包 cat /proc/version 三、安装方式 一、rpm包方式 一、下载安装包 1. 登录网…

Python 中 if __name__ == ‘__main__‘ 有什么作用 ?

Python 以其简单性和可读性而闻名&#xff0c;但是它包含了一小段代码 &#xff1a;if name ‘main’: 经常让新手感到困惑。 理解 name 属性 为了理解 if name ‘main’: 的重要性&#xff0c;我们首先需要理解 name 在 Python 中的含义。Python 中的每个模块都有一个名为…