【3D目标检测】Rethinking Pseudo-LiDAR Representation

news2024/11/16 11:55:46

目录

  • 概述
  • 细节
    • 证明基于伪点云的3D目标检测算法效果好的原因并不是伪点云这种数据表示
    • 基于深度图的图像表示的算法PatchNet
    • 证明基于伪点云的3D目标检测算法效果好的原因是从图像到点云坐标系转换的过程

概述

本文是基于图像的3D目标检测算法。
贡献:

  • 作者认为基于伪点云的3D目标检测算法效果好的原因并不是伪点云这种数据表示本身,而是坐标系的转换。
  • 对于深度图,作者采用图像表示而不是伪点云的表示,之后采用2D CNN处理,成为了新的SOTA

ps:伪点云(【3D目标检测】Monocular 3D Object Detection with Pseudo-LiDAR Point Cloud)

细节

证明基于伪点云的3D目标检测算法效果好的原因并不是伪点云这种数据表示

作者构建了一个基于伪点云表示的目标检测器和一个基于图像表示的目标检测器,两者除了深度图的表示不同其余部分都相同。

实验中的深度图表示成伪点云的方法:

  • 使用一个CNN对输入图像做深度估计得到深度图
  • 使用另一个CNN进行目标检测得到ROI
  • 在深度图中裁剪ROI对应的部分
  • 基于相机成像原理的逆过程将像素坐标和深度图转换成3D坐标,并将3D坐标使用伪点云进行表示
  • 使用PointNet类的方法进行检测(也就是转换成高维特征,在使用max pool得到全局特征,基于这个特征进行检测)

实验中深度图表示成图像的方法(PatchNet-vanilla):

  • 使用一个CNN对输入图像做深度估计得到深度图
  • 使用另一个CNN进行目标检测得到ROI
  • 在深度图中裁剪ROI对应的部分
  • 基于相机成像原理的逆过程将像素坐标和深度图转换成3D坐标,并将3D坐标使用图像进行表示
  • 使用CNN的方法(效果与上面类似,使用 1 ∗ 1 1*1 11卷积得到高维特征图,然后使用全局maxPooling得到全局特征,基于这个特征进行检测)

可以发现,前三步是一模一样,第四步中只有深度图表示不一样,第五步思想一样,也就是说两个实验的设置中几乎只有深度图表示这一项不一样。
左图就是伪点云的表示,每个点对应3个特征,总共有M个点;右图是图像的表示,总共有 N ∗ N = M N*N=M NN=M个像素,每个像素对应3个通道,完全一样的数据,就是表示或者理解不同而已。
在这里插入图片描述
下面是实验的结果:一二行是同样的结构两次训练的结果(为了消除实验设置的影响),可以发现两个实验的结果几乎是相同的,那么通过实验也就证明了作者的观点,算法的效果和深度图的表示没有关系。
在这里插入图片描述

基于深度图的图像表示的算法PatchNet

基于上面的发现,作者就有了新的想法,既然效果一样,那就可以用基于深度图的图像表示来做了。
因为基于图像的表示可以采用成熟的2D CNN做,并且是端到端的,而且生成的图像是稠密的(因为点云的稠密的或者说是对原图上所有的点进行了深度估计得到的),而基于伪点云的表示只能采用基于点云的方法做,后者一方面没那么成熟,另一方面伪点云与真实点云也存在不同(点密度、局部不对齐、长尾问题,详情见【3D目标检测】Monocular 3D Object Detection with Pseudo-LiDAR Point Cloud)。

算法流程:

  • 使用一个CNN对输入图像做深度估计得到深度图
  • 使用另一个CNN进行目标检测得到ROI
  • 在深度图中裁剪ROI对应的部分
  • 基于相机成像原理的逆过程将像素坐标和深度图转换成3D坐标,并将3D坐标使用图像进行表示
  • 使用一个特征提取网络提取ROI的特征,并使用掩码全局池化(mask global pooling )以及前景掩码(foreground mask)进行特征过滤(实现类似于硬注意力机制的过程)
  • 用检测头进行相关参数的回归
    在这里插入图片描述

骨干网络:作者采用了ResNet-18+SE模块

掩码全局池化(mask global pooling ):就是对特征提取网络中得到的特征做了一个mask,后面的全局最大池化只对前景做,能够使得特征更具有鲁棒性
mask生成:主要参考了这篇文章:Accurate Monocular 3D Object Detection via Color-Embedded 3D Reconstruction for Autonomous Driving,关键就是在深度图中设置门限值,作者在每个patch的平均深度的基础上添加一个偏移作为门限值,小于这个门限的就是前景,否则就是背景。
检测头:检测头是专门为KITTI数据集设计的,三个分支对应三个难度,每个分支预测7个参数。为了避免无效计算,设置了一个小模块用来预测难度,然后使用对应难度的分支。
损失函数:参考了 【3D目标检测】Frustum PointNets for 3D Object Detection from RGB-D Data 的损失函数,分别计算中心点、尺寸和航向角的损失,并且额外使用角点的损失。
在这里插入图片描述

证明基于伪点云的3D目标检测算法效果好的原因是从图像到点云坐标系转换的过程

因为上面的实验证明了基于伪点云表示的方法和一个基于图像表示的方法是等价的,因此作者对图像表示方法中的中间图像进行了消融实验,证明了从图像到点云坐标系转换的过程的重要性。(我感觉最多就只能证明这个过程的重要性,要说它是决定性因素,实验未免太少了吧。)

实验做法就是深度图的图像表示中有3个patch,选中其中的一部分,效果不好,说明需要完整的3D数据;将得到的点云坐标系下的3D坐标 ( X , Y ) (X,Y) (X,Y)转换成原始图像坐标系下的2D坐标 ( x , y ) (x,y) (x,y),效果差了,说明深度图代表的深度信息应该在点云坐标系下使用3D坐标表示而不是原始图像坐标系下的2D坐标表示。
在这里插入图片描述

本文提到的坐标系转换不一定是真正的本质原因,但是给这种提升数据做3D目标检测的算法开拓了新的思路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/55795.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

开放式运动耳机排行榜,排行靠前的五款高性能耳机分享

智能产品的发展迅猛,作为生活必需品的耳机,更是在不断的更新,尤其是对于运动爱好者而言,以往的入耳式蓝牙耳机存在汗渍入耳等问题。而为了有效解决这一些列问题,新型的骨传导耳机随之诞生了,相比入耳式的蓝…

一定要用Photoshop?no!动手用Python做一个颜色提取器! ⛵

💡 作者:韩信子ShowMeAI 📘 Python3◉技能提升系列:https://www.showmeai.tech/tutorials/56 📘 计算机视觉实战系列:https://www.showmeai.tech/tutorials/46 📘 本文地址:https://…

直播 | 数据仓库?数据湖?停止纠结,流批融合的极速 Lakehouse来了!

万物皆数据的时代,各行各业对数据分析架构的要求日益拔高,打破传统的数据湖应需而生。企业得以用更低廉的成本、更完善的 ACID 支持、更实时的方式,导入并存储所有结构化、半结构化和非结构化数据。得益于数据湖良好的伸缩性和灵活性&#xf…

jQuery 安装

网页中添加 jQuery 可以通过多种方法在网页中添加 jQuery。 您可以使用以下方法: 从 jquery.com 下载 jQuery 库从 CDN 中载入 jQuery, 如从 Google 中加载 jQuery下载 jQuery 有两个版本的 jQuery 可供下载: Production version - 用于实际的网站中…

渲染时间过长?这些参数设置学起来

渲染时间 为了契合创作者的需求,V-Ray渲染器近年来迭代迅速,新版本的上线,便利了更多用户。但也有小伙伴在使用后反馈: 我的渲染器明明已经升级到最高版本了,为什么渲染时间还这么慢? 实际上,出…

如何通过一个项目征服Java

Java早已经不是高大山的稀世珍品了,程序员也不再是高科技工作者,而被称为码农 ,为什么呢?因为Java后台的很多基础技术都已经固定了,也就是说主要你从头到尾学一遍就能会 ,淘宝双十一搞不定,但是…

2022年12月深圳/珠海/佛山/东莞数据分析CPDA认证报名

2022年12月深圳/珠海/佛山/东莞数据分析CPDA认证报名 CPDA数据分析师认证是中国大数据领域有一定权威度的中高端人才认证,它不仅是中国较早大数据专业技术人才认证、更是中国大数据时代先行者,具有广泛的社会认知度和权威性。 无论是地方政府引进人才、…

HAL库(STM32CubeMX)之看门狗学习及实操(STM32F767IGTX)

系列文章目录 HAL库(STM32CubeMX)——ADC学习总结(包含单次/连续模式下的轮询/中断/DMA)(蓝桥杯STM32G431RBT6) HAL库(STM32CubeMX)——DAC学习(STM32G431RBT6) HAL库(STM32CubeM…

Innodb如何实现表--上篇

Innodb如何实现表--上篇数据是如何被管理起来的表空间段区页行行记录格式Compact记录行格式Redundant行记录格式行溢出数据Compressed和Dynamic行记录格式Char的行存储结构小结数据是如何被管理起来的 从InnoDB存储引擎的逻辑存储结构看,所有数据都被逻辑地存放在一…

[附源码]计算机毕业设计JAVA宿舍管理系统

[附源码]计算机毕业设计JAVA宿舍管理系统 项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis M…

十万部冷知识:奥运会冠城市名,世界杯为什么冠国名?

不知道大家发现没有,凡是给奥运会、亚运会等很多比赛取名的时候,往往都是给它冠以城市的名字。比如,北京冬奥会、广州亚运会、北京奥运会等等,而称呼世界杯的时候,我们往往是冠以国家的名字称呼的,诸如&…

Day17-购物车页面-商品列表-实现滑动删除功能

提纲挈领: 官方文档: 博主文档: 我的操作: 1》改造 cart.vue 页面的 UI 结构,将商品列表区域的结构修改如下(可以使用 uSwipeAction 代码块快速生成基本的 UI 结构): 2》在 data 节…

学到生无可恋之 Redis

一把年纪了还是这么菜 1 Redis 是啥 Redis 是一个高性能的 Key-Value 数据库,key 的类型是字符串,value 的类型有:string 字符串类型、list 列表类型、set 集合类型、sortedset(zset) 有序集合类型、hash 类 型、bitmap 位图类型等。 上图…

Mybatis:Mybatis的各种查询功能(5)

Mybaits笔记框架:https://blog.csdn.net/qq_43751200/article/details/128154837 Mybatis的各种查询功能1. 查询一个实体类对象2. 查询一个List集合3. 查询单个数据4. 查询一条数据为map集合5. 查询多条数据为map集合方法一方法二1. 查询一个实体类对象 SelectMapp…

【图像融合】小波变换彩色图像融合(带面板)【含GUI Matlab源码 782期】

⛄一、小波变换彩色图像融合简介 0 引言 目前在各种图像采集与分析系统中已大量使用彩色CCD数码相机, 但是由于其视野有限, 常常获得的只是局部图像, 如果要保证一定的分辨率的前提下采集整体彩色图像, 只能先拍摄具有重叠部分的局部彩色图像, 随后对其进行手工或自动拼接的方…

29岁才转行软件测试,目前32了,我的一些经历跟感受

按惯例,先说下我基本情况。我是90年的,算是最早的90后,现在跟你介绍的时候还恬不知耻的说我是90后,哈哈,计算机专业普通本科毕业。在一个二线城市,毕业后因为自身能力问题、认知水平问题,再加上…

基于 Delphi 的前后端分离:之二

本系列文章之二 # 摘要 上一篇文章,我在页面里面,使用 JS 向服务器端获取数据,然后修改页面元素显示数据成功。接下来,真正的页面,是需要格式的,要好看。如何做到? # 开始 # 网页模板和 Del…

用于安装和维护光纤单模和多模的光纤网络测试套件

VIAVI 唯亚威OMK-3xV2 光纤测试套件是一系列小巧且坚固耐用的仪表,用于安装和维护单模 (SM) 和多模 (MM) 光纤网络。所有测试套件均配备光功率计,以及专用于光功率、插入损耗测量和连续性检查的双波长或四波长功率计光源。 优点 随时可用 - 超高可靠性和…

四大主流BI工具的对比分析!

一、简介 1.Tableau Tableau 是一个 BI 分析和可视化工具。它为分析数据和创建交互式可视化提供了强大的功能。Tableau 旨在支持复杂的数据科学和分析,让数据专家可以使用一系列可视化工具构建分析。 2.Power BI Power BI 是 Microsoft 的产品,因此它…

[附源码]Python计算机毕业设计SSM久宠宠物店管理系统(程序+LW)

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…