单目3D目标检测[基于深度辅助篇]

news2024/12/24 2:52:26

基于深度辅助的方法

1. Pseudo-LiDAR

  • Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving
  • 康奈尔大学
  • https://zhuanlan.zhihu.com/p/52803631
    在这里插入图片描述
  • 首先利用DRON或PSMNET从单目 (Monocular)或双目 (Stereo)图像获取对应的深度图像(depth map),然后将原图像结合深度信息得到伪雷达点云 (pseudo-LiDAR),最后用pseudo-LiDAR代替原始雷达点云,以3D point cloud和bird’s eye view的形式
  • 图像对physically incoheren不友好;深度图对不同尺寸物体检测不友好:所以用伪点云
  • pseudo-Lidar > FV+depth map
    • 1.Image-based 3D Perception方案较差的性能:主要是由于front view这种2D图形表示,而不是之前一直纠结的不准确的depth map
    • 2.雷达的优势:在三维点云中(或BEV), 卷积和池化操作的区域都是physical nearby, 不同位置的不同物体并不会混为一谈;其次,物体的尺度具备深度不变性,保持了三维空间中最原始的尺度。
  • 未来工作:融合LiDAR 和 pseudo-LiDAR可能更好
    • 雷达点云虽然精确并有反射强度信息,但是非常稀疏
    • pseudo-LiDAR虽然不是特别精确,但是比雷达点云要密集的多,且具备RGB颜色信息
      • 比传统融合Lidar和RGB(MV3D, AVOD)更好

2. PatchNet

  • Rethinking Pseudo-LiDAR Representation

  • 商汤 ECCV2020

  • https://github.com/xinzhuma/patchnet.git

  • https://arxiv.org/pdf/2008.04582.pdf

  • https://blog.csdn.net/qq_16137569/article/details/123769737

  • PatchNet-vanilla

    • Step1:深度估计 给定一张单目图像或双目图像对,使用独立的模型预测每个像素( u , v ) (u,v)(u,v)对应的深度值d dd。
    • Step2:2D检测 使用另一个CNN生成2D目标的区域提议。
    • Step3:3D数据生成 根据Step2生成的区域提议将感兴趣区域从Step1生成的深度图中抠下来,然后利用相机内参将深度值转化为3D世界坐标( x , y , z ) (x,y,z)(x,y,z)。
    • Step4:3D目标检测 将Step3生成的伪点云视为激光信号,并使用PointNet预测结果。PointNet将点云视为无序点集,并通过一个集合函数f ff将点集映射到输出向量
  • PatchNet-vanilla

    • 前三步和pseudo-LiDAR完全一样,第四步会有所差别。PatchNet-vanilla将M个3D点重构成N×N×3的图像块,作为PatchNet-vanilla的输入,然后可以使用一个1 × 1 1\times 11×1接收域的2D卷积层以及一个全局最大池化来实现
      在这里插入图片描述
  • PatchNet-vanilla获得了和pseudo-LiDAR几乎一样的性能,这也证明了伪点云的数据表征形式不是必要的。

  • PatchNet-vanilla和PatchNet-AM3D,可以看到两种方法在替换数据表征方式后的性能都基本持平。说明数据表征不是影响3D检测性能的关键因素。

  • PatchNet:

    • 首先训练两个CNN分别用于预测2D框和深度图,对于每个检测到的2D目标框,从深度图中抠出对应的区域,利用相机内参将深度值转换成3D空间坐标(得到Fig.3中的cropped patches)。紧接着用一个主干CNN提取这些ROI的深层特征,然后使用mask global pooling分离出前景目标特征,最后通过一个检测头来进行回归目标的3D框(x ,y ,z ,h ,w ,l ,θ )
    • mask global pooling是论文提出了一种增强版global pooling方式,利用一个二值掩模(通过卡阈值的方式从深度图中获得)只对前景目标的特征进行global pooling操作,以获得更加鲁棒的特征。

3. MonoRCNN

4. D4LCN

5. CaDDN

6. DD3D

在这里插入图片描述

  1. DD3D
    a. 对于DD3D,以DLA-34作为backbone,按照论文中提出的实验流程训练(coco pretrain->DDAD15M pretrain->3D detection),在KITTI-3D验证集上测试得到的Car-BEV-AP分别是33.5(Easy),26.0(Mod),22.6(Hard)
  2. PL
    a. DDAD15M pretrain->KITTI-Depth finetune->pseudo-lidar based 3D detection)

7. DD3Dv2

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1135845.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

海外公司注册推广的9个实用技巧建议-华媒舍

在全球化的时代背景下,海外市场的开发对于企业来说是非常重要的战略决策。海外公司注册是进入海外市场的第一步,通过注册在海外的公司,企业可以获得更多的商业机会和巨大的价值。本篇文章将为您介绍海外公司注册推广的9个实用建议&#xff0c…

干洗店预约下单管理系统收衣开单拍照必备软件

随着生活水平的提高和节奏的加快,商务人士的衣物越来越多,但精力和时间却越来越少。于是,干洗店应运而生,在中国,几乎所有的中心城市干洗店都门庭若市。若每人每月需要干洗一套服装,一个城市每月则需干洗50…

Postgresql在jdbc处理bit字段的解决方案

问题: bit如果长度为1,则会默认为布尔型(1-true 0-false); bit如果长度大于1,则会默认为bit类型,但是代码中以前常用的两种set方式,会报错 第一种方式: ps.setObject(i1,…

vm_flutter

附件地址 https://buuoj.cn/match/matches/195/challenges#vm_flutter 可以在buu下载到。 flutter我也不会,只是这个题目加密算法全部在java层,其实就是一个异或和相加。 反编译 package k;import java.util.Stack;/* loaded from: classes.dex */ pu…

传智教育研究院重磅发布Java学科新研发《智慧养老》项目

在招聘Java开发人才的过程中,企业往往对候选人的项目经验有着严格的要求,项目经验成为顺利就业的重要敲门砖之一。而在数字化技术的学习中,如何让学员通过项目课程有效地积累实战开发经验,就成了数字化技术职业教育的一个重大难点…

EasyRecovery2024破解版数据恢复软件下载

当我们处理重要的文件数据时,遇到突然停电导致数据来不及保存,再次打开电脑后,此前处理的数据可能丢失,这无疑会影响我们的工作进度,数据恢复软件在此时就派上用场,那么下面就来具体介绍EasyRecovery软件的…

EasyRecovery2024破解版激活码

当我们处理重要的文件数据时,遇到突然停电导致数据来不及保存,再次打开电脑后,此前处理的数据可能丢失,这无疑会影响我们的工作进度,数据恢复软件在此时就派上用场,那么下面就来具体介绍EasyRecovery软件的…

5G与医疗:开启医疗技术的新篇章

5G与医疗:开启医疗技术的新篇章 随着5G技术的快速发展和普及,它已经在医疗领域产生了深远的影响。5G技术为医疗行业提供了更高效、更准确、更及时的通信方式,从而改变了医疗服务的模式和患者的体验。本文将探讨5G技术在医疗领域的应用场景、优…

10月《中国数据库行业分析报告》已发布,深度剖析甲骨文大会Oracle技术新趋势

为了帮助大家及时了解中国数据库行业发展现状、梳理当前数据库市场环境和产品生态等情况,从2022年4月起,墨天轮社区行业分析研究团队出品将持续每月为大家推出最新《中国数据库行业分析报告》,持续传播数据技术知识、努力促进技术创新与行业生…

k8s快速部署nacos2.2.0集群

nacos2.2.0集群部署。nacos-headless内部集群端口服务,nacos-service为了方便ingress转发提供给用户web界面操作,requiredDuringSchedulingIgnoredDuringExecution强制反亲和禁止同一个节点部署nacos实列。 1、数据库导入nacos的sql # 创建数据库 crea…

一文详解多模态大模型发展及高频因子计算加速GPU算力 | 英伟达显卡被限,华为如何力挽狂澜?

★深度学习、机器学习、多模态大模型、深度神经网络、高频因子计算、GPT-4、预训练语言模型、Transformer、ChatGPT、GenAI、L40S、A100、H100、A800、H800、华为、GPU、CPU、英伟达、NVIDIA、卷积神经网络、Stable Diffusion、Midjourney、Faster R-CNN、CNN 随着人工智能技术…

Java 音频处理,音频流转音频文件,获取音频播放时长

1.背景 最近对接了一款智能手表,手环,可以应用与老人与儿童监控,环卫工人监控,农场畜牧业监控,宠物监控等,其中用到了音频传输,通过平台下发语音包,发送远程命令录制当前设备音频并…

新手入门?初登开发者舞台的你所适合的三大开发工具?

对新手开发者来说,工具的简洁性和实用性和自己的产出直接挂钩,一个好用的工具往往会让编译代码减少很多麻烦,有哪些比较适合的工具,几乎成了每个新人必定会问的问题之一。 针对这些疑惑,今天就来讲讲三大新手型开发工…

CQ 社区版 V2.5.0 发布 | 开放在线试用、自定义高危操作、新增数据源Phoenix、Trino等

HELLO,大家好啊~ 很高兴又到每月发版时间! 本月发布 CloudQuery 2.x 系列的第六个版本。V2.5.0 从多个模块进行了功能完善和优化,具体内容我们一起往下看! 本次更新快览: 新增数据源:Phoenix、Trino新增…

Prometheus+Grafana+NodeExporter:构建出色的Linux监控解决方案,让你的运维更轻松

《PrometheusGrafanaNodeExporter:构建出色的Linux监控解决方案,让你的运维更轻松》 一、概述 本文使用PrometheusGrafanaNode Exporter搭建Linux主机监控系统: Prometheus 是一个监控系统,可以收集和存储来自各个目标的指标数…

strerror和perror

文章目录 strerrorperror strerror 当一个函数运行错误时,它会将对应的错误码存放在一个int类型的全局变量errno中,strerror函数是将错误码转化成错误信息的函数,参数是一个int类型的errno错误码,返回值为错误信息的首地址。 #in…

数据库管理开发Navicat Premium中文

Navicat Premium是一款全面而高效的数据库管理和开发工具,支持多种主流数据库系统,如MySQL、Oracle、PostgreSQL等。它提供了直观易用的图形用户界面和一系列强大的功能,如数据建模、查询、导入/导出、备份/恢复、同步等,帮助用户…

2023年【广东省安全员A证第四批(主要负责人)】试题及解析及广东省安全员A证第四批(主要负责人)模拟试题

题库来源:安全生产模拟考试一点通公众号小程序 广东省安全员A证第四批(主要负责人)试题及解析是安全生产模拟考试一点通生成的,广东省安全员A证第四批(主要负责人)证模拟考试题库是根据广东省安全员A证第四…

时序预测 | Python实现ARIMA-LSTM自回归移动差分模型结合长短期记忆神经网络时间序列预测

时序预测 | Python实现ARIMA-LSTM自回归移动差分模型结合长短期记忆神经网络时间序列预测 目录 时序预测 | Python实现ARIMA-LSTM自回归移动差分模型结合长短期记忆神经网络时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 时序预测 | Python实现ARIMA-LSTM自…

el-table多选表格 实现默认选中 删除选中列表取消勾选等联动效果

实现效果如下&#xff1a; 代码如下&#xff1a; <template><div><el-tableref"multipleTable":data"tableData"tooltip-effect"dark"style"width: 100%"selection-change"handleSelectionChange"><…