单目3D目标检测[基于几何约束篇]

news2024/11/10 15:47:40

基于语义和几何约束的方法

1. Deep3DBox

  • 3D Bounding Box Estimation Using Deep Learning and Geometry [CVPR2017]
  • https://arxiv.org/pdf/1612.00496.pdf
  • https://zhuanlan.zhihu.com/p/414275118

在这里插入图片描述

核心思想:通过利用2D bounding box与3D bounding box之间的几何约束,结合相机内参以及目标的物理尺寸和朝向信息,构造方程组求解出目标的位置信息

基于2D Box预测3D Box时的假设:3D Box在图像平面上的投影应该与其对应的目标的2D Box紧密贴合。如Figure 2所示,目标的2D Box的四条边都分别包含至少1个3D Box的角点投影

2. CenterNet3D

  • CenterNet3D: An Anchor Free Object Detector for Point Cloud
  • https://arxiv.org/pdf/2007.07214.pdf

在这里插入图片描述

CenterNet3D:回归2D框的中心点

Centernet检测头在点云3D检测和BEV检测上也适用,如Centerpoint,BEVDet、BEVDepth

  • 2D框的中心点和3D投影点的位置偏差,距离越近越大,特别是截断物体偏差很大,所以不用2D框中心索引3D信息(不准确)
  • Center3D:
    • backbone:dla3d
    • 分类头:heatmap分类信息,focal loss,分类标签是高斯形状
    • 回归头:8个通道,(1,2,3,2)=(depth,keypoint_量化误差,长宽高,航向角)

3. KM3D

  • Monocular 3D Detection with Geometric Constraints Embedding and Semi-supervised Training
  • https://arxiv.org/pdf/2009.00764.pdf
  • RTM3D:https://arxiv.org/pdf/2001.03343.pdf

在这里插入图片描述

KM3D:回归3D投影点+3D数据增强
KM3D的几何推理模块(GRM)代替了RTM3D的后处理

  • 网络结构继承CenterNet,backbone是dla34,回归头类别一样
  • 分类头回归的是3D投影点信息
  • 数据增强:
    • 外观增强(内外参不用变换):颜色抖动,随机mask
    • 几何信息增强(内外参要变换):图像仿射变换,缩放等
    • 3D数据增强
      • 提点最明显:带iou碰撞的Mixup,涨点4.5
      • CutPaste涨点4.2
      • Pix-aug + mosaic掉点,其余的均有涨点
      • Pedestrian和Cyclist因为样本数量较少,不具备参考意义

4.Monocon

  • Learning Auxiliary Monocular Contexts Helps Monocular 3D Object Detection
  • AAAI2022
  • https://arxiv.org/pdf/2112.04628.pdf
  • https://github.com/Xianpeng919/MonoCon

KM3D + 2D辅助监督
动机:3D框投影到2D图像上有丰富语义信息的监督信息,如2D框、车辆关键点和对应的偏移量

  • 做法:
    • 训练阶段辅助监督,9个关键点(一个中心点+8个角点)、8个角点偏移量、2D框的宽高
    • 训练和测试都有的检测头:3个类别的2D框的中心,2D框中心和3D投影点的偏移量,深度值,深度的不确定值,长宽高和航向角
  • 实验结果:monoconv耗时25.8ms,BEV的3D AP为31.2,都是领先的

5. Monoflex

  • Objects are Different: Flexible Monocular 3D Object Detection
  • CVPR2021
  • https://arxiv.org/pdf/2104.02323.pdf

在这里插入图片描述

KM3D + 解决遮挡问题
动机:截断物体和非截断物体的投影点跟2D框中心的距离呈现不同的分布,所以需要解耦成inside-object和outside-object

  • 创新点:
    • 添加额外分支预测截断目标(之前的monodle等算法发现训练时去掉outside object可以提高整体的3D AP,但是没有对截断物体进行建模),提升截断物体的检出率
      • 截断物体的标签是用一维高斯生成的
    • 将深度估计建模为直接回归对象深度和从不同的关键点组得到的深度值加权(继承学习,soft ensemble)
    • 建立2D信息与3D box的约束
  • 整体结构:
    • 模型结构继承Centernet3d

    • 引入edge fusion为outside object提供强大的边界先验假设

      • 提取特征图的四个边界,并按顺时针顺序将其连接成一个边缘特征向量,然后通过两个1D卷积层并reshape成edge mask,并与原来特征图相加,以学习截断对象的唯一特征
        在这里插入图片描述
    • 深度估计模块:

      • 相对于3D box长宽的预测,高度的预测误差是最低的,因为高度的预测不受航向角的影响
      • 深度预测的具体流程:
        • 关键点得到深度:10组关键点(3D框8个角点+底部中心和顶部中心)分成3组,每组可以独立产生2D box高度,再结合模型预测的3D高度,根据投影关系可得3组深度
        • 直接预测深度
        • 四种深度做ensemble得到最终深度

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1123135.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

直播录屏没有声音?解决方案来了!

在进行游戏直播、教程制作或在线会议录制时,有声音的录屏是至关重要的。然而,有时用户可能会面临直播录屏没有声音的问题。在本文中,我们将介绍两种常用的方法来解决这个问题,通过遵循下面的步骤,您将能够轻松地添加声…

Osgb转3DTiles工具

三维倾斜摄影生产主要格式为Osgb,目前三维模型主要展示场景为web,大部分使用框架都是Cesium库,格式为 3DTiles,目前市面上osgb转3DTiles的软件已经有好几个,付费免费都有。 先说免费软件: 1、CesiumLab …

SaaS是云计算服务,不是互联网平台

习惯性的把SaaS云计算服务,理解成平台,是不对的! SaaS本质就是云计算服务,企业在saas应用系统里操作业务,背后都是各种云计算操作。 但是,中国的互联网环境就都是巨头平台所主导,所以大家基本…

华为OD机试 - 寻找最大价值的矿堆 - 矩阵(Java 2023 B卷 200分)

目录 专栏导读一、题目描述二、输入描述三、输出描述四、Java算法源码五、效果展示1、输入2、输出 华为OD机试 2023B卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试(JAVA)真题(A卷B卷)》。 刷的越多…

工具让公众号推送变得轻而易举

公众号运营的关键在于定期向用户推送内容,但手动推送过程繁琐且浪费时间。现在,有了乔拓云公众号助手工具,你可以轻松实现公众号的自动推送功能。让我们一起来看看如何操作吧! 首先,你需要注册一个乔拓云公众号助手工具…

阿里云新品云服务器实例,经济型e实例,价格便宜,性价比高

前不久,阿里云推出了一款全新云服务器实例,他是阿里云面向个人开发者、学生、小微企业,在中小型网站建设、开发测试、轻量级应用等场景推出的全新入门级云服务器,基于“飞天CIPU”黄金技术架构设计,可轻松满足网站建设…

C语言指针详解——必备7大知识点

Part1指针是什么? 1.1 浅谈指针 理解指针的 两个要点: 指针是内存中一个最小单元的编号,也就是地址; 平时口语中说的指针,通常指的是指针变量,是用来存放内存地址的变量。 总结:指针就是地址&#xff…

UPS负载箱的工作原理是什么?

UPS负载箱(Uninterruptible Power Supply Load Bank)内部包含一组电阻器,通过调节电阻值来模拟不同负载条件。当UPS供电时,电阻器会吸收一定的电能,从而模拟实际负载对UPS的需求。UPS负载箱配备了控制系统,…

2023年京东双11京享红包领取入口介绍

2023年京东双11京享红包领取入口介绍 抢京东2023年双11超级红包共计4步骤即可。在今天京东公布了2023年双11红包密令,这是最新准确有效的哦!建议大家提前收藏密令,开始时间是10月23日生效。具体的2波时间见后,下面跟随小编一起来看看抢红包教…

DC电源模块的数字电源优势

BOSHIDA DC电源模块的数字电源优势 数字电源模块是指在电源的设计和控制上采用数字式方案,采用数字化技术,将传统的电源模块从模拟传统电源转变为数字电源变成的模块。 传统的电源模块使用模拟技术,其主要优势在于可控性高、稳定性好&#…

2-MySQL的基本操作记录

1 数据库相关 -- --------------------表相关的---------- -- 查看字符集 show variables like %character%;show databases;# 创建数据库 create database test2;# 删除数据库 drop database test2; show databases;#查看当前使用的数据库 select database(); 2 用户相关 -…

Spring Boot自动配置原理揭秘

自动配置原理 概述原理Spring Boot Starterspring.factories 文件ConditionalOnX 注解配置 Bean配置属性 源码剖析 主页传送门:📀 传送 概述 Spring Boot 是一个用于创建独立的、生产级别的 Spring 应用程序的框架。它极大地简化了 Spring 应用程序的开…

潮玩产业迈向千亿级,泡泡玛特未来发展空间可观

作为融合了艺术与创意的新品类,潮玩成为当下一种火热的消费现象。目前,全球潮玩产业处于快速增长期。近期,新华网联合中国社会科学院财经战略研究院发布的《超越潮流:千亿级潮玩产业彰显人文经济价值——潮玩产业发展报告&#xf…

华为OD机试 - 一种字符串压缩表示的解压 - 考生抽中题(Java 2023 B卷 100分)

目录 专栏导读一、题目描述二、输入描述三、输出描述四、解题思路1、题意2、根据题意,不合法方式如下:3、解题思路 五、Java算法源码六、效果展示1、输入2、输出 华为OD机试 2023B卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为O…

Nginx 实战教程

本篇博客我会演示日常的工作中,我们是怎么利用nginx部署项目的。我们以部署一套前后分离的项目为本次讲述的内容 一、搭建后端项目 创建一个最简单的springboot项目: 只需要依赖一个web模块即可: 提供一个api接口,可以获取服务端…

周记之马上要答辩了

“ 要变得温柔和强大,就算哪天突然孤身一人,也能平静地活下去,不至于崩溃。” 10.16 今天提前写完了一篇六级阅读,积累了一些词组: speak out against 公然反对,印象最深刻的就这个; 先了解…

英语——分享篇——每日200词——3001-3200

3001——ascertain——[ˌsəteɪn]——vt.查明,弄清——ascertain——a苹果(编码)s美女(编码)certain确定(熟词)——吃苹果的美女确定已查明此事——It can be difficult to ascertain the facts. ——可能难以查明事实真相。 3002——disrupt——[dɪsrʌpt]——…

深入浅出:Python内存管理机制详解

文章目录 一、什么是内存?1.1、RAM简介1.2、RAM容量1.3、查看电脑内存1.4、监控电脑内存 二、内存管理2.1、python是如何分配内存的?2.2、python采用自动内存管理机制2.3、python自动内存管理机制的缺点2.4、python内存优化的方法 三、项目实战3.1、查看…

防雷检测的项目和行业的等级区分

防雷检测是指对雷电防护装置的性能、质量和安全进行检测的活动,是保障人民生命财产和公共安全的重要措施。 地凯科技防雷检测的项目内容包括接闪器检测、引下线检测、接地装置检测、防雷区的划分、电磁屏蔽防雷检测、等电位连接检测、及电涌保护器 (SPD)性能检测。…

软件打不开,文件找不到了,如何找到隐藏文件?(windows和mac解决方案)

相信大家在学习过程中,会在咱们自己的编程软件安装一些插件,但是我们要知道插件跟版本会有不兼容的情况出现,也就是非法插件,会导致软件打不开,打开了报错等问题。 这个时候它的报错会告诉你一些路径,但是有…