自动驾驶3D目标检测综述(六)

news2024/12/26 6:37:03

停更了好久终于回来了(其实是因为博主去备考期末了hh)

这一篇接着(五)的第七章开始讲述第八章的内容。第八章主要介绍的是三维目标检测的高效标签。


目录

第八章 三维目标检测高效标签

一、域适应

(一)问题和挑战

(二)跨传感器域适应

(三)跨天气域适应

(四)模拟现实域适应

二、弱监督3D目标检测

(一)问题和挑战

(二)弱监督三维目标检测

三、半监督3D目标检测

(一)问题和挑战

(二)半监督三维目标检测

四、自监督3D目标检测

(一)问题和挑战

(二)自监督三维目标检测


第八章 三维目标检测高效标签

在这个章节里,我们介绍一些三维目标检测高效标签的方法。在前几个章节中,我们通常假设三维检测器是在全监督下进行训练的,且是在特定数据域和充足大量的上下文的情况下进行的。然而,在现实世界的应用中,三维目标检测方法不可避免地会遇到泛化能力差和缺少上下文的问题。为了解决这些问题,高效标签化的技术就能够应用于三维目标检测,包括三维目标检测的域适应(第一节)、弱监督学习(第二节)、半监督学习(第三节)和自监督学习(第四节)。我们将会在下面几个章节中介绍这些方法。

一、域适应

(一)问题和挑战

域间隙在数据收集过程中是普遍存在的。不同的传感器设置和放置,不同的地理位置以及不同的天气都有可能得到完全不同的数据域。在大部分情况中,在特定域中训练的三维目标检测器比在其他域中训练的检测器性能更差。人们提出了许多技术来解决三维目标检测中域适应的问题,比如采用源和目标域的一致性,以及在目标域中自训练。然而,大部分方法仅仅注重解决某个特定的域转换问题。设计一个域适应方法,这种方法可以应用于三维目标检测中任意一个域转换任务,这将是一个有前途的研究方向。三维目标检测域适应方法阐述图如下:

方法分类如下表:

(二)跨传感器域适应

不同的数据集有着不同的传感器设置,比如在nuScenes数据集上采用的32光束的激光雷达VS在KITTI数据集上采用的64光束的激光雷达, 并且数据也在不同的地理位置收集,比如KITTI数据集是在德国收集的,而Waymo是在美国收集的。这些因素都会导致不同数据集间产生严重的域间隙,并且在数据集上训练的检测器在其他数据集上测试时通常性能较差。Wang等人的一项开创性工作就是观察到了不同数据集之间的间隙,并且引入了一种统计归一化的方法来处理这些间隙。下面许多工作也都采用了自训练的方法解决域适应的问题。在这些方法中,在源数据集上预训练的检测器将为目标数据集引入伪标签,并且会在带有伪标签的目标数据集上重新训练。这些方法主要在获取更高质量的伪标签上做出了改进,比如Saltori提出了一种范围和检测策略,Yang引入了一种记忆库,Fruhwirth-Reisinger等人采用场景流应用,以及You等人采用重放来增强伪标签的质量。除了自训练方法,也存在一些论文在源和目标域之间建立对齐。域对齐通过规模意识和范围意识对齐策略(这是Zhang等人提出的),多级别一致性(Luo等人提出)以及对比性联合训练方案(Yihan等人提出)来建立。

除了数据集间的域间隙,不同的传感器之间也能够产生不同特征的数据。一个32光束的激光雷达能产生比64光束激光雷达更稀疏的点云,并且不同摄像机获取的图像也拥有不同的尺寸和内参。Rist等人提出了一种多任务学习模式来解决不同激光雷达传感器的域间隙,并且Gu提出了不变位置的转换来解决不同相机间的域间隙。

(三)跨天气域适应

天气状况对数据的收集也会造成巨大的影响。在雨天的时候,雨滴会改变目标表面特质以致于很少有激光雷达光束能够反射回来并检测到,所以在雨天收集的点云比在干燥天气下收集的点云更加稀疏。除了反射更少之外,下雨也会导致来自中空雨滴错误的正反射。Xu等人提出了跨天气域适应问题的一种新颖的语义点生成方案。

(四)模拟现实域适应

模拟数据已经被广泛应用于三维目标检测中,因为现实世界收集的数据并不能覆盖所有的驾驶场景。然而,合成数据与现实数据有着截然不同的特质,这也就导致了模拟现实域适应的问题。人们提出了许多方法来解决这个问题,例如Zhu等人提出的基于训练的GAN并引入一种对抗的鉴别器来区分现实和合成数据。

二、弱监督3D目标检测

(一)问题和挑战

现存的三维目标检测方法都高度依赖大量人工标签的三维边界框上的训练,但是给这些三维边界框添加注释是非常耗时费力和昂贵的。弱监督学习可能成为这个问题的一个解决方案,因为弱监督信号,例如更少昂贵的二维注释,已经被应用于三维目标检测模型中。若监督三维目标检测不需要那么多人工数据注释,但是在弱监督和全监督方法中仍存在不可忽视的性能间隙。弱监督三维目标检测方法阐述如下图:

(二)弱监督三维目标检测

弱监督方法采用弱监督而非全监督注释三维边界框来训练三维目标检测器。弱监督包括二维图像边界框,一个预训练的图像检测器,BEV目标中心和车辆实例。这些方法通常设计出新颖的学习机制来跳过三维框监督并通过从弱信号中最小化有用的信息来学习如何检测三维目标。

三、半监督3D目标检测

(一)问题和挑战

在现实世界应用中,数据注释需要的人力比数据收集更多。通常一个数据获取车一天之内能够收集十万多帧点云,然而一个熟练的人类注释者一天仅能注释一百到一千帧。这就不可避免的会导致大量增长的未标签化的数据。因此如何从大范围未标签的数据中最小化有用的信息就成为了研究界和工业界一个严峻的挑战。半监督学习是一个有希望的方向,它采用少部分标签化数据和大量未标签化的数据来联合训练一个更强大的模型。将半监督学习方法结合到三维目标检测中去能够增强检测性能。半监督三维目标检测方法阐述如下:

(二)半监督三维目标检测

半监督三维目标检测主要有两种方法:伪图像标签和教师-学生学习。伪图像标签方法(Caine等人提出)首先采用标签化的数据训练了一个三维目标检测器,然后使用三维检测器为那些未标签化的数据产生伪图像标签。最终,三维目标检测器在未标签化的域内用伪图像标签重新训练。教师-学硕方法(Zheng等人提出)在三维目标检测中采用平均教师训练范式。具体而言,一个教师检测器首先在标签化域中训练,然后通过鼓励两种检测模型间的输出一致性来指导学生检测器在未标签化域中训练。

四、自监督3D目标检测

(一)问题和挑战

自监督预训练已经成为一个强大的工具,当大量未标签化数据和限制性的标签数据存在时。在自监督学习中,模型首先在大范围的未标签化的数据中预训练,之后在标签化的数据集上微调以获得更好的性能。在自动驾驶场景中,三维目标检测的自监督预训练还未探索许多。现存方法仍尝试适应自监督方法,例如对比性学习,相对于三维目标检测问题,但是多模态数据中丰富的语义信息还未被很好地利用起来。如何在预训练高效三维目标检测器时有效处理这些原始点云和图像仍是一项开放性的挑战。自监督三维目标检测方法阐述如下:

(二)自监督三维目标检测

自监督方法通常将对比性学习技术应用到三维目标检测中。具体而言,输入点云首先转换成增强的两种视角,之后应用对比性学习来支持两种视角下相同三维位置的特征一致性。最终,采用对比学习预训练的三维检测器进一步在标签化数据集上微调以获得更好的性能。PointContrast(Xie等人提出)首次在三维目标检测中引入对比学习范式,并且以下文章中通过采用深度信息和聚合改进了这个范式。除了点云检测器的自监督学习,还有一些工作尝试为自监督三维检测同时采用点云和图像,例如Li提出了一种基于多模态输入的模型内和模型间的对比学习模式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2265680.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

100V宽压输入反激隔离电源,适用于N道沟MOSFET或GaN或5V栅极驱动器,无需光耦合

说明: PC4411是一个隔离的反激式控制器在宽输入电压下具有高效率范围为2.7V至100V。它直接测量初级侧反激输出电压波形,不需要光耦合器或第三方用于调节的绕组。设置输出只需要一个电阻器电压。PC4411提供5V栅极驱动驱动外部N沟道MOSFET的电压或GaN。内部补偿和软启…

1.系统学习-线性回归

系统学习-线性回归 前言线性回归介绍误差函数梯度下降梯度下降示例 回归问题常见的评价函数1. MAE, mean absolutely error2. MSE, mean squared error3. R square (决定系数或R方) 机器学习建模流程模型正则化拓展阅读作业 链接: 2.系统学习-逻辑回归 …

windows使用zip包安装MySQL

windows通过zip包安装MySQL windows通过zip包安装MySQL下载MySQL的zip安装包创建安装目录和数据目录解压zip安装包创建配置目录 etc 和 配置文件 my.ini安装MySQL进入解压后的bin目录执行命令初始化执行命令安装 验证安装查看服务已安装 启动MySQL查看服务运行情况修改密码创建…

【Postgresql】数据库忘记密码时,重置密码 + 局域网下对外开放访问设置

【Postgresql】数据库忘记密码时,重置密码 + 局域网下对外开放访问设置 问题场景数据库忘记密码时,重置密码局域网下对外开放访问设置问题场景 Postgresql可支持复杂查询,支持较多的数据类型,在生产中较为使用。但有时在局域网下,想通过外部连接使用数据库,可能会出现数…

大模型-使用Ollama+Dify在本地搭建一个专属于自己的聊天助手与知识库

大模型-使用OllamaDify在本地搭建一个专属于自己的知识库 1、本地安装Dify2、本地安装Ollama并解决跨越问题3、使用Dify搭建聊天助手4、使用Dify搭建本地知识库 1、本地安装Dify 参考往期博客:https://guoqingru.blog.csdn.net/article/details/144683767 2、本地…

UE5 崩溃问题汇总!!!

Using bundled DotNet SDK version: 6.0.302 ERROR: UnrealBuildTool.dll not found in "..\..\Engine\Binaries\DotNET\UnrealBuildTool\UnrealBuildTool.dll" 在你遇到这种极奇崩溃的BUG ,难以解决的时候。 尝试了N种方法,都不行的解决方法。…

数字IC前端学习笔记:脉动阵列的设计方法学(四)

相关阅读 数字IC前端https://blog.csdn.net/weixin_45791458/category_12173698.html?spm1001.2014.3001.5482 引言 脉动结构(也称为脉动阵列)表示一种有节奏地计算并通过系统传输数据的处理单元(PEs)网络。这些处理单元有规律地泵入泵出数据以保持规则…

软件工程-【软件项目管理】--期末复习题汇总

一、单项选择题 (1)赶工一个任务时,你应该关注( C ) A. 尽可能多的任务 B. 非关键任务 C. 加速执行关键路径上的任务 D. 通过成本最低化加速执行任务 (2)下列哪个不是项目管理计划的一部分&…

【Git学习】windows系统下git init后没有看到生成的.git文件夹

[问题] git init 命令后看不到.git文件夹 [原因] 文件夹设置隐藏 [解决办法] Win11 win10

《Posterior Collapse and Latent Variable Non-identifiability》

看起来像一篇很有用的paper,而且还是23年的 没看完 后边看不懂了 Abstract 现有的解释通常将后验崩塌归因于由于变分近似而使用神经网络或优化问题。 而本文认为后验崩塌是潜在变量不可识别性的问题(a problem of latent variable non-identifiability) 本文证明了…

申请腾讯混元的API Key并且使用LobeChat调用混元AI

申请腾讯混元的API Key并且使用LobeChat调用混元AI 之前星哥写了一篇文章《手把手教拥有你自己的大模型ChatGPT和Gemini等应用-开源lobe-chat》搭建的开源项目,今天这篇文章教大家如何添加腾讯云的混元模型,并且使用LobeChat调用腾讯混元AI。 申请腾讯混…

Navicat通过ssh连接mysql

navicat 通过ssh连接mysql 对搭建完的mysql连接时,通过ssh连接的方法 需要确保mysql默认端口3306没有被防火墙阻拦 第一步 第二步 35027448270)] 需要注意的是乌班图系列的默认root的ssh是禁止的,应该用别的账户登录

【NACOS插件】使用官网插件更换NACOS数据库

说明 nacos 2.3.1默认支持mysql和derby数据库,如果想要支持其他数据库,可以通过使用插件方式实现。对于该插件的使用,官方说明文档较为粗略(不过也没问题,实际上整个过程就是很简单,只是使用者想复杂了),网…

mysql基础(jdbc)

1.Java连接数据库步骤 1.注册驱动 Class<?> driverManagerClass.forName("com.mysql.cj.jdbc.Driver"); 2.获取连接 Connection conDriverManager.getConnection("jdbc:mysql://localhost:3306/studymysql","root","123456"); …

ROM修改进阶教程------修改刷机包init.rc 自启用户自定义脚本的一些基本操作 代码格式与注意事项

在很多定制化固件中。我们需要修改系统的rc文件来启动自己的一些脚本。但有时候修改会不起作用,其具体原因在于权限与代码格式的问题。博文将系统的解析代码操作编写的注意事项与各种权限分别。了解以上. 轻松编写自定义启动脚本. 通过博文了解💝💝💝 1-------💝💝…

硬件模块常使用的外部中断

对于STM32来说&#xff0c;想要获取的信号是外部驱动的很快的突发信号 例1&#xff1a;旋转编码器的输出信号&#xff1a; 可能很久都不会拧它&#xff0c;不需要STM32做任何事情但是一拧它&#xff0c;就会有很多脉冲波形需要STM32接收信号是突发的&#xff0c;STM32不知道什…

3D布展平台主要有哪些功能?有什么特点?

3D布展平台是一种利用3D技术和虚拟现实&#xff08;VR&#xff09;技术&#xff0c;为用户提供线上虚拟展览和展示服务的平台。这些平台通常允许用户创建、设计和发布3D虚拟展厅&#xff0c;从而提供沉浸式的展览体验。以下是对3D布展平台的详细介绍&#xff1a; 一、主要功能 …

大恒相机开发(2)—Python软触发调用采集图像

大恒相机开发&#xff08;2&#xff09;—Python软触发调用采集图像 完整代码详细解读和功能说明扩展学习 这段代码是一个Python程序&#xff0c;用于从大恒相机采集图像&#xff0c;通过软件触发来采集图像。 完整代码 咱们直接上python的完整代码&#xff1a; # version:…

VTK知识学习(27)- 图像基本操作(二)

1、图像类型转换 1&#xff09;vtkImageCast 图像数据类型转换在数字图像处理中会频繁用到。一些常用的图像算子(例如梯度算子)在计算时出于精度的考虑&#xff0c;会将结果存储为float或double类型&#xff0c;但在图像显示时&#xff0c;一般要求图像为 unsigned char 类型,…

在跨平台开发环境中构建高效的C++项目:从基础到最佳实践20241225

在跨平台开发环境中构建高效的C项目&#xff1a;从基础到最佳实践 引言 在现代软件开发中&#xff0c;跨平台兼容性和高效开发流程是每个工程师追求的目标。尤其是对于 C 开发者&#xff0c;管理代码的跨平台构建以及调试流程可能成为一项棘手的挑战。在本文中&#xff0c;我…