【论文笔记】Far3D: Expanding the Horizon for Surround-view 3D Object Detection

news2024/12/25 12:15:20

原文链接:https://arxiv.org/pdf/2308.09616.pdf

1. 引言

目前的环视图图像3D目标检测方法分为基于密集BEV的方法和基于稀疏查询的方法。前者需要较高的计算量,难以扩展到长距离检测。后者全局固定的查询不能适应动态场景,通常会丢失远距离目标。本文引入3D自适应查询以增强灵活性。

基于稀疏查询的长距离检测主要的挑战是召回率低。由于2D检测的召回率高,可以使用高质量的2D检测先验来改进3D提案,从而实现精确定位和全面覆盖。但直接使用来自2D提案的3D查询有两个问题:(1)深度不确定;(2)当距离增加时3D空间中的偏差增大。这会影响训练稳定性,需要去噪方法来优化。此外,训练会倾向对近距离较为密集的物体进行过拟合,而忽略稀疏分布的远距离物体。

本文使用2D提案和相应的深度,通过空间变换得到3D提案,然后用投影位置嵌入和上下文语义来组成3D自适应查询,在解码器中细化。透视图感知的聚合会用在不同尺度和视图的图像上(对远距离物体需要关注高分辨率特征,而近距离物体反之,才能获得高层特征)。此外,还提出距离调制的3D去噪技术(根据GT构建噪声查询,解码器学习从噪声提案中恢复正提案并拒绝负提案),来缓解查询误差传播和收敛慢的问题。同时,查询去噪能减轻距离分布不平衡的问题。

3. 方法

3.1 概述

图1 模型框架
给定环视图像 I = { I 1 , ⋯   . I n } I=\{I_1,\cdots.I_n\} I={I1,.In},使用主干和FPN提取多尺度图像特征 F = { F 1 , ⋯   , F n } F=\{F_1,\cdots,F_n\} F={F1,,Fn}。使用2D检测器和深度网络获取2D提案和深度,然后筛选出其中可靠性高的并转换到3D空间,得到3D物体查询。

在3D检测器中,将3D自适应查询和3D全局查询输入到Transformer解码层中,进行查询间的自注意力和透视感知的查询-特征聚合。

3.2 自适应查询生成

给定图像特征,输入到2D检测器和轻量级深度估计网络预测2D边界框和离散深度分布,并筛选出分数大于阈值 τ \tau τ的边界框。然后根据深度和相机参数,将边界框的中心投影到3D空间,得到坐标 c 3 d c_{3d} c3d

然后,按下式编码为3D自适应查询:
Q p o s = P o s E m b e d ( c 3 d ) Q_{pos}=PosEmbed(c_{3d}) Qpos=PosEmbed(c3d) Q s e m = S e m E m b e d ( z 2 d , s 2 d ) Q_{sem}=SemEmbed(z_{2d},s_{2d}) Qsem=SemEmbed(z2d,s2d) Q = Q p o s + Q s e m Q=Q_{pos}+Q_{sem} Q=Qpos+Qsem
其中 z 2 d z_{2d} z2d为边界框2D中心处的图像特征, s 2 d s_{2d} s2d为边界框的置信度分数。位置编码为正弦变换+MLP,语义编码为MLP。

最后,将3D自适应查询与初始化的全局查询一起输入到Transformer解码层。

3.3 透视感知的聚合

遥远的小物体需要高分辨率特征以精确定位,而近处的大物体需要高级特征。本文提出透视图感知的聚合,从而在不同的尺度和视图上进行高效的特征交互。

本文首先将图像特征 F F F与相机内外参 I , K I,K I,K组合,并使用squeeze-and-excitation块丰富特征。增强的特征 F ′ F' F使用3D可变形卷积。对每个查询参考点预测 M M M个偏移量,并投影到不同视图和尺度的2D特征图上。

最后根据2D参考点从 F ′ F' F中采样图像特征,并考虑相对重要性聚合到3D查询中。

3.4 距离调制的3D去噪

具体的方案类似于DN-DETR。

与2D查询不同,不同距离处的3D查询,回归难度往往不同。这一难度差异来自查询密度(近距离物体比远距离物体更容易匹配)与误差传播(2D提案的误差会传播到3D,且随距离的增加而增加)。因此,GT框附近的查询可视为噪声候选对象,而远离GT框的查询视为负样本。通过距离调制的3D去噪,模型会召回潜在的正样本,而拒绝负样本。

本文通过同时添加正负样本,基于GT物体创建噪声查询。为了促进长距离感知学习,根据物体的位置和尺寸添加随机噪声。噪声查询的位置定义如下:
P ~ = P G T + α f p ( S G T ) + ( 1 − α ) f n ( P G T ) \tilde{P}=P_{GT}+\alpha f_p(S_{GT})+(1-\alpha)f_n(P_{GT}) P~=PGT+αfp(SGT)+(1α)fn(PGT)
其中 α ∈ { 0 , 1 } \alpha\in\{0,1\} α{0,1}对应正查询和负查询的生成, P G T P_{GT} PGT S G T S_{GT} SGT为GT框的位置和尺寸, f p f_p fp f n f_n fn为正负样本编码位置感知的噪声。

对正样本, f p ( S G T ) f_p(S_{GT}) fp(SGT)为3D尺寸的线性函数(带随机变量),这个GT框内的约束用于保证与周围相邻的边界框区分开。对负样本,偏移量与位置相关,有不同的实施方案。此外,对每个GT框会生成多组样本以增强查询多样性,每一组包含一个正样本和 K K K个负样本。

4. 实验

4.3 主要结果

Argoverse 2数据集:本文的方法能超过基于稀疏查询的方法。基于BEV的方法性能较差,这可能是由于深度估计的难度太大。部分模型不能收敛,可能也是缺乏精确的深度估计。总的来说,长距离检测的收敛问题更加严重,本文的3D去噪能起关键作用。

此外,本文的方法能超过激光雷达早期方法CenterPoint等。激光雷达方法的定位误差较小,但环视图方法的朝向估计更准确。

4.4 消融研究 & 分析

自适应查询:在StreamPETR的基础上添加自适应查询,能带来性能提升。可视化表明,从自适应查询得到的预测覆盖了更大的范围。

透视感知的聚合:进一步增加透视感知的聚合,能提高性能。

距离调制的3D去噪:通过惩罚负样本,减少了错误提案的出现;通过考虑物体距离,提高了定位精度。实验表明 f n ( ⋅ ) = log ⁡ ( ⋅ ) f_n(\cdot)=\log(\cdot) fn()=log()时能达到最优效果。

全局查询的作用:全局查询与自适应查询互补,当缺少全局查询时,StreamPETR收敛困难。全局查询增多,可以提高性能。

6. 补充材料

基于BEV的方法SOLO-Fusion在即使有NMS的情况下仍然产生了大量的冗余预测,原因可能是检测头有限的感受野难以处理大的检测范围。

自适应查询的统计数据:使用与自适应查询的平均数量相同的额外全局查询替换自适应查询,会导致性能下降。

Far3D的更多细节:(1)训练的初期,使用真实深度生成3D自适应查询,训练稳定后改用预测查询。(2)本文使用多尺度特征图与查询交互。与手工根据距离选择合适尺度的特征图相比,用网络估计的方法效果相近。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1117931.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

进阶课1——声纹识别

声纹识别是一种生物识别技术,也称为说话人识别,包括说话人辨认和说话人确认两种技术。该技术通过将声信号转换成电信号,再使用计算机进行识别,不同的任务和应用会使用不同的声纹识别技术,例如在缩小刑侦范围时可能需要…

如何使用积分系统增强用户留存?会员积分体系建设方式介绍

为什么别人家的积分系统能够成功吸引并维护10万个忠实粉丝,而你的积分系统却鲜有人问津?本文将详细解释积分系统如何与会员体系相互关联,以激发会员的复购和升级行为。 想要做好用户留存,互动交流是至关重要的一部分。企业需要灵…

Python--练习:使用while循环求1~100之间,所有偶数的和(涉及if判断是不是偶数)

案例:求1~100之间,所有偶数的和 思考: 先套用原有基础模式,之后再思考其他的。 其实就是在之前文章 Python--练习:使用while循环求1..100的和-CSDN博客 的基础上,再判断如果获取到里面的全部偶数&#…

前端时间分片渲染

在经典的面试题中&#xff1a;”如果后端返回了十万条数据要你插入到页面中&#xff0c;你会怎么处理&#xff1f;” 除了像 useVirtualList 这样的虚拟列表来处理外&#xff0c;我们还可以通过 时间分片 来处理 通过 setTimeout 直接上一个例子&#xff1a; <!--* Auth…

苹果遭双重暴击,品控翻车致iPhone15价格暴跌千元,比iPhone14更便宜

苹果近期可谓屋漏偏逢连夜雨&#xff0c;上市销售才不到一个月&#xff0c;就在中国市场被国产5G手机击败&#xff0c;日前第三方渠道对iPhone15的报价也持续下跌&#xff0c;其中iPhone15plus更是下跌超千元&#xff0c;显示出iPhone15似乎真的卖不动了。 据第三方渠道的报价显…

面试官:如何理解CDN?说说实现原理?

一、是什么 CDN (全称 Content Delivery Network)&#xff0c;即内容分发网络 构建在现有网络基础之上的智能虚拟网络&#xff0c;依靠部署在各地的边缘服务器&#xff0c;通过中心平台的负载均衡、内容分发、调度等功能模块&#xff0c;使用户就近获取所需内容&#xff0c;降…

51系列—基于51单片机的电子万年历设计

本文主要介绍基于51单片机的电子万年历设计 前言 电子万年历是单片机系统的一个应用&#xff0c;由硬件和软件相配合使用。硬件由主控器、时钟电路、温度检测电路、显示电路、键盘接口5个模块组成。主控模块用AT89C52、时钟电路用时钟芯片DS1302、显示模块用LED数码管、温度检…

【CGSSA-BP预测】基于混合混沌-高斯变异-麻雀算法优化BP神经网络回归预测研究(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

关于ibatis的一些用法——1(基本语法)

关于ibatis的一些用法——1&#xff08;基本语法&#xff09; 1. 前言1.1 唠叨1.2 官网1.2.1 官网地址1.2.2 价值文档1.2.2.1 Data Mapper1.2.2.2 其他 1.3 价值 IT技术问答网站 2. 基本语法2.1 关于 in 的用法2.2 关于驼峰问题2.3 3. 1. 前言 1.1 唠叨 本不想整这些老框架的…

在edge浏览器中安装好了burp的ca证书,浏览器依旧不能访问https的原因

在edge浏览器中安装好了burp的ca证书&#xff0c;浏览器依旧不能访问https的原因 1.SwitchyOmega代理插件设置2.CA证书方法1方法2 1.SwitchyOmega代理插件设置 严格安装以下图片执行&#xff0c;不可少写或多写 2.CA证书 方法1 下载好证书&#xff0c;先导入到edge浏览器的中…

商业智能的利用:打造成功的业务战略之道

在当今快节奏和数据驱动的商业环境中&#xff0c;制定稳健的商业战略对于实现可持续的增长和保持竞争力至关重要。商业智能&#xff08;BI&#xff09;是能够显著提高业务战略有效性的关键因素之一。本文将深入探讨商业智能的定义、其在战略制定中的重要性&#xff0c;以及如何…

作为资深IT从业者,我高度推荐这款智能团队协作工具

作为一名资深的IT从业人员,我最近发现了一款非常不错的团队协作和远程办公工具,它可以大大提高企业和团队的工作效率,所以今天我就向大家强烈推荐下这款产品。 这款产品名叫TeamLinker,它是一个集成了项目管理、文档协同、视频会议等多种功能于一体的智能化团队协作平台。以下…

数控设备液压站比例阀放大器

数控设备液压站是由液压泵、驱动用电动机、油箱、方向阀、节流阀、溢流阀等构成的液压源装置或包括控制阀在内的液压装置。电机带动油泵旋转&#xff0c;从油箱中吸油后打油&#xff0c;将机械能转化为液压油的压力能&#xff0c;再通过集成块&#xff08;或阀组合&#xff09;…

中文编程开发语言编程实际案例:程序控制灯电路以及桌球台球室用这个程序计时计费

中文编程开发语言编程实际案例&#xff1a;程序控制灯电路以及桌球台球室用这个程序计时计费 上图为&#xff1a;程序控制的硬件设备电路图 上图为&#xff1a;程序控制灯的开关软件截图&#xff0c;适用范围比如&#xff1a;台球厅桌球室的计时计费管理&#xff0c;计时的时候…

一阶惯性滤波器的传递函数与时域实现

滤波前后的效果对比如下&#xff1a; 可以得到&#xff0c;滤波后的幅值刚好是滤波前的0.707倍&#xff0c;也就是衰减了3deb&#xff0c;与理论分析一致。 需要注意的是&#xff0c;在simulink中&#xff0c;时域执行周期需要与设置的采样周期Ts一致&#xff0c;例如本例&…

智慧公厕:革新性的公共厕所管理系统

公共厕所&#xff0c;多年前似乎对每个人来说都是个需要避之唯恐不及的地方。但是&#xff0c;现代科技的进步让我们对公厕的认识产生了新的转变。智慧公厕作为一种结合了现代科技和人性化设计的公共厕所信息化管理系统&#xff0c;旨在提供更高效的管理方式&#xff0c;以及更…

Jmeter(七):jmeter连接数据库/中元件的执行顺序作用域详解

Jmeter&#xff1a;jmeter连接数据库 jmeter连接mysql数据库 大致步骤如下&#xff1a; 下载mysql的jar包放入到jmeter的lib下&#xff0c;然后重启jmeter配置JDBC Connection Configuration配置JDBC Request在请求中引用查询到的结果变量&#xff0c;可以结合计数器取每一个…

怎么恢复移走的u盘数据?可以尝试这三种方法

当意外移走U盘上的数据时&#xff0c;我们常常会感到焦虑和失望&#xff0c;特别是当这些数据对我们仍然重要时。不过&#xff0c;您不必完全放弃&#xff0c;因为本文将介绍一些方法&#xff0c;以帮助您恢复U盘上的重要数据。 图片来源于网络&#xff0c;如有侵权请告知 移走…

绘制核密度估计图

简介 核密度估计图&#xff08;Kernel Density Estimation&#xff0c;KDE&#xff09;是一种用于估计数据分布的非参数方法&#xff0c;通常用于可视化和理解数据的分布情况。它通过平滑地估计数据的概率密度函数&#xff08;PDF&#xff09;来显示数据的分布特征&#xff0c…

【广州华锐互动】全屋智能家电VR虚拟仿真演示系统

在过去的几年中&#xff0c;智能家居的概念已经逐渐进入人们的生活。然而&#xff0c;它的真正潜力和最终形态可能还未被完全发掘。一种新兴的技术&#xff0c;虚拟现实&#xff08;VR&#xff09;&#xff0c;为我们提供了一种全新的方式来理解和体验智能家居。VR公司广州华锐…