【论文笔记】Diffusion-based 3D Object Detection with Random Boxes

news2025/1/16 2:01:24

原文链接:https://arxiv.org/abs/2309.02049

1. 引言

  基于激光雷达的3D目标检测方法通常依赖经验设置锚框或中心半径,而本文探索从随机框直接预测真实边界框。
  本文提出Diff3Det,使用扩散模型进行3D目标检测。首先为真实边界框添加高斯噪声,获得带噪声的边界框,然后从BEV特征图提取RoI特征,并输入到解码器预测带噪声边界框与真实边界框的偏移。这样,模型能从带噪声边界框中恢复真实边界框。

3. 方法

3.1 对扩散模型的回顾

  见此文3.1节(本文中,数据用 x 0 , x 1 , ⋯   , x t , ⋯   , x T x_0,x_1,\cdots,x_t,\cdots,x_T x0,x1,,xt,,xT表示)。
  本文将真实边界框作为 x 0 ∈ R N × 5 x_0\in\mathbb{R}^{N\times5} x0RN×5,并训练神经网络 f θ ( x t , t , x ) f_\theta(x_t,t,x) fθ(xt,t,x)预测 x 0 x_0 x0,其中 x t x_t xt为带噪声边界框, x x x为相应的点云特征。

3.2 概述

在这里插入图片描述
  本文的方法包含由扩散指导的提案生成器(通过为真实边界框添加高斯噪声得到 x t x_t xt),编码器(3D体素主干,提取点云特征)和解码器(从 x t x_t xt和相应的RoI特征预测真实边界框),如上图所示。

3.3 扩散指导的提案生成器

  BEV是3D目标检测的有效表达,本文使用BEV边界框 ( c x , c y , d x , d y , θ ) (cx,cy,dx,dy,\theta) (cx,cy,dx,dy,θ)表达边界框。首先将真实边界框的数量复制到 N N N,并归一化到0和1之间,并引入信号缩放因数,控制扩散过程的信噪比。然后按照下式添加噪声,得到提案框 x t x_t xt x t = α ˉ t x 0 + 1 − α ˉ t ϵ x_t=\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon xt=αˉt x0+1αˉt ϵ其中 ϵ ∼ N ( 0 , I 5 ) \epsilon\sim\mathcal{N}(0,I_5) ϵN(0,I5)
  由于从不含激光雷达点的提案框中恢复真实边界框很困难,因此统计各提案框内的点数 m m m,并设置阈值 η \eta η。若 m < η m<\eta m<η,移除提案框并替换为随机边界框,直到所有提案框都至少有 η \eta η个点。该方法同样被用于提案框的细化,因为本文发现提案框的质量是该方法成功的关键(见后文)。
  尺寸的相关系数:真实世界中物体的长宽有一定关系,因此将随机边界框的长和宽看作两个独立的随机变量是不合适的。本文引入相关系数以限制随机边界框的尺寸: W = ρ L + 1 − ρ 2 X W=\rho L+\sqrt{1-\rho^2}X W=ρL+1ρ2 X其中 L , X ∼ N ( 0 , 1 ) L,X\sim\mathcal{N}(0,1) L,XN(0,1)且独立, ρ = 0.8 \rho=0.8 ρ=0.8。此后,将随机变量 W , L W,L W,L分别缩放到 ( 0 , w ) (0,w) (0,w) ( 0 , l ) (0,l) (0,l)范围内作为提案的尺寸。
  动态时间步长:在训练的早期,从带噪声样本恢复真值很困难,因此本文使用正弦调度控制时间步长范围,噪声在训练阶段逐步提高。设 n n n为训练总轮数, T T T为需要的最大时间。则当前轮次 x x x的最大时间 T max ⁡ T_{\max} Tmax为: T max ⁡ = { T ⌊ sin ⁡ ( cos ⁡ − 1 ( ω T ) σ n x + sin ⁡ − 1 ( ω T ) ) ⌋ x < σ n T x ≥ σ n T_{\max}=\left\{\begin{matrix}T\left \lfloor \sin(\frac{\cos^{-1}(\frac{\omega}{T})}{\sigma n}x+\sin^{-1}(\frac{\omega}{T})) \right \rfloor &x<\sigma n\\T&x\geq\sigma n\end{matrix}\right. Tmax={Tsin(σncos1(Tω)x+sin1(Tω))Tx<σnxσn其中超参数 ω \omega ω σ \sigma σ分别控制第一轮训练的步数和训练到达最大步数 T T T的轮数。

3.4 损失函数

  给定真实物体集合 y = { y i } i = 1 M y=\{y_i\}_{i=1}^M y={yi}i=1M和预测集合 y ^ = { y ^ i } i = 1 N \hat{y}=\{\hat{y}_i\}_{i=1}^N y^={y^i}i=1N,匹配代价定义如下: C match = λ c l s L c l s + λ r e g L r e g + λ I o U L B E V _ I o U C = arg min ⁡ i ∈ M , j ∈ N C match ( y ^ i , y j ) \mathcal{C}_\text{match}=\lambda_{cls}\mathcal{L}_{cls}+\lambda_{reg}\mathcal{L}_{reg}+\lambda_{IoU}\mathcal{L}_{BEV\_IoU}\\\mathcal{C}=\argmin_{i\in M,j\in N}\mathcal{C}_\text{match}(\hat{y}_i,y_j) Cmatch=λclsLcls+λregLreg+λIoULBEV_IoUC=iM,jNargminCmatch(y^i,yj)其中 L c l s \mathcal{L}_{cls} Lcls为分类的focal损失, L r e g \mathcal{L}_{reg} Lreg L B E V _ I o U \mathcal{L}_{BEV\_IoU} LBEV_IoU分别为边界框预测的L1损失和BEV IoU损失。
  训练损失仅对匹配物体对计算: L = λ c l s L c l s + λ r e g L r e g + λ I o U L D I o U \mathcal{L}=\lambda_{cls}\mathcal{L}_{cls}+\lambda_{reg}\mathcal{L}_{reg}+\lambda_{IoU}\mathcal{L}_{DIoU} L=λclsLcls+λregLreg+λIoULDIoU其中 L D I o U \mathcal{L}_{DIoU} LDIoU为旋转3D IoU损失。

3.5 推断阶段

  推断阶段为从噪声到边界框的去噪过程。Diff3Det迭代地从采样自高斯分布的边界框细化预测。给定随机边界框或上一步的预测边界框,解码器会给出当前的预测结果。下一步的提案框可按下式计算: x t − s = α t − s ( x t − 1 − α t ϵ θ ( t ) ( x t ) α t ) + 1 − α t − s − σ t 2 ϵ θ ( t ) ( x t ) + σ t ϵ t σ t = 1 − α t / α t − s ( 1 − α t − s ) / ( 1 − α t ) x_{t-s}=\sqrt{\alpha_{t-s}}(\frac{x_t-\sqrt{1-\alpha_t}\epsilon_\theta^{(t)}(x_t)}{\sqrt{\alpha_t}})+\sqrt{1-\alpha_{t-s}-\sigma_t^2}\epsilon_\theta^{(t)}(x_t)+\sigma_t\epsilon_t\\\sigma_t=\sqrt{\frac{1-\alpha_t/\alpha_{t-s}}{(1-\alpha_{t-s})/(1-\alpha_t)}} xts=αts (αt xt1αt ϵθ(t)(xt))+1αtsσt2 ϵθ(t)(xt)+σtϵtσt=(1αts)/(1αt)1αt/αts 其中 x t , x t − s x_t,x_{t-s} xt,xts分别表示相邻两步的提案框, ϵ θ ( t ) ( x t ) \epsilon_\theta^{(t)}(x_t) ϵθ(t)(xt)为解码器预测的偏移量, ϵ t \epsilon_t ϵt为高斯噪声。采样步数 m m m可以大于1,且 s = T / m s=T/m s=T/m。若使用多步迭代,需要使用NMS处理冗余边界框。

4. 结果与分析

4.3 主要结果

  Diff3Det能超过基于锚框的经典模型的性能。
  当步数大于1时,性能提升主要在困难物体上,因为更多的步数导致更多的预测边界框,对困难物体的检测有利。但过多的预测会混淆NMS的处理,导致简单物体的性能略微下降。

4.4 消融研究

  提出的组件:针对扩散指导的提案生成器,本文以完全随机边界框作为基准,逐步添加(1)带噪声的真实边界框;(2)丢弃点数为0的随机框并进行重采样;(3)使用尺寸相关性约束边界框长宽比;(4)动态时间步长,性能均有提升。
  采样步数:推断时,适当地增加采样步数能提高性能。

4.5 局限性

  解码器从随机边界框回归预测结果比较困难,导致相对慢的收敛速度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1057755.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[论文必备]最强科研绘图分析工具Origin(1)——安装教程

之前在论文中pr曲线和loss曲线对比用到了Origin这个最强科研绘图分析工具&#xff0c;被导师狠狠夸了&#xff0c;下面来分享一下~ 本篇先带你手把手安装这个软件&#xff0c;可以先点再慢慢看哦~ 目录 &#x1f4e2;一、软件简介 &#x1f33b;二、安装教程 &#x1f384…

想要精通算法和SQL的成长之路 - 验证二叉搜索树和不同的二叉搜索树

想要精通算法和SQL的成长之路 - 验证二叉搜索树和不同的二叉搜索树 前言一. 验证二叉搜索树二. 不同的二叉搜索树三. 不同的二叉搜索树II 前言 想要精通算法和SQL的成长之路 - 系列导航 二叉搜索树的定义&#xff1a; 节点的左子树只包含 小于 当前节点的数。节点的右子树只包…

Docker中将静态页面部署nginx

1.启动nginx docker start nginx 2.进入nginx cd /usr/share/nginx/html 3.vim index.html 说明&#xff1a;没有vim命令&#xff0c;docker镜像只保留了基本的功能&#xff08;文件&#xff09;。 4.解决方法 数据卷&#xff1a;是一个虚拟目录&#xff0c;是容器内目录与…

山西电力市场日前价格预测【2023-10-04】

日前价格预测 预测说明&#xff1a; 如上图所示&#xff0c;预测明日&#xff08;2023-10-04&#xff09;山西电力市场全天平均日前电价为311.79元/MWh。其中&#xff0c;最高日前电价为427.05元/MWh&#xff0c;预计出现在18: 45。最低日前电价为249.76元/MWh&#xff0c;预计…

Linux apt-get update - Could not connect to XXX(Connection refused)

Linux: apt-get update ----Err:Could not connect to XXX(Connection refused) - 知乎 先换源&#xff08;vi不好使用&#xff0c;可以换成gedit&#xff09; 若还是不行&#xff0c;可以再尝试执行&#xff1a; unset http_proxy unset https_proxy

决策树C4.5算法的技术深度剖析、实战解读

目录 一、简介决策树&#xff08;Decision Tree&#xff09;例子&#xff1a; 信息熵&#xff08;Information Entropy&#xff09;与信息增益&#xff08;Information Gain&#xff09;例子&#xff1a; 信息增益比&#xff08;Gain Ratio&#xff09;例子&#xff1a; 二、算…

【好玩的开源项目】Docker部署cook菜谱工具

【好玩的开源项目】Docker部署cook菜谱工具 一、cook菜谱工具介绍二、本地环境介绍2.1 本地环境规划2.2 本次实践介绍 三、本地环境检查3.1 检查Docker服务状态3.2 检查Docker版本 四、下载cook镜像五、部署cook菜谱工具5.1 创建cook容器5.2 查看容器状态5.3 检查容器日志 六、…

C/S架构学习之TCP的三次握手和四次挥手

TCP的三次握手&#xff1a;一定由客户端主动发起的&#xff0c;发生在建立连接的过程中。此过程发生在客户端的connect()函数和服务器的accept()函数之间。第一次握手&#xff1a;客户端向服务器发送一个带有SYN标志的数据包&#xff0c;表示客户端请求建立连接。并且客户端会选…

码多多ChatAI智能聊天系统-PHP源码版V2.5.0+开源端 安装教程

码多多ChatAI智能聊天系统PHP源码版&#xff0c;基于前后端分离架构以及Vue3、uni-app、ThinkPHP6.x、PHP8.0技术栈开发&#xff0c;包含PC端、H5端、小程序端、APP端。 该系统播播资源测试安装了针对环境要求高&#xff0c;PHP8.0MYSQL5.7。根目录下check文件加密文件&#x…

Ae 效果:CC Ripple Pulse

扭曲/CC Ripple Pulse Distort/CC Ripple Pulse CC Ripple Pulse &#xff08;CC 波纹脉冲&#xff09;主要用于创建动态的波纹脉冲效果&#xff0c;适用于需要动态涟漪或水波效果的场景。 效果将被限制在图层大小范围。 ◆ ◆ ◆ 效果属性说明 Center 中心 用于设置波纹脉冲…

Spring源码篇(十一)注册bean的方式

文章目录 前言bean注册的方式class扫描beanComponentScanImportDeferredImportSelectorImportBeanDefinitionRegistrar xml注册beanspring扩展点总结 前言 本篇主要以注册bean的方式从源码角度展开分析总结。 bean注册的方式 首先&#xff0c;由spring管理的对象&#xff0c…

数学建模三大类模型适用场景及建模方法(纯干货)(3)

目录 一&#xff0c;评价类算法 1&#xff0c;层次分析法 ●基本思想: ●基本步骤: ●优点: ●缺点 ●适用范围: ●改进方法: 2&#xff0c;灰色综合评价法&#xff08;灰色关联度分析&#xff09; ●基本思想: ●基本步骤: ●优点: ●缺点: ●适用范围: ●改进方…

海外媒体发稿:商务视频推广销售利器之完全指南

在当今数字化时代&#xff0c;商务视频推广已经成为了企业获取市场份额和提升销售业绩的重要手段。视频作为一种视听媒体&#xff0c;拥有更强大的感染力和传达信息的能力&#xff0c;因此在各种销售场景中得到了广泛应用。本文为大家提供了一份完全指南&#xff0c;帮助你了解…

为什么炒股人更爱融资?融券交易背后的风险与获利机会

炒股过程中&#xff0c;融资和融券交易是常见的操作方式。然而&#xff0c;据观察&#xff0c;炒股的人更倾向于选择融资交易&#xff0c;而融券交易相对较少。那么&#xff0c;是什么导致了这种偏好呢&#xff1f;本文将解析融资和融券交易的运作机制&#xff0c;以及投资者为…

【Linux】TCP的服务端 + 客户端

文章目录 &#x1f4d6; 前言1. 服务端基本结构1.1 类成员变量&#xff1a;1.2 头文件1.3 初始化&#xff1a;1.3 - 1 全双工与半双工1.3 - 2 inet_aton1.3 - 3 listen 2. 服务端运行接口2.1 accept&#xff1a;2.2 服务接口&#xff1a; 3. 客户端3.1 connect&#xff1a;3.2 …

RSIC-V工具链介绍及其安装教程

前言 &#xff08;1&#xff09;此系列文章是跟着汪辰老师的RISC-V课程所记录的学习笔记。 &#xff08;2&#xff09;该课程相关代码gitee链接&#xff1b; &#xff08;3&#xff09;PLCT实验室实习生长期招聘&#xff1a;招聘信息链接 &#xff08;4&#xff09;在配置RSIC-…

私有云OpenStack保姆级教学

一、Openstack介绍 OpenStack是由美国国家航空航天局(NASA)与Rackspace公司合作研发并发起的&#xff0c;以Apache许可证授权的自由软件和开放源代码的云计算技术解决方案&#xff0c;其是一个项目也是一个软件&#xff0c;主要用于实现云项目&#xff0c;因云项目操作系统而存…

“把握拐点,洞悉投资者情绪与比特币价格的未来之路!“

“本来这篇文章是昨天晚上发的&#xff0c;国庆节庆祝喝多了&#xff0c;心有余而力不足&#xff01;直接头躺马桶GG了” 标准普尔 500 指数 200 天移动平均线云是我几个月来一直分享的下行目标&#xff0c;上周正式重新测试了该目标。200 日移动平均线云表示为: 200 天指数移…

iMazing 2.17.10官方中文版含2023最新激活许可证码

iMazing 2.17.10官方中文版是一款iOS设备管理软件&#xff0c;该软件支持对基于iOS系统的设备进行数据传输与备份&#xff0c;用户可以将包括&#xff1a;照片、音乐、铃声、视频、电子书及通讯录等在内的众多信息在Windows/Mac电脑中传输/备份/管理。 iMazing 2.17.10官方中文…