【单目3D目标检测】MonoDLE论文精读与代码解析

news2025/1/20 17:05:57

文章目录

  • Preface
  • Abstract
  • Contributions
  • Diagnostic Experiments
  • Pipeline
  • Revisiting Center Detection
  • Training Samples
  • IoU Oriented Optimization
  • Experimental Results

Preface

[CVPR2021] Ma X, Zhang Y, Xu D. Delving into localization errors for monocular 3d object detection[C]. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 4721-4730.
Paper
Code
单目3d目标检测-monodle解析

Abstract

通过密集的诊断实验(intensive diagnostic experiments),量化了单目3D目标检测中每一个子任务的影响,发现定位误差(localization error)是主要的限制因素。同时,本文还分析了定位误差背后的潜在原因以及带来的影响,并提出了三种策略:首先,重新审视了 2D 框中心与 3D 对象投影中心之间的偏差,这是一个导致定位准确性低的重要因素。其次,观察到使用现有技术准确定位远距离对象几乎是不可能的,而这些样本会误导学习网络。为此,建议从训练集中删除此类样本以提高检测器的整体性能。最后,还提出了一种面向 3D IoU 的损失,用于对象的大小估计,不受“定位误差”的影响

Contributions

  • 首先,对单目 3D 检测进行了密集诊断实验。除了发现“定位错误”是限制单目 3D 检测的主要问题,此外,还量化了每个子任务的整体影响
  • 其次,针对远距离目标提出了两种策略来提高整体检测性能,即hard codingsoft coding
  • 最后,提出了一种面向 3D IoU 的损失,用于对象的大小估计,不受“定位误差”的影响

Diagnostic Experiments

为了定量地分析问题,本文进行了密集的诊断实验,通过逐步用真值替代baseline中的预测值的方法,提出了以下三个发现:

在这里插入图片描述

  • 定位误差是限制单目 3D 检测的关键因素。此外,除了深度估计外,检测3D物体的投影中心在恢复物体的3D位置方面也起着重要作用。为此,回顾了2D框中心与3D对象的投影中心之间的偏差,证实了保持2D检测相关分支的必要性,通过这种方式,2D 检测被用作相关的辅助任务来帮助学习与 3D 检测共享的特征,这与SMOKE中丢弃 2D 检测的现有工作不同
  • 观察到检测精度随着距离的增加而显著下降,认为由于不可避免的定位错误,几乎不可能使用现有技术准确地检测远距离对象,为此,提出了两种方案:从训练集中去除远距离样本,以及降低了这些样本的训练损失权重
  • 观察到除了定位误差之外,像3D框的尺寸估计也是限制3D目标检测的重要因素,现有方法倾向于独立优化 3D 边界框的每个组件。然而,未能考虑每个损失项对最终度量(即3D IoU)的贡献可能会导致次优优化。为了缓解这个问题,提出了一种用于 3D 大小估计的 IoU 定向损失。新的面向 IoU 的损失根据其对 3D IoU 的贡献率动态调整样本级别每一方的损失权重

Pipeline

MonoDLE论文中没有给出网络的完整框架,而是基于baseline做的若干实验,其中baseline是基于centernet的非常经典的结构:

  • Backbone:DLA34
  • Neck:DLAUp
  • 2D Detection:3个分支
    • 第一个分支输出heatmap预测分类分数以及2D 框中心的粗坐标 c = ( u , v ) \mathbf{c}=(u,v) c=(u,v),注意,Baselibe的2D框中心粗坐标,用的是标签中2D框中心作为GT值来监督,在后文中坐着针对这一点有专门的讨论,选择了3D投影坐标作为粗坐标的监督
    • 另一分支输出预测的2D粗坐标与真实坐标之间的偏移 o i = ( Δ u i , Δ v i ) \mathbf{o}^{\mathbf{i}}=\left(\Delta u^i, \Delta v^i\right) oi=(Δui,Δvi)
    • 最后一个分支预测2D框的size
  • 3D Detection:3个分支
    • 第一个分支输出2D粗坐标与真实的3D投影坐标 c w = [ x w y w ] T = c + o w \mathbf{c}^\mathbf{w}=\left[x^w y^w\right]^T=\mathbf{c}+\mathbf{o}^{\mathbf{w}} cw=[xwyw]T=c+ow之间的偏移 o w = ( Δ u w , Δ v w ) \mathbf{o}^{\mathbf{w}}=\left(\Delta u^w, \Delta v^w\right) ow=(Δuw,Δvw)
    • 第二个分支预测3D框的size
    • 最后一个分支预测偏航角 γ \gamma γ
  • Loss:分为7个部分
    • 分类损失:Focal Loss
    • 2D 中心点损失:L1 Loss
    • 2D size损失:L1 Loss
    • 3D 深度估计损失:
    • 3D 中心点损失:L1 Loss
    • 3D heading angle:multi-bin Loss
    • 3D size:普通的L1 Loss & 本文提出的 IoU Loss

Revisiting Center Detection

这一部分就讨论了一件事:用于粗中心坐标 c = ( u , v ) \mathbf{c}=(u,v) c=(u,v)的监督应该是什么?本文的答案是3D投影中心坐标

  • 使用3D投影的中心坐标,有助于估计粗略的中心感知 3D 几何信息,并与估计 3D 对象中心的任务更相关,这是定位问题的关键
  • 上图展示了Center definition和Multi-task learning不同设置的效果,其中’PC’, ‘RF’和 ‘MT’ 分别表示’projected 3D center’, ‘refinement’(预测2D中心和3D中心之间的offsets), and ‘multi-task learning’(2D和3D检测联合进行)
  • ab说明了预测offsets有助于补偿2D中心和3D中心之间的偏差
  • bd说明了使用3D 投影中心作为粗坐标的监督可以进一步提升检测性能
  • cd说明了Multi-task learning有助于3D检测,同时d的2D检测的精度也优于c,说明由3D检测生成2D包围框可能会降低2D检测结果的质量

在这里插入图片描述

  • 上图定性比较了,分别使用2D Center和3D 投影中心作为粗坐标监督的影响,可以看出使用3D 投影中心作为监督效果更好
    • 第二行为2D Center监督下,网络输出粗坐标的特征可视化结果
    • 第三行为3D 投影中心监督下,网络输出粗坐标的特征可视化结果
    • 其中GT用circle显示,以区别网络输出的特征图
  • 本文保留了2D检测分支,认为2D 检测可以作为辅助任务,有助于学习更好的 3D 感知特征

Training Samples

这一部分讨论了忽略远距离目标有助于提高3D目标检测的整体性能,为此提出了两个对应的方案:

  • Hard coding:当样本的深度超过给定值,就直接舍弃,不会在训练阶段使用
    w i = { 1  if  d i ≤ s 0  if  d i > s w_i= \begin{cases}1 & \text { if } d_i \leq s \\ 0 & \text { if } d_i>s\end{cases} wi={10 if dis if di>s
  • Soft coding:距离越远,样本的权重值越小, c c c T T T分别为调整对称性和弯曲度中心的超参数,本文中默认为 c = 60 , T = 1 c=60,T=1 c=60,T=1
    w i = 1 1 + e ( d i − c ) / T , w_i=\frac{1}{1+e^{\left(d_i-c\right) / T}}, wi=1+e(dic)/T1,
  • 上图展示了Training Samples的定性分析结果,评价指标为Car类别的 A P 40 AP_{40} AP40
  • 可以看到hard encoding, s=60效果最好
  • 值得注意的是,这些远距离样本占比非常少,在7481张图片的trainval数据集中,超过60和65米的目标仅占比4.5%和2.7%
    代码中对应实现如下lib\datasets\kitti\kitti_dataset.py
object_num = len(objects) if len(objects) < self.max_objs else self.max_objs  
for i in range(object_num):  
	...
    # ignore the samples beyond the threshold [hard encoding]  
    threshold = 65  
    if objects[i].pos[-1] > threshold:  
        continue
    ...
  • 目前我只在代码中找到hard coding,并没有soft coding的处理
  • 关于Training Samples的Issue:https://github.com/xinzhuma/monodle/issues/9

IoU Oriented Optimization

这一部分讨论如果直接使用IoU loss,localization相关的子任务的loss(如depth估计)会压倒其他任务(如3D size预测),但是如果分开用多个loss来优化,又没有把每个组件和最终结果联系起来。本文提出对3D size估计的IoU oriented optimization,即对IoU贡献越大,给予的权重越大:

  • 标准的3D size Loss为: L size  ′ = ∥ s − s ∗ ∥ 1 \mathcal{L}_{\text {size }}^{\prime}=\left\|\mathbf{s}-\mathbf{s}^*\right\|_1 Lsize =ss1
  • 本文将其修改为: L size  = ∥ ( s − s ∗ ) s ∥ 1 \mathcal{L}_{\text {size }}=\left\|\frac{\left(\mathbf{s}-\mathbf{s}^*\right)}{\mathbf{s}}\right\|_1 Lsize = s(ss) 1
  • 可以看到新的损失,幅度发生了变化(相当于进行了归一化)
  • 为了进行补偿,本文首先动态生成补偿权重: w s = ∣ L size  ′ / L size  ∣ w_s=\left|\mathcal{L}_{\text {size }}^{\prime} / \mathcal{L}_{\text {size }}\right| ws=Lsize /Lsize 
  • 然后计算最终的3D size的损失函数: w s ⋅ L size  w_s \cdot \mathcal{L}_{\text {size }} wsLsize ,其均值等于标准3D size损失函数的均值
    代码中对应的实现如下lib\losses\dim_aware_loss.py
def dim_aware_l1_loss(input, target, dimension):  
    dimension = dimension.clone().detach()  
  
    loss = torch.abs(input - target)  
    loss /= dimension  
  
    with torch.no_grad():  
        compensation_weight = F.l1_loss(input, target) / loss.mean()  
    loss *= compensation_weight  
  
    return loss.mean()

Experimental Results

本文提出的三种改进策略的累计提升效果如下所示:

  • 评价指标为Car类别的 A P 40 AP_{40} AP40(BEV/3D)
  • p:表示使用3D 投影中心作为粗中心坐标的监督
  • I:表示使用对3D size估计的IOU oriented optimization
  • s:表示忽略远距离目标

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/116450.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Docker技术原理

一、Docker架构 Docker包括三个基本概念&#xff1a; 镜像&#xff08;Image&#xff09;: Docker 镜像&#xff08;Image&#xff09;&#xff0c;就相当于是一个 root 文件系统。比如官方镜像 ubuntu:16.04 就包含了完整的一套 Ubuntu16.04 最小系统的 root 文件系统。容器…

vue中使用tinymce富文本编辑器

之前都是用的quill富文本&#xff0c;但是因为要实现添加表格的功能&#xff0c;quill没有tinymce强大&#xff0c;所以改用了tinymce。当时也是百度了一堆的教程可是没有记录下来&#xff0c;现在发现有的细节忘记了&#xff0c;所以这个文章可能会有错误 。 当时看了好几个安…

全球智能网联汽车出货量预计

IDC 于 2020 年最新发布的《全球智能网 联汽车预测报告&#xff08;2020-2024&#xff09;》数据显示&#xff0c;尽管受新冠肺炎疫情冲击&#xff0c;2020 年全球智能网联汽车出货量预计较上一年下滑 10.6%&#xff0c;约为 4440 万辆&#xff0c;但到 2024 年全球智能网联汽车…

数据可视化之excel和finebi报表实现对比

当我们拿到数据&#xff0c;想对数据实现可视化报表设计。第一步就是要了解什么是数据可视化分析&#xff0c;且数据可视化分析的方法有什么&#xff1f;而且当我们拿到excel表格的数据&#xff0c;第一个想法是excel表格自身实现报表数据可视化&#xff0c;除了用excel本身实现…

JMeter

Apache JMeter—压力测试工具 一.什么是Apache JMeter Apache JMeter 是 Apache 组织基于 Java 开发的压力测试工具&#xff0c;用于对软件做压力测试。 JMeter 最初被设计用于 Web 应用测试&#xff0c;但后来扩展到了其他测试领域&#xff0c;可用于测试静态和动态资源&am…

Linux-redis 集群配置

1、redis主从复制(Master/Slave) a、集群结构 三个节点&#xff1a;一个主节点&#xff0c;二个从节点 b、准备实例和配置 在虚拟机开启3个redis 实例&#xff0c;来模拟主从集群模式&#xff0c;信息如下&#xff1a; ippost角色192.168.150.1017001master192.168.150.101…

服务器硬件规格常用查看命令——HCA卡相关命令

使用不同厂商的InfiniBand设备&#xff0c;可能需要到不同厂商的官网下载相应的工具包&#xff0c; Matrox的HCA卡操作命令由infiniband-diags-1.6.5.MLNX20150902.0e83419-0.1.x86_64工具 包提供。由于这类工具的功能与厂商有关&#xff0c;且是针对特定设备的&#xff0c;所以…

融云CEO董晗:国产化进程加速,助推政企数智办公平台深化发展

政策催化加疫情助推下&#xff0c;办公线上化迅速完成着市场教育已经成为当前的主流趋势。而随着“国产化”成为各行业数字化发展道路上的关键词&#xff0c;政企办公领域国产替代的发展确定性更加凸显。关注【融云全球互联网通信云】了解更多 近期&#xff0c;融云与艾瑞咨询…

SpringBoot基础篇和运维篇

目录 parent starter 引导类 ​编辑 辅助功能 REST开发 REST简介 入门案例&#xff1a; 1、设置http请求方式​编辑 2、设置请求参数 知识点&#xff1a; 1&#xff0c;RequestMapping 2、PathVariable注解 3、三个有关页面请求参数的注解 4、REST风格的注解简化&…

基于数字孪生技术在水电站的探索应用

数字孪生技术作为一种新的技术趋势&#xff0c;日益被千行百业产业所重视。那么&#xff0c;是否可以使用数字孪生技术来构建一个数字孪生水电站&#xff1f;让传统的水电行业也能把握住最新的数字技术的发展趋势&#xff0c;促进水电事业的发展呢。 基于数字孪生技术在水电站 …

三、解构赋值、函数默认值、数组解构、对象解构

三、解构赋值、函数默认值、数组解构、对象解构 函数传参为undefined/不传值&#xff0c;解构赋值时值为undefined/不传值时&#xff0c;都可以去取自己定义的默认值。 一、函数默认值 1.1 函数默认值 ES5语法函数参数赋默认值 function foo(a, b){var a typeof(argument…

11.Linux文件管理命令---diff比较两个文件

11.Linux文件管理命令—diff比较两个文件 文章目录diff比较两个文件练习案例diff比较两个文件 作用&#xff1a;找出两个文件的不同点。 用法&#xff1a;diff [选项] 源文件 目标文件 主要选项如下。 下面是 GNU 所接受的 diff 所有选项的概要。大多数选项有两个相同的名字&…

单机模拟集群(三主两从)

引言 操作系统环境&#xff1a;Ubuntu 20.04 Redis版本&#xff1a;6.2.8 准备工作 如果已经安装过了&#xff0c;找到自己的安装路径。如果没有安装过&#xff0c;去官网下载 当前最新版本是7.0&#xff0c;我这里用的是6.0&#xff0c;下载 redis-6.2.8.tar.gz&#xff0c…

CAPL学习之路-测试功能集函数(测试报告部分)

测试功能集函数用于测试用例的实现,主要使用场景在test module和test unit模块的capl中 。所以千万不要在网络节点的CAPL脚本中使用,不然会报错。比如TestWaitForTimeout()函数,等待指定的时间 在网络节点的capl脚本中使用时会报错: 在test module节点的capl脚本中使用时正…

SpreadJS集算表联动数据透视表,高效实现前端数据多维分析

在做一些财务、供应链、资产管理等系统时&#xff0c;由于业务人员线下都是采用Excel来完成的&#xff0c;因此就需要将Excel中业务人员使用的功能都能在Web端系统实现&#xff0c;整体上的实现方案有三种&#xff1a; 完全自研一套具备Excel功能的组件&#xff1b;使用成品软…

Linux-tar打包与解压命令

tar命令位于/bin目录下&#xff0c;它能够将用户所指定的文件或目录打包成一个文件&#xff0c;但不做压缩。一般Linux上常用的压缩方式是选用tar将许多文件打包成一个文件&#xff0c;再以gzip压缩命令压缩成xxx.tar.gz(或称为xxx.tgz)的文件。 常用参数&#xff1a; -c&a…

布隆过滤器【美与不美之谈】

什么是布隆过滤器 布隆过滤器其实本质上来讲就是一种巧妙的数据结构&#xff0c;特点就是高效的插入和查询。 它能告诉我们&#xff1a;什么一定不存在&#xff0c;或者什么可能会存在 总结&#xff1a;布隆过滤器是概率性的。它只能告诉我们什么一定不存在&#xff0c;或者…

科技向“实”万物生长,2023年云计算五大技术趋势展望

科技云报道原创。 近日&#xff0c;全球最大的专业技术组织IEEE(电气电子工程师学会)发布了《IEEE全球调研&#xff1a;科技在2023年及未来的影响》。根据相关调研显示&#xff0c;云计算(40%)、5G(38%)、元宇宙(37%)将成为影响2023年最重要的技术&#xff0c;其中云计算位居首…

算法---模拟(2)

目录 一、模拟算法题目 &#xff08;1&#xff09;神奇的幻方 &#xff08;2&#xff09;Proceting the Flower &#xff08;3&#xff09;排座椅 &#xff08;4&#xff09;国王的游戏 &#xff08;5&#xff09;字典序最大的子序列 一、模拟算法题目 &#xff08;1&…

Spring源码下载

一、Spring | Home 二、Projects->Spring Framework 三、点击小猫图片进入Spring Framework的代码仓 四、选择感兴趣的分支