【单目3D目标检测】MonoFlex论文精读与代码解析

news2025/1/13 13:31:21

文章目录

  • Preface
  • Abstract
  • Contributions
  • Pipeline
  • Problem Definition
  • Decoupled Representations of Objects
    • Inside & Outside Objects
    • Edge Fusion
    • Loss
  • Visual Properties Regression
    • 2D Detection
    • Dimension Estimation
    • Orientation Estimation
    • Keypoint Estimation
  • Adaptive Depth Ensemble
    • Depth From Keypoints
    • Uncertainty Guided Ensemble
  • Run Code
  • Reference

Preface

Zhang Y, Lu J, Zhou J. Objects are different: Flexible monocular 3d object detection[C]. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 3289-3298.
Paper
Code

Abstract

现有单目3D目标检测大多忽略了对象之间的差异,对所有对象进行同等和联合处理可能会很难检测到严重截断的对象,并且这些硬样本会增加学习负担,并影响对一般对象的预测,造成检测性能下降。因此,统一的方法可能无法找到每个对象,也无法预测精确的3D位置。为此,作者提出了一种灵活的检测器,它考虑了对象之间的差异,并以自适应方式估计其3D位置
 

Contributions

  • 发现针对截断类(outside object)的目标,从2D到3D映射过程,需要的偏移量的分布与非截断类目标(inside objects)的偏移量分布差别很大,因此要解耦这两类目标,分别进行学习,也就是关注到单目三维目标检测中考虑目标间差异的重要性,提出了截断目标预测的解耦方法
  • 边缘融合模块(Edge Fusion)
  • 几何深度+直接回归(M+1)
  • 提出了一种新的目标深度估计公式,它利用不确定性灵活地组合独立的估计器估计对象深度,而不是对所有对象采用单一方法
     

Pipeline

Nonoflex框架以及检测思想是从CenterNet扩展而来的,CenterNet的核心思想是将目标作为一个点,即目标BBox的中心点,检测器采用关键点估计来找到中心点,并回归到其他目标属性,例如2D边界框、维度、方向、关键点和深度。最终深度估计是回归深度和根据估计的关键点和尺寸计算的深度的不确定性组合:
在这里插入图片描述

  • 首先,CNN主干网络从单张图像中提取特征图作为多个预测头的输入,其中图像级定位涉及热图(Heatmap)和偏移量(Offsets)
  • 之后边缘融合(Edge Fusion)模块用于解耦截断对象的特征学习和预测
  • 同时自适应深度集合采用四种方法进行深度估计,并同时预测其不确定性,从而形成不确定性加权预测
     

Problem Definition

物体的3D检测包括估计其3D位置 ( x , y , z ) (x,y,z) (x,y,z)、尺寸 ( h , w , l ) (h,w,l) (h,w,l)和方向 θ \theta θ。尺寸和方向可以直接从基于外观的线索推断出来,而3D位置则转换为投影的3D中心 x c = ( u c , v c ) x_c=(u_c,v_c) xc=(uc,vc)和对象深度 z z z
x = ( u c − c u ) z f y = ( v c − c v ) z f \begin{aligned} &x=\frac{\left(u_c-c_u\right) z}{f} \\ &y=\frac{\left(v_c-c_v\right) z}{f} \end{aligned} x=f(uccu)zy=f(vccv)z
其中, ( c u , c v ) (c_u,c_v) (cu,cv)为主点(principle point), f f f为焦距(focal length)。3D位置转换为投影中心和对象深度的示意图如下所示:

 

Decoupled Representations of Objects

Inside & Outside Objects

现有的单目3D检测方法对每个对象使用统一表示 x r x_r xr,即2D边界框 x b x_b xb的中心点。计算偏移 δ c = x c − x b \delta_c=x_c−x_b δc=xcxb回归以导出投影的3D中心 x c x_c xc。根据物体的投影3D中心在图像内部还是外部,我们将物体分为两组,内部对象(Inside Objects)和外部对象(Outside Objects)在从2D中心到投影3D中心过程中,呈现完全不同的偏移 δ c \delta_c δc分布:

因此,作者将将内外对象的表示和偏移学习进行解耦:

  • 对于投影的3D中心位于图像内部的对象,它们由 x c x_c xc直接识别,此时的偏移误差如下,其中 S S S为CNN下采样率:
    δ i n = x c S − ⌊ x c S ⌋ \delta_{i n}=\frac{x_c}{S}-\left\lfloor\frac{x_c}{S}\right\rfloor δin=SxcSxc
  • 为了解耦外部对象的表示,作者通过 图像边缘 和 从 x b x_b xb x c x_c xc的之间的交点 x I x_I xI来识别外部对象,交点 x I x_I xI比简单地将 x b x_b xb x c x_c xc夹持到边界更有物理意义:
    δ o u t = x c S − ⌊ x I S ⌋ \delta_{o u t}=\frac{x_c}{S}-\left\lfloor\frac{x_{I}}{S}\right\rfloor δout=SxcSxI

 

Edge Fusion

  • 尽管内部和外部对象的表示在输出特征的内部和边缘区域中解耦,但共享卷积核仍然难以处理空间变量预测。因此,作者提出了一个边缘融合模块来进一步解耦外部对象的特征学习和预测
  • 如下图所示,模块首先提取特征图的四个边界,并将它们按顺时针顺序(图文不一致)连接成边缘特征向量,然后由两个1×1卷积层处理,以学习截断对象的独特特征。最后,将处理后的向量重新映射到四个边界并添加到输入特征图。当应用于热图预测时,边缘特征可以专门预测外部对象的边缘热图,从而不会混淆内部对象的定位。为了回归偏移, δ i n \delta_{in} δin δ o u t \delta_{out} δout之间的显著尺度差异可以通过边缘融合模块解决

 

Loss

作者采用L1 Loss回归 δ i n \delta_{in} δin,Log-Scale L1 Loss回归 δ o u t \delta_{out} δout,因为它对极端异常值更加鲁棒,偏移损失计算为:
L o f f = { ∣ δ i n − δ i n ∗ ∣  if inside  log ⁡ ( 1 + ∣ δ o u t − δ o u t ∗ ∣ ) otherwise L_{o f f}=\left\{\begin{array}{l}\left|\boldsymbol{\delta}_{i n}-\boldsymbol{\delta}_{i n}^*\right|\quad\text { if inside } \\ \log \left(1+\left|\boldsymbol{\delta}_{o u t}-\boldsymbol{\delta}_{o u t}^*\right|\right) \quad \text{otherwise} \end{array}\right. Loff={δinδin if inside log(1+δoutδout)otherwise
其中, δ i n \delta_{in} δin δ o u t \delta_{out} δout表示预测, δ i n ∗ \delta^*_{in} δin δ o u t ∗ \delta^*_{out} δout表示GT

 

Visual Properties Regression

视觉属性的回归,包括对象的2D边界框、尺寸、方向和关键点

2D Detection

作者不将对象表示为2D中心,遵循FCOS将代表点 x r = ( u r , v r ) x_r=(u_r,v_r) xr=(ur,vr)的距离回归到2D边界框的四个侧面,其中代表点 x b x_b xb表示内部对象, x I x_I xI表示外部对象。此外,2D检测采用GIOU损失,因为它对规模变化的鲁棒性
 

Dimension Estimation

考虑到每个类别中对象之间的小方差,本文回归了相对于统计平均值的相对变化而不是绝对值,对于每个类 c c c,训练集的平均维数表示为 ( h c , w c , l c ) (h_c,w_c,l_c) (hc,wc,lc),那么尺寸回归的L1 loss表示为:
L d i m = ∑ k ∈ { h , w , l } ∣ k ˉ c e δ k − k ∗ ∣ L_{d i m}=\sum_{k \in\{h, w, l\}}\left|\bar{k}_c e^{\delta_k}-k^*\right| Ldim=k{h,w,l}kˉceδkk

Orientation Estimation

方向可以表示为相机坐标系中的全局方向或相对于观察方向的局部方向。对于位于 ( x , y , z ) (x,y,z) (x,y,z)的对象,其全局方向 r y r_y ry和局部方向 α \alpha α满足:
r y = α + a r c t a n ( x / z ) r_y=\alpha+arctan(x/z) ry=α+arctan(x/z)

  • 具有相同全局方向但不同视角的对象将具有不同的局部方向和视觉外观。因此,我们选择使用MultiBin损失来估计局部方向,这将方向范围划分为无重叠区域,以便网络可以确定对象位于哪个区域,并估计区域中心的剩余旋转

 

Keypoint Estimation

为每个对象定义 N k = 10 N_k=10 Nk=10个关键点,其中包括3D边界框的8个顶点 k i , i = 1 … 8 {k_i,i=1…8} ki,i=18、底部中心 k 9 k_9 k9和顶部中心 k 10 k_{10} k10的投影:

在后续预测几何深度的时候,会利用到这十个顶点,来计算三类目标的2D高度,再根据投影公式来计算目标的深度
 

Adaptive Depth Ensemble

本文将对象深度的估计表述为 M + 1 个独立估计器的自适应集成,包括来自关键点的直接回归和 M 个几何深度

Depth From Keypoints

利用目标的2D高度和3D高度之间的相对比例来计算目标深度(即投影公式: z l = f × H h l z_l=\frac{f \times H}{h_l} zl=hlf×H),从高度求解深度不仅与orientation估计无关,而且受dimension估计误差的影响较小(预测时直接回归10个关键点,而计算targets中的10个关键点时则是需要利用labels中的目标三维坐标、偏航角以及长高宽):

Uncertainty Guided Ensemble

利用M+1个深度估计值和不确定性,进行加权求解平均值:
z s o f t = ( ∑ i = 1 M + 1 z i σ i ) / ( ∑ i = 1 M + 1 1 σ i ) z_{s o f t}=\left(\sum_{i=1}^{M+1} \frac{z_i}{\sigma_i}\right) /\left(\sum_{i=1}^{M+1} \frac{1}{\sigma_i}\right) zsoft=(i=1M+1σizi)/(i=1M+1σi1)
soft ensemble可以为那些更自信的估计器分配更多的权重,同时对潜在的不准确不确定性具有鲁棒性

 

Run Code

1、创建环境

# 创建conda虚拟环境:python==3.7, pytorch==1.4.0 and cuda==10.1
conda create -n monoflex python=3.7 -y
conda activate monoflex
pip install torch==1.4.0 torchvision==0.5.0

# clone代码
git clone https://github.com/zhangyp15/MonoFlex
cd monoflex
# 安装库文件
pip install -r requirements.txt

# Build DCNv2 and the project
cd model/backbone/DCNv2
. make.sh
cd ../../..
python setup.py build develop

2、准备数据集并修改路径

数据集下载及配置同SMOKE中的步骤。下载完成后,打开/monoflex/config/paths_catalog.py文件,修改数据集路径:

class DatasetCatalog():
    DATA_DIR = "/your_datasets_root/"
    DATASETS = {
        "kitti_train": {
            "root": "kitti/training/",
        },
        "kitti_test": {
            "root": "kitti/testing/",
        },

    }

3、修改训练及测试参数
打开/home/rrl/det3d/monoflex/runs/monoflex.yaml文件,按照需要进行修改:

SOLVER:
  OPTIMIZER: 'adamw'
  BASE_LR: 3e-4
  WEIGHT_DECAY: 1e-5
  LR_WARMUP: False
  WARMUP_STEPS: 2000

  # for 1 GPU
  LR_DECAY: 0.1
  # 使用epoch作为训练的次数,而不是iterations
  EVAL_AND_SAVE_EPOCH: True
  EVAL_EPOCH_INTERVAL: 1
  SAVE_CHECKPOINT_EPOCH_INTERVAL: 2
  # 训练epoch数
  MAX_EPOCHS: 100
  DECAY_EPOCH_STEPS: [80, 90]
  # batchsize大小
  IMS_PER_BATCH: 8
  EVAL_INTERVAL: 1000

TEST:
  UNCERTAINTY_AS_CONFIDENCE: True
  # 检测阈值越大,检测出来的框越少
  DETECTIONS_THRESHOLD: 0.9
  METRIC: ['R40']
# 保存路径
OUTPUT_DIR: "./output/exp1"

4、开始训练

  • 单GPU训练
CUDA_VISIBLE_DEVICES=0 python tools/plain_train_net.py --batch_size 8 --config runs/monoflex.yaml --output output/exp
  • 第一次训练,会自动下载预训练权重dla34-ba72cf86.pth,因为要翻墙,所以下载很慢,大家可以从这里直接下载到本地,然后上传到/root/.cache/torch/checkpoints/dla34-ba72cf86.pth即可

5、测试及可视化

CUDA_VISIBLE_DEVICES=0 python tools/plain_train_net.py --config runs/monoflex.yaml --ckpt YOUR_CKPT  --eval --vis

可视化结果如下:
在这里插入图片描述

6、保存可视化图像(可选)
为了实时保存可视化图像,对源代码进行以下修改:

  • 打开/monoflex/engine/inference.py文件,在inference函数中调用compute_on_dataset函数的地方,添加新的传参output_dir = output_folder,也就是把保存路径传给之后的可视化函数,目的是将可视化结果保存在我们指定的目录下:

在这里插入图片描述

  • 打开/monoflex/engine/inference.py文件,在compute_on_dataset函数中添加新的传参output_dir = None,并且设置新的子文件夹save_jpg,将作为参数其传递给
    show_image_with_boxes函数:

在这里插入图片描述

  • 打开/monoflex/engine/visualize_infer.py文件,在show_image_with_boxes函数中添加新的传参save_dir = None

在这里插入图片描述

  • 最后,在show_image_with_boxes函数的最后,添加保存图像的代码,这里既保存plt.fifure()合成的完整图像(包括热力图、检测结果图和BEV视角正确和错误的推理图),又保存检测结果图(即img3):

在这里插入图片描述
最终可视化过程中,实时保存图像的目录如下所示:

Reference

【单目3D检测】Monoflex论文阅读

文献阅读:(CVPR2021)Objects are Different: Flexible Monocular 3D Object Detection

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/74722.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Docker网络模式与配置

目录 🎈🎈1. Docker网络模式🏃‍♂️🏃‍♂️ 🏃‍♂️🏃‍♂️2. 外部访问docker容器🏃‍♂️🏃‍♂️ 🎈🎈3. 创建自定义网络:(设…

尚医通 (三十一) --------- 手机登录

目录一、登录需求1. 登录效果2. 登录需求二、登录1. 搭建 service-user 模块2. 添加用户基础类3. 登录 API 接口4. 生成 token5. 阿里云短信6. 登录前端7. 登录全局事件8. myheader.vue 完整代码三、用户认证与网关整合一、登录需求 1. 登录效果 2. 登录需求 ① 登录采取弹出…

Python爬虫实战,requests+time模块,爬取某招聘网站数据并保存csv文件(附源码)

前言 今天给大家介绍的是Python爬取某招聘网站数据并保存本地,在这里给需要的小伙伴们代码,并且给出一点小心得。 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样的纯文 本数据爬取的人会…

ImmunoChemistry丨艾美捷抗体夹心ELISA开发试剂盒说明书

使用ImmunoChemistry艾美捷抗体夹心ELISA开发试剂盒评估检测可行性并优化ELISA性能参数。抗体夹心ELISA开发试剂盒提供了八种特殊配制的ELISA溶液和一个模板,用于抗体夹心ELISA测试的初始开发和优化。全面的ELISA开发手册提供了评估初始检测可行性和优化ELISA性能参…

关于 npm run buildprod 报错问题 :文件名、目录名或卷标语法不正确

引言 vue开发基本完成后进行打包时出现错误,这个错误以前没有遇到过,所以在这里激励 参考文章1 参考文章2 问题描述 在idea中运行npm run build:prod打包vue时出现报错 E:\Allworkspaces\idea-workspace\Project\vue-project\my-blog\vue-admin-te…

代码随想录第三天

专题:链表 题目:移除链表元素 题意:删除链表中等于给定值 val 的所有节点。 示例 : 输入:head [1,2,6,3,4,5,6], val 6 输出:[1,2,3,4,5] 解题思想: 我们为了统一操作,我们给链表…

身份证实名认证API接口有什么意义与作用?

身份证实名认证API接口有什么意义? 中国公民的身份证是一种对外证明自己身份的有效证件,随着国家对实名制要求的落实,工作与生活中许多场景都会需要进行身份验证。比如出门外出乘座火车与飞机时、注册互联网络平台时、网络游戏与购物时等等&a…

微信小程序怎么注册?【微信小程序制作】

即使在目前小程序盛行的时代,仍然有很多人在问微信小程序怎么注册、微信小程序怎么做的问题,也证明了我们对于微信小程序的需求依然巨大。那么微信小程序怎么注册呢?下面给大家简单介绍。 步骤1:注册小程序账号 我们在微信公众平…

启封化工行业管理方案—危化品的管理(1)

联合国危险品编码管理 什么是危化品? 危化品是指可能伤害人、其他生物体、财产或环境的固体、液体或气体。这些危险品在运输时始终受到规章制度的约束。运输这些危险品的团队是训练有素的专业人员。使用标签时,存储标签的容器或存储位置通常用菱形标牌标…

2022年疫情下的卡塔尔世界杯,你看了么,盘点一下爆冷的赛事

卡塔尔世界杯卡塔尔世界杯世界杯出现的爆冷比赛沙特阿拉伯 VS 阿根廷(1:2)德国 VS 日本 (1:2)比利时 VS 摩洛哥 (0:2)摩洛哥VS 加拿大 (2:1)日本 VS 西班牙 (2:1)摩洛哥 VS 西班牙(3:0)总结卡塔尔世界杯 卡塔尔世界杯有32个国家参…

数据结构与算法(Java版) | 几个经典的算法面试题(下)

上一讲,我给大家介绍了两个经典算法面试题,即字符串匹配问题和汉诺塔游戏,这一讲,我再来给大家介绍两个经典算法面试题,它们就是八皇后问题和马踏棋盘算法,注意,马踏棋盘算法也被称为骑士周游问…

springsecurity--Config层代码常用代码指令

前提搭建 使我们的类继承于WebSecurityConfigurerAdapter这个类 同时调用service还有新建一个bean方法 Bean public PasswordEncoder getPassword() {return new BCryptPasswordEncoder(); } 这个代码是可以自定义账户和密码 自定义登录账户和密码写在service类中 下方的红框…

SSM框架-SSM整合

目录 1 ContextLoaderListener 2 准备工作 3 配置web.xml 4 配置springmvc.xml 5 配置spring.xml 6 Spring整合MyBatis 7 配置log4j.xml 8 配置事务 9 测试功能 9.1 创建pojo类 9.2 员工列表功能 9.3 分页数据 9.4 分页相关超链接 1 ContextLoaderListener Spring提…

安卓玩机搞机技巧综合资源-----卸载内置软件 获取root权限 刷写第三方ROM【六】

接上篇 安卓玩机搞机技巧综合资源------如何提取手机分区 小米机型代码分享等等 【一】 安卓玩机搞机技巧综合资源------开机英文提示解决dm-verity corruption your device is corrupt. 设备内部报错 AB分区等等【二】 安卓玩机搞机技巧综合资源------EROFS分区格式 小米红…

985、211毕业一年,面试八家大厂,四面拿美团offer(Java后端)

自我介绍 本人三年开发,985硕士,211本科,专业都是软件工程,一直投的是Java后台开发,只投过一次网易的测试,技术不是太牛,但是比较努力。实验室没有项目,so项目经验是0,在…

openssl自动批量生成证书

使用bash批处理程序自动生成证书信息。 1、在linux系统创建一个文件夹 $ mkdir my_cert 2、创建CA证书以及私钥 $ cd my_cert $ openssl genrsa -out CA_Private.key 2048 $ openssl req -x509 -new -nodes -key CA_Private.key -sha256 -days 365 -out CA_Certificate.p…

Node.js 动画:事件循环

我们都听说过 JavaScript 和 Node.js 是单线程的,但实际上这意味着什么? 这意味着 JavaScript 一次只能做一件事。例如,我们不能同时对数字进行乘法和求和。我们通常按顺序进行操作。我们先加然后乘,反之亦然。现代计算机速度很快…

常见的卷积神经网络模型,卷积神经网络数学建模

1、卷积神经网络cnn究竟是怎样一步一步工作的 用一个卷积核滑动图片来提取某种特征(比如某个方向的边),然后激活函数用ReLU来压制梯度弥散。对得到的结果用另一个卷积核继续提取reLU,然后池化(保留区域最大或者用区域…

【linux】centos7 普通用户授予 root 权限

目录前言sudo介绍sudo的使用前提 --- 配置文件/etc/sudoers结语前言 最近通知 linux 期末考试啦!要上机实操并且要求不能使用 root 用户,因此有些操作需要涉及到权限问题,我们都知道在命令前加sudo就行了,但sudo的使用也是有前提…

Spring 创建和使用 · 存储 bean 对象 · 获取并使用 bean 对象 · 关于配置文件 id 的注意事项 · getBean 方法的更多用法

Spring 是一个包含了众多工具方法的 IoC 容器。 容器的最基本的功能:把对象存储到容器(Spring)中;从容器中将对象取出来。 在 Java 中对象也叫做 Bean,以后我们遇到对象就以 Bean 著称。 一、创建 Spring 项目1.1 创建…