论文精读《OFT: Orthographic Feature Transform for Monocular 3D Object Detection》

news2025/1/10 23:57:31

OFT: Orthographic Feature Transform for Monocular 3D Object Detection

文章目录

  • OFT: Orthographic Feature Transform for Monocular 3D Object Detection
  • 论文精读
    • 摘要(Abstract)
    • 1. 介绍(Introduction)
    • 2. 相关工作(Related Work)
    • 3. 3D目标检测架构(3D Object Detection Architecture)
      • 3.1 特征提取(Feature extraction)
      • 3.2 正交特征变换(Orthographic feature transform)
      • 3.3 自上而下的网络(Topdown network)
      • 3.4 置信度预测(Confidence map prediction)
      • 3.5 位置和检测框的预测(Localization and bounding box estimation)
      • 3.5 非极大值抑制(Nonmaximum suppression)
  • 参考

论文精读

摘要(Abstract)

研究现状

从单目图像中进行3D目标检测已被证明是一项极具挑战性的任务,其系统性能甚至还达不到基于雷达对应系统性能的10%。对这种性能差距的一种解释是,现有的系统完全处于由于基于透视图像的表示,物体的外观和规模随着深度和距离的变化而急剧变化,因此很难推断。

本文工作:OFT

在这项工作中,我们认为推理三维世界的能力是三维物体检测任务的一个基本元素。为此,我们引入正交法特征变换(orthographic feature transform),它使我们能够通过将基于图像的特征映射到正交3D空间,实现了对图像域的转义。这让我们能够在尺度一致且物体之间的距离有意义的领域中全面地推理场景的空间配置。我们将这种转换应用于端到端深度学习架构,并在KITTI 3D对象基准测试上实现了最先进的性能。

1. 介绍(Introduction)

任何自治代理的成功都取决于它在周围环境中检测和定位对象的能力。预测、回避和路径规划都依赖于对场景中其他实体的3D位置和尺寸的稳健估计。这使得三维边界盒检测成为计算机视觉和机器人技术的一个重要问题,特别是在自动驾驶的背景下。迄今为止,三维目标检测的文献主要是利用丰富的激光雷达点云的方法,而纯图像方法由于缺乏激光雷达的绝对深度信息,其性能明显落后。

考虑到现有激光雷达设备的高成本,激光雷达点云在远距离的稀疏性,以及传感器冗余的需求,从单眼图像中精确地检测三维目标仍然是一个重要的研究目标。为此,我们提出了一种新颖的3D目标检测算法,该算法以单眼RGB图像作为输入,生成高质量的3D检测框,在具有挑战性的KITTI基准测试中实现了单目方法中最先进的性能。

在很多意义上,图像是一种极具挑战性的方式。透视投影意味着一个物体的尺度随着距离相机的远近变化很大;它的外观可以根据视点的不同而发生巨大的变化;3D世界中的距离无法直接推断。这些因素给单眼三维目标检测系统带来了巨大的挑战。

一种更为无害的表示是许多基于雷达的方法中普遍使用的正交法鸟瞰图。在这种表示下,尺度是同质的;外观在很大程度上与视角无关;物体之间的距离是有意义的。因此,我们的关键见解是,尽可能多的推理应该在这个正交法空间中执行,而不是直接在基于像素的图像域上执行。这一见解被证明对我们所提议的系统的成功至关重要。

然而,目前还不清楚如何仅从单眼图像构建这样的表示。因此,我们引入正交特征变换(OFT):一个可微函数,将从透视RGB图像中提取的一组特征映射到正交鸟瞰特征图的一种变换。关键是,我们不依赖任何明确的深度概念:相反,我们的系统建立了一个内部表示,能够确定图像中的哪些特征与鸟瞰视图中的每个位置相关。我们应用了一种深度卷积神经网络,即自顶向下网络,来对场景的三维构型进行局部推理。

我们工作的主要贡献如下:

  1. 引入基于透视图像的特征映射为鸟瞰图视角的正交特征变换,并使用积分图像对平均池化进行高效处理。
  2. 构建了DL结构用于预测单目RGB图像目标的3D框;
  3. 强调3D推理在目标检测任务中的重要性;

2. 相关工作(Related Work)

2D object detection

主要可分为 single stage detectors:YOLO、SSD、RetinaNet等;two-stage detectors:Faster R-CNN、 FPN 等;到目前为止,绝大多数的3D目标检测方法都采用了后一种方法,部分原因是三维空间中固定大小区域到图像空间中可变大小区域的映射比较困难。作者通过OFT转换克服了这一限制,允许我们利用one-stage结构的速度和精度优势。

3D object detection from LiDAR

3D目标检测对自动驾驶具有重要意义,已经有很多基于LiDAR的方法都取得了较大成功。大多数变化来自激光雷达点云的编码方式。

3D object detection from images

由于缺乏绝对深度信息,从图像中获取3D边界框是个具有挑战性的问题。许多方法都是从使用上述标准的检测器中提取的2D框开始,在此基础上,它们要么直接对每个区域回归出3D姿态参数,要么将3D模板匹配到图像**;**以上所有工作的一个主要限制是,每个区域的proposal或者bbox都是独立处理的,排除了任何关于场景3D配置的联合推理。我们的方法类似于的特征聚合步骤,但是对生成的proposal应用了一个二级卷积网络,同时保留了它们的空间配置。

Integral images

自从Viola和Jones开创性的工作中引入积分图像以来,积分图像(Integral image)就从根本上与目标检测相关联。它们在包括AVOD,MV3D,Mono3D,3DOP在内的许多现代3D目标检测方法中形成了重要的组成部分

3. 3D目标检测架构(3D Object Detection Architecture)

提出了一种通过投影提取正交特征的方式:将卷积网络对图像卷积得到的特征,经过3D到2D的投影和平均池化的操作取到3D鸟瞰图上,从而构成3D鸟瞰图的特征图。即可在该特征图上回归各种3D目标属性。

本节作者描述了单目图像中提取3D边界框的完整方法。算法主要由5个部分构成:

  1. 前端由Font-end ResNet 特征提取器来提取输入图像的多尺度特征图;
  2. orthographic feature transform 将每个尺度上基于图像的特征转换为鸟瞰图的正交表述法;
  3. 一种由一系列ResNet残差单元组成的A topdown network,它以不受图像中观察到的透视效果影响的方式来处理鸟瞰视角的特征图;
  4. 一组output heads,分别生成每个对象类和每个类别在地平面的位置,置信度得分,位置偏移量,尺度偏移量和方向向量;
  5. non-maximum suppressiondecoding stage,该阶段识别出峰值,并生成离散边界框预测;

在这里插入图片描述

算法的整体架构图

3.1 特征提取(Feature extraction)

利用Resnet生成多级多尺度特征图,这些特征编码了图像中低层结构的信息,这些信息构成了自上而下网络的基本组件,以构建场景的隐式3D表示。前端网络还负责根据图像特征的大小推断深度信息,因为后续阶段的结构目标是消除尺度的变化。

3.2 正交特征变换(Orthographic feature transform)

Orthographic Feature Transform (OFT) 的目的是用来将基于图像的特征 f ( u , v ) f(u,v) f(u,v) 填充到基于体素的三维特征中。

在这里插入图片描述

(1) Image Feature→Voxel Feature

体素特征图是一个均匀分割的3D网格立方体(立方体大小是 W × H × D W\times H\times D W×H×D, 网格大小是 r r r),与地面保持恒定的距离 y 0 y_0 y0

对于每个voxel投影到Image上是一个六边形,把这个六边形近似成一个长方形(长方形的左上角和右下角的点坐标分别是 ( u 1 , v 1 ) (u_1,v_1) (u1,v1) ( u 2 , v 2 ) (u_2,v_2) (u2,v2)

Image feature 和 Voxel Feature 的位置转换关系如下:

u 1 = f x − 0.5 r z + 0.5 x ∣ x ∣ r + c u , v 1 = f y − 0.5 r z + 0.5 y ∣ y ∣ r + c v u 2 = f x + 0.5 r z − 0.5 x ∣ x ∣ r + c u , v 2 = f y + 0.5 r z − 0.5 y ∣ y ∣ r + c v \begin{array}{ll}u_1=f \frac{x-0.5 r}{z+0.5 \frac{x}{|x|} r}+c_u, & v_1=f \frac{y-0.5 r}{z+0.5 \frac{y}{|y|} r}+c_v \\u_2=f \frac{x+0.5 r}{z-0.5 \frac{x}{|x|} r}+c_u, & v_2=f \frac{y+0.5 r}{z-0.5 \frac{y}{|y|} r}+c_v\end{array} u1=fz+0.5xxrx0.5r+cu,u2=fz0.5xxrx+0.5r+cu,v1=fz+0.5yyry0.5r+cvv2=fz0.5yyry+0.5r+cv

其中 f f f 是相机焦距, ( c u , c v ) (c_u,c_v) (cu,cv) 是基准点。

Voxel Feature 中Voxel特征是通过对Image Feature 中的对应的区域进行平均池化得到的。

(2) Voxel Feature → Orthographic Feature

将3D的Voxel Feature 折叠到 2D 的 Orthographic Feature 上。

沿着垂直方向,对带权的体素特征进行求和。其中这个权重 W ( y ) ∈ R n × n W(y) \in \mathbb{R}^{n \times n} W(y)Rn×n 是通过学习得到的。

h ( x , z ) = ∑ y = y 0 y 0 + H W ( y ) g ( x , y , z ) \begin{aligned} & \\ &\qquad \mathbf{h}(x, z)=\sum_{y=y_0}^{y_0+H} W(y) \mathbf{g}(x, y, z) \end{aligned} h(x,z)=y=y0y0+HW(y)g(x,y,z)

3.3 自上而下的网络(Topdown network)

3D推理组件由一个子网络构成,称之为自上而下网络。这是一个简单的卷积网络,使用ResNet风格的skip连接,它在之前描述的OFT阶段生成的2D特征图 h 上运行。距离相机较远和较近的特征图得到完全相同的处理,尽管对应的图像区域要小得多。

3.4 置信度预测(Confidence map prediction)

置信度图S(x,z)是个平滑函数,它表示在(x,y0,z)位置是否存在以该位置为中心带边界框的目标存在可能性。其中y0 表示在相机下方距离地面的距离。给定N个真实目标的真实边界框中心 p i = [ x i , y i , z i ] T , i = 1 , … , N p_i=\left[x_i, y_i, z_i\right]^T, \mathrm{i}=1, \ldots, \mathrm{N} pi=[xi,yi,zi]T,i=1,,N
我们计算GT置信度图为一个平滑的高斯区域,其以目标中心为中心,宽度为
,在位置(x,z)置信度公式为:

S ( x , z ) = max ⁡ i exp ⁡ ( − ( x i − x ) 2 + ( z i − z ) 2 2 σ 2 ) S(x, z)=\max _i \exp \left(-\frac{\left(x_i-x\right)^2+\left(z_i-z\right)^2}{2 \sigma^2}\right) S(x,z)=imaxexp(2σ2(xix)2+(ziz)2)

网络置信度图预测分支头使用 L1 loss来训练的,回归到正交网格 H上每个位置的GT 置信度上。由于正样本(高置信度的位置)要远远少于负样本,为了克服该问题,作者引入常量因子0.01 ,将其乘以负样本位置(S(x,z)得分<0.05的位置)这样减少大量负样本的影响

3.5 位置和检测框的预测(Localization and bounding box estimation)

在对应的目标pi 的中心追加了一个额外的网络输出,输出头可以预测距离地面网格单元位置
( x , y 0 , z )  的相对偏移  Δ  pos  \begin{gathered} \left(x, y_0, z\right) \text { 的相对偏移 } \\ \Delta \text { pos } \end{gathered} (x,y0,z) 的相对偏移 Δ pos 
是尺寸输出,预测目标 i i i 的尺寸
d i = [ w i , h i , l i ]  和给定类别所有目标的平均尺寸  d ˉ = [ w ˉ , h ˉ , l ˉ ]  之间的对数尺度偏移  Δ dim ⁡ : Δ dim ⁡ ( x , z ) = [ log ⁡ w i w ˉ , log ⁡ h i h ˉ , log ⁡ l i l ˉ ] T \begin{gathered} d_i=\left[w_i, h_i, l_i\right] \text { 和给定类别所有目标的平均尺寸 } \\ \bar{d}=[\bar{w}, \bar{h}, \bar{l}] \text { 之间的对数尺度偏移 } \\ \Delta \operatorname{dim}: \\ \Delta \operatorname{dim}(x, z)=\left[\log \frac{w_i}{\bar{w}}, \log \frac{h_i}{\bar{h}}, \log \frac{l_i}{\bar{l}}\right]^T \end{gathered} di=[wi,hi,li] 和给定类别所有目标的平均尺寸 dˉ=[wˉ,hˉ,lˉ] 之间的对数尺度偏移 Δdim:Δdim(x,z)=[logwˉwi,loghˉhi,loglˉli]T
方向输出分支头,预测目标绕y轴的方向角
θ i \theta_i θi 的sine和cosine值:
Δang ⁡ ( x , z ) = [ sin ⁡ θ i , cos ⁡ θ i ] T \operatorname{\Delta ang}(x, z)=\left[\sin \theta_i, \cos \theta_i\right]^T Δang(x,z)=[sinθi,cosθi]T
位置偏移
Δ  pos,尺寸偏移  Δ d i m  ,方向向量  \begin{aligned} &\Delta \text { pos,尺寸偏移 } \\ &\Delta d i m \text { ,方向向量 } \end{aligned} Δ pos,尺寸偏移 Δdim ,方向向量 
Δ a n g 都是 L1 lossi川练的。  \Delta a n g_{\text {都是 L1 lossi川练的。 }} Δang都是 L1 lossi川练的。 

3.5 非极大值抑制(Nonmaximum suppression)

首先用高斯核 (其宽度为 σ N M S \sigma_{N M S} σNMS ) 来平滑置信度图。在平滑后的置信度图上位置 ( x i , z i ) 的值  \left(x_i, z_i\right)_{\text {的值 }} (xi,zi)的值 
S ~ \tilde{S} S~ 被认为是最大的,如果它满足下式:
S ~ ( x i , z i ) ≥ S ~ ( x i + m , z i + n ) ∀ m , n ∈ − 1 , 0 , 1 \begin{gathered} \tilde{S}\left(x_i, z_i\right) \geq \tilde{S}\left(x_i+m, z_i+n\right) \\ \forall m, n \in-1,0,1 \end{gathered} S~(xi,zi)S~(xi+m,zi+n)m,n1,0,1
在产生的峰值位置中,任何小于给定阈值 t \mathrm{t} t 的置信度
S ( x i , y i ) 都将被排除。  S\left(x_i, y_i\right)_{\text {都将被排除。 }} S(xi,yi)都将被排除。 

参考

Orthographic Feature Transform for Monocular 3D Object Detection

https://github.com/tom-roddick/oft

OFT论文解读_思绪零乱成海的博客-CSDN博客

【论文翻译】Orthographic Feature Transform for Monocular 3D Object Detection_ciky奇的博客-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/13796.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

给开源项目做一个漂亮简洁的版本迭代更新图,生成固定链接复制到介绍中、公众号菜单链接中、博客中等

背景 开源项目的版本迭代与更新经常需要更新迭代文档&#xff0c;但是readme.md没有比较美观一点的效果&#xff0c;所以文本分享一种第三方的方式&#xff1a;用TexSpire的免费在线文档分享功能&#xff0c;手机、PC、Pad都可以适配。 效果预览 使用 第一步&#xff1a;创…

浅谈 async/await 和生成器

浅谈 async/await async/await 是ES8规范新增的&#xff0c;使得以同步方式写的代码异步运行不再是白日梦&#xff0c;进一步让代码逻辑更加清晰。 为什么新增 async/await 下面有这样一个需求&#xff1a;有两个请求&#xff0c;请求 1 的结果是请求 2 的参数&#xff0c;所…

机器学习6——EM算法与高斯混合模型GMM

前置内容 Jensen不等式 高斯混合模型 多元高斯模型 拉格朗日乘子法 主要内容 EM算法&#xff08;Expectation-Maximization&#xff09;&#xff0c;期望-最大化。 用于保证收敛到MLE&#xff08;最大似然估计&#xff09;。主要用于求解包含隐变量的混合模型&#xff0c;主要…

R生成三线表

R生成三线表table1包测试数据生成制作三线表Tableone包加载包 探索数据类型数据整理分类构建Table函数Tableone函数细节主要基于table1 或tableone 包table1包 测试数据生成 datadata.frame(性别sample(c("男","女"), 1000,replaceT),年龄round(rnorm(10…

2021年认证杯SPSSPRO杯数学建模A题(第一阶段)医学图像的配准全过程文档及程序

2021年认证杯SPSSPRO杯数学建模 A题 医学图像的配准 原题再现&#xff1a; 图像的配准是图像处理领域中的一个典型问题和技术难点&#xff0c;其目的在于比较或融合同一对象在不同条件下获取的图像。例如为了更好地综合多种信息来辨识不同组织或病变&#xff0c;医生可能使用…

5年自动化测试,终于进字节跳动了,年薪30w其实也并非触不可及

一些碎碎念 什么都做了&#xff0c;和什么都没做其实是一样的&#xff0c;走出“瞎忙活”的安乐窝&#xff0c;才是避开弯路的最佳路径。希望我的经历能帮助到有需要的朋友。 在测试行业已经混了5个年头了&#xff0c;以前经常听到开发对我说&#xff0c;天天的点点点有意思没…

java计算机毕业设计springboot+vue+elementUI永加乡精准扶贫信息管理系统

项目介绍 系统设计的主要意义在于&#xff0c;一方面&#xff0c;对于网站来讲&#xff0c;系统上线后可以带来很大的便利性&#xff0c;精准扶贫网站管理属于非常细致的管理模式&#xff0c;要求数据量大&#xff0c;计算机管理可以提高精确性&#xff0c;更为便利的就是信息…

NF-κB 信号通路调节细胞因子转录

NF-κB 大家族哺乳动物 NF-κB 家族由五种成员组成&#xff1a;RelA/p65、c-Rel、RelB、p50 (NF-κB1) 和 p52 (NF-κB2)&#xff0c;它们可以形成各种异源二聚体或者同源二聚体 (如常见 p50/RelA 异源二聚体)&#xff0c;并通过与启动子的 κB 位点结合来激活大量基因。所有 N…

Mysql常用函数

Mysql常用函数 字段拼接(concat) CONCAT() 函数用于将多个字符串连接成一个字符串 格式&#xff1a; select CONCAT(str1,str2,…) from table_name; #查询商品表&#xff0c;返回一列&#xff1a;商品名称&#xff08;价格&#xff09;。 SELECT concat(prod_name,(,prod…

【论文阅读】Weakly Supervised Semantic Segmentation using Out-of-Distribution Data

一篇弱监督分割领域的论文&#xff0c;发表在CVPR2022上&#xff1a; 论文标题&#xff1a; Weakly Supervised Semantic Segmentation using Out-of-Distribution Data 作者信息&#xff1a; 代码地址&#xff1a; https://github.com/naver-ai/w-ood Abstract 作者认为…

专精特新小巨人的申报条件

专精特新企业分为市级专精特新、省级专精特新和国家级专精特新。 在2018年&#xff0c;开展了国家第一批专精特新“小巨人” 企业申报工作。为了引导中小企业积极走“专精特新”发展之路&#xff0c;加快新旧动能转 换步伐&#xff0c;提升自主创新能力、加快转型升级&#xf…

软考的网络工程师对就业有用吗?

考证只是一个结果&#xff0c;学会技能才是最重要的。 视工作而言&#xff0c;软考中级网络工程师的性价比还是非常高的&#xff0c;对于从事同类的技术人员&#xff0c;基础扎实一般可以裸考通过。 含金量嘛&#xff0c;计算机专业可以以考代凭&#xff0c;毕竟证书是人社部和…

安装谷歌服务框架2022最新版本22.45.15失败

在这里(谷歌play服务框架下载安装安卓版-谷歌服务框架2022最新版本(Google Play 服务)下载22.45.15官方手机版-蜻蜓手游网 (qt6.com)http://www.qt6.com/XiaZai/155507.html)下载了谷歌服务框架(Google Play 服务)&#xff0c;其应用信息为&#xff1a; 包名&#xff1a;com.g…

Mutated 源代码解析 client (一)

Mutated , a C project https://github.com/scslab/mutated usage Main function in the client directory, mutated_synthetic.cc Line 14 parse the user arguments, such as “-h, -w, -c” parse_synthetic is implemented in client\opts_synthetic.cc Here, use th…

Dive into TensorFlow系列(3)- 揭开Tensor的神秘面纱

TensorFlow计算图是由op和tensor组成&#xff0c;那么tensor一般都用来代表什么呢&#xff1f;显然&#xff0c;像模型的输入数据、网络权重、输入数据经op处理后的输出结果都需要用张量或特殊张量进行表达。既然tensor在TensorFlow体系架构中如此重要&#xff0c;因此本文将带…

Redis通用命令和key的层级结构

目录 1 Redis数据结构介绍 2 Redis 通用命令 3 Redis命令-Key的层级结构 1 Redis数据结构介绍 Redis是一个key-value的数据库&#xff0c;key一般是String类型&#xff0c;不过value的类型多种多样&#xff1a; value的数据类型共有8种&#xff0c;前面5中为基本数据类型&a…

5000立方米球罐设计

目 录 摘 要 I Abstract II 1 文献综述 1 1.1 课题研究的工程背景及理论、实际意义 1 1.2 球罐用钢 1 1.2.1 球罐用钢基本要求分析 1 1.2.2 国内外球罐的常用钢种 2 1.2.3 几种典型球罐用钢的优劣对比 2 1.3 球罐设计 3 1.3.1 球罐设计的执行标准及法规 3 1.3.2 球壳结构 4 1.3…

通过PLC网关如何实现三菱FX3U的远程上下载程序?

FX3U是三菱推出的高性能PLC品牌。基本性能大幅提升&#xff0c;晶体管输出型的基本单元内置了3轴独立最高100kHz的定位功能&#xff0c;并且增加了新的定位指令&#xff0c;从而使得定位控制功能更加强大&#xff0c;使用更为方便&#xff0c;受到企业的青睐。因此&#xff0c;…

PyQt5 QLabel标签

PyQt5 QLabel标签标签显示标签快捷键功能标签显示 QLabel背景色设置&#xff1a; palette QPalette() # 创建调色板 palette.setColor(QPalette.Window, Qt.green) # 设置调色板属性 label.setPalette(palette) # 标签设置Palette label.setAutoFillBackground(True) # 设为T…

【安全测试学习】数据库基础

以上来自学习极客时间《Web 安全攻防实战》课程内容&#xff0c;汇总整理思维导图。