论文速读系列二:YOLO3D、PIXOR、HDNET、Voxel-FPN、Fast Point RCNN

news2025/4/18 8:36:16

如有错误,恳请指出。


参考网上资料,对一些经典论文进行快速思路整理

文章目录

  • 1. YOLO3D
  • 2. PIXOR
  • 3. HDNET(PIXOR++)
  • 4. Voxel-FPN
  • 5. Fast Point RCNN

1. YOLO3D

paper:《YOLO3D: End-to-end real-time 3D OrientedObject Bounding Box Detection from LiDARPoint Cloud》

思路:
1)将点云进行网格化投影到bev视图上,构建最大高度特征图与密度特征图(参考MV3D),所有原始特征channels=2
2)与2d检测(yolov5)使用聚类设计先验框的尺寸不同,yolo3d这里使用每个类别标注框的平均值作为3d先验框的尺寸
3)使用步骤1构建的特征图输入到yolov2的网络结构中,比如原始特征图为608x608x2,这里输出的特征图为38x38x3x11进行anchor-based的feature map训练。这里解释一下,38x38表示特征图尺寸,3表示kitti数据集的3个类别也就是3中anchor尺寸,11表示一个3d框的xyzhwlθ信息+3个类别概率+1个置信度预测

总结:
yolo3d的思想非常简单,结构和特征提取方面也没有啥改进,只是相较于3d多了高度信息z、高度尺寸h、以及方向θ的预测。损失计算上,回归全部统一采用均方误差(mean squared error)
在这里插入图片描述

原文:“The total loss shown in Eq. (9) is calculated as the scaled summation of the following terms: the mean squared error over the 3D coordinates and dimensions (x, y, z, w, l, h), the mean squared error over the angle, the confidence score, and the cross entropy loss over the object classes.”


2. PIXOR

paper:《PIXOR: Real-time 3D Object Detection from Point Clouds》
结构图:
在这里插入图片描述

PIXOR是一个One-Stage、anchor-free的网络结构。但只在2d俯视图上预测,并不是完全的3d检测,用xywlθ对框进行参数表述。

思路:
1)在构建特征图时不再考虑高度(height)与密度(density)特征,只考虑occupancy以及intensity特征。对点云场景进行grid划分,每个gird计算一个intensity feature,以及切片获取每层的occupancy feature,考虑到上下边界会有越界点,所有再增加2个channels。所以,在特征图尺度为LxW上,2个额外channels+1个intensity特征+H/dH个occupancy特征,channels大小为(H/dH + 3)。
2)俯视图下构建的特征图通过2d CNN来进行特征提取,随后输出两个分支,其中分类分支输出channels=1(后跟softmax函数),应该是只考虑车这个单一类别;回归分支输出channels=6(后不跟非线性函数),6个回归参数分别是:cos(θ), sin(θ), dx, dy, w, l。也就是说,这里的方向被分解为两个相关值进行预测(Complex-YOLO也使用类似的方法,其用复数IM与Re表示)。

总结:
类别上用focal loss,回归上使用smooth-l1损失,损失比较普通。比较新的点就是将方向拆分成两个变量进行表示,简化损失直接进行回归,转为为:θ=arctan(sin(θ),cos(θ))。


3. HDNET(PIXOR++)

paper:《HDNET: Exploiting HD Maps for 3D ObjectDetection》
结构图:
在这里插入图片描述

HDNET同样是一个One-Stage、anchor-free网络结构,可以视为是在PIXOR基础上使用高清地图辅助点云检测所进行的改进,这就意味着其同样是一个不完整的3d检测架构。不过,HDNET首次考虑到道路坡度影响。

特征构建过程,考虑道路坡度影响以及道路区域先验信息:
在这里插入图片描述

思路:
1)为了避免点云因为道路坡度的影响,这里利用从高清地图中获得对应点位置的zi,利用点云高度位置z与高清地图高度位置zi的绝对值|z - zi|作为新的点云高度位置。随后过程与PIXOR一致,构建成俯视图上channels大小为(H/dH + 3)的特征图。
2)假设只考虑道路上的信息,这里可以利用高清地图提供的道路区域作为先验知识,将其二值化(binary channel)构建出一个新的道路掩码特征图(semantic road prior),将其与上述得到的特征图进行concat作为信息channels补充。
3)预测信息为:(p, cos(2θ), sin(2θ), dx, dy, log w, log l),其中通过周期为π的(cos(2θ), sin(2θ))来参数化对象方向,所以这里是不分前向后向,同时也不分高度信息与高度定位,作了极大的任务简化处理,不算是一个完整的3d检测任务。其余的操作类似PIXOR。

总结:
在PIXOR基础上利用了高清地图的先验信息进行额外处理(比如消除坡度影响,利用道路区域的二值掩码特征)比较新颖。在损失上提到了一个细节,训练之前会将回归目标归一化为具有零均值和单位方差。如果不存在高精度地图的情况,那么就先栅格化点云,然后用U-net在俯视图中做road segmentation和ground estimation(也就是在线估计高精度地图)

但是HDNET既不区分前向后向,也不预测分尺寸高度与位置高度,作了极大的任务简化处理,不算是一个完整的3d检测任务。只是一个俯视图上带方向的2d检测(PIXOR、Complex-YOLO、HDNET均是)。


4. Voxel-FPN

paper:《Voxel-FPN: multi-scale voxel feature aggregationin 3D object detection from point clouds》
结构图:
在这里插入图片描述

Voxel-FPN是一个One-Stage、anchor-based网络结构(在消融实验中隐约提及到对车辆设计的先验框尺寸,但也没有具体介绍)。论文写得不清不楚,很多细节都没有展示出来,detect head结构也没有介绍,文章写的是voxel-based的方法,但实际提出来的流程图上却又是pillars-based的操作(如下图),比较乱。里面的SSD也不知道具体是指什么操作。
在这里插入图片描述

思路:(我自己的一个臆测流程)
1)采用VoxelNet的方式设置S=0.16、2S、4S等不同voxel尺寸对原始3d点云进行体素化,每个voxel采用VFE层对随机采样的K个点进行point-wise特征聚合,获得一个3d的特征图。
2)之后的才做可能是对z轴上的特征进行拼接转化为2d。如果这样做的话其实可以看成是类似pointpillars的方法,将点云信息构建成是一个俯视图上的2维特征图,pillars也可以进行多尺度的构建。
3)获得了不同尺寸上的2d特征图,之后进行经过一个类似PAN的双塔结构,先下采样再与上采样回去的特征进行element-wise addition操作,获得多尺度的特征图
4)对每个尺度的特征图分别接一个detect head,进行分类与回归预测。这里的回归方式与SECOND完全一致,包含3个损失部分:class score loss(类别分类损失)、regression loss(回归预测损失)、direction loss(框二值方向分类损失)

总结:
消融实验显示S+2S的两尺度融合效果最好,表示不是所有的特征都应该被组合,如果可以搜索一个特征组合策略比较重要。但从结果来看,结合FPN的效果是有提升的(尽管不知道为何单独SSD效果要比RPN-FPN效果好)。对于多尺度融合上,3d特征与2d特征一样均可以实现,不过3d需要进行稀疏卷积等操作可能需要较大的计算量,如何在计算量不太大增加性能还可以继续研究,3d特征的稀疏FPN结构可以尝试,不知道会不会比2d要好。

paper中提别提到:“It inspires us that feature representation does not hold the principle “the more, the better” and most important features should be carefully selected to obtain the best performance, remaining a skillful task.” 意思就是特征表示并不遵循“越多越好”的原则,应该仔细选择最重要的特征,以获得最佳性能。那么,如何选择最重要的特征,自适应权重分配等注意力机制问题就可以派上了用场。


5. Fast Point RCNN

paper:《Fast Point R-CNN》(2019ICCV)
结构图:
在这里插入图片描述

Fast Point RCNN是一个Two-stage,anchor-based网络结构,同时使用2d与3d卷积提取特征。随后利用候选框投影获得原始点云信息与卷积提取的信息,利用这两种特征进行后续融合编码对候选框进行修正。其中融合部分的网络如下图所示。
在这里插入图片描述

思路:
1)与VoxelNet类似将点云空间栅格化,不过VoxelNet中每个voxel的点采用35个,Fast Point RCNN这里说明采用6个点并使用8通道的MLP层足够表示特征。随后利用3d卷积将z轴尺度下采样为1,随机可以进行2d卷积操作增大感受野。随后上采样回去,进行多尺度特征融合,获得最后的特征图。
2)利用VoxelRPN获取的特征图上生成候选框(anchor-based),投影到bev视图中。一方面获取bev候选框上的所有点信息(Nx4);另一方面需要找到Box中的点在VoxelRPN生成的feature map中的对应位置,用插值获取VoxelRPN上相应网格的特征信息(NxC)。在进行下一步处理时,需要对原始点云特征进行规范化,以保证平移和旋转不变性(没有具体说明,可能是利用相对位置信息来进行规范化)。
3)后续提出RefinerNet对原始点云数据特征与VoxelRPN提取特征进行融合,具体操作见上图。利用最后聚合出来的vector进行候选框修正。
4)一阶段rpn损失组成部分与VoxelNet、SECOND等anchor-based算法类似;二阶段head部分回归的是候选框中心到8个角的偏移,有点不一样,具体细节需要看代码实现了。
在这里插入图片描述

总结:
前期利用3d+2d卷积提取到体素化点云的特征从而生成候选框思路普普通通,后续利用候选框投影回去bev视图获取相关区域的点云原始特征来补充rpn上的特征,对来自rpn区域的卷积特征以及bev后续区域上的原始点云特征进行注意力融合(处理过程类似PointNet),结果上说明了这种3d卷积+2d卷积是可行的,可以用来改善PointPillars的pillar-based特征处理方法。

此外,Fast Point RCNN的处理速度的15FPS,也不算很快…


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/70525.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

领英怎么用多个账号一起开发客户?进阶知识

1.如何注册账号? LinkedIn经历调整 2021年12月14日起,领英(LinkedIn)正式被改版为领英职-场。在改版后的领英职-场上,我们既无法进行主动搜-索客户,添-加好友,也无法查看和发布动态内容,完完全全的变成了一…

ChatGPT 常见错误原因及解决方案:报错、回答不完整等

最近,由人工智能实验室 OpenAI 发布的对话式大型语言模型 ChatGPT 火得一塌糊涂。它可以与人类轻松地对话,无论是多么奇葩的问题 ChatGPT 都不在话下。在体验 ChatGPT 的同时我们也会遇到各种各样的问题,这里我总结了其对话过程中可能会发生的…

springboot中如何实现跨域请求

Springboot中如何处理跨域请求 一.什么是跨域? 我们知道Url的一般格式:协议 域名(子域名 主域名) 端口号 资源地址 比如: https://www.itquanmingxing.cn:8080/users 是由https www itquanmingxing.cn 8080 users组成…

普通程序员可以怎么做搞钱程序?

最近海洋问题实在是很严重,人类活动带来的垃圾污染等问题使海洋生物得到了很大的压力。 每年鱼类等海洋生物体内的塑料海量越来越多,不仅仅是由于日常人类日常使用的垃圾袋引起的。 还有很多方面的原因,最直接的因素就是去看海的游客遗留下…

云计算自学笔记(不定期更新)

管道命令使用 linux管道相关命令__小笼包_的博客-CSDN博客_linux管道命令 [cut ]:命令的功能是用于按列提取文件内容 按照字符提取命令:head -2 2.txt | cut -c 5 查看前两行,并按照字符提取第五个字符 -c 按照字符提取 截取出…

剑指Offer40——最小的k个数

摘要 剑指 Offer 40. 最小的k个数 一、排序方法 1.1 排序的方法分析 对原数组从小到大排序后取出前 k 个数即可。 1.2 复杂度分析 时间复杂度:O(nlog⁡n)O,其中 n 是数组 arr 的长度。算法的时间复杂度即排序的时间复杂度。 空间复杂度:…

MQ高级(四)MQ集群

一、集群分类 RabbitMQ的是基于Erlang语言编写,而Erlang又是一个面向并发的语言,天然支持集群模式。 RabbitMQ的集群有两种模式: (1)普通集群:是一种分布式集群,将队列分散到集群的各个节点&…

【Flink】复杂事件处理CEP底层实现(有限状态机)和应用

文章目录一 Flink CEP简介1 什么是复杂事件处理CEP2 Flink CEP(1)导入依赖(2)代码编写(3)优化模板3 实现CEP底层 -- 有限状态机4 使用CEP处理超时事件一 Flink CEP简介 1 什么是复杂事件处理CEP 一个或多…

239页11万字新型智慧城市运营中心IOC大数据平台建设方案

目录 1 概述 1.1 建设目标 1.2 建设内容 1.3 建设步骤 2 项目建设方案 2.1 总体设计方案 2.2 支撑平台方案 2.2.1 数据治理平台 2.2.2 可视化平台 2.2.3 城市感知平台 2.3 应用系统方案 2.3.1 综合监测系统 2.3.2 事件管理系统 2.3.3 联动指挥系统 2.3.4 辅助决策…

自定义镜像上传阿里云

目录标题一、Docker制作jdk镜像1.jdkv.1.0的制作1.1创建文件夹上传jdk的安装包,和在同级目录下编写Dockerfile文件1.2.编写 Dockerfile 文件1.3.执行Dockerfile文件,初次依赖镜像的时候会下载相应镜像2.jdk2.0的制作3.jdk3.0的制作二、Docker镜像上传至阿里云前期准…

19.5 迭代器的概念和分类

一:迭代器基本概念:第十三章第九节 迭代器:是一个“可遍历STL容器全部或者部分元素”的对象(行为类似于指针的对象); 迭代器用来表现容器中的某一位置;迭代器紧密依赖于容器,迭代器…

2023年天津仁爱学院专升本动画、化学工程与工艺专业介绍

2023年天津仁爱学院专升本专业课动画专业、化学工程与工艺专业介绍 (一)动画专业 动画专业以行业发展对应用型人才需求为导向,不断提高学生就业质量为目标,针对学生特点,积极拓展动画应用领域,设有影视后期…

JSP SSH超市管理统myeclipse开发mysql数据库MVC模式java编程计算机网页设计

一、源码特点 JSP 超市管理统是一套完善的web设计系统(系统采用ssh框架进行设计开发),对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发 JSP SSH超市管理统myeclipse开发…

【Leetcode每日一题】子序列宽度之和,匹配子序列的单词数,最大平均值和的分组

891. 子序列宽度之和 计算的是【贡献】。 首先观察发现,顺序不影响结果。然后比如1,作为最大元素贡献为0,而作为最小元素贡献为每个子序列的【最大-1】,一共有多少个作为最小元素的子序列,对答案的贡献就是-1*(个数)。…

【✨十五天搞定电工基础】正弦交流电路的分析(下)

目录 五、复杂正弦交流电路的分析(下) 六、功率因数的提高 七、谐振电路 1、串联谐振 2、并联谐振 八、课后习题 1、正弦量三要素,相位 2、RLC串联问题 3、复杂正弦交流电路问题 4、谐振问题 五、复杂正弦交流电路的分析&#x…

Metabase学习教程:权限-4

高级数据沙盒:限制对列的访问 了解如何使用已保存的SQL查询对表进行沙盒处理,并根据用户属性限制用户可以查看的列。 我们的文章行权限涵盖了沙盒(商业版本). 我们将沙盒定义为一种根据用户身份指定用户可以访问哪些数据的方法,…

【TOTP】基于时间的动态密码及其工程实践

探究了常见的动态密码的实现方式及其底层原理,并基于java做出了工程实践。 文章目录A.来源于一个现象的好奇B.2FAC.TOTP1.什么是TOTP2.原理详解(基于java-totp项目分析)3.这样真的安全吗4.常见的支持TOTP的软件1.Google Authenticator2.Micro…

RCNN学习笔记-MobileNet3

更新Block(bneck倒残差结构) 1.加入SE(自注意力模块squeeze-and-excite bottleneck)模块。当stride1(高和宽是不会变化的)且inputc outputc才有shortcut连接。 相反,我们将它们全部替换为扩展层中通道数量的1/4。我…

功率放大器输出阻抗的影响因素有哪些原因

关于功率放大器的疑问有很多,前阵子有人咨询影响功率放大器输出阻抗的有哪些因素,今天就请安泰电子来为大家解释,同时再为大家科普一下功率放大器的知识。 图:信号源和负载的放大器的简化模型 在搞清楚影响功率放大器输出阻抗因素…

速锐得解码本田雅阁混动版整车网关CAN总线通信协议DBC控制策略

本田汽车增城工厂就在附近50多公里的地方,和比亚迪汽车差不多,无论怎么跑都得1个多小时,也因为近水楼台的天然优势,而我们也与本田安全驾驶中心有多次深度的合作。碗里的肉,基本上都是上过了速锐得砧板。 近&#xff0…