点云 3D 分割 - SqueezeSeg(ICRA 2018)
- 摘要
- 1. 引言
- 2. 相关工作
- A. 三维激光雷达点云的语义分割
- B. 用于3D点云的CNN
- C. 图像的语义分割
- D. 通过模拟收集数据
- 3. 方法描述
- A. 点云变换
- B. 网络结构
- C. 条件随机场
- D. 数据收集
- 4. 实验
- A. 评估指标
- B. 实验设置
- C. 实验结果
- 5. 结论
- REFERENCES
声明:此翻译仅为个人学习记录
文章信息
- 标题:SqueezeSeg: Convolutional Neural Nets with Recurrent CRF for Real-Time Road-Object Segmentation from 3D LiDAR Point Cloud (ICRA 2018)
- 作者:Bichen Wu, Alvin Wan, Xiangyu Yue and Kurt Keutzer
- 文章链接:https://arxiv.org/pdf/1710.07368.pdf
- 文章代码:https://github.com/BichenWuUCB/SqueezeSeg
摘要
在本文中,我们讨论了3D激光雷达点云中道路对象的语义分割。特别是,我们希望检测和分类感兴趣的实例,例如汽车、行人和骑自行车的人。我们将此问题表述为逐点分类问题,并提出了一种基于卷积神经网络(CNN)的端到端流水线SquezeSeg:CNN将转换后的LiDAR点云作为输入,并直接输出逐点标签图,然后通过实现为递归层的条件随机场(CRF)对其进行细化。然后通过常规聚类算法获得实例级标签。我们的CNN模型是在KITTI[1]数据集的LiDAR点云上训练的,我们的逐点分割标签来自KITTI的3D边界框。为了获得额外的训练数据,我们在侠盗猎车手V(GTA-V)(一款流行的视频游戏)中构建了一个LiDAR模拟器,以合成大量真实的训练数据。我们的实验表明,SquezeSeg以惊人的速度和稳定的运行时间(每帧8.7±0.5毫秒)实现了高精度,这对于自动驾驶应用非常理想。此外,对合成数据的额外训练提高了真实世界数据的验证准确性。我们的源代码和合成数据将是开源的。
1. 引言
自动驾驶系统依赖于对环境的准确、实时和稳健的感知。自动驾驶汽车需要准确地分类和定位“道路物体”,我们将其定义为与驾驶相关的物体,如汽车、行人、骑自行车的人和其他障碍物。不同的自动驾驶解决方案可能有不同的传感器组合,但3D激光雷达扫描仪是最常见的组件之一。激光雷达扫描仪直接对环境进行距离测量,然后由车辆控制器和规划者使用。此外,激光雷达扫描仪在几乎所有的照明条件下都是强大的,无论是白天还是夜晚,无论有无眩光和阴影。因此,基于激光雷达的感知任务引起了大量研究关注。
在这项工作中,我们专注于使用(Velodyne风格)3D激光雷达点云进行道路对象分割。给定LiDAR扫描仪的点云输出,该任务旨在隔离感兴趣的目标并预测其类别,如图1所示。以前的方法包括或使用以下阶段的一部分:移除地面,将剩余点聚类为实例,从每个聚类中提取(手工制作的)特征,并根据其特征对每个聚类进行分类。尽管这种模式很受欢迎[2]、[3]、[4]、[5],但它有几个缺点:a)上述管道中的地面分割通常依赖于手工制作的特征或决策规则——一些方法依赖于标量阈值[6],其他方法需要更复杂的特征,如表面法线[7]或不变描述符[4],所有这些都可能无法类推常规化,而后者需要大量的预处理。b) 多级管道会看到复合错误的聚合效应,而上面管道中的分类或聚类算法无法利用上下文,最重要的是目标的直接环境。c) 许多地面去除方法依赖于迭代算法,如RANSAC(随机样本共识)[5]、GP-INSAC(高斯过程增量样本共识)[2]或聚集聚类[2]。这些算法组件的运行时间和准确性取决于随机初始化的质量,因此可能不稳定。这种不稳定性对于许多嵌入式应用(如自动驾驶)来说是不可接受的。我们采用另一种方法:使用深度学习来提取特征,开发单级流水线,从而避开迭代算法。
图1. SquezeSeg分割结果示例。我们的预测结果在右边,真值在左边。汽车标注为红色,行人标注为绿色,骑行者标注为蓝色。
在本文中,我们提出了一种基于卷积神经网络(CNN)和条件随机场(CRF)的端到端流水线。CNN和CRF已成功应用于2D图像的分割任务[8],[9],[10],[11]。为了将CNN应用于3D激光雷达点云,我们设计了一个CNN,它接受转换后的激光雷达点云和输出标签的逐点图,并通过CRF模型进一步细化。然后通过对类别内的点应用常规聚类算法(如DBSCAN)来获得实例级标签。为了向2D CNN提供3D点云,我们采用球面投影将稀疏、不规则分布的3D点云转换为密集的2D网格表示。所提出的CNN模型从SquezeNet[12]中获得灵感,并经过精心设计,以减少参数大小和计算复杂性,目的是减少内存需求,实现目标嵌入式应用的实时推理速度。CRF模型被重新表述为递归神经网络(RNN)模块[11],可以与CNN模型一起进行端到端训练。我们的模型是在KITTI数据集[1]的LiDAR点云上训练的,逐点分割标签是从KITTI中的3D边界框转换而来的。为了获得更多的训练数据,我们利用侠盗猎车手V(GTA-V)作为模拟器来检索LiDAR点云和逐点标签。
实验表明,SquezeSeg实现了高精度,速度极快且稳定,适合自动驾驶应用。我们还发现,用人工、噪声注入的模拟数据取代我们的数据集,进一步提高了真实世界数据的验证准确性。
2. 相关工作
A. 三维激光雷达点云的语义分割
之前的工作发现,LiDAR分割具有广泛的粒度,可以处理从特定组件到整个管道的任何内容。[7] 提出了基于局部曲面凸性条件的基于网格的地面和目标分割方法。[2] 总结了基于迭代算法的几种方法,如RANSAC(随机样本共识)和GP-INSAC(高斯过程增量样本共识)用于地面去除。最近的工作也集中在算法效率上。[5] 提出了有效的地面分割和聚类算法,而[13]绕过地面分割直接提取前景目标。[4] 将重点扩展到整个管道,包括分割、聚类和分类。它提出将点块直接分类为不同类别的背景和前景目标,然后使用EMST-RANSAC[5]进一步聚类实例。
B. 用于3D点云的CNN
CNN的方法考虑了二维或三维的激光雷达点云。使用二维数据时,考虑使用LiDAR点云自上而下投影的原始图像[14]或来自许多其他视图[15]。其他工作考虑三维数据本身,将空间离散化为体素和工程特征,如视差、平均值和饱和度[16]。无论数据准备如何,深度学习方法都考虑利用2D卷积[17]或3D卷积[18]神经网络的端到端模型。
C. 图像的语义分割
CNN和CRF都已应用于图像的语义分割任务。[8] 提出了将经过分类训练的CNN模型转换为完全卷积网络,以预测逐像素标签。[9] 提出了一种用于图像分割的CRF公式,并用平均场迭代算法近似求解。CNN和CRF结合在[10]中,其中CNN用于生成初始概率图,CRF用于细化和恢复细节。在[11]中,平均场迭代被重新表述为递归神经网络(RNN)模块。
D. 通过模拟收集数据
获取注释,尤其是计算机视觉任务的逐点或逐像素注释通常非常困难。因此,人们对合成数据集越来越感兴趣。在自动驾驶社区中,视频游戏《侠盗猎车手》已被用于检索目标检测和分割的数据[19],[20]。
3. 方法描述
A. 点云变换
传统的CNN模型对图像进行操作,图像可以由尺寸为H×W×3的三维张量表示。前两个维度编码空间位置,其中H和W分别是图像高度和宽度。最后一个维度编码特征,最常见的是RGB值。然而,三维激光雷达点云通常表示为一组笛卡尔坐标(x,y,z)。还可以包括其他功能,例如强度或RGB值。与图像像素的分布不同,LiDAR点云的分布通常稀疏且不规则。因此,将3D空间天真地离散化为体素会导致过多的空体素。处理这样的稀疏数据是低效的,浪费了计算。
为了获得更紧凑的表示,我们将LiDAR点云投影到球体上,以获得密集的基于网格的表示,如
ϕ
\phi
ϕ和
θ
\theta
θ是方位角和天顶角,如图2(A)所示。
Δ
θ
\Delta\theta
Δθ和
Δ
ϕ
\Delta\phi
Δϕ是离散化的分辨率,
(
θ
~
,
ϕ
~
)
(\tilde{\theta},\tilde{\phi})
(θ~,ϕ~)表示二维球面网格上点的位置。将方程(1)应用于点云中的每个点,我们可以获得尺寸为H×W×C的三维张量。在本文中,我们考虑了从具有64个垂直通道的Velodyne HDL-64E LiDAR收集的数据,因此H=64。受限于KITTI数据集的数据注释,我们只考虑90°并将其划分为512个网格,因此W=512。C是每个点的特征数量。在我们的实验中,我们为每个点使用了5个特征:3个笛卡尔坐标(x,y,z)、强度测量和距离
r
=
x
2
+
y
2
+
z
2
{r=\sqrt {x^2+y^2+z^2}}
r=x2+y2+z2。投影点云的示例如图2(B)所示。如图所示,这种表示密集且规则分布,类似于普通图像2(C)。这种特征化使我们能够避免手工制作的特征,从而提高我们的表征类推常规化的可能性。
图2. 激光雷达投影。注意,每个通道反映相机视图图像中的结构信息。
B. 网络结构
我们的卷积神经网络结构如图3所示。SquezeSeg源自SquezeNet[12],这是一种轻量级的CNN,以50X更少的参数实现了AlexNet[21]级别的精度。
SquezeSeg的输入是一个64×512×5的张量,如前一节所述。我们从SqueezNet移植了层(conv1a到fire9)用于特征提取。SqueezNet使用最大池对宽度和高度维度上的中间特征图进行降采样,但由于我们的输入张量的高度远小于其宽度,因此我们只对宽度进行降采样。fire9的输出是一个向下采样的特征图,它编码了点云的语义。
为了获得每个点的全分辨率标签预测,我们使用去卷积模块(更准确地说,“转置卷积”)在宽度维度上对特征图进行上采样。我们使用跳过连接将采样的特征图添加到相同大小的较低级别特征图,如图3所示。输出概率图由具有softmax激活的卷积层(conv14)生成。概率图通过循环CRF层进一步细化,这将在下一节中讨论。
为了减少模型参数和计算的数量,我们用fireModules[12]和fireDeconvs替换了卷积和解卷积层。两个模块的架构如图4所示。在fireModule中,大小为H×W×C的输入张量首先被馈送到1x1卷积中,以将通道大小减小到C/4。接下来,使用3x3卷积来融合空间信息。与并行1x1卷积一起,它们恢复了C的通道大小。输入1x1卷积称为压缩层,并行1x1和3x3卷积一起称为扩展层。给定匹配的输入和输出大小,3x3卷积层需要9C2参数和9HWC2计算,而fireModule只需要 3 2 \frac{3}{2} 23C2参数和 3 2 \frac{3}{2} 23HWC2计算。在fireDeconv模块中,用于对特征图进行上采样的解卷积层位于挤压层和扩展层之间。为了将宽度维度上采样2,常规1x4解卷积层必须包含4C2参数和4HWC2计算。然而,使用fireDecov,我们只需要 7 4 \frac{7}{4} 47C2参数和 7 4 \frac{7}{4} 47HWC2计算。
C. 条件随机场
通过图像分割,CNN模型预测的标签图往往具有模糊的边界。这是由于在最大池等下采样操作中丢失了低级细节。SquezeSeg也观察到类似的现象。
准确的逐点标签预测不仅需要了解目标和场景的高级语义,还需要了解低级细节。后者对于标签分配的一致性至关重要。例如,如果点云中的两个点彼此相邻,并且具有相似的强度测量值,则它们很可能属于同一目标,因此具有相同的标签。在[10]之后,我们使用条件随机场(CRF)来细化CNN生成的标签图。对于给定的点云和标签预测c,其中ci表示第i个点的预测标签,CRF模型采用能量函数
一元势项ui(ci)=−log P(ci)考虑来自CNN分类器的预测概率P(ci)。二进制势项定义了将不同标签分配给一对相似点的“惩罚”,定义为bi,j(ci,cj)=µ(ci,cj)
∑
m
=
1
M
w
m
k
m
(
f
i
,
f
j
)
\sum_{m=1}^M w_mk^m(f_i,f_j)
∑m=1Mwmkm(fi,fj) ,其中,如果ci ≠cj,则µ(ci,cj)=1,否则为0,km是依赖于点 i 和 j 的特征 f 的第 m 个高斯核,wm是相应的系数。在我们的工作中,我们使用了两个高斯核
第一项取决于两个点的角位置
p
(
θ
~
,
ϕ
~
)
p(\tilde{\theta},\tilde{\phi})
p(θ~,ϕ~)和笛卡尔坐标x(x,y,z)。第二项仅取决于角位置。σα、σβ和σγ是经验选择的三个超参数。还可以包括其他特征,如强度和RGB值。
最小化上述CRF能量函数可得到精确的标签分配。方程(2)的精确最小化是困难的,但[9]提出了一种平均场迭代算法来近似和有效地求解它。[11] 将平均场迭代重新表述为递归神经网络(RNN)。我们请读者参考[9]和[11],了解平均场迭代算法的详细推导及其作为RNN的公式。在这里,我们只提供了作为RNN模块的平均场迭代实现的简要描述,如图5所示。CNN模型的输出作为初始概率图输入CRF模块。接下来,我们根据等式(3)的输入特征计算高斯核。当两点之间的距离(在三维笛卡尔空间和二维角空间中)增加时,上述高斯核的值下降得很快。因此,对于每个点,我们将核大小限制在输入张量上3×5的小区域。接下来,我们使用上述高斯核过滤初始概率图。该步骤也称为[11]中的消息传递,因为它本质上聚合了相邻点的概率。这一步骤可以作为一个局部连接层来实现,并以上面的高斯核作为参数。接下来,我们重新对聚集概率进行加权,并使用“相容性转换”来决定它对每个点的分布有多大的影响。该步骤可以被实现为1x1卷积,其参数在训练期间被学习。接下来,我们通过将初始概率添加到1x1卷积的输出来更新初始概率,并使用softmax对其进行归一化。模块的输出是一个细化的概率图,可以通过迭代应用此过程来进一步细化。在我们的实验中,我们使用了3次迭代来实现精确的标签映射。该循环CRF模块与CNN模型可以端到端地一起训练。通过单阶段流水线,我们避开了多阶段工作流中存在的传播错误的线程,并相应地利用上下文信息。
图3. SquezeSeg的网络结构。
图4. FireModule(左)和fireDecov(右)的结构。
图5. 作为RNN层的条件随机场(CRF)。
D. 数据收集
我们的初始数据来自KITTI原始数据集,该数据集提供图像、激光雷达扫描和按顺序组织的3D边界框。逐点标注从三维边界框转换而来。目标的三维边界框内的所有点都被视为目标对象的一部分。然后,我们将相应的标签分配给每个点。图2(A,B)显示了这种转换的示例。使用这种方法,我们收集了10848张带有逐点标签的图像。
为了获得更多的训练样本(点云和逐点标签),我们在GTAV中构建了一个LiDAR模拟器。模拟器的框架基于DeepGTAV(https://github.com/ai-tor/DeepGTAV),它使用Script Hook V(http://www.dev-c.com/gtav/scripthookv/)作为插件。
我们在游戏车上安装了一台虚拟激光雷达扫描仪,然后设置为自动驾驶。该系统收集LiDAR点云和游戏屏幕。在我们的设置中,虚拟激光雷达和游戏相机放置在同一位置,这提供了两个优点:首先,我们可以轻松地对收集的数据进行健全性检查,因为点和图像需要一致。其次,这些点和图像可以用于其他研究项目,例如传感器融合等。
我们使用光线投射来模拟激光雷达发射的每一束激光。每条激光射线的方向基于激光雷达设置的几个参数:垂直视野(FOV)、垂直分辨率、俯仰角和点云扫描中的射线索引。通过一系列API,可以获得与每条射线相关联的以下数据:a)射线击中的第一个点的坐标,b)物体击中的类别,c)物体命中的实例ID(这对实例分割等有用),d)物体命中中心和边界框。
图6. 左图:GTA-V游戏场景的图像。右图:与游戏场景相对应的激光雷达点云。
使用这个模拟器,我们构建了一个包含8585个样本的合成数据集,大约是训练集大小的两倍。为了使数据更真实,我们进一步分析了KITTI点云上的噪声分布(图7)。我们在每个径向坐标处获取噪声的经验频率,并进行归一化,以获得有效的概率分布:1)让Pi是第III-A节中前面描述的格式的3D张量,表示第i个KITTI点云的球面投影“像素值”。对于n个KITTI点云中的每一个,考虑
(
θ
~
,
ϕ
~
)
(\tilde{\theta},\tilde{\phi})
(θ~,ϕ~)坐标处的像素是否包含“噪声”。为简单起见,我们将“噪声”视为缺失数据,其中所有像素通道均为零。那么,
(
θ
~
,
ϕ
~
)
(\tilde{\theta},\tilde{\phi})
(θ~,ϕ~)坐标处噪声的经验频率为
2) 然后,我们可以使用KITTI数据中的噪声分布来增强合成数据。对于合成数据集中的任何点云,在点云的每个
(
θ
~
,
ϕ
~
)
(\tilde{\theta},\tilde{\phi})
(θ~,ϕ~)坐标处,我们通过将所有特征值以概率
ϵ
(
θ
~
,
ϕ
~
)
\epsilon(\tilde{\theta},\tilde{\phi})
ϵ(θ~,ϕ~)设置为0来随机添加噪声。
值得注意的是,GTA-V为行人使用了非常简单的物理模型,通常将人减少到圆柱体。此外,GTA-V没有为骑自行车的人编码单独的类别,而是在所有账户上分别标记人和车辆。出于这些原因,我们决定在使用合成数据集进行训练时,将重点放在KITTI评估的“汽车”类上。
图7. 固定合成数据中的噪声分布
4. 实验
A. 评估指标
我们评估了模型在类级和实例级分割任务上的性能。对于类级分割,我们将预测值与真值标签进行逐点比较,并评估精度、召回率和IoU(intersection-over-union)分数,其定义如下:
其中Pc和Gc分别表示属于c类的预测和真值点集。|·|表示集合的基数。IoU分数被用作我们实验中的主要精度度量。
对于实例级分割,我们首先将每个预测的实例i与一个真值实例进行匹配。该指数匹配过程可以表示为M(i)=j,其中i∈{1,··,N}是预测的实例指数,j∈{∅,1,·,M}是真值指数。如果没有真值与实例i匹配,那么我们将M(i)设置为∅。匹配过程M(·)1)按点数对真值实例进行排序,2)针对每个真值实例,找到具有最大IoU的预测实例。评估脚本将与源代码一起发布。
对于每个类c,我们计算实例级精度、召回率和IoU分数为
Pi,c表示属于c类的第i个预测实例。不同的实例集是互斥的,因此
∑
i
\sum_i
∑i|Pi,c|=|Pc|。同样适用于GM(i),c。如果没有真值实例与预测i匹配,则GM(i),c是空集。
B. 实验设置
我们的主要数据集是上述转换后的KITTI数据集。我们将公开可用的原始数据集分成8057帧的训练集和2791帧的验证集。注意,如果KITTI LiDAR扫描来自同一序列,则它们可以在时间上相关。在我们的拆分中,我们确保训练集中的帧不会出现在验证序列中。我们的训练/验证划分也将发布。我们在Tensorflow[22]中开发了我们的模型,并使用NVIDIA TITAN X GPU进行实验。由于KITTI数据集仅为前视图激光雷达扫描提供可靠的3D边界框,因此我们将水平视野限制为前向90◦. 我们的模型训练协议的细节将在我们的源代码中发布。
C. 实验结果
表I总结了SquezeSeg的分割精度。我们比较了SqueezSeg的两种变体,一种是有周期性CRF层的,另一种是没有周期性CRF的。尽管我们提出的指标非常具有挑战性,因为高IoU需要逐点正确性,但SquezeSeg仍然获得了高IoU分数,尤其是汽车类别。请注意,汽车类别的类级别和实例级别召回都高于90%,这对于自动驾驶来说是理想的,因为假阴性比假阳性更容易导致事故。我们将行人和骑车人类别的表现较低归因于两个原因:1)数据集中行人和骑车者的实例更少。2) 行人和骑自行车的实例在尺寸上要小得多,细节也要精细得多,因此更难分割。
通过将CNN与CRF相结合,我们显著提高了汽车类别的准确性(IoU)。性能提升主要来自精度的提高,因为CRF更好地过滤边界上的错误分类点。同时,我们还注意到CRF导致行人和自行车分割任务的性能稍差。这可能是由于行人和骑车人缺乏CRF超参数调谐。
图8. SquezeSeg在投影激光雷达深度图上的预测可视化。为了进行比较,真值标签的可视化绘制在预测标签的下方。请注意,“SqueezSeg”会额外精确地分割地面真实中未标记的对象。
表I. SquezeSeg的分割性能
表II总结了两个SqueezeSeg模型的运行时间。在TITAN X GPU上,不带CRF的SqueezSeg处理一个LiDAR点云帧只需8.7毫秒。结合CRF层,该模型每帧花费13.5ms。这比当今大多数激光雷达扫描仪的采样速度快得多。例如,Velodyne HDL-64E LiDAR的最大转速为20Hz。在计算资源更加有限的车载嵌入式处理器上,SquezeSeg可以在速度和其他实际问题(如能效或处理器成本)之间进行权衡。此外,请注意,SqueezeSeg两款模型的运行时间标准偏差非常小,这对整个自动驾驶系统的稳定性至关重要。然而,我们的实例分割目前依赖于传统的聚类算法,例如DBSCAN(http://scikit-learn.org/0.15/modules/generated/sklearn.cluster.DBSCAN.html),相比之下,这需要更长的时间并且具有更大的方差。一个更高效、更稳定的集群实现是必要的,但这超出了本文的范围。
表II. SquezeSeg管道的运行时性能
当我们在GTA模拟数据上进行训练时,我们在KITTI数据上测试了我们的模型的准确性,其结果汇总在表III中。我们的GTA模拟器目前在为行人和骑自行车者提供真实标签的能力方面仍然有限,因此我们只考虑汽车的分割性能。此外,我们的模拟点云不包含强度测量;因此,我们排除了强度作为网络的输入特征。为了量化训练对合成数据的影响,我们在KITTI训练集上训练了SqueezeSeg模型,而不使用强度测量,并在KITTI验证集上进行了验证。该模型的性能显示在表的第一行中。与表I相比,由于强度通道的损失,IoU评分更差。如果我们完全根据GTA模拟数据训练模型,我们会看到明显更差的性能。然而,将KITTI训练集与我们的GTA模拟数据集相结合,我们发现准确度显著提高,甚至优于表I。
图8显示了SquezeSeg与真值标签的分割结果。对于大多数物体,除了目标物体下面的地面外,预测结果几乎与真值相同。另外,请注意SquezeSeg会额外精确地分割未标记在真值中的目标。这些对象可能被遮挡或太小,因此被放在KITTI基准的“不在乎”类别中。
表III. 使用模拟数据的汽车类别的细分性能
5. 结论
我们提出了SquezeSeg,这是一种用于从LiDAR点云分割道路目标的精确、快速和稳定的端到端方法。为了解决引言中讨论的先前方法的不足,我们的深度学习方法1)不依赖手工制作的特征,而是利用通过训练学习的卷积滤波器;2) 使用深度神经网络,因此不依赖RANSAC、GP-INSAC和聚集聚类等迭代算法;以及3)将管道简化为单个阶段,避免了传播错误的问题,并允许模型充分利用目标上下文。根据自动驾驶等应用的需要,该模型以比实时推断速度更快的速度实现了非常高的精度,且方差很小。此外,我们合成了大量模拟数据,然后证明了在使用合成数据进行训练和在真实世界数据上进行验证时,性能显著提高。我们使用精选类作为概念证明,赋予合成数据在未来自动驱动数据集中的潜在作用。
ACKNOWLEDGEMENT
This work was partially supported by the DARPA PERFECT program, Award HR0011-12-2-0016, together with ASPIRE Lab sponsor Intel, as well as lab affiliates HP, Huawei, Nvidia, and SK Hynix. This work has also been partially sponsored by individual gifts from BMW, Intel, and the Samsung Global Research Organization.
REFERENCES
[1] A. Geiger, P. Lenz, and R. Urtasun, “Are we ready for autonomous driving? the kitti vision benchmark suite,” in Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on. IEEE, 2012, pp. 3354–3361.
[2] B. Douillard, J. Underwood, N. Kuntz, V. Vlaskine, A. Quadros, P. Morton, and A. Frenkel, “On the segmentation of 3d lidar point clouds,” in Robotics and Automation (ICRA), 2011 IEEE International Conference on. IEEE, 2011, pp. 2798–2805.
[3] M. Himmelsbach, A. Mueller, T. L¨uttel, and H.-J. W¨unsche, “Lidarbased 3d object perception,” in Proceedings of 1st international workshop on cognition for technical systems, vol. 1, 2008.
[4] D. Z. Wang, I. Posner, and P. Newman, “What could move? Finding cars, pedestrians and bicyclists in 3d laser data,” in Robotics and Automation (ICRA), 2012 IEEE International Conference on. IEEE, 2012, pp. 4038–4044.
[5] D. Zermas, I. Izzat, and N. Papanikolopoulos, “Fast segmentation of 3d point clouds: A paradigm on lidar data for autonomous vehicle applications,” in Robotics and Automation (ICRA), 2017 IEEE International Conference on. IEEE, 2017, pp. 5067–5073.
[6] S. Thrun, M. Montemerlo, H. Dahlkamp, D. Stavens, A. Aron, J. Diebel, P. Fong, J. Gale, M. Halpenny, G. Hoffmann et al., “Stanley: The robot that won the darpa grand challenge,” Journal of field Robotics, vol. 23, no. 9, pp. 661–692, 2006.
[7] F. Moosmann, O. Pink, and C. Stiller, “Segmentation of 3d lidar data in non-flat urban environments using a local convexity criterion,” in Intelligent Vehicles Symposium, 2009 IEEE. IEEE, 2009, pp. 215–220.
[8] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” in CVPR, 2015.
[9] P. Kr¨ahenb¨uhl and V. Koltun, “Efficient inference in fully connected crfs with gaussian edge potentials,” in Advances in neural information processing systems, 2011, pp. 109–117.
[10] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, “Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs,” arXiv preprint arXiv:1606.00915, 2016.
[11] S. Zheng, S. Jayasumana, B. Romera-Paredes, V. Vineet, Z. Su, D. Du, C. Huang, and P. H. Torr, “Conditional random fields as recurrent neural networks,” in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 1529–1537.
[12] F. N. Iandola, S. Han, M. W. Moskewicz, K. Ashraf, W. J. Dally, and K. Keutzer, “SqueezeNet: Alexnet-level accuracy with 50x fewer parameters and <0.5mb model size,” arXiv:1602.07360, 2016.
[13] M.-O. Shin, G.-M. Oh, S.-W. Kim, and S.-W. Seo, “Real-time and accurate segmentation of 3-d point clouds based on gaussian process regression,” IEEE Transactions on Intelligent Transportation Systems, 2017.
[14] L. Caltagirone, S. Scheidegger, L. Svensson, and M. Wahde, “Fast lidar-based road detection using fully convolutional neural networks.” in Intelligent Vehicles Symposium (IV), 2017 IEEE. IEEE, 2017, pp. 1019–1024.
[15] X. Chen, H. Ma, J. Wan, B. Li, and T. Xia, “Multi-view 3d object detection network for autonomous driving,” arXiv preprint arXiv:1611.07759, 2016.
[16] J. Schlosser, C. K. Chow, and Z. Kira, “Fusing lidar and images for pedestrian detection using convolutional neural networks,” in Robotics
and Automation (ICRA), 2016 IEEE International Conference on. IEEE, 2016, pp. 2198–2205.
[17] B. Li, T. Zhang, and T. Xia, “Vehicle detection from 3d lidar using fully convolutional network,” arXiv preprint arXiv:1608.07916, 2016.
[18] D. Maturana and S. Scherer, “3d convolutional neural networks for landing zone detection from lidar,” in Robotics and Automation (ICRA), 2015 IEEE International Conference on. IEEE, 2015, pp. 3471–3478.
[19] S. R. Richter, V. Vineet, S. Roth, and V. Koltun, “Playing for data: Ground truth from computer games,” in European Conference on Computer Vision (ECCV), ser. LNCS, B. Leibe, J. Matas, N. Sebe, and M. Welling, Eds., vol. 9906. Springer International Publishing, 2016, pp. 102–118.
[20] M. Johnson-Roberson, C. Barto, R. Mehta, S. N. Sridhar, and R. Vasudevan, “Driving in the matrix: Can virtual worlds replace human-generated annotations for real world tasks?” CoRR, vol. abs/1610.01983, 2016. [Online]. Available: http://arxiv.org/abs/1610.01983
[21] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “ImageNet Classification with Deep Convolutional Neural Networks,” in NIPS, 2012.
[22] M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado, A. Davis, J. Dean, M. Devin, S. Ghemawat, I. Goodfellow, A. Harp, G. Irving, M. Isard, Y. Jia, R. Jozefowicz, L. Kaiser, M. Kudlur, J. Levenberg, D. Man´e, R. Monga, S. Moore, D. Murray, C. Olah, M. Schuster, J. Shlens, B. Steiner, I. Sutskever, K. Talwar, P. Tucker, V. Vanhoucke, V. Vasudevan, F. Vi´egas, O. Vinyals, P. Warden, M. Wattenberg, M. Wicke, Y. Yu, and X. Zheng, “TensorFlow: Largescale machine learning on heterogeneous systems,” Google Technical Report, 2015.