论文信息
题目:
MID-Fusion:Octree-based Object-Level Multi-Instance Dynamic SLAM
MID-Fusion:基于八叉树的对象级多实例动态SLAM
论文地址:
https://ieeexplore.ieee.org/abstract/document/8794371
发表期刊:
2019 International Conference on Robotics and Automation (ICRA)
标签
xxxx
摘要
摘要本文提出了一种新的基于对象级八叉树体表示的多实例动态RGB D SLAM系统。它可以在动态环境中提供鲁棒的摄像机跟踪,同时连续估计场景中ar二元物体的几何、语义和运动属性。对于每个传入的帧,进行实例分割,以检测目标,并使用几何和运动信息完善掩膜边界。同时,使用面向对象的跟踪方法估计每个现有运动目标的姿态,并在静态场景下鲁棒地跟踪相机姿态。基于估计的相机姿态和物体姿态,将分割的掩码与现有模型相关联,并将相应的颜色、深度、语义和前景物体概率增量融合到每个物体模型中。与现有方法相比,该系统是第一个从单个RGB-D相机生成对象级动态体数据地图的系统,可直接用于机器人任务。该方法可以在CPU上以2 ~ 3hz的速度运行,不包括实例分割部分。通过在合成和真实世界序列上进行定量和定性测试来证明其有效性。
内容简介
本文提出了第一个用于室内环境应用的对象级动态体数据地图,可以表示每个对象模型的自由空间和表面连通性。通过利用基于八叉树的结构进一步提高其存储效率。尽管显示了一些基于深度学习的有希望的结果,但大多数方法[,只是利用神经网络的预测,没有在地图融合中进行太多细化。本文通过将语义预测融合到对象模型中来集成和改进语义预测。本文的主要贡献分为四个主要部分。本文提出
1)第一个使用体表示的RGB-D多实例动态SLAM系统;
2)一种更鲁棒的跟踪方法,利用测量不确定性加权并被重新参数化以进行目标跟踪;
3)一种使用几何、光学和语义信息的集成分割;
4)在基于八叉树的对象模型中概率融合语义分布和前景对象概率。
图2显示了我们提出的系统的管道。该方法由分割、跟踪、融合和光线投射4部分组成。通过Mask R-CNN对每个输入的RGB-D图像进行处理以进行实例分割,然后进行几何边缘分割和运动残差跟踪以细化掩膜边界(第IV-D部分)。对于跟踪,首先对除人体掩模区域(Section IV-B)以外的所有顶点跟踪摄像机,然后从此姿态进行光线投射,以查找此帧中当前可见的对象。这也有助于将局部对象掩码与现有对象模型关联起来。评估每个物体的运动残差,以确定它是否在运动中,然后跟踪运动物体(第IV-C节),并针对静态世界(包括当前静态物体)改进相机姿态(第IV-B节)。利用相机和物体的估计姿态,深度和颜色信息,以及预测的语义和前景概率融合到目标模型中(第IV-E节)。可见物体的检测以及光线投射将在第四- f节中解释。
评价
论文标题:基于对象级八叉树体素表示的多实例动态RGB-D SLAM系统
方法:
使用对象级八叉树体素表示实现多实例动态RGB-D SLAM系统。
通过测量不确定性加权和重新参数化对象跟踪,实现更加稳健的跟踪方法。
集成利用几何、光度和语义信息的分割方法。
将语义分布和前景对象概率融合到八叉树对象模型中。
创新点:
提出了第一个使用体积表示的RGB-D多实例动态SLAM系统。
通过权重测量不确定性的方法,提高了跟踪的稳定性。
集成了几何、光度和语义信息的分割方法,使得分割更为准确。
将语义分布和前景对象概率融合到八叉树对象模型中,提高了地图表示的精度。
精炼总结:
这篇论文提出了一种基于八叉树体素表示的多实例动态SLAM方法。通过集成几何、光度和语义信息的分割方法,更加稳健的跟踪方法,以及将语义分布和前景对象概率融合到八叉树对象模型中,实现了在动态环境中对摄像机位姿的稳定跟踪和对场景中各个物体的连续估计。实验结果证明了该方法在室内环境中的有效性。
创新建议(结合动态场景下的SLAM问题):
结合深度学习方法,进一步提高动态对象检测和分割的准确性。
探索在户外环境中应用此方法,并对不同环境条件下的性能进行评估。
针对特定的动态场景(如人群聚集、交通繁忙等),优化算法以适应这些特殊情况。
将此方法与其他传感器(如激光雷达、IMU等)融合,以提高鲁棒性和准确性。
在建立地图的过程中,引入物体的运动模型,以预测动态物体在短时间内的运动,从而进一步提高SLAM系统的性能。
阅读总结
创新点很多,值得借鉴,本人表示没看懂