深入研究矫正单应性矩阵用于立体相机在线自标定

文章：Dive Deeper into Rectifying Homography for Stereo Camera Online Self-Calibration

作者：Hongbo Zhao, Yikang Zhang, Qijun Chen,, and Rui Fan

编辑：点云PCL

欢迎各位加入知识星球，获取PDF论文，欢迎转发朋友圈。文章仅做学术分享，如有侵权联系删文。

公众号致力于点云处理，SLAM，三维视觉，高精地图等领域相关内容的干货分享，欢迎各位加入，有兴趣的可联系dianyunpcl@163.com。侵权或转载联系微信cloudpoint9527。

摘要

准确估计立体相机外参是确保立体匹配算法性能的关键。在先前的研究中，立体相机的在线自标定通常被形式化为专门的视觉测距问题，而未考虑立体矫正原理。本文首次深入探讨了矫正单应性的概念，它是我们新颖的立体相机在线自标定算法发展的基石，适用于仅有一对图像的情况。此外引入了一个简单而有效的解决方案，用于在立体视频序列存在的情况下全局最优的外参估计。此外强调使用三个欧拉角和三个平移向量分量进行性能量化的不切实际性。相反，我们引入了四个新的评估指标，用于量化外参估计的鲁棒性和准确性，适用于单对和多对情况。通过在各种实验设置下进行的室内外环境的大量实验证明了我们提出的算法的有效性。全面的评估结果表明，相对于基线算法，我们的算法表现更为优越。

主要贡献

本文通过在一个包含超过1万对来自室内和室外环境的真实立体图像的大规模数据集上进行广泛实验证明了我们提出的算法在不同外参参数条件下的有效性，同时还在两个公共数据集，KITTI 和Middlebury，在不同方向上进行扰动。展示了我们的算法相对于基线算法的卓越性能。总的来说，我们的创新贡献如下：

• 面向单对情况的基于矫正单应性的新型立体相机在线自标定算法；

• 针对存在多对立体图像的情况，提供了一个简单而有效的全局最优外参估计解决方案；

• 四个实用的评估指标，旨在全面量化立体相机在线自标定的性能；

• 在各种室内外环境中使用不同的实验设置进行的广泛实验。

内容概述

矫正单应性

"Rectifying homography"（矫正单应性）是立体视觉中的一个概念，用于对立体图像进行矫正，使其满足特定的几何关系。在双目视觉中，通过使用两个摄像机同时拍摄同一场景，图像中的物体可能呈现一定的透视畸变和几何差异。矫正单应性的目标是将左右相机的图像重新投影到一个共同的平面上，以便简化立体匹配和深度估计。这个平面通常是平行于摄像机的基线的平面。"Rectifying homography" 是一个齐次矩阵，它描述了左右相机图像之间的几何关系，使它们在矫正后满足平行的条件。通过将左右图像应用矫正单应性，可以使同一行的像素在两个图像中具有相同的纵坐标，从而简化了匹配问题。在立体视觉中，这种矫正对于提高立体匹配算法的效果和精度非常重要，因为它有助于消除图像中的透视畸变，使得匹配更加可靠和准确。

优化中的能量函数

"Energy function"（能量函数）在计算机视觉和优化问题中是一种常见的概念。在文中，特指用于描述问题优化目标的数学函数。对于"Energy function and its solution for single-pair cases"，这是指针对单一图像对的情况，用于描述某一问题的能量函数以及解决该函数的方法。在文中提到的问题是关于双目立体视觉中的相机标定或者图像矫正。能量函数通常包含一个表示目标的模型，以及一些参数，这些参数需要被调整以最小化或最大化该函数。在优化中，通过改变这些参数，可以达到最优解，使得能量函数取得最小或最大值。对于单一图像对的情况，通常存在一个能量函数，它与图像的特定几何关系和标定参数有关。解决这个能量函数的目标是找到能够使得该函数最小化或最大化的参数值，从而得到问题的最优解。

全局优化

在多对图像的情况下进行全局优化的步骤或方法。在文需要解决涉及多组图像的问题，这与局部优化的思想相对，局部优化只考虑在当前参数值附近的优化，而全局优化则考虑整个参数空间。在多对图像的情况下，可能存在更复杂的相机配置或者场景几何关系，因此需要对所有图像对的参数进行联合优化，以获得更为准确和鲁棒的结果。这包括对相机的外参（旋转矩阵和平移向量）等参数进行全局调整，使得整个系统的重建或者标定效果最佳。解决这样的问题通常需要使用更为复杂的数学和计算机视觉技术，包括全局优化算法、非线性优化方法等。这些方法的目标是通过考虑所有图像对之间的相互关系，找到一个全局最优解，以达到更好的整体性能。

实验

在我们的实验中使用了两台MindVision的MV-SUA202GC全局快门CMOS相机来收集数据，这些数据来自室内和室外环境。我们通过利用FPGA提供的20Hz同步信号，结合一个提供24V的外部电源，实现了相机硬件同步。将左侧相机安装在五个不同的视点（中间、顶部、底部、左侧和右侧视图）进行了全面评估我们算法性能的实验，如图1所示。

图1：左侧相机安装在五个不同视点的实验配置

使用了两个公共的立体匹配数据集，KITTI 和 Middlebury以进一步量化我们算法的性能，同样手动创建了四个额外的视点（顶部、底部、左侧和右侧视图），旋转角度为10度。我们的算法使用C++实现，使用了OpenCV、Sophus、Eigen和Ceres库。

在自己创建的大规模数据集上进行了定量实验，结果见表格 I 和图 2。

图 2：在我们创建的大规模数据集上，对比 [3] 和我们提出的算法。

我们的算法在多对情况下，尤其是在 t∗ 和 θ∗ 估计方面，表现出更高的准确性。对于KITTI 2015数据集的定量实验结果见表 II 和图 3，与上述室外实验一致。我们认为这可能是因为KITTI 2015数据集中的图像质量略高于我们的数据集，受运动模糊影响的情况较少，使得两个算法能够达到相对稳定的结果。由于移动车辆通常具有可以忽略的偏航角，除非它们转弯，旋转向量的估计相对稳定和准确。通过对我们的算法在我们创建的数据集和KITTI 2015数据集上的综合性能进行全面分析，我们相信我们的算法对图像质量不太敏感，即使在图像具有运动引起的模糊时，也能提供可行的解决方案。

图 3：在KITTI和Middlebury数据集上，[3] 和我们提出的算法的比较。

关于Middlebury数据集的实验结果进一步支持我们对算法在静态和动态环境中性能的观点。我们的算法将 eθ 和 et 平均降低了 35.62% 和 66.04%。我们获得的σθ 和σt与[3]得到的结果相当。

图 4：视差估计的定性实验结果：(a) 左图像；(b) 使用未校正的立体图像估计的视差图；(c) 使用基于Ling和Shen算法估计的外参数校正的立体图像估计的视差图；(d) 使用基于我们提出的算法估计的外参数校正的立体图像估计的视差图。

如图 4 所示，未校正的立体图像估计的视差图质量较差，而使用我们提出的算法自标定和校正后的立体图像估计的视差图在准确性上表现更好，错误区域更少，相较于基线算法[3]得到的视差图有明显的改善。

总结

本文提出了两个重要的算法贡献：(1) 一种基于单对情况的立体相机在线自标定算法，建立在立体校正原理之上；(2) 一种在多对立体图像可用时，用于全局优化外参数估计的高效且有效的算法。此外，本文引入了四个新的实用评估指标，用于量化外参数估计的稳健性和准确性，适用于单对和多对情况。通过在我们新创建的室内和室外数据集以及两个公共数据集上进行全面实验，我们证明了该算法明显优于最先进的算法。通过进一步优化算法效率，我们有信心将该算法整合到实际的立体视觉系统中，为自主机器人提供稳健的三维信息。

参考文献

[3] Y. Ling and S. Shen, “High-precision online markerless stereo extrinsiccalibration,” in 2016 IEEE/RSJ International Conference on IntelligentRobots and Systems (IROS). IEEE, 2016, pp. 1771–1778.

资源

自动驾驶及定位相关分享

【点云论文速读】基于激光雷达的里程计及3D点云地图中的定位方法

自动驾驶中基于光流的运动物体检测

基于语义分割的相机外参标定

综述：用于自动驾驶的全景鱼眼相机的理论模型和感知介绍

高速场景下自动驾驶车辆定位方法综述

Patchwork++：基于点云的快速、稳健的地面分割方法

PaGO-LOAM:基于地面优化的激光雷达里程计

多模态路沿检测与滤波方法

多个激光雷达同时校准、定位和建图的框架

动态的城市环境中杆状物的提取建图与长期定位