【立体视觉（三）】之张正友标定法原理

一、相机标定
二、参数求解
- 一）闭合解
- 二）极大似然解
- 三）考虑相机畸变
三、实验流程

此为个人学习笔记，在各处借鉴了不少好图好文（参考文献在文末），主要是对相关知识进行梳理，以期形成自己的体系。文字表述东拼西凑，符号公式手动输入，若有错误烦请指出。

一、相机标定

所谓标定（calibration），即是由大量观测值拟合参数模型的过程，且在此拟合的参数模型是已知的，所以应尽可能探索能便捷获取大量观测值的方案，如果观测值之间还满足一些其他的几何约束就更有助于求解具体单个参数值。
相机标定，目的是确定相机的内参矩阵 $K$ ，外参矩阵 $R 、 T$ 和畸变系数 $k_1,k_2,k_3,p_1,p_2$ 。

张氏标定法即提供了一种便捷获取大量观测值的的方案，同时观测值之间还满足一类明显的几何约束（即平面约束），可直接求解出内外参。其操作方式非常简单，只需要拍摄带有标定板图案的平面，即可完成相机标定，使标定难度极大降低，如果不追求高精度，打印一张棋盘格标定板图案粘贴到近似平的硬纸板上即可完成标定，加快了立体视觉的入门和普及，影响深远，是相机标定领域绝对的经典。
暂且先不考虑畸变系数，已知图像坐标 $p$ 和世界坐标 $P_w$ 之间通过内外参（投影矩阵）建立投影关系：

$\lambda {p}=K \begin{bmatrix} {R_{3\times3}}&{T_{3\times1}}\\ \end{bmatrix} \begin{bmatrix} {P_w}\\ {1}\\ \end{bmatrix}=M\begin{bmatrix} {P_w}\\ {1}\\ \end{bmatrix}$

用 $r_i$ 表示旋转矩阵 $R$ 的第 $i$ 列，并用 $t$ 代替 $T_{3\times1}$ ，假定模型平面在世界坐标系的 $W = 0$ 平面上（为符号统一，在这里的世界坐标系与之前表述一致，为 $P_w(U,V,W)$ ），则

$\lambda {p}=K \begin{bmatrix} r_1&r_2&r_3&t\\ \end{bmatrix} \begin{bmatrix} U\\V\\0\\1 \end{bmatrix}= K \begin{bmatrix} r_1&r_2&t\\ \end{bmatrix} \begin{bmatrix} U\\V\\1 \end{bmatrix}$

如前所述，世界坐标系平面上的点与其图像上点通过单应矩阵相关：

$\lambda {p}=HP$
此处， $p=[u,v,1]^T$ ， $P = [U, V, 1]$ ， $H=R[r_1,,r_2,t]$ 为 $3\times 3$ 矩阵。依然用 $h_i$ 来代表 $H$ 中的第 $i$ 列。有

$[h_1,h_2,h_3]=\Lambda K[r_1,r_2,t]$
其中 $\Lambda$ 是任意标量（ $\Lambda$ 的存在是因为齐次坐标的尺度不变性，也可以认为其就等于1，在这里就让它为1，后面不管它了）。 $r_1$ 和 $r_2$ 是旋转矩阵 $R$ 的列分量，是一对标准正交基。满足 $r_1^Tr_2=0,r_1^Tr_1=r_2^Tr_2=1$ 。联系上式：
$r_1=K^{-1}h_1\\r_2=K^{-1}h_2$
所以有：
$h_1^TK^{-T}K^{-1}h_2=0$ $h_1^TK^{-T}K^{-1}h_1=h_2^TK^{-T}K^{-1}h_2$

可以看出，单应矩阵 $H$ 和内参矩阵 $K$ 的元素之间满足两个线性方程约束。单应矩阵有 8 个自由度并且有 6 个外参（3 个用于旋转，3 个用于平移），我们只能获得对内参的 2 个约束。

二、参数求解

按论文结构，从解析解开始，然后是基于极大似然准则的非线性优化技术，最后考虑相机畸变。

一）闭合解

同样，用一个简单的矩阵替换上式中间的部分（常见操作），令
$B=K^{-T}K^{-1}=\begin{bmatrix} B_{11}&B_{12}&B_{13}\\B_{12}&B_{22}&B_{23}\\B_{13}&B_{23}&B_{33}\\ \end{bmatrix}$
具体地：
$B=\begin{bmatrix} \Large \frac{1}{f_x^2} & \Large -\frac{s}{f_x^2f_y} & \Large \frac{v_0s-u_0f_y}{f_x^2f_y}\\ \Large-\frac{s}{f_x^2f_y} &\Large \frac{s^2}{f_x^2f_y^2}+\frac{1}{f_y^2} &\Large -\frac{s(v_0s-u_0f_y}{f_x^2f_y^2)} -\frac{v_0}{f_y^2}\\ \Large \frac{v_0s-u_0f_y}{f_x^2f_y} & \Large -\frac{s(v_0s-u_0f_y)}{f_x^2f_y^2} -\frac{v_0}{f_y^2}& \Large\frac{(v_0s-u_0f_y)^2}{f_x^2f_y^2} +\frac{v_0^2}{f_y^2}+1\\ \end{bmatrix}$

上文已设 $H$ 的第 $i$ 个列向量为 $h_i=[h_{i1},h_{i2},h_{i3}]^T$ 。则有
$h_i^TBh_j=\begin{bmatrix}h_{i1}&h_{i2}&h_{i3}\end{bmatrix} \begin{bmatrix} B_{11}&B_{12}&B_{13}\\B_{12}&B_{22}&B_{23}\\B_{13}&B_{23}&B_{33}\\ \end{bmatrix} \begin{bmatrix}h_{j1}\\h_{j2}\\h_{j3}\end{bmatrix} \\=\begin{bmatrix}h_{i1}B_{11}+h_{i2}B_{12}+h_{i3}B_{13}&h_{i1}B_{12}+h_{i2}B_{22}+h_{i3}B_{23}&h_{i1}B_{13}+h_{i2}B_{23}+h_{i3}B_{33}\end{bmatrix}\begin{bmatrix}h_{j1}\\h_{j2}\\h_{j3}\end{bmatrix}$ $h_{i1}h_{j1}B_{11}+h_{i2}h_{j1}B_{12}+h_{i3}h_{j1}B_{13}+h_{i1}h_{j2}B_{12}+h_{i2}h_{j2}B_{22}+h_{i3}h_{j2}B_{23}+h_{i1}h_{j3}B_{13}+h_{i2}h_{j3}B_{23}+h_{i3}h_{j3}B_{33}$ $=\begin{bmatrix}h_{i1}h_{j1}&h_{i1}h_{j2}+h_{i2}h_{j1}&h_{i2}h_{j2}&h_{i3}h_{j1}+h_{i1}h_{j3}&h_{i3}h_{j2}+h_{i2}h_{j3}&h_{i3}h_{j3}\end{bmatrix}\begin{bmatrix}B_{11}\\B_{12} \\B_{22}\\B_{13} \\B_{23} \\B_{33}\end{bmatrix}$

令

$b=[B_{11} ,B_{12} ,B_{22},B_{13} ,B_{23} ,B_{33}]^T$ $v_{ij}=[h_{i1}h_{j1},h_{i1}h_{j2}+h_{i2}h_{j1},h_{i2}h_{j2},h_{i3}h_{j1}+h_{i1}h_{j3},h_{i3}h_{j2}+h_{i2}h_{j3},h_{i3}h_{j3}]^T$
则有：
$h_i^TBh_j=v_{ij}^Tb$

（注：原论文直接给出了上面这个式子，给我看楞了，才发现这个式子不是推导的，而是先计算再提取的系数，所以这里我选择推算一遍，有助于理解。）

$h_i^TBh_j=v_{ij}^Tb$
再联系以上单应矩阵 $H$ 和内参矩阵 $K$ 的元素之间满足两个线性方程约束，有

$\begin{bmatrix}v_{11}^T\\(v_{11}-v_{22})^T\end{bmatrix}b=0$
当相机在1个位姿下拍摄标定板图案后，经过角点的像素坐标提取，可得所有角点的世界坐标系和像素坐标系的对应关系，进而通过线性方程组的最小二乘解法求解当前位姿下的单应矩阵 $H$ ，可得以上公式。但其只有两行，用来求解6维的 $b$ 向量至少需要3个单应矩阵，即至少需要3张图片才能完成相机标定，总方程组可表达为：
$Vb = 0$

如果图片数量为 $n \geq 3$ ，通常可以获得 $b$ 的一个唯一解（由于尺度等价性，求出的 $b$ 的任意倍数仍是正确解）。
如果图片数量为 $n = 2$ ，可以施加无偏约束 $s = 0$ ，将 $[0, 1, 0, 0, 0, 0] b$ 作为附加方程添加到上式中。
如果图片数量为 $n = 2$ ，可以假设 $u_、v_0、s$ 已知（比如说都为0），将 $f_x、f_y$ 求解出来。

求解出 $b$ 后，就可以按如下方式计算所有相机内在参数（因为由 $b$ 组成的矩阵 $B$ 不严格满足 $B=K^{-T}K^{-1}$ ，而是存在一个任意的尺度因子 $\lambda$ （又来了）满足 $B=\lambda K^{-T}K^{-1}$ ）：

$v_0=\frac{B_{12}B_{13}-B_{11}B_{23}}{B_{11}B_{22}-B_{22}^2}$
$\lambda =B_{33}-\frac{B_{13}^2+v_0(B_{12}B_{13}-B_{11}B_{23})}{B_{11}}$
$f_x=\sqrt{\frac{\lambda }{B_{11}}}$
$f_y=\sqrt{\frac{\lambda B_{11}}{B_{11}B_{22}-B_{22}^2}}$

$s=-\frac{B_{12}f_x^2f_y}{\lambda}$
$u_0=\frac{sv_0}{f_x}-\frac{B_{13}f_x^2}{\lambda}$

当内参矩阵 $K$ 求解出后，每个位姿的外参矩阵 $R 、 T$ 可以进一步求出：
$r_1=\lambda K^{-1}h_1\\ r_2=\lambda K^{-1}h_2\\ r_3=r_1 \times r_2\\ t=\lambda K^{-1}h_3$
其中， $\lambda=\frac{1}{|| K^{-1}h_1 ||}=\frac{1}{|| K^{-1}h_2 ||}$ 。由于数据中存在噪声，因此计算出的矩阵 $R$ 通常不满足旋转矩阵的性质，可以通过奇异值分解来获得最佳旋转矩阵。

二）极大似然解

上述解是通过最小化一个没有物理意义的代数距离得到的，由于噪声的存在，其解并不会非常精确。我们可以通过最大似然估计法来获取更精确的解。
给定标定板平面的 $n$ 个图像，模型平面上有 $m$ 个点。假设图像点的噪声独立且同分布。可以通过最小化以下函数来获得极大似然估计：

$\sum\limits_{i=1}^{n}\sum\limits_{j=1}^{m}||p_{ij}-\hat p(K,R_i,t_i,P_j)||^2$

其中 $\hat p(K,R_i,t_i,P_j)$ 是空间点 $P_j$ 在图像 $i$ 上的投影点。旋转矩阵 $R$ 可由三个向量 $r$ 表示， $r$ 平行于旋转轴并且其大小（模长）等于旋转角。 $R$ 和 $r$ 通过 Rodrigues （罗德里格斯）公式联系起来。对上式最小化是一个非线性最小化问题，可用 Levenberg-Marquardt 算法求解。该类问题需要有一个较准确的初始值，可以用上文所提到的闭合解来作为初始值。

三）考虑相机畸变

在前文中有提到，畸变校正时一般会考虑3个径向畸变参数 $k_1、k_2、k_3$ 和2个切向畸变参数 $p_1、p_2$ ，在张氏标定中，只考虑了2个径向畸变参数 $k_1、k_2$ 。实际应用时会考虑更多项，原理相同。
精准的未畸变坐标在内外参未知时是无法计算的（观测值总是有误差的），但在估计内外参时又没有考虑畸变参数（咬尾巴了）。无所谓，概念论会出手：将闭合解得到的内外参作为初始值，求出近似理想坐标，然后根据畸变校正公式建立线性方程组来求解近似的 $k_1、k_2$ 作为以下极大似然估计的初始值：
$\sum\limits_{i=1}^{n}\sum\limits_{j=1}^{m}||p_{ij}-\hat p(K,k_1,k_2,R_i,t_i,P_j)||^2$
通过非线性求解方法来求解所有内外参数和畸变系数。
实际上，因为畸变系数值很小，所以直接将畸变系数的初值全部设置为0也是可以的，这就不需要解线性方程组了。

三、实验流程

总结一下张氏标定流程：

打印标定图案并粘贴至一个平面上，称之为标定板。
通过移动相机或移动标定板在不同的位姿拍摄多张标定板图像（图像数>=3）。
在所有图像上检测特征点（角点或者圆心点）。
使用闭合解法求解所有内参外参。
通过非线性优化计算精确的内外参数和畸变系数（畸变系数初始值可通过畸变校正线性方程组求解或直接赋值为0）。

在这里插入图片描述

论文中使用的标定板

在这里插入图片描述

其他类型的标定板

纸上得来终觉浅，后续考虑上手实践一下。

参考：
[1] Zhang Z . A Flexible New Technique for Camera Calibration[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(11):1330-1334.
[2] 立体视觉入门指南（3）：相机标定之Zhang式标定法
[3] Calibration Patterns Explained