直接线性变换

Perspective-n-Point 是求解3D到2D点对运动的方法。它描述了已知n个3D空间点及其投影位置时，如何估计相机的位姿。
2D-2D的对极几何方法需要8个或8个以上的点对(以八点法为例)，且存在初始化、纯旋转和尺度的问题。然而，如果两张图像中的特征点的3D位置已知，那么最少只需3个点对(以及至少一个额外点验证结果)就可以估计相机运动。

已知一组3D点的位置，以及它们在某个相机中的投影位置，求该相机的位姿。这个问题也可以用于求解给定地图和图像时的相机状态问题。如果把3D点看成在另一个相机坐标系的点的话，也可以用来求解两个相机的相对运动问题，如果把3D点看做目标物体自身坐标系中的点的话，也可以用来求解目标物体相对相机的位姿。

考虑某个空间点 $P$ ，它的齐次坐标为 $\bm{P}=(X,Y,Z,1)^T$ 。在图像 $I_1$ 中，投影到特征点 $\bm{x}_1=(\bar{x}_1,\bar{y}_1,1)^T$ (以归一化平面齐次坐标表示)。此时，相机的位姿 $\bm{R},\bm{t}$ 是未知的。与单应矩阵的求解类似，我们定义增广矩阵 $\begin{array}{l|l}[\bm{R}&\bm{t}]\end{array}$ 为一个 $3\times4$ 的矩阵，包含了旋转与平移信息。
$s\begin{pmatrix}\bar{x}_1\\\bar{y}_1\\1\end{pmatrix}=\begin{array}{l|l}[\bm{R}&\bm{t}]\bm{P}\end{array} =\begin{pmatrix}t_1&t_2&t_3&t_4\\t_5&t_6&t_7&t_8\\t_9&t_{10}&t_{11}&t_{12}\end{pmatrix} \begin{pmatrix} X\\Y\\X\\1 \end{pmatrix}$
用最后一行把 $s$ 消去，得到两个约束：
$u_1=\dfrac{t_1 X+t_2 Y+t_3 Z +t_4}{t_9X+t_{10}Y+t_{11}Z+t_{12}}\\ v_1=\dfrac{t_5 X+t_6 Y+t_7 Z +t_8}{t_9X+t_{10}Y+t_{11}Z+t_{12}}$
为简化表示，定义 $\bm{T}$ 的行向量：
$\bm{t}_1=\begin{pmatrix}t_1,t_2,t_3,t_4\end{pmatrix}^T\\ \bm{t}_2=\begin{pmatrix}t_1,t_2,t_3,t_4\end{pmatrix}^T\\ \bm{t}_1=\begin{pmatrix}t_1,t_2,t_3,t_4\end{pmatrix}^T$
于是有
$\bm{t}_1^T\bm{P}-\bm{t}_3^T\bm{P}u_1=0\\ \bm{t}_2^T\bm{P}-\bm{t}_3^T\bm{P}v_1=0$
注意 $\bm{t}$ 是待求的变量，每个特征点提供了两个关于 $t$ 的线性约束。假设一共有 $N$ 个特征点，则可以列出如下线性方程组：
$\begin{pmatrix} \bm{P}_1^T&0&-u_1\bm{P}_1^T\\ 0&\bm{P}_1^T&-v_1\bm{P}_1^T\\ \vdots&\vdots&\vdots\\ \bm{P}_N^T&0&-u_N\bm{P}_N^T\\ 0&\bm{P}_N^T&-v_N\bm{P}_N^T \end{pmatrix} \begin{pmatrix} \bm{t}_1\\\bm{t}_2\\\bm{t}_3 \end{pmatrix} =0$
$\bm{t}$ 一共有12维，因此最少通过6对匹配点即可实现矩阵T的线性求解，这种方法称为DLT。当匹配点大于6对时，也可以使用SVD等方法对超定方程求最小二乘解。
在DLT求解中我们直接将 $\bm{T}$ 矩阵看成了12个未知数，忽略了它们之间的联系。因为旋转矩阵 $\bm{R}\in \rm SO(3)$ ，用DLT求出的解不一定满足该约束，它是一个一般矩阵。平移向量比较好办，它属于向量空间。对于旋转矩阵 $\bm{R}$ ，我们必须针对DLT估计的 $\bm{T}$ 左侧 $3\times 3$ 矩阵块，寻找一个最好的旋转矩阵对它进行近似。这可以由QR分解完成，也可以像这样来计算：
$\bm{R}\leftarrow (\bm{RR}^T)^{-\frac{1}{2}}\bm{R}$

在这里插入图片描述

最小化重投影误差求解PnP

前面说的线性方程，往往是先求相机位姿，再求空间点位置，非线性优化则是把它们看成优化变量，放在一起优化。
这是一种非常通用的求解方式，我可以用它对PnP和ICP给出的结果进行优化。这一类把相机和三维点放在一起进行最优化的问题，统称为Bundle Adjustment。

考虑n个三维空间点P及其投影p，我们希望计算相机的位姿 $\bm{R},\bm{t}$ ，它的李群表示为 $\bm{T}$ 。假设某空间点坐标为 $\bm{P}_i =[X_i ,Y_i ,Z_i ]^T$ ，其投影的像素坐标为 $\bm{q}_i =[u_i ,v_i ]^T$ 。
$s_i\begin{bmatrix}u_i\\v_i\\1\end{bmatrix} =\bm{KT}\begin{bmatrix}X_i\\Y_i\\Z_i\\1\end{bmatrix}$
写成矩阵形式：
$s_i\bm{q}_i=\bm{KTP}_i$
这个式子隐含了一次从齐次坐标到非齐次的转换，由于相机位姿未知及观测点的噪声，该等式存在一个误差。因此，我们把误差求和，构建最小二乘问题，然后寻找最好的相机位姿，使它最小化：
$\bm{T}^{\ast }=\arg \min _{\bm{T}}\dfrac{1}{2}\sum ^{n}_{i=1}\left\| \bm{u}_{i}-\dfrac{1}{s_{i}}\bm{KTP}_{i}\right\| _{2}^{2}$
该问题的误差项，是将3D点的投影位置与观测位置作差，所以称为重投影误差。用齐次坐标时，这个误差有3维。不过，由于 $\bm{u}$ 最后一维为1，该维度的误差一直为零，因而我们更多时使用非齐次坐标，于是误差只有2维了。我们通过特征匹配知道了 $p_1$ 和 $p_2$ 是同一个空间点 $P$ 的投影，但是不知道相机的位姿。在初始值中， $P$ 的计算投影 $\hat{p}_2$ 与实际的 $p_2$ 之间有一定的距离。于是我们调整相机的位姿，使得这个距离变小。不过，由于这个调整需要考虑很多个点，所以最后追求的效果是整体误差的缩小，而每个点的误差通常不会精确为零。

在这里插入图片描述
我们需要知道每个误差项关于优化变量的导数，也就是线性化
$e\left( x+\Delta x\right) \approx e\left( x\right) +J^{T}\Delta x$
当 $e$ 为像素坐标误差(2维)， $x$ 维相机位姿(6维)时， $J^T$ 将是一个 $2\times 6$ 的矩阵。
$P'=\left( TP\right) _{1:3}=\left[ X',Y',Z'\right] ^{T}$
那么，相机投影模型相对于 $P^{'}$ 为
$s u = K P^{'}$
展开：
$\begin{bmatrix} su \\ sv \\ s \end{bmatrix}=\begin{bmatrix} f_x & 0 & c_x \\ 0 & f_y & c_y \\ 0 & 0 & 1 \end{bmatrix}\begin{bmatrix} X' \\ Y' \\ Z' \end{bmatrix}$
利用第三行消去 $s$ (实际上就是 $P^{'}$ 的 $Z^{'}$ )，得
$u=f_{x}\dfrac{X'}{Z'}+c_{x} \\ v=f_{y}\dfrac{Y'}{Z'}+c_{y}$
在定义了中间变量后，我们对 $T$ 左乘扰动量 $\delta \xi$ ，然后考虑 $e$ 的变化关于扰动量的导数。利用链式法则，可以列写如下：
$\dfrac{\partial e}{\partial \delta \xi }=\lim _{\delta \xi \rightarrow 0}\dfrac{e\left( \delta \xi \oplus \xi \right) -e\left( \xi \right) }{\delta \xi }=\dfrac{\partial e}{\partial P'}\dfrac{\partial P'}{\partial \delta \xi }$
这里的 $\oplus$ 指李代数上的左乘扰动。第一项是误差关于投影点的导数，已列出了变量之的关，易得：
$\dfrac{\partial e}{\partial P'}=\dfrac{\partial \left[ u-\bar{u},v-\bar{v}\right] ^{T}}{\partial P'} =\begin{bmatrix} \dfrac{\partial u}{\partial X'} & \dfrac{\partial u}{\partial Y'} & \dfrac{\partial u}{\partial Z'} \\ \dfrac{\partial v}{\partial X'} & \dfrac{\partial v}{\partial Y'} & \dfrac{\partial v}{\partial Z'} \end{bmatrix} =\begin{bmatrix} \dfrac{f_{x}}{Z'} & 0 & -\dfrac{f_{x} X'}{Z'^{2}} \\ 0 & \dfrac{f_{y}}{Z'} & -\dfrac{f_{y}Y'}{Z'^{2}} \end{bmatrix}$
而第二项为变换后的点关于李代数的导数，得：
$\dfrac{\partial P'}{\partial \delta \xi }=\dfrac{\partial \left( TP\right)_{1:3} }{\partial \delta \xi }=\left( TP\right) ^{\odot}_{1:3}=\begin{bmatrix} I & -P'^{\wedge} \\ 0^{T} & 0^{T} \end{bmatrix}_{1:3}=\begin{bmatrix} I & -P'^{\wedge} \end{bmatrix}$
这两项相乘，得 $2\times 6$ 的雅可比矩阵:
$\dfrac{\partial e}{\partial \delta \xi }=\begin{bmatrix} \dfrac{f_{x}}{Z'} & 0 & -\dfrac{f_{x}X'}{Z'^2} & -\dfrac{f_{x}X'Y'}{Z'^2} & f_{x}+\dfrac{f_{x }X'^{2}}{Z'^{2}} & -\dfrac{f_x Y'}{Z'} \\ 0 & \dfrac{f_{y}}{Z'} & -\dfrac{f_x Y'}{Z'^2} & -f_{y}-\dfrac{f_{y}Y'^{2}}{Z'^2} & \dfrac{f_{x}X'Y'}{Z'^{2}} & \dfrac{f_{y}X'}{Z'} \end{bmatrix}$
这个雅可比矩阵描述了重投影误差关于相机位姿李代数的一阶变化关系。
除了优化位姿
$\dfrac{\partial e}{\partial P}=\dfrac{\partial e}{\partial P'}\dfrac{\partial P'}{\partial P} \\ \dfrac{\partial e}{\partial P}=\begin{bmatrix} \dfrac{f_{x}}{Z'} & 0 & -\dfrac{f_x X'}{Z'^2} \\ 0 & \dfrac{f_y}{Z'} & -\dfrac{f_yY'}{Z'^2} \end{bmatrix}R$