CVPR 2017|SfMLearner：单目视频中深度和姿态估计的无监督算法

news2026/2/11 16:07:32

🏆作者提出了一个单目相机的视频序列进行深度估计与运动估计，作者的方法是完全无监督的，端到端的学习，作者使用了单视角深度网络和多姿态网络，提出了一个图像（predict）与真实的下一帧（goundturth）计算loss，作为无监督的依据，实现无监督学习。使用KITTI数据集证明了他们的有效性：1.合成的深度图与监督学习的方法是可比的；2. 在可比较的输入设置下，姿势估计与已建立的SLAM系统相比性能优越

文章目录

- 原理分析
- 实施细节
- 限制条件

会议/期刊：CVPR2017

论文题目：《Unsupervised Learning of Depth and Ego-Motion from Video》

论文链接：Unsupervised Learning of Depth and Ego-Motion from Video (arxiv.org)

开源代码：tinghuiz/SfMLearner: An unsupervised learning framework for depth and ego-motion estimation from monocular videos (github.com)

原理分析

SfMLearner算法的原理：

利用Depth CNN对当前图像进行深度估计，得到当前图像的深度图
将相邻帧（包括当前帧、上一帧、下一帧）输入Pose CNN，得到旋转矩阵R和平移矩阵T，预测相机的位姿变化
将1、2得到的当前深度图和相邻帧对的R、T矩阵，计算出当前帧和下一帧的映射关系，然后将当前帧warp到下一帧

深度学习论文中的warp是指什么？
warp就是将一个图像上的点变换到另一张图像上
最后将warp出来的图像（predict）与真实的下一帧（goundturth）计算loss，作为无监督的依据，实现无监督学习

实施细节

将当前帧 $𝐼_𝑡$ 输入到 Depth CNN 并预测出当前帧的深度图 $D_t$
将其与邻近帧 $𝐼_{𝑡−1}$ 和 $𝐼_{𝑡+1}$ 组成邻近帧对 { $𝐼_𝑡 , 𝐼_{𝑡−1}$ } 和 { $𝐼_𝑡 , 𝐼_{𝑡+1}$ } 分别输入到 Pose CNN，预测出六个自由度的帧间位姿变化（ $r_x,r_y,r_z,t_x,t_y,t_z$ ）。可以得到旋转矩阵 𝑹 和平移矩阵 𝒕。

其中 R 为 3*3 的旋转矩阵，𝑡 = $𝑡_𝑥 , 𝑡_𝑦 , 𝑡_𝑧 ]$ ，𝑹 和 𝒕 合成为一个 4 *4 位姿变化矩阵 $𝑇_{𝑡→𝑠}$
$T=\left|\begin{array}{ll} \boldsymbol{R} & \boldsymbol{t} \\ \mathbf{0}^{T} & 1 \end{array}\right|{\color{Red} }$
现在令 $𝑝_𝑡$ 为当前帧齐次像素坐标系下的坐标， $𝑝_𝑠$ 为邻近帧齐次像素坐标系下的坐标，根据 CNN 预测出的当前帧深度图 $𝑫_𝑡$ 和帧间位姿变化矩阵 $𝑻_{𝑡→𝑠}$ ，可以得到 $𝐼_𝑡 , 𝐼_𝑠$ 帧间映射关系：
$p_{s} \sim \boldsymbol{K} \boldsymbol{T}_{t \rightarrow s} \boldsymbol{D}_{t}\left(p_{t}\right) \boldsymbol{K}^{-1} p_{t}{\color{Purple} }$
其中𝑲 为相机内参矩阵，在本文实验中相机内参矩阵 𝑲 是已知的。下面对该映射关系公式进行分析

当前帧的像素坐标系下坐标为 $p_t$ ，首先要将坐标从像素坐标系转换到成像坐标系，成像坐标系： $𝑝_𝑡 ’$ ∼ $𝑲^{−1}𝑝_𝑡$ ,然后要将坐标从成像坐标系转换成相机坐标系，相机坐标系： $𝑝_𝑡 ’’ ∼ 𝑫_𝑡 (𝑝_𝑡 )𝑝_𝑡 ’$ ，即 $𝑝_𝑡 ’’ ∼ 𝑫_𝑡 (𝑝_𝑡 )𝑲^{−1}𝑝_𝑡$ ；此时坐标是三维坐标，左乘位姿变化坐标就可以得到变换后的三维坐标： $𝑝_𝑠 ’ = 𝑻_{𝑡→𝑠}𝑝_𝑡 ’’$ ；最后将变换后的三维坐标从相机坐标系转换到像素坐标系： $𝑝_𝑠 ∼ 𝑲𝑝_𝑠 ’$ ，即：
$p_{s} \sim \boldsymbol{K} \boldsymbol{T}_{t \rightarrow s} \boldsymbol{D}_{t}\left(p_{t}\right) \boldsymbol{K}^{-1} p_{t}$

参考链接：https://blog.csdn.net/qq_46058802/article/details/126227358

像素坐标系：像素坐标系的原点在左上角，并且单位为像素。比如一张224*224的图片，它的原点就在左上角的地方，然后x轴长224，y轴长224

成像坐标系：图像坐标系的坐标原点是成像平面的中心。例如：红色圈出来的区域，即是图像坐标系，红色的原点，可以记为图像坐标系的原点

相机坐标系：下图红色坐标轴表示的，即是一个相机坐标。与世界坐标非常像，只是世界坐标的原点是固定的，而相机坐标的原点，可以是任意的相机位置

😎世界坐标、相机坐标、图像坐标和像素坐标的关系：
最后，得到了帧间的像素级映射关系后，我们就可以像光流一样进行帧间的 warp 操作

图中当前帧 $𝐼_𝑡$ 上的像素点 $𝑝_𝑡$ 可以根据预测出的深度图和位姿变化矩阵，映射到邻近帧 $𝐼_𝑠$ 上的 $𝑝_𝑠$ 点。该映射后的点不一定会刚好映射到 $𝐼_𝑠$ 的像素点上，而是大概率如图中一样，映射到由 $𝐼_𝑠$ 上的 $𝑝^{𝑡𝑙}_𝑠$ , $𝑝^{𝑡𝑟}_𝑠$ , $𝑝^{𝑏𝑙} _𝑠$ , $𝑝^{𝑏𝑟}_𝑠$ 四个像素点组成的方格里。因此这里和 DFF 的 warp 操作一样，要用双线性插值算法，求出 $𝑝_𝑠$ 的值，再将此值返回给当前帧 $𝐼_𝑡$ 的像素点 $𝑝_𝑡$ ，从而完成 warp 操作

限制条件

图片中没有运动的对象，场景是静态的
目标视图和源视图之间没有遮挡
表面是朗伯型的，使得光一致性误差是有意义的

朗伯面是指在一个固定的照明角度下从所有视场方向上观测都具有相同亮度的表面，也就是反射亮度是一个常数。理想朗伯面是物体表面对入射光进行完全的反射，吸收率为0

为了提高对第一点因素（图片中没有运动的对象，场景是静态的）的抗性，作者额外训练了一个解释模型。输出一个像素级的粗糙蒙版（掩码），用来过滤掉会运动的物体，该 mask 用于 loss 计算的时候，对运动的物体赋予一个较小的权重，对背景区域赋予一个较大的权重，以实现让网络自动屏蔽掉对场景变换估计有干扰的区域

在下图中，Pose CNN和解释模型共享前面的解码器流程，然后分别扩展到预测6-DOF相对姿势和多尺度可解释性掩码两个分支网络。经过红色网络的即是解释模型