文章目录

什么是深度估计？
什么是视差
深度估计与三维重建
单目深度估计研究历程
单目深度估计方法
- 传统方法
- - 基于线索
  - - 线性透视
    - 聚焦/散焦度
    - 天气散射
    - 阴影
    - 纹理
    - 遮挡
    - 高度
    - 运动线索
    - - 基于物体自身运动
      - 基于摄像机的运动
  - 基于机器学习
  - - 参数学习方法
    - - 开创性工作
      - 改进
      - 加入语义信息
      - 条件随机场 (Conditional Random Field,CRF)
    - 非参数学习方法
    - - 第一个里程的工作
      - 进一步完善
      - 基于多帧
      - 其他非参数学习方法
- 深度学习方法
- - 基于有监督的深度学习方法
  - - 首次应用
    - 改进：多尺度网络
    - 深度卷积神经场
    - 深度残差网络
    - 利用分类思想
  - 基于无监督的深度学习方法
  - - 利用立体视图
    - 利用相对关系
    - 利用视频序列
    - 应对动态障碍物
    - - Struct2Depth
      - Depth in the Wild
      - Depth and motion learning
数据集
- KITTI
- NY U
- CityScapes
论文推荐
- CVPR 2021

什么是深度估计？

深度估计，就是获取图像中的场景里的每个点到相机的距离信息，这种距离信息组成的图称之为深度图 – Depth map

什么是视差

两张图像中相同的物体的像素坐标不同；
较近的物体的像素坐标差异较大，较远的物体的差异较小；
同一个世界坐标系下的点在不同图像中的像素坐标差异，就是视差；
不同图像之间的视差，通过相机参数、两个拍摄点之间的位置信息即可换算出物体和拍摄点之间的距离；
在这里插入图片描述

深度估计与三维重建

1、获取深度图以及尺度信息
深度图是三维重建的基础
可以通过激光/双目/相机姿态获取尺度
2、将像素坐标转换到世界坐标
通过内参矩阵、外参矩阵以及尺度关系，得到基于世界坐标系下的点云信息
3、三维重建
得到点云后，再将图像的纹理信息贴到点云上，完成三维重建

单目深度估计研究历程

在这里插入图片描述

单目深度估计方法

在这里插入图片描述

传统方法

基于线索

从图像本身的特征和线索计算图像的深度值。

常用的单日深度线索有：线性透视、聚焦/散焦、大气散射、阴影、纹理、遮挡、相对高度和运动线索。

线性透视

通过检测平行线，识别这些线的会聚点(消失点)来进行深度估计
当距离眼睛更远时，固定尺寸的物体将产生较小的视角
根据消失线和消失点的位置对深度进行适当的分配

在这里插入图片描述

聚焦/散焦度

在凸面镜所成的像中，物体只有处在离镜头特定的距离才能够被聚焦，在其他位置都会产生不同程度的模糊现象，模糊程度与其所处的距离有关。

例子：基于聚焦信息构造高阶统计量图，区分出图像中的前景区域和背景区域并对这两个区域进行深度分配。

在这里插入图片描述

天气散射

当光线通过大气层传播时，空气中的灰尘微粒对光线具有散射和吸收作用，远处物体相对于近处物体亮度、对比度和色彩饱和度较低，看起来不太清晰。

根据大气散射现象，大脑可以判断不同对比度的物体具有不同的深度。

例子: 通过在输入图像上添加雾面来模拟雾图像，并通过去雾算法中的透射估计方法估计深度图。

在这里插入图片描述

阴影

图像中物体表面阴影的变化可以反映物体的形状信息。

SFS(Shape from shading 阴影恢复形状): 利用图像的亮度和表面几何之间的关系，从灰度图像中恢复出物体的三维形状当物体表面的颜色和纹理不属于同一分布的时候，该方法就会失效。

在这里插入图片描述

纹理

根据表面纹理标记的提示来估计表面的形状。
距离一个物体越近时，越能清楚地看到物体表面的纹理细节，对于距离较远的物体看不清。
通常仅限于特定类型的图像。
在这里插入图片描述

遮挡

当一个物体遮挡住另一个物体时，它比被遮挡的物体距离观看者更近一般认为轮廓线连续平滑的物体是遮挡物体，即距离观察者更近。

例子：通过对遮挡的明确推理，恢复了场景中独立结构的深度排序。

在这里插入图片描述

高度

靠近图像底部的物体通常比图片顶部的物体更近，主要包含在户外和景观场景中要提取出这个深度线索，通常要识别出水平线，将图像分成从左边界到右边界的条纹。

例子：应用线追踪算法来恢复最优分割线，并进一步采用深度优化方法来提高最终深度图的质量。
在这里插入图片描述

运动线索

基于物体自身运动

利用运动视差近大远小的原理，通过对视频序列的前后帧进行点匹配求得运动视差·只适用于摄像机处于静止的情形，没有运动物体时失效

基于摄像机的运动

运动恢复结构(Structure From Motion,SFM):假定场景静止不变，仅存在摄像机的运动SFM 可以从图像序列中恢复出摄像机的外参和场景的深度信息
1.首先对相机标定。
2.提取图像特征，并计算相邻图像匹配的特征点。
3.根据对极几何得到相机位姿以及深度信息。
缺点
1.要求必须存在相机的运动，运动幅度不能较大。
2.当场景中存在运动物体时，对精度影响很大；速度相对较慢。
3.依赖相邻图像间的特征点匹配，不适用图像纹理较少或相机的运动幅度大的场景。

基于机器学习

将大量训练图像集和对应的深度图输入定义好的模型中，进行有监督的学习。
分为参数学习方法与非参数学习方法。

参数学习方法

参数学习方法是指能量函数中含有未知参数的方法，训练的过程是对这些参数的求解

开创性工作

2005年，斯坦福大学的Saxena等人利用**马尔科夫随机场(Markov RandomField，MRF)**学习输入图像特征与输出深度之间的映射关系。

利用图像中多尺度的纹理、模糊等深度线索，分别构建了高斯和拉普拉斯MRF。

对每个分割图像块的深度进行了建模，同时建立相邻块之间的深度关系。

在这里插入图片描述

改进

2007年，在最大化后验概率框架下，以超像素为单元，利用MRF 拟合特征与深度、不同尺度的深度之间的关系，进而实现对深度的估计。

(超像素:把一些具有相似特性的像索“聚合”起来，形成一个更具有代表性的大“元素”)

加入语义信息

通过引入场景中的附加信息，如语义假设和重复纹理等，能有效提高深度估计的精度。

2010年，Liu 等人对整个图像的不同区域按照语义标签进行分类。

采用更简单的特征向量作为监督学习的输入，充分利用不同类别之间的深度信息和几何约束。

将语义信息及对应的深度约束结合，构建MRF模型，优化模型得到场景的深度信息。

MRF通常很难进行精确地学习和推理，大多都采用近似计算，导致预测深度的准确率不高，且效率低。

条件随机场 (Conditional Random Field,CRF)

Cheng 等人首先利用遮挡和消失点这两种深度线索获取深度梯度图，构建基于像素的条件随机场。

Zhuo等人提出对深度图的分层表达进行建模，对超像素、区域和布局的不同层融合推理。

J等人研究了超像素标记和深度估计之间的内在关系，提出弹性条件随机场模型Elastic Conditional Random Field，ECRF)，利用它们的相互关联来加强彼此。

上述方法需假设RGB图像与深度之间的关系满足某种参数模型，而假设模型难以模拟真实世界的映射关系，预测精度有限

非参数学习方法

非参数学习方法，使用现有的数据集进行相似性检索推测深度。

一种数据驱动算法。

给定一幅测试图像，通过融合RGBD数据库中相似图像的深度得到。

在这里插入图片描述

第一个里程的工作

Konrad 等人提出采用最近邻搜索(k Nearest Neighbor，kNN)。

从RGBD训练库中选出与测试图像最相似的幅候选图像。

再将这 K 幅候选图像对应的深度图进行中值融合得到测试图像的深度。

进一步完善

Karsch等人采用变形步骤，将候选图像和深度与测试图像对齐，构建了【融合变形后的K幅候选深度图的】能量最小化方程。

基于多帧

利用视频中时间信息来获得时间上一致的深度估计。

Liu等人将单目深度估计视为离散-连续最优化问题。

通过非参数学习方式在数据库中检索相似的深度图，并利用遮挡信息构建目标函数进行深度推理。

其他非参数学习方法

Henera等人使用基于局部二进制模式的特征来估计相似的图像。采用自适应的方法进行融合得到最终深度。

在此基础上他们又提出了基于聚类的深度提取学习算法。

该方法首先根据结构的相似度将 RGBD 数据库进行聚类处理，分割成数个集合。对于给定的输入图像，先找到最相似的图像集计算出先验的深度图，之后采用基于分割的导向滤波对先验深度进行优化。

优点：非参数化方法不需要设计参数化的模型，同时也没有引入太多的场景假设。

缺点：当数据库中不存在与测试图像相似的图像时，很难恢复理想的深度图；依赖于图像检索，计算量大、耗时高，难以实际应用。

深度学习方法

基于有监督的深度学习方法

基于有监督学习的的单目深度估计方法，在模型训练时需要依赖真实深度依赖庞大的数据进行网络模型的训练，数据集一般包括单目图像和对应的深度真值。

基于有监督学习的单目深度估计方法中，网络模型的训练需要依赖真实深度值。真实深度值的获取成本高昂，且范围有限，需要精密的深度测量设备和移动平台采集的原始深度标签通常是稀疏点，不能与原图很好的匹配。

首次应用

2014年，Eigen等人使用Deep CNN估计单幅图像的深度，两个分支以RGB图片作为输入，第一个分支网络粗略预测整张图像的全局信息，第二个分支网络细化预测图像的局部信息原始图片输入粗网络后，得到全局尺度下场景深度的粗略估计将粗网络的输出传递给细网络，进行局部优化，添加细节信息先训练Coarse网络，再固定Coarse网络的训练参数，去训练Fine网络

一种全局+局部的策略，Coarse网络预测整体趋势，Fine网络局部调优。
在这里插入图片描述