视觉SLAM学习路线

导师让我了解SLAM，SLAM原本是比较小众的方向，最近自动驾驶火起来，做这个SLAM的人也多了，反过来也会推动机器人感知的发展。希望未来学成的时候，能赶上机器人大规模普及，就业一片蓝海。学SLAM方向跟motion planning科研都不好做，而且都很吃数学基础。学习难度的话，planning可能教程更多一点，SLAM相较于planning要小众一些，教程也相对较少，所以对《视觉SLAM十四讲》整理一些自己的理解，记录一下自己的学习路线。

文章目录

- 一、初识SLAM
- - 1、SLAM是什么？
  - - (1)数学基础篇(前六讲)
    - (2)实践应用篇(后八讲)
  - 2、小萝卜的例子
  - - (1)自主运动的两大基本问题:
    - (2)定位与建图=内外兼修
    - (3)相互关联
    - (4)怎样完成定位和建图？
    - (5)环境传感器的限制
    - (6)本体上传感器优点
    - (7)视觉SLAM是本书的主题，所以我们非常关心小萝卜的眼睛能够做些什么事。即如何用相机解决定位和建图的问题
    - (8)相机的特点
    - (9)相机分类
  - 3、经典视觉SLAM框架
  - - (1)传感器信息读取:在视觉SLAM中主要为相机图像信息的读取和预处理。
    - (2)前端视觉里程计(Visual Odometry, V0) 视觉里程计的任务是估计相邻图像间相机的运动，以及局部地图的样子。(V0又称为前端)
    - (3)回环检测(Loop Closure Detection)用于判断机器人是否到达过先前的位置。
    - (4)后端(非线性)优化(optimization) 。对不同时刻的视觉里程计测量的相机位姿及回环检测的信息进行优化，得到全局一-致的轨迹和地图。
    - (5)建图(Mapping) 。根据估计的轨迹，建立任务要求对应的地图。
  - 4、SLAM问题的数学表达
  - - (1)什么是运动?
    - (2)什么是观测?
    - (3)关于运动模型
    - (4)关于观测模型
    - (5)举个例子解释:
    - (6)这两个方程描述了最基本的SLAM问题：

一、初识SLAM

1、SLAM是什么？

SLAM (同时定位与地图构建)，是指搭载特定传感器的主体，在没有环境先验信息的情况下，在运动过程中建立环境的模型，同时SLAM (同时定位与地图构建)，是指搭载特定传感器的主体，在没有环境先验信息的情况下，在运动过程中建立环境的模型，同时估计自己的运动。如果这里的传感器是相机，那就称为视觉SLAM
如何使用《视觉SLAM十四讲》
注重理论和实践的结合、一讲一个主题(理论部分+实践部分)
全书由两部分组成:

(1)数学基础篇(前六讲)

①预备知识与SLAM概述(教材第1，2讲)
②三维空间的刚体运动(教材第3讲)
③李群与李代数(教材第4讲)
④相机模型与非线性优化(教材第5，6讲)

(2)实践应用篇(后八讲)

⑤特征点法视觉里程计(教材第7讲)
⑥直接法视觉里程计(教材第8讲)
⑦后端优化(教材第9，10讲)
⑧回环检测(教材第11讲)
⑨地图构建( 教材第12讲)
⑩工程实践(教材第13讲)
⑪SLAM的目前与未来(教材第14讲)

注：
学习本书会接触到–些必要的数学理论和许多编程知识,会用到Eigen、OpenCV、 PCL、 g2o、Ceres等库，需要掌握他们在Linux操作系统中的使用方法。

学习本书最好具备以下基础:
1.高等数学（积分、求导）、线性代数（矩阵的运算）、概率论（极大似然估计）
2.C++语言基础，经典的slam框架都是用c++写的
3. Linux基础（代码都是在Linux系统上运行的）

2、小萝卜的例子

(1)自主运动的两大基本问题:

①我在什么地方?——定位
②周围环境是什么样? ——建图

(2)定位与建图=内外兼修

定位侧重对自身的了解，建图侧重对外在的了解

(3)相互关联

准确的定位需要精确的地图
精确的地图来自准确的定位

(4)怎样完成定位和建图？

传感器：机器人感知外界环境的手段
传感器主要分为以下两类:
①携带于机器人本体上的传感器
例：机器人的轮式编码器、相机、激光传感器、惯性测量单元(IMU)等
②安装于环境之中的传感器
例：导轨、二维码标志等

(5)环境传感器的限制

例：GPS：需要能接收到卫星信号的环境
Marker、导轨：需要环境允许安装

(6)本体上传感器优点

相比之下，激光、相机等携带式传感器测量的通常都是一些间接的物理量而不是直接的位置数据，所以更加自由使用携带式传感器来完成SLAM也是我们重点关注的问题
使用携带式传感器来完成SLAM也是我们重点关注的问题

(7)视觉SLAM是本书的主题，所以我们非常关心小萝卜的眼睛能够做些什么事。即如何用相机解决定位和建图的问题

SLAM中使用的相机更加简单，以一定速率采集图像、形成视频

(8)相机的特点

以二维投影形式记录了三维世界的信息
该过程丢掉了一一个维度:距离(或深度)

(9)相机分类

单目相机Monocular
双目相机(立体相机) Stereo
深度相机RGB-D

其他全景、Event Camera

①单目相机(只使用一个摄像头的相机)
通过相机的运动形成视差，可以测量物体相对深度。
优点： 结构简单，成本低，便于标定和识别
缺点： 在单张图片里，无法确定一个物体的真实大小。
它可能是一个很大但很远的物体，也可能是一个很近很小的物体。即单目SLAM估计的轨迹和地图将与真实的轨迹和地图相差一个因子，也就是 尺度(scale) ，单凭图像无法确定这个真实尺度，所以称 尺度不确定性

②双目相机(由两个单目相机组成)
通过基线来估计每个像素的空间位置。** (类似于人眼) **
优点： 基线距离越大，能够测量的距离就越远;并且可以运用到室内和室外。
缺点： 配置与标定较为复杂，深度量程和精度受到双目基线与分辨率限制，计算非常消耗计算资源，需要GPU (图形处理器) /FPGA设备(现场可编程门阵列)加速用两部相机来定位。
深度相机(RGB-D)
通过红外结构光或ToF(time of fly) 的物理方法测量物体深度信息。

③深度相机(RGB-D)
通过红外结构光或ToF(time of fly) 的物理方法测量物体深度信息。
优点： 相比于双目相机可节省大量的计算资源。
缺点： 是测量范围窄，噪声大，视野小，易受日光干扰，无法测量透射材质等问题，主要用在室内，室外很难应用。深度相机主要用来三维成像，和距离的测量。