【视觉SLAM:四、相机与图像】

news2025/1/4 0:37:21

相机模型

相机模型是计算机视觉中的重要内容，用于描述真实相机如何将三维世界投影到二维图像平面。以下从多个角度介绍常见的相机模型。

针孔相机模型

针孔相机模型是最简单的相机模型，用数学公式描述从三维世界到二维图像平面的映射关系。核心公式如下： $s\begin{bmatrix}u\\v\\1\end{bmatrix}=\mathbf{K}\begin{bmatrix}\mathbf{R}&\mathbf{t}\end{bmatrix}\begin{bmatrix}X\\Y\\Z\\1\end{bmatrix}$

参数解释：
- (X,Y,Z) 是世界坐标系中的三维点。
- (u,v) 是图像坐标系中的像素坐标。
- R∈SO(3) 和 𝑡 描述相机的旋转和平移（即相机位姿）。
- K 是相机的内参矩阵，包含焦距和主点坐标。
- s 是尺度因子，表示物体在相机坐标系中的深度。
优点：
- 精确描述了相机的透视投影特性。
局限性：
- 忽略了真实相机中的畸变现象。

畸变模型

真实相机镜头存在一定的畸变，常见畸变包括：

径向畸变：由镜头曲率引起，导致直线变成弯曲。
表达公式： $\mathbf{p}_d=\mathbf{p}_u(1+k_1r^2+k_2r^4+k_3r^6)$
其中 𝑟 是未畸变点 $\mathbf{p}_u$ 到光轴的距离。
切向畸变：由于镜头与成像平面不完全平行引起。
- 表达公式：
  $x_d=x_u+[2p_1x_uy_u+p_2(r^2+2x_u^2)]$
  $y_d=y_u+[p_1(r^2+2y_u^2)+2p_2x_uy_u]$
  通过校正畸变，可以将畸变的图像点恢复到针孔相机模型中。

双目相机模型

双目相机系统由两个相机组成，用于通过视差恢复三维点的深度信息。

几何关系：
- 两个相机之间的相对位置和姿态由旋转矩阵
深度计算：
$Z=\frac{f\cdot b}{d}$
其中：
- 𝑍 是3D点的深度。
- 𝑓 是相机焦距。
- 𝑏 是基线长度（两个相机的距离）。
- 𝑑 是视差（两个相机对应点的像素差）。

双目相机常用于三维场景重建。

RGB-D相机模型

RGB-D相机结合了传统的RGB图像和深度信息，直接提供每个像素的深度值 𝑍。

深度值与3D点的计算：
$\begin{bmatrix}X\\Y\\Z\end{bmatrix}=Z\cdot\mathbf{K}^{-1}\begin{bmatrix}u\\v\\1\end{bmatrix}$
其中 (𝑢,𝑣) 是像素坐标，𝐾 是相机内参。
优点：
- 能直接获取场景深度，避免了双目相机的匹配误差。
常见设备：
- Kinect、Realsense、Lidar等。

图像

图像的基本定义

图像是对真实场景的二维采样，由像素组成，每个像素存储场景的亮度或颜色信息。
图像的基本形式：
- 灰度图像：每个像素存储亮度值。
- 彩色图像：每个像素存储RGB三个通道的颜色值。

图像坐标系

像素坐标系：以像素点为单位，左上角为原点，坐标为 (𝑢,𝑣)。
图像坐标系：以图像中心为原点，单位为像素。

计算机中的图像

图像的存储

在计算机中，图像以矩阵的形式存储：
$\mathbf{I}=\begin{bmatrix}I(0,0)&I(0,1)&\cdots&I(0,n)\\I(1,0)&I(1,1)&\cdots&I(1,n)\\\vdots&\vdots&\ddots&\vdots\\I(m,0)&I(m,1)&\cdots&I(m,n)\end{bmatrix}$