【计算摄像学】博资考

@TOC

本博客将覆盖的内容：

数字相机（Digital Camera）

小孔成像模型（pinhole imaging model）
如下图所示，物体反射的光线射向四面八方，直接使用传感器无法直接得到物体形貌。

小孔成像模型在传感器前放置一个pinhole/aperture，保证物体上某个点反射的光线只有一条能通过pinhole。最后在传感器上的像是反转并且缩放过的。缩放因子受物体到pinhole以及传感器到pinhole的距离（focal length）的影响。此外，如果增大pinhole的大小（diameter），则成像的模糊程度会发生变化，pinhole越大，像越模糊。

pinhole模型存在一个trade-off，小pinhole产生锐利的像但是信噪比低，大pinhole产生模糊的像但是信噪比高。
这里可以定义一个F-number： $F = f oc a ll e n g t h / p inh o l e d iam e t er$ , e.g., F/5.6。
薄透镜成像模型
关于薄透镜的两个假设：穿过透镜中心的光不会被影响，平行光束聚焦到焦平面上的一个点。此时的F-number被透镜的材料和形状决定。值得注意的是，在pinhole模型中，焦距是aperture到传感器的距离，在薄透镜成像模型中，焦距由透镜决定。
薄透镜的作图法：利用这两条假设，直接穿过中心的线不变，另一条未穿过中心的线做其穿过中心的平行线，这条平行线会与原来的未穿过中心的线相较于焦平面上某个点。由此作图完成。
几条性质：一侧点发出的光线汇聚在透镜另一侧，平行于透镜平面点发射的光线，汇聚在另一侧同一平面上。利用几何关系可以得到薄透镜公式： $1/ 物距 + 1/ 像距 = 1/ 焦距$ 。
薄透镜成像模型的优点：锐利的图像以及高信噪比，缺点是会产生离焦。

另一个参数：Field of view视场大小/视场角：
假设物距不变，通过薄透镜公式可知，焦距和像距变化趋势相同，如果焦距增大，像距也增大，则FOV减小；反之亦然。此外，FOV还决定于传感器大小。
透视关系
根据上图可知，物体在不同大小时，位于不同位置，最后的成像结果可能完全一样。
曝光控制
$Exposure=Time\times Irradiance \times Gain$ ，Time受到快门速度的控制（shutter speed），Irradiance受到光圈的控制，Gain受到ISO的控制。快门速度还和运动模糊有关。光圈大小控制进光量与景深（depth of field），景深代表聚焦区域前后能够清晰成像的范围，大光圈小景深，小光圈大景深。ISO代表传感器的敏感性，ISO太大会导致噪声放大。
相机内图像处理pipeline（In-camera Image signal processing ISP）：
模拟前端输入为模拟信号，输出为数字信号。包含：模拟放大（Gain控制，vignetting渐晕控制），模数转换（ADC），查找表（LUT，矫正非线性和失效的像素，非线性主要在过曝或者接近0有噪声的地方产生）
白平衡 white balance
人类视觉有色彩适应 chromatic adaptation，我们能够在不同的光源照射情况下正确地获取白色和其他颜色，但是相机无法实现这个自适应的过程。白平衡的目的是为了让相机在任何光线条件下都能准确地还原色彩，让白色在任何光照条件下都是白色，比如人眼自动调节看到的正常的光，但是被相机一拍发现颜色很奇怪。什么是色温：将黑体从绝对零度开始升温，当温度上升到一定程度之后，黑体开始辐射可见光，其光谱成分随着温度的上升逐步变化，由暖色调向冷色调变化。把黑体辐射一定色光的温度定为发射相同色光光源的色温。
手动白平衡：根据色温手动调。
自动白平衡 automatic white balancing AWB：
灰度世界法（grey world assumption）认为任一幅图像,当它有足够的色彩变化,则它的RGB分量的均值会趋于相等（即灰色）。以其中一个颜色为基准（Green），计算均值，然后把其他两个通道的均值也变换到这个均值。缺点：对于纯色场景，由于其颜色不够充足，灰度世界法就不适用了。
完全反射White world assumption 也是基于一个假说：一幅图像中某个像素点最亮，代表它对各个波段的光线都近乎完全反射，那么它的真实颜色应该是白色的。具体操作是找到每个通道的最大值，然后按照最大值比例进行缩放，如 $\times R$ 。
色彩滤波阵列去马赛克 color filter array CFA demosaic
对于不同位置处的像素位置使用不同的滤波器获得单色输出，在每个通道缺少的像素位置使用插值的方法（非自适应的方法和自适应检测的方法，因为涉及图像边缘的问题）获得三通道彩色图像。
常用的插值方法有：线性插值（averaging）容易产生色彩伪影。
去噪 denoising
噪声源：传感器噪声（光子噪声和暗噪声，暗噪声与温度有关，满足泊松分布），模拟前端中的放大器噪声（高斯加性噪声），模拟前端中模数转换器量化噪声（高斯加性噪声）。
去噪方法：均值滤波器、中值滤波器。
高动态范围成像 High dynamic range imaging
相机所能记录的光强范围有限，当超过能记录的最强光强之后，相机传感器会出现饱和的情况，如0-255之间，但是拍摄多张图像之后然后把值进行相加，则动态范围得到扩大，如四张不同曝光（快门速度，光圈大小，ISO）图片之和动态范围变成0-1020。但是这种方法在应用在动态场景中时，运动物体会产生鬼影（ghosting artifact）。
另一种方案是单图HDR imaging：单图产生的过曝或者欠曝的区域往往很大一片，所以导致这一片信息被丢失了。一种做法是在对每个像素施加不同的曝光，得到一张棋盘状的图像，但是每个区域总有合适曝光的像素，利用这一点来重建高动态范围图像（CFA上做手脚）。
色调映射 tonemapping
HDR imaging得到了高动态范围的图像，色调映射Tonemapping是显示这些图片的方法（显示器、相片所能表现的亮度范围不足以显示这些高动态区域，更加真实地显示图片的方法）。具体而言，把一个值映射到另一个值（0-1，0-255）
线性缩放 linear scaling：效果不好
设计特殊的曲线做tonemapping（low-frequency）：对于HDR数据，为了防止丢失颜色信息，只对强度做tonemapping（出现halo plague），并且这个过程只对低频成分进行，保留高频细节。低频成分的提取可以使用双边滤波（类似于高斯滤波HF=Orig-LF）。
探测边缘的方法：
sobel算法，可分离算法，等于梯度算子+模糊算法，分别计算x方向和y方向的边缘后，通过平方和开根的方式得到边缘。加上模糊算法是为了去除噪声的干扰。
一阶梯度算子（一阶1，0，-1）
比如在拉普拉斯算子提取边缘中（二阶梯度算子1，-2，1），先微分再卷积可以变成拉普拉斯算子和高斯算子先卷积后微分。
edge-aware filtering 双边滤波 bilateral filtering
目的是实现保留图像边缘细节的情况下模糊图像，滤波同时考虑空间位置以及像素值信息。即对于不同的图像内容做自适应地卷积核的替换。即周围像素和中心像素之间的值相差越大，则权重系数越低。
双边滤波包括空间域核和值域核，两个核相乘得到总体的核，两个核的数学形式类似，都类似于二维高斯分布。如下所示。使用双边滤波还可以用作增强图像，比如滤波后的图像是低频分量的图像，图像的边缘被保留，原图像减去改双边滤波后的图像得到边缘去除的图像，然后加回原图像即可避免图形边缘处产生光晕。
现代edge-aware filtering：局部拉普拉斯金字塔

图像处理

全景成像（Panoramic imaging）

全景：从各个方向看广阔区域的开阔视野。如何产生全景图像：方法一使用宽角度透镜，如鱼眼相机（180FOV），优点是从光学角度完成optically done，缺点是失真严重distortion，透镜很大。方法二：图像拼接 image stitching。
图像拼接：检测图像中的特征点，找到特征点对，使用特征点对找到图像之间的transformation参数，并把图像进行变换重叠，最后图像融合。
特征点：一个特征点可以与另一个特征点高概率正确匹配。invariance：缩放、旋转、仿射、照明和噪声不变，用于在相当大的仿射变换、视点变化等范围内进行鲁棒地匹配。
Harris corner detector 角点检测
角点即是图像边缘发生弯折大的拐点，角点与其他像素点不同的是，角点位置附近存在两个或以上的较大梯度变化。注意Harris检测器是旋转不变的，但是不是图像缩放不变的，这意味着不同的图像尺寸得到的角点是不同的。另一种检测特征点的方法叫：SIFT scale invariant feature transform。
图像变换 image transformation
动机 motivation：在找到特征点对后，我们需要分析如何利用这些特征点对进行图像变换，使得多张图像可以拼接融合成一张图像。
空间中图像是二维的（x，y），因此直观来看，图像之间的变换可以通过 $2\times 2$ 的矩阵来实现，基本的变换手段有：translation平移（两个参数），rotation旋转（一个参数），scaling缩放（两个参数），shear/skew倾斜（平行四边形化，两个参数），mirror镜像翻转（无参数），affine放射变换（包括前面所有），projective投影变换（ $3\times 3$ 的变换矩阵全是未知数）。依次进行这些变换可以合并变换矩阵。在这些基本变换手段中，绝大部分可以通过 $2\times 2$ 矩阵来表示，但是平移无法表示，因此需要引入homogeneous coordinates，其主要内涵是 $1]\equiv[x\times \tilde z, y\times tilde z, \tilde z]$ ，在三维空间中他们都是过 $(x, y, 1)$ 和原点的一条线，线上的点都是等价的。

投影变换本质上是把一个平面从一个点投影到另一个平面（线性变换），类似于成像过程（pinhole model），同时值得注意的是，虽然矩阵中看似包含9个未知量，但是只有8个自由参数，因为根据homogeneous coordinates可知投影变换前乘以任何常数，都是表示同一个点，因此可以消去一个参数（say $|\vec h|^2=1$ ）。 $\text{map:} [\tilde x_1, \tilde y_1, \tilde z_1] \rightarrow [\tilde x_2, \tilde y_2, \tilde z_2]$ 。此外，此时平行线不再一定保持平行。根据上述平面相互转换的特性可知，如果要使得这一过程是有效的，则需要所有的照片都是从一个点拍摄的（共享一个pinhole），或者拍摄的场景应该是一个平面或者这个场景足够远以至于可以被认为是一个平面。
由此可知，四个特征点对便足以求解上述的参数，得到两个图片之间的变换矩阵。通常来说，你有的特征点对数多于4，这些多余的对可以帮助我们得到更加鲁棒的解。下面这个方程组是一个overdeterminated 过定方程。我们的优化问题变成：$A \vec h = 0 $ such that $|\vec h|=1$ 。即最小二乘问题 least squares problem。最后通过定义损失函数，求导为零，得到特征值问题，通过求解最小的特征向量即可得到 $\vec h$ 。自此我们完成了图像之间的变换矩阵的求解。
除了上述的技术外，还存在一些辅助技术：dealing with the outliers（特征点匹配）, blending images（过度不平滑）。