主成分分析法

1. 基础知识
- 1.1 向量
- - 1.1.1 样本均值
  - 1.1.2 向量投影
- 1.2 矩阵
- - 1.2.1 矩阵微分
  - 1.2.2 矩阵特征值和特征向量
  - - 1.2.2.1 特征值和特征向量的几何意义
    - 1.2.2.2 特征向量与矩阵变换的关系
    - 1.2.2.3 特征值与矩阵的迹
- 1.3 Lagrange乘子法
- - 1.3.1 等式约束优化问题
2. 主成分分析法
- 2.1 建模过程
- 2.2 选择维数

1. 基础知识

1.1 向量

1.1.1 样本均值

给定一组样本 $\vec{x}_1，\vec{x}_2，\cdots，\vec{x}_m$ ，则样本均值为
$\overline{\vec{x}} = \frac{\sum_{i=1}^{m}\vec{x}_i}{m}$

1.1.2 向量投影

利用内积的定义，即 $<\vec{a}，\vec{e}> = |\vec{a}||\vec{e}|\cos{\alpha}$ ，计算向量的投影：
$|\vec{a}|\cos{\alpha} = \vec{a}^T\frac{\vec{e}}{|\vec{e}|}$

1.2 矩阵

1.2.1 矩阵微分

        给定一个向量 $\vec{x} = \begin{bmatrix}x_1 \\ x_2 \\ \vdots\\ x_d\end{bmatrix}$ ，函数 $\R^d \rightarrow \R$ ，那么
$\nabla_{\vec{x}}f = \frac{\partial f}{\partial \vec{x}} = \begin{bmatrix} \frac{\partial f}{\partial x_1} \\ \frac{\partial f}{\partial x_2} \\ \vdots \\ \frac{\partial f}{\partial x_d} \end{bmatrix}$
我们称 $\nabla_{\vec{x}}f$ 为 $f$ 对 $\vec{x}$ 的微分。
        例 1.3.1 对 $f(\vec{e}) = \vec{e}^T\vec{e}$ 求微分。
解：
$f(\vec{e}) = \vec{e}^T\vec{e}=e_1^2 + e_2^2 + \cdots + e_d^2$
那么
$\begin{align*} \frac{\partial f}{\partial \vec{e}} = \begin{bmatrix} \frac{\partial f}{\partial e_1} \\ \frac{\partial f}{\partial e_2} \\ \vdots \\ \frac{\partial f}{\partial e_d} \end{bmatrix} = 2 \begin{bmatrix} e_1 \\ e_2 \\ \vdots \\ e_d \end{bmatrix} = 2\vec{e} \end{align*}$
        例 1.3.2 设 $\begin{bmatrix}a_{11} & a_{12} \\a_{21} & a_{22} \end{bmatrix}$ ，对 $f(\vec{e}) = \vec{e}^TA\vec{e}$ 求微分。
解：
$\vec{e}^TA\vec{e} = a_{11}e_1^2 + a_{12}e_2e_1 + a_{21}e_1e_2 + a_{22}e_2^2$
那么
$\begin{align*} \frac{\partial f}{\partial \vec{e}} = \begin{bmatrix} \frac{\partial f}{\partial e_1} \\ \frac{\partial f}{\partial e_2} \end{bmatrix} = \begin{bmatrix} 2a_{11}e_1 + a_{12}e_2 + a_{21}e_2 \\ a_{12}e_1 + a_{21}e_1 + 2a_{22}e_2 \end{bmatrix} = \begin{bmatrix} 2a_{11} & (a_{12} + a_{21}) \\ (a_{21} + a_{12}) & 2a_{22} \end{bmatrix} \begin{bmatrix} e_1 \\ e_2 \end{bmatrix} =(A + A^T)\vec{e} \end{align*}$
注意：将矩阵 A 推广到 $\times n$ 仍然成立。

1.2.2 矩阵特征值和特征向量

当 $A$ 是一个方阵，一个向量 $x$ 被 $A$ 相乘的结果和偶尔被一个数 $\lambda$ 相乘的结果，恰好相等，即
$A\vec{x} = \lambda\vec{x}$
那么向量 $x$ 就称为 $A$ 的特征向量， $\lambda$ 称为 $A$ 的特征值。

1.2.2.1 特征值和特征向量的几何意义

方阵乘以一个向量的结果仍是一个同维向量，矩阵乘法对应一个变换，把一个向量变成同维度的另一个向量。在这个变换过程中，向量只会发生旋转、伸缩或镜像的变化。矩阵不同，向量的变化结果不同。如果矩阵对某一个向量发生伸缩变换，不对这些向量产生旋转效果，那么这些向量就是这个矩阵的特征向量，伸缩比例就是特征值。如果伸缩的比例值是负值，原向量的方向改变为反方向，原向量仍然是这个矩阵的特征向量。
例如，设矩阵 $A$ 和两个向量 $\vec{a} = \begin{bmatrix}-1 \\ 1\end{bmatrix}$ ， $\vec{b} = \begin{bmatrix}2 \\ 1\end{bmatrix}$ ，那么矩阵对两个向量的变换结果为 $\vec{a}^{'}=A\vec{a} = \begin{bmatrix}-5 \\ -1\end{bmatrix}$ ， $\vec{b}^{'}=A\vec{b} = \begin{bmatrix}4 \\ 2\end{bmatrix}$ ，几何图形下图所示。

显然，只有向量 $\vec{b}$ 被矩阵 $A$ 同方向拉长了2倍，即 $A\vec{b} = \lambda\vec{b}$ ，因此向量 $\vec{b}$ 是矩阵 $A$ 的特征向量，特征值为2。
对于矩阵 $A$ ，大多数向量不满足方程 $A\vec{a} = \lambda\vec{a}$ 。因为当向量 $\vec{a}$ 被矩阵相乘时几乎都将改变 $\vec{a}$ 的方向，因为 $A\vec{a}$ 与 $\vec{a}$ 常常不是倍数关系。

1.2.2.2 特征向量与矩阵变换的关系

1.2.2.3 特征值与矩阵的迹

1.3 Lagrange乘子法

求解最优化问题的第一个一般性的分析方法是Fermat提出的，他给出了无约束优化问题的极值点应满足的必要条件。
定理 1.1 (Fermat定理) 设 $f(\pmb{x})$ 为一个 $n$ 元函数， $\pmb{x}=(x_1，x_2，\cdots，x_n)^T \in A \subseteq{\mathbb{R}^n}$ ，如果 $\pmb{x}^*$ 是函数 $f$ 的一个极值点，且函数在 $\pmb{x}^*$ 处连续可微，则在 $\pmb{x}^*$ 上有
$f_{\pmb{x}}^{'}(\pmb{x}^*) = 0 \tag{1-1}$
分析：该定理证明可以使用反证法，首先假设 $\pmb{x}^*$ 是局部极小值，但梯度 $f_{\pmb{x}}^{'}(\pmb{x}^*) \neq 0$ ，如果能找到一个方向 $\pmb{d}$ ，使得在这个方向上，函数值是下降。很显然，函数在负梯度方向是下降的，那么我们就证明了 $\pmb{x}^*$ 不是局部极小值。

证明：
        假定 $f_{\pmb{x}}^{'}(\pmb{x}^*) \neq 0$ ，则 $\exists{\pmb{d}} \in \R^n$ ，使得 $\pmb{d}^Tf_{\pmb{x}}^{'}(\pmb{x}^*) < 0$ ，例如， $\pmb{d} = -f_{\pmb{x}}^{'}(\pmb{x}^*)$ 。由 $f_{\pmb{x}}^{'}(\pmb{x})$ 的连续性可知， $\exists{\delta > 0}$ ，使得
$\pmb{d}^Tf_{\pmb{x}}^{'}(\pmb{x^* + \alpha{\pmb{d}}}) < 0，\alpha \in (0，\delta]$
由中值定理可知，对 $\forall \alpha_1 \in (0，\delta]$ ， $\exists \alpha \in (0，\alpha_1)$ ，使
$f(\pmb{x}^* + \alpha_1\pmb{d}) = f(x^*) + \alpha_1\pmb{d}^Tf_{\pmb{x}}^{'}(\pmb{x^* + \alpha{\pmb{d}}})$
因此， $f(\pmb{x}^* + \alpha_1\pmb{d}) < f(\pmb{x}^*)$ ，即 $\pmb{x}^*$ 不是 $f(\pmb{x})$ 的局部极小值点，与原命题矛盾。
        这个定理给出了局部最优解的必要条件，运用这个定理须求解 $n$ 个联立的方程：
$\frac{\partial{f}}{\partial{x_i}} = 0，i=1,2,\dots,n$
要求得全局最优解，应将所得的各极小值或极大值与函数奇异点及边界点的值进行比较，取其最小或最大值对应的 $\pmb{x}$ 作为全局最优解。
        定理 1.2 (Lagrange中值定理)  若函数 $f$ 满足如下条件：
        (i) $f$ 在闭区间 $[a ， b]$ 上连续；
        (ii) $f$ 在开区间 $(a ， b)$ 上可导，
则在 $(a ， b)$ 上至少存在一点 $\xi$ ，使得
$f^{'}(\xi) = \frac{f(b) - f(a)}{b - a}$

1.3.1 等式约束优化问题

        Lagrange 给出了在等式约束下求解函数极值点的分析方法原理，它利用数学上的概念与技巧，将等式约束下的条件极值问题转化为无约束的极值问题。条件极值问题可以描述为：
$\begin{cases} f(\pmb{x}) \\ s.t.\quad h_k(\pmb{x}) = 0, \quad k=1,2,\dots,l \end{cases}$
上述条件极值问题可以归结为求下面的辅助函数的极值：
$L(\pmb{x}, \lambda_0, \pmb{\lambda}) = \lambda_0f(\pmb{x}) + \sum_{k=1}^l{\lambda_k}h_k(\pmb{x}) \tag{1-2}$
式中， $L(\cdot)$ 称为 Lagrange 函数， $\lambda_i(i=0,1,\cdots,l)$ 称为 Lagrange 乘子。
        定理 1.3 (Lagrange定理)  对于上述优化问题 (1-2)，令 $\pmb{x} = (x_1,x_2,\cdots,x_n)^T \in \mathbb{R}^n$ ，设函数 $f(\pmb{x})$ ， $h_k(\pmb{x})（k=1,\cdots,l）$ 在点 $\pmb{x}^*$ 处可微。若 $\pmb{x}^*$ 是 $f(\pmb{x})$ 的一个条件极值点，则存在不全为零的 Lagrange 乘子 $\lambda_0$ 和 $\pmb{\lambda^*}=(\lambda_1^*，\lambda_2^*，\cdots，\lambda_l^*)$ ，使得下列条件成立：
$L_{x_i}^{'}(\pmb{x}^*, \lambda_0^*, \pmb{\lambda}^*) = 0，i=1，2，\cdots，n \tag{1-3}$
$L_{\lambda_i}^{'}(\pmb{x}^*, \lambda_0^*, \pmb{\lambda}^*) = 0，i=1，2，\cdots，l \tag{1-4}$
为了使 $\lambda_0 \neq 0$ ，充要条件是 $l$ 个矢量
$\frac{\partial{h_1}}{\pmb{x}}，\frac{\partial{h_2}}{\pmb{x}}，\cdots，\frac{\partial{h_l}}{\pmb{x}}$
在点 $f(\pmb{x})$ 上是线性无关的。
        由式(1-3)可以产生 $n$ 个新方程，式(1-4)可以产生 $l$ 个方程，显然运用上述定理，需要求解含 $n + l + 1$ 个未知数的方程。
        在 $\lambda_0 \neq 0$ 下，不妨取 $\lambda_0 = 1$ ，这相当于其余的Lagrange乘子都要乘以一个银子，这不影响问题的解，在这种情况下，问题变为求解下面 $n + l$ 个方程的方程组。
        例 1.4.1 假设有以下约束优化问题：
$\min_{x, y}{f(x, y) = x^2 + y^2} \\ s.t.\quad g(x, y) = x + y -1 = 0$

图1-1 等式约束优化问题的几何表示

        从图1-2可以看出，目标函数和条件等式约束在极值点处梯度共线，即 $\nabla{f(x)} = \lambda{\nabla{g(x)}}$ 。
解：
        目标函数梯度为：
$\nabla{f(x, y)} = (\frac{\partial{f}}{\partial{x}}，\frac{\partial{f}}{\partial{y}}) = (2x，2y)$
        约束条件梯度为：
$\nabla{g(x, y)} = (\frac{\partial{g}}{\partial{x}}，\frac{\partial{g}}{\partial{y}}) = (1，1)$
        由于目标函数梯度与约束条件梯度在极值点处共线，则
$\begin{cases} 2x = \lambda \\ 2y = \lambda \\ x + y -1 = 0 \\ \end{cases}$
        通过代入法可得，该约束函数的极值点在(0.5，0.5)。

2. 主成分分析法

在数据分析中，降维方法扮演着重要角色。我们对所有降维方法的期望是，将原始空间中的数据有效地转换为低维空间，同时实现两个主要目标：首先，降维后的样本点应尽量避免重叠，以确保最大可分性；其次，原始样本所包含的信息应尽量减少损失，以维持较好的重构性。
在众多降维方法中，主成分分析（principal component analysis，PCA）是一种应用非常广泛的降维技术。该方法由英国数学家卡尔 $\cdot$ 在1901年创造，通过降低数据维度和相关性，来简化数据集。

2.1 建模过程

假设样本集 $\{\vec{x_1}, \vec{x_2}, \cdots, \vec{x_n}\}$ ，每个样本 $\vec{x_i}$ 都是 $d$ 维向量。若要将 $d$ 维向量降维 $r$ 向量，从矩阵的角度理解，就是将矩阵从 $\times d$ 转换为 $\times r$ 型，并且使转换后的矩阵尽可能保留原矩阵的信息。下面我们将使用主成分分析法对数据集进行降维，具体步骤如下：

数据中心化，就是将样本的中心移至坐标原点，以便后续计算；
$\overline{\pmb{x}} = \frac{1}{n}\sum_{i=1}^{n}\vec{x_i} \\ \vec{z_i} = \vec{x_i} - \overline{x}$
其中， $\overline{x}$ 为样本均值； $\vec{z_i}$ 为中心化后的样本，中心化过后的样本均值为 $\vec{0}$ 。
计算样本 $\vec{z_i}$ 在某个单位向量 $\vec{e}$ 的投影，即
$\vec{y_i} = \vec{z_i}^T\vec{e}$
其中， $\vec{y_i}$ 为投影后的样本。
为了避免向量 $\vec{y_i}$ 重叠，通常选择波动性最大的单位向量 $\vec{e}$ 投影。在统计学习中，一般使用方差衡量样本的波动性。
$\max_{\vec{e}} D(\vec{e}) = \frac{1}{n}\sum_{i=1}^{n}||\vec{z_i}^T\vec{e} - \overline{y}||^2 \tag{2-1}$
其中， $\overline{y}$ 投影后样本均值。
又因为
$\overline{\pmb{y}} = \frac{1}{n}\sum_{i=1}^{n}\vec{z_i}^T\vec{e} = (\frac{1}{n}\sum_{i=1}^{n}\vec{z_i}^T)\vec{e} =\vec{0}$
则式 2-1 可化简为
$D(\vec{e}) = \frac{1}{n}\sum_{i=1}^{n}(\vec{z_i}^T\vec{e})^T(\vec{z_i}^T\vec{e}) = \vec{e}^T(\frac{1}{n}\sum_{i=1}^{n}\vec{z_i}\vec{z_i}^T)\vec{e} \tag{2-2}$
其中， $\frac{1}{n}\sum_{i=1}^{n}\vec{z_i}\vec{z_i}^T$ 为协方差矩阵，所以问题就转化为：
$\begin{cases} \max_{\vec{e}} D(\vec{e}) \\ \vec{e}^T\vec{e} = 1 \end{cases} \tag{2-3}$
利用Lagrange 乘子法，求解 2-3 优化问题。
$\vec{e}^T\sum\vec{e} + \lambda(1 - \vec{e}^T\vec{e}) \tag{2-4}$
其中， $\sum$ 为协方差矩阵，并且为对称矩阵，即 $\sum = \sum^T$ 。
解
$\frac{\partial{L}}{\partial{\pmb{e}}} = 2\sum\vec{e} - 2\lambda\vec{e} = 0 \\ (\sum - I)\vec{e} = \pmb{0} \tag{2-5}$

2.2 选择维数

PAC算法的主要思想是先识别距离数据点最近的超平面，然后将数据投影其上，使得投影后的数据方差最大。其中可以通过方差来筛选出正确维度。通常最简单的方法是将考前的主成分对整体数据的方差的贡献率依次相加，直至足够大比例方差值，这时的维度数量是最好的选择。那么设置多大方差比合适呢？我们可以将方差比绘制成关于维度数量的曲线图，曲线通常有拐点，说明方差停止快速增长，则可以把这个拐点对应的维度数量设置最终的需要降至的维度数量。