PCA Decomposition
算法
- 去除平均值 。
- 计算协方差矩阵 。
- 计算协方差矩阵的特征值和特征向量 。
- 将特征值排序 保留前N个最大的特征值对应的特征向量 。
- 将原始特征转换到上面得到的N个特征向量构建的新空间中(最后两步,实现了特征压缩)。
解释
-
为什么样本在“协方差矩阵C的最大K个特征值所对应的特征向量”上的投影就是k维理想特征
最大方差理论:方差越大,信息量就越大。协方差矩阵的每一个特征向量就是一个投影面,每一个特征向量所对应的特征值就是原始特征投影到这个投影面之后的方差。由于投影过去之后,我们要尽可能保证信息不丢失,所以要选择具有较大方差的投影面对原始特征进行投影,也就是选择具有较大特征值的特征向量。然后将原始特征投影在这些特征向量上,投影后的值就是新的特征值。每一个投影面生成一个新的特征,k个投影面就生成k个新特征。
-
优点
- 以方差衡量信息的无监督学习,不受样本标签限制。
- 由于协方差矩阵对称,因此k个特征向量之间两两正交,也就是各主成分之间正交,正交就肯定线性不相关,可消除原始数据成分间的相互影响。