5.3.1 主成分分析简介
主成分分析是以最少的信息丢失为前提,将原有变量通过线性组合的方式综合成少数几个新变量;用新变量代替原有变量参与数据建模,这样可以大大减少分析过程中的计算工作量;主成分对新变量的选取不是对原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息;同时选取的新变量之间互不相关,能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。
协方差矩阵
方差
假设是一个一维随机变量,现有n个样本点,则样本方差为:
例:
假设有三个样本点:1,2