本篇的思维导图:
数据降维:主成分分析PCA
建立模型分析特征数据时,很可能会面临特征数据维度过大的问题。例如,根据已有的信用卡持有人信息及其违约数据来建立信用卡违约预测模型时,数据可能包含申请人的收入、年龄、性别、婚姻状况、工作单位等数百个维度的特征。如果将所有特征数据都用来拟合模型,会提高模型的复杂度,造成过拟合风险显著增大,且不同的特征数据间可能存在共线性。此时就需要对数据进行降维,以浓缩特征向量。
数据降维中常用的算法是主成分分析法PCA。
数据降维
如果特征变量的数量非常多(如成百上千个特征变量),我们往往需要进行数据降维。降维的方法主要有选择特征和抽取特征两种:选择特征是从原有的特征中挑选出最佳的特征;抽取特征则是将数据由高维向低维投影,进行坐标的线性转换。PCA即