主成分分析是用原始变量的线性组合来表示主成分,且主成分彼此之间互不相关,且能反映出原始数据的绝大部分信息。 一般来说,当研究的问题涉及到多变量且变量之间存在很强的相关性时,我们可考虑使用主成分分析的方法来对数据进行简化。
SPSS 软件中主成分分析与因子分析均在“因子分析”模块中完成。因此,在 SPSS 数据表中录人以上数据后,依次点击“分析-降维-因子”进入“因子分析”对话框,然后将12个变量全部选入“变量”框中。
点击右侧的“描述”按钮,在弹出的对话框中,在“相关矩阵”中选择“系数”。点击右侧的“降维”按钮打开相应对话框,其中“方法”是“主成分”,“分析”部分可以选择是从相关阵还是从协方整阵出发求解主成分,默认是从相关阵出发。本例中各变量的量纲差别较大,选择从相关阵出发求解主成分。“显示”部分可以选择输出“未旋转的因子解”和“碎石图”。“降维”部分可以选择提取大于1的特征根与其所对应的主成分或者设定固定的因子(此处为主成分)个数,但是如果选择从协方差阵出发,则会提取大于特征根均值的指定倍数(默认为1)的特征根。点击“确定”运行,即可得到输出结果。
表1 相关性矩阵a | ||||||||||||
X1 | X2 | X3 | X4 | X5 | X6 | X7 | X8 | X9 | X10 | X11 | X12 | |
X1 | 1 | 0.244 | 0.18 | 0.807 | -0.023 | -0.009 | 0.023 | 0.107 | -0.118 | -0.359 | 0.097 | -0.155 |
X2 | 0.244 | 1 | 0.861 | -0.195 | -0.138 | 0.145 | -0.548 | -0.39 | 0.686 | -0.294 | -0.35 | 0.461 |
X3 | 0.18 | 0.861 | 1 | -0.185 | -0.402 | 0.408 | -0.367 | -0.557 | 0.751 | -0.195 | -0.167 | 0.281 |
X4 | 0.807 | -0.195 | -0.185 | 1 | 0.027 | -0.067 | 0.318 | 0.179 | -0.351 | -0.403 | 0.176 | -0.277 |
X5 | -0.023 | -0.138 | -0.402 | 0.027 | 1 | -0.999 | -0.546 | 0.726 | -0.416 | -0.331 | -0.566 | 0.523 |
X6 | -0.009 | 0.145 | 0.408 | -0.067 | -0.999 | 1 | 0.532 | -0.731 | 0.429 | 0.346 | 0.558 | -0.511 |
X7 | 0.023 | -0.548 | -0.367 | 0.318 | -0.546 | 0.532 | 1 | -0.253 | -0.299 | 0.357 | 0.523 | -0.728 |
X8 | 0.107 | -0.39 | -0.557 | 0.179 | 0.726 | -0.731 | -0.253 | 1 | -0.847 | -0.292 | 0.137 | -0.15 |
X9 | -0.118 | 0.686 | 0.751 | -0.351 | -0.416 | 0.429 | -0.299 | -0.847 | 1 | 0.092 | -0.422 | 0.548 |
X10 | -0.359 | -0.294 | -0.195 | -0.403 | -0.331 | 0.346 | 0.357 | -0.292 | 0.092 | 1 | 0.131 | -0.217 |
X11 | 0.097 | -0.35 | -0.167 | 0.176 | -0.566 | 0.558 | 0.523 | 0.137 | -0.422 | 0.131 | 1 | -0.908 |
X12 | -0.155 | 0.461 | 0.281 | -0.277 | 0.523 | -0.511 | -0.728 | -0.15 | 0.548 | -0.217 | -0.908 | 1 |
a. 此矩阵不是正定矩阵。 |
输出结果中,表1是样本相关阵,可以看到12个变量之间部分变量存在较强的相关关系,适合进行主成分分析。
表2 总方差解释表 | ||||||
成分 | 初始特征值 | 提取载荷平方和 | ||||
总计 | 方差百分比 | 累积 % | 总计 | 方差百分比 | 累积 % | |
1 | 4.031 | 33.591 | 33.591 | 4.031 | 33.591 | 33.591 |
2 | 3.930 | 32.746 | 66.337 | 3.930 | 32.746 | 66.337 |
3 | 2.175 | 18.122 | 84.459 | 2.175 | 18.122 | 84.459 |
4 | .973 | 8.108 | 92.567 | |||
5 | .513 | 4.278 | 96.845 | |||
6 | .210 | 1.749 | 98.594 | |||
7 | .104 | .864 | 99.458 | |||
8 | .041 | .338 | 99.795 | |||
9 | .024 | .202 | 99.998 | |||
10 | .000 | .002 | 100.000 | |||
11 | 5.402E-7 | 4.501E-6 | 100.000 | |||
12 | -1.167E-16 | -9.728E-16 | 100.000 | |||
提取方法:主成分分析法。 |
表2给出了相关阵的特征根及对应主成分的方差贡献率和累积贡献率。本例保留了大于1的特征根,可看到提取了3个主成分,其方差贡献率为84.459%,说明该三个主成分基本上提取了原始变量的大部分信息。这样由分析原来的12个变量转化为仅需分析3个综合变量,极大地起到了降维的作用。【注:lamda10、11、12接近于0,意味着中心化以后的原始变量之间存在着多重共线性,即原始变量存在不可忽视的重叠信息】
从碎石图中也可以看出,前三个特征根较大,因此选取三个特征根是合适的。
表3 成分矩阵a | |||
成分 | |||
1 | 2 | 3 | |
VAR1 | -.102 | -.030 | .908 |
VAR2 | .836 | .084 | .368 |
VAR3 | .782 | .353 | .345 |
VAR4 | -.423 | -.070 | .790 |
VAR5 | -.032 | -.991 | -.086 |
VAR6 | .048 | .992 | .055 |
VAR7 | -.632 | .604 | -.036 |
VAR8 | -.550 | -.732 | .060 |
VAR9 | .889 | .390 | -.040 |
VAR10 | -.132 | .433 | -.646 |
VAR11 | -.648 | .547 | .141 |
VAR12 | .773 | -.536 | -.135 |
提取方法:主成分分析法。a | |||
a. 提取了 3 个成分。 |
表3是因子载荷阵,需要将其每个元素除以响应主成分的特征根的平方根,才可以得到第一主成分关于标准化的原始变量的变换系数,如表4所示。
表4 成分得分系数矩阵 | |||
成分 | |||
1 | 2 | 3 | |
VAR1 | -.025 | -.008 | .418 |
VAR2 | .208 | .021 | .169 |
VAR3 | .208 | .090 | .159 |
VAR4 | -.105 | -.018 | .363 |
VAR5 | -.008 | -.252 | -.040 |
VAR6 | .012 | .252 | .025 |
VAR7 | -.157 | .154 | -.016 |
VAR8 | -.136 | -.186 | .028 |
VAR9 | .221 | .099 | -.018 |
VAR10 | -.033 | .110 | -.297 |
VAR11 | -.161 | .139 | .065 |
VAR12 | .192 | -.136 | -.062 |
由此可得,主成分Y关于各标准化变量的线性组合为:
式中各变量的系数的大小可以表示其重要性。
本例中有12个指标,通过主成分计算后,选择了3个主成分。其中,第一主成分的线性组合表达式中X2、X3、X7、X9、X11、X12的系数相对较大,因此第一主成分可看成X2、X3、X7、X9、X11、X12的综合变量,可以理解为第一主成分主要体现了第二、三产业从业人员数、第一、三产业产出结构、第二、三产业劳动生产率,大致反映了产业结构合理化情况;同理,第二主成分可看成X5、X6、X8的综合变量,可以理解为第二主成分主要体现了第二、三产业就业结构及第二产业产出结构,大致反映了产业结构升级化情况;第三主成分可看成X1、X4、X10的综合变量,可以理解为第三主成分主要体现了第一产业从业人员数、产业就业结构及产业劳动生产率,大致反映了产业结构合理化情况。
通常为了分析各样品在主成分上所反映的经济意义方面的情况,还需将原始数据代入主成分表达式计算出各样品的主成分得分,根据各样品的主成分得分就可以对样品进行大致分类或者排序。
表5 主成分1的样品排序
排序 | 地区 | Y1 | 排序 | 地区 | Y1 |
1 | 北京市 | 180.5150607 | 13 | 临汾市 | 10.46116696 |
2 | 天津市 | 64.58425815 | 14 | 阳泉市 | 9.58268787 |
3 | 太原市 | 28.6908458 | 15 | 运城市 | 9.576200993 |
4 | 石家庄市 | 27.51126238 | 16 | 朔州市 | 9.403504998 |
5 | 保定市 | 20.44835652 | 17 | 晋中市 | 9.333657238 |
6 | 唐山市 | 16.13782061 | 18 | 晋城市 | 8.618180294 |
7 | 邯郸市 | 14.34404851 | 19 | 邢台市 | 8.55713213 |
8 | 大同市 | 14.18527824 | 20 | 秦皇岛市 | 8.001142876 |
9 | 张家口市 | 12.49250853 | 21 | 承德市 | 7.456756398 |
10 | 沧州市 | 12.13317336 | 22 | 忻州市 | 7.275499933 |
11 | 长治市 | 10.97995128 | 23 | 吕梁市 | 5.205538483 |
12 | 廊坊市 | 10.5379542 | 24 | 衡水市 | 4.263760211 |
表6 主成分2的样品排序
排序 | 地区 | Y2 | 排序 | 地区 | Y2 |
1 | 北京市 | 68.95036761 | 13 | 承德市 | 5.738359679 |
2 | 廊坊市 | 21.7017499 | 14 | 晋中市 | 5.250730169 |
3 | 衡水市 | 21.32785977 | 15 | 邯郸市 | 5.050358973 |
4 | 天津市 | 18.6740728 | 16 | 临汾市 | 4.428244365 |
5 | 石家庄市 | 17.85848122 | 17 | 大同市 | 3.900698174 |
6 | 秦皇岛市 | 14.01048574 | 18 | 忻州市 | 2.923556626 |
7 | 保定市 | 11.93600734 | 19 | 朔州市 | 0.677891108 |
8 | 邢台市 | 11.26217305 | 20 | 唐山市 | 0.675547677 |
9 | 沧州市 | 10.72374997 | 21 | 长治市 | -1.095271353 |
10 | 运城市 | 9.121019677 | 22 | 阳泉市 | -1.189746842 |
11 | 太原市 | 7.647849868 | 23 | 吕梁市 | -1.534529357 |
12 | 张家口市 | 7.563284738 | 24 | 晋城市 | -1.951322435 |
表7 主成分3的样品排序
排序 | 地区 | Y3 | 排序 | 地区 | Y3 |
1 | 北京市 | 124.0088998 | 13 | 吕梁市 | -1.403670484 |
2 | 天津市 | 39.57507582 | 14 | 保定市 | -1.740401389 |
3 | 唐山市 | 12.41857457 | 15 | 临汾市 | -3.664946889 |
4 | 太原市 | 9.96648314 | 16 | 忻州市 | -3.96973901 |
5 | 长治市 | 4.219456963 | 17 | 石家庄市 | -6.378107088 |
6 | 晋城市 | 2.40563238 | 18 | 晋中市 | -7.704121015 |
7 | 阳泉市 | 2.125268721 | 19 | 运城市 | -9.152635185 |
8 | 邯郸市 | 2.007346431 | 20 | 沧州市 | -14.18356557 |
9 | 朔州市 | 1.315259427 | 21 | 邢台市 | -17.43441436 |
10 | 大同市 | 0.76826382 | 22 | 秦皇岛市 | -24.86005785 |
11 | 张家口市 | -0.194855256 | 23 | 廊坊市 | -43.0706488 |
12 | 承德市 | -1.191899812 | 24 | 衡水市 | -45.14251758 |
注意表中各地区得分中,有许多地区的得分是负数,但并不表明这些地区的指标为负,这里的正负仅表示该地区与平均水平的位置关系。