主成分分析——SPSS实例分析

主成分分析是用原始变量的线性组合来表示主成分，且主成分彼此之间互不相关，且能反映出原始数据的绝大部分信息。一般来说，当研究的问题涉及到多变量且变量之间存在很强的相关性时，我们可考虑使用主成分分析的方法来对数据进行简化。

SPSS 软件中主成分分析与因子分析均在“因子分析”模块中完成。因此，在 SPSS 数据表中录人以上数据后，依次点击“分析-降维-因子”进入“因子分析”对话框，然后将12个变量全部选入“变量”框中。

点击右侧的“描述”按钮，在弹出的对话框中，在“相关矩阵”中选择“系数”。点击右侧的“降维”按钮打开相应对话框，其中“方法”是“主成分”，“分析”部分可以选择是从相关阵还是从协方整阵出发求解主成分，默认是从相关阵出发。本例中各变量的量纲差别较大，选择从相关阵出发求解主成分。“显示”部分可以选择输出“未旋转的因子解”和“碎石图”。“降维”部分可以选择提取大于1的特征根与其所对应的主成分或者设定固定的因子（此处为主成分）个数，但是如果选择从协方差阵出发，则会提取大于特征根均值的指定倍数（默认为1）的特征根。点击“确定”运行，即可得到输出结果。

表1 相关性矩阵a
	X1	X2	X3	X4	X5	X6	X7	X8	X9	X10	X11	X12
X1	1	0.244	0.18	0.807	-0.023	-0.009	0.023	0.107	-0.118	-0.359	0.097	-0.155
X2	0.244	1	0.861	-0.195	-0.138	0.145	-0.548	-0.39	0.686	-0.294	-0.35	0.461
X3	0.18	0.861	1	-0.185	-0.402	0.408	-0.367	-0.557	0.751	-0.195	-0.167	0.281
X4	0.807	-0.195	-0.185	1	0.027	-0.067	0.318	0.179	-0.351	-0.403	0.176	-0.277
X5	-0.023	-0.138	-0.402	0.027	1	-0.999	-0.546	0.726	-0.416	-0.331	-0.566	0.523
X6	-0.009	0.145	0.408	-0.067	-0.999	1	0.532	-0.731	0.429	0.346	0.558	-0.511
X7	0.023	-0.548	-0.367	0.318	-0.546	0.532	1	-0.253	-0.299	0.357	0.523	-0.728
X8	0.107	-0.39	-0.557	0.179	0.726	-0.731	-0.253	1	-0.847	-0.292	0.137	-0.15
X9	-0.118	0.686	0.751	-0.351	-0.416	0.429	-0.299	-0.847	1	0.092	-0.422	0.548
X10	-0.359	-0.294	-0.195	-0.403	-0.331	0.346	0.357	-0.292	0.092	1	0.131	-0.217
X11	0.097	-0.35	-0.167	0.176	-0.566	0.558	0.523	0.137	-0.422	0.131	1	-0.908
X12	-0.155	0.461	0.281	-0.277	0.523	-0.511	-0.728	-0.15	0.548	-0.217	-0.908	1
a. 此矩阵不是正定矩阵。

输出结果中，表1是样本相关阵，可以看到12个变量之间部分变量存在较强的相关关系，适合进行主成分分析。

表2 总方差解释表
成分	初始特征值			提取载荷平方和
成分	总计	方差百分比	累积 %	总计	方差百分比	累积 %
1	4.031	33.591	33.591	4.031	33.591	33.591
2	3.930	32.746	66.337	3.930	32.746	66.337
3	2.175	18.122	84.459	2.175	18.122	84.459
4	.973	8.108	92.567
5	.513	4.278	96.845
6	.210	1.749	98.594
7	.104	.864	99.458
8	.041	.338	99.795
9	.024	.202	99.998
10	.000	.002	100.000
11	5.402E-7	4.501E-6	100.000
12	-1.167E-16	-9.728E-16	100.000
提取方法：主成分分析法。

表2给出了相关阵的特征根及对应主成分的方差贡献率和累积贡献率。本例保留了大于1的特征根，可看到提取了3个主成分，其方差贡献率为84.459%，说明该三个主成分基本上提取了原始变量的大部分信息。这样由分析原来的12个变量转化为仅需分析3个综合变量，极大地起到了降维的作用。【注：lamda10、11、12接近于0，意味着中心化以后的原始变量之间存在着多重共线性，即原始变量存在不可忽视的重叠信息】

从碎石图中也可以看出，前三个特征根较大，因此选取三个特征根是合适的。

表3 成分矩阵a
	成分
	1	2	3
VAR1	-.102	-.030	.908
VAR2	.836	.084	.368
VAR3	.782	.353	.345
VAR4	-.423	-.070	.790
VAR5	-.032	-.991	-.086
VAR6	.048	.992	.055
VAR7	-.632	.604	-.036
VAR8	-.550	-.732	.060
VAR9	.889	.390	-.040
VAR10	-.132	.433	-.646
VAR11	-.648	.547	.141
VAR12	.773	-.536	-.135
提取方法：主成分分析法。a
a. 提取了 3 个成分。

表3是因子载荷阵，需要将其每个元素除以响应主成分的特征根的平方根，才可以得到第一主成分关于标准化的原始变量的变换系数，如表4所示。

表4 成分得分系数矩阵
	成分
	1	2	3
VAR1	-.025	-.008	.418
VAR2	.208	.021	.169
VAR3	.208	.090	.159
VAR4	-.105	-.018	.363
VAR5	-.008	-.252	-.040
VAR6	.012	.252	.025
VAR7	-.157	.154	-.016
VAR8	-.136	-.186	.028
VAR9	.221	.099	-.018
VAR10	-.033	.110	-.297
VAR11	-.161	.139	.065
VAR12	.192	-.136	-.062

由此可得，主成分Y关于各标准化变量的线性组合为：

式中各变量的系数的大小可以表示其重要性。

本例中有12个指标，通过主成分计算后，选择了3个主成分。其中，第一主成分的线性组合表达式中X2、X3、X7、X9、X11、X12的系数相对较大，因此第一主成分可看成X2、X3、X7、X9、X11、X12的综合变量，可以理解为第一主成分主要体现了第二、三产业从业人员数、第一、三产业产出结构、第二、三产业劳动生产率，大致反映了产业结构合理化情况；同理，第二主成分可看成X5、X6、X8的综合变量，可以理解为第二主成分主要体现了第二、三产业就业结构及第二产业产出结构，大致反映了产业结构升级化情况；第三主成分可看成X1、X4、X10的综合变量，可以理解为第三主成分主要体现了第一产业从业人员数、产业就业结构及产业劳动生产率，大致反映了产业结构合理化情况。

通常为了分析各样品在主成分上所反映的经济意义方面的情况，还需将原始数据代入主成分表达式计算出各样品的主成分得分，根据各样品的主成分得分就可以对样品进行大致分类或者排序。

表5 主成分1的样品排序

排序	地区	Y1	排序	地区	Y1
1	北京市	180.5150607	13	临汾市	10.46116696
2	天津市	64.58425815	14	阳泉市	9.58268787
3	太原市	28.6908458	15	运城市	9.576200993
4	石家庄市	27.51126238	16	朔州市	9.403504998
5	保定市	20.44835652	17	晋中市	9.333657238
6	唐山市	16.13782061	18	晋城市	8.618180294
7	邯郸市	14.34404851	19	邢台市	8.55713213
8	大同市	14.18527824	20	秦皇岛市	8.001142876
9	张家口市	12.49250853	21	承德市	7.456756398
10	沧州市	12.13317336	22	忻州市	7.275499933
11	长治市	10.97995128	23	吕梁市	5.205538483
12	廊坊市	10.5379542	24	衡水市	4.263760211

表6 主成分2的样品排序

排序	地区	Y2	排序	地区	Y2
1	北京市	68.95036761	13	承德市	5.738359679
2	廊坊市	21.7017499	14	晋中市	5.250730169
3	衡水市	21.32785977	15	邯郸市	5.050358973
4	天津市	18.6740728	16	临汾市	4.428244365
5	石家庄市	17.85848122	17	大同市	3.900698174
6	秦皇岛市	14.01048574	18	忻州市	2.923556626
7	保定市	11.93600734	19	朔州市	0.677891108
8	邢台市	11.26217305	20	唐山市	0.675547677
9	沧州市	10.72374997	21	长治市	-1.095271353
10	运城市	9.121019677	22	阳泉市	-1.189746842
11	太原市	7.647849868	23	吕梁市	-1.534529357
12	张家口市	7.563284738	24	晋城市	-1.951322435

表7 主成分3的样品排序

排序	地区	Y3	排序	地区	Y3
1	北京市	124.0088998	13	吕梁市	-1.403670484
2	天津市	39.57507582	14	保定市	-1.740401389
3	唐山市	12.41857457	15	临汾市	-3.664946889
4	太原市	9.96648314	16	忻州市	-3.96973901
5	长治市	4.219456963	17	石家庄市	-6.378107088
6	晋城市	2.40563238	18	晋中市	-7.704121015
7	阳泉市	2.125268721	19	运城市	-9.152635185
8	邯郸市	2.007346431	20	沧州市	-14.18356557
9	朔州市	1.315259427	21	邢台市	-17.43441436
10	大同市	0.76826382	22	秦皇岛市	-24.86005785
11	张家口市	-0.194855256	23	廊坊市	-43.0706488
12	承德市	-1.191899812	24	衡水市	-45.14251758