基于spss的多元统计分析之聚类分析+判别分析（2/8）

实验目的：

1．掌握聚类分析及判别分析的基本原理；

2．熟悉掌握SPSS软件进行聚类分析及判别分析的基本操作；

3．利用实验指导的实例数据，上机熟悉聚类分析及判别分析方法。

实验前预习：

1．聚类分析及判别分析的基本原理；

2．SPSS软件进行聚类分析及判别分析的基本操作及结果解释。

实验内容：

1. 为了研究世界各国森林、草原资源的分布规律，共抽取了21个国家的数据，每个国家4项指标，原始数据见下表。试用该原始数据对国别进行系统聚类和K-均值聚类（分3类）分析。

国别	森林面积（万公顷）	森林覆盖率（%）	林木蓄积量（亿立方米）	草原面积（万公顷）
中国	11978	12.5	93.5	31908
美国	28446	30.4	202.0	23754
日本	2501	67.2	24.8	58
德国	1028	28.4	14.0	599
英国	210	8.6	1.5	1147
法国	1458	26.7	16.0	1288
意大利	635	21.1	3.6	514
加拿大	32613	32.7	192.8	2385
澳大利亚	10700	13.9	10.5	45190
前苏联	92000	41.1	841.5	37370
捷克	458	35.8	8.9	168
波兰	868	27.8	11.4	405
匈牙利	161	17.4	2.5	129
南斯拉夫	929	36.3	11.4	640
罗马尼亚	634	26.7	11.3	447
保加利亚	385	34.7	2.5	200
印度	6748	20.5	29.0	1200
印尼	2180	84.0	33.7	1200
尼日利亚	1490	16.1	0.8	2090
墨西哥	4850	24.6	32.6	7450
巴西	57500	67.6	238.0	15900

2. 从不同地区采集了七块花岗岩，测其部分化学成分如下表：

化学成分	1	2	3	4	5	6	7
SiO2	75.20	75.15	72.19	72.35	72.74	73.29	73.72
TiO2	0.14	0.16	0.13	0.13	0.10	0.033	0.033
FeO	1.86	2.11	1.52	1.37	1.41	1.07	0.77
CaO	0.91	0.74	0.69	0.83	0.72	0.17	0.28
K2O	5.21	4.93	4.65	4.87	4.99	3.15	2.78

试作如下分析：

样本间用欧氏距离，并用系统聚类的2个方法对样本进行聚类。
对五个变量进行聚类。

3. 研究团队调查了20个品牌的电视机，记录了它们的市场定位（G）：1.高端市场；2.中端市场；3.低端市场；质量评估得分（Q），功能评估得分（C）和价格（P）。如果一个全新的品牌被推出，其中Q=8.0,C=7.5,P=65,它的市场定位应如何？试用判别分析解决这个问题。

G	Q	C	P
1	8.3	4.0	29
1	9.5	7.0	68
1	8.0	5.0	39
1	7.4	7.0	50
1	8.8	6.5	55
2	9.0	7.5	58
2	7.0	6.0	75
2	9.2	8.0	82
2	8.0	7.0	67
2	7.6	9.0	90
2	7.2	8.5	86
2	6.4	7.0	53
2	7.3	5.0	48
3	6.0	2.0	20
3	6.4	4.0	39
3	6.8	5.0	48
3	5.2	3.0	29
3	5.8	3.5	32
3	5.5	4.0	34
3	6.0	4.5	36

程序测试、运行结果及分析：

聚类分析

系统聚类（分3类）

（第1题）

操作步骤：

打开spss软件，输入相关数据 à 在“变量视图”更改名称 à 点击“分析”à 点击“分类” à 选择“系统聚类” à 拖国别至个案标注依据à 其余拖入变量框à点击“图” à勾选“谱系图”à 点击“继续”和“确定”

运行结果：

结果分析：

对于冰柱图，自下而上的观察进行分类，美国和墨西哥之间的冰柱对应的分类数是三，所以分类为{前苏联}，{美国，加拿大，巴西}其余为一类。

对于谱系图分成三类则为{前苏联}，{美国，加拿大，巴西}其余的为一类。

聚类分析就是按照相似性把对象进行分类的方法。

（第2题样本间用欧氏距离，并用系统聚类的2个方法对样本进行聚类）

操作步骤：

打开spss软件，输入相关数据 à 在“变量视图”更改名称 à 点击“分析”à 点击“分类” à 选择“系统聚类” à 拖国别至个案标注依据à 其余拖入变量框à点击“图” à勾选“谱系图”à点击“方法” à将聚类方法修改为“最近邻矩阵”或者“最远邻矩阵”à将区间框改为欧氏距离 à点击“继续”和“确定”

运行结果：

结果分析：同上一结果分析

（第2题对五个变量进行聚类）

操作步骤：

打开spss软件，输入相关数据 à 在“变量视图”更改名称 à 点击“分析”à 点击“分类” à 选择“系统聚类” à 拖国别至个案标注依据, 其余拖入变量框à 将聚类改为变量à点击“图” à勾选“谱系图”à 点击“继续”和“确定”

运行结果：

结果分析：略

K-均值聚类（分3类）

（第1题）

操作步骤：

打开spss软件，输入相关数据 à 在“变量视图”更改名称 à 点击“分析”à 点击“分类” à选择“描述统计”并选择“描述” à 勾选“将标准化值另存为变量”à点击“确定”

选择“K-均值聚类” à 拖国别至个案标注依据à 标准化的数据拖入变量框à将聚类数改为3 à点击“选项”勾选统计框所有选项à 点击“继续”和“确定”

运行结果：

ANOVA
		聚类			误差			F	显著性
		均方	自由度		均方	自由度
Z森林面积（万公顷）		6.182	2		.424	18		14.570	.000
Z(森林覆盖率)		4.003	2		.666	18		6.006	.010
Z林木蓄积量（亿立方米）		8.534	2		.163	18		52.378	.000
Z草原面积（万公顷）		3.667	2		.704	18		5.212	.016
聚类成员
个案号	国别			聚类			距离
1	中国			1			1.456
2	美国			1			1.608
3	日本			2			1.325
4	德国			2			.842
5	英国			1			1.032
6	法国			2			.906
7	意大利			1			.944
8	加拿大			2			1.359
9	澳大利亚			1			2.355
10	前苏联			3			.000
11	捷克			2			.576
12	波兰			2			.877
13	匈牙利			1			.967
14	南斯拉夫			2			.534
15	罗马尼亚			2			.931
16	保加利亚			2			.627
17	印度			1			.826
18	印尼			2			2.172
19	尼日利亚			1			.829
20	墨西哥			1			.504
21	巴西			2			2.823

结果分析：

由方差分析表的p值可以判断出几个变量对分类的都是显著的，最后可以通过表可以知道三类则为{前苏联}，{美国，加拿大，巴西}其余的为一类。

判别分析

（第3题）

操作步骤：

打开spss软件，输入相关数据 à 在“变量视图”更改名称 à 点击“分析”à 点击“判别式” à 将分组变量拖入框中并且点击选择范围1到3 à 拖其余名称至自变量à 点击“统计”并勾选“费歇尔” à在“分类”中点击“合并组”和“个案结果” à勾选“谱系图”à 点击“继续”和“确定”其余拖入变量框à点击“图” à勾选“谱系图”à 点击“继续”和“确定”

运行结果：

分类结果a,c
		G	预测组成员信息			总计
		G	高端	中端	低端	总计
原始	计数	高端	5	0	0	5
		中端	1	6	1	8
		低端	0	0	7	7
		未分组个案	0	1	0	1
	%	高端	100.0	.0	.0	100.0
		中端	12.5	75.0	12.5	100.0
		低端	.0	.0	100.0	100.0
		未分组个案	.0	100.0	.0	100.0
交叉验证b	计数	高端	3	2	0	5
		中端	1	4	3	8
		低端	0	0	7	7
	%	高端	60.0	40.0	.0	100.0
		中端	12.5	50.0	37.5	100.0
		低端	.0	.0	100.0	100.0
a. 正确地对 90.0% 个原始已分组个案进行了分类。
b. 仅针对分析中的个案进行交叉验证。在交叉验证中，每个个案都由那些从该个案以外的所有个案派生的函数进行分类。
c. 正确地对 70.0% 个进行了交叉验证的已分组个案进行了分类。

分类函数系数
	G
	高端	中端	低端
Q	13.022	11.004	9.279
C	4.367	3.886	2.115
P	-.334	-.136	-.165
(常量)	-60.635	-52.853	-29.854

结果分析：

由第一个图可知，判定没有分组的数据为中端产品，即橙色的小圆圈离中端质心最近。

由第二个图可知，判别分析的正确率为百分之九十

由第三个图可知高端，中端，低端产品的分类函数分别为：

Y1=13.022x1+4.367x2-0.332x3-60.635

Y2=11.004x1+3.886x2-0.136x3-52.853

Y3=9.279x1+2.115x2-0.165x3-29.854

代入数据Q，C，P分别为x1，x2，x3得到y2的绝对值最小，所以判别未知电视为中端产品

讨论：

1.判别分析与聚类分析的区别:
(1)聚类分析是对(样本)总体进行分类，它事先不知道事物的类别，也不知道应分几类，即不需要分类的历史资料，能直接对样本进行分类。

(2)判别分析对(样本)个体进行分类，必须事先知道事物的类别，也知道应分几类，并已取得各类样品的观测数据，在此基础上根据某些准则建立判别式，然后对末知样品进行判别分类，它需要历史资料去建立判别函数。

(3)聚类分析可以对样本或指标进行分类，而判别分析只对样本进行分类。

(4)判别分析与聚类分析常常在一起使用:通过聚类分析首先确定出几个类型，对难以分类的样品再使用判别分析，确定其类别归属。

2．总结：

1.判别分析方法是按已知所属组的样本确定判别函数，制定判别规则，然后再判断每一个新样品应属于哪一类。
2.常用的判别方法有Fisher判别、距离判别、贝叶斯判别等，每个方法根据其出发点不同各有其特点。
3.Fisher类判别对判别变量的分布类型并无要求，而Bayes类判别要变量的分布类型。因此，Fisher类判别较Bayes类判别简单些。
4.当两个总体时，若它们的协方差矩阵相同，则距离判别和Fisher判别等价。当变量服从正态分布时，它们还和Bayes判别等价。