K均值聚类分析流程

news2026/2/13 12:43:04

K均值聚类分析流程

一、案例背景

在某体育赛事中，意大利、韩国、罗马尼亚、法国、中国、美国、俄罗斯七个国家的裁判对300名运动员进行评分，现在想要通过评分上的差异将300名选手进行分类，计划将选手分为高水平、中水平、低水平三个类别。因为评分均为定量数据，所以通过K均值聚类进行聚类分析，部分数据如下：

二、异常值检查

异常值对于聚类分析的结果影响比较大，所以在分析之前要先进行异常值的检查。异常值检查的方法有很多种，比如可以使用描述统计法，查看是否有三倍标准差外的数据，或者使用箱线图，直观查看是否存在异常值，本案例使用SPSSAU箱线图进行异常值检查，输出结果如下：

从箱线图分析结果来看，7个裁判的评分均没有异常值出现，都在规定范围之内（最低7分，最高10分），可以进行接下来的K均值聚类分析。

三、K均值聚类分析

K均值聚类是现在比较常用的聚类算法之一，接下来分别对该方法的原理和操作进行简单的说明，帮助大家更好的理解聚类分析的过程。

（1）基本说明

K均值聚类也称K-means聚类，是典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。因为需要计算距离，所以决定了K-means算法只能处理数值型数据，而不能处理分类属性型数据。

K均值聚类分析算法步骤：

① K-means算法首先需要选择K个初始化聚类中心

② 计算每个数据对象到K个初始化聚类中心的距离，将数据对象分到距离聚类中心最近的那个数据集中，当所有数据对象都划分以后，就形成了K个数据集（即K个簇）

③ 接下来重新计算每个簇的数据对象的均值，将均值作为新的聚类中心

④ 最后计算每个数据对象到新的K个初始化聚类中心的距离，重新划分

⑤ 每次划分以后，都需要重新计算初始化聚类中心，一直重复这个过程，直到所有的数据对象无法更新到其他的数据集中。

（2）操作

在SPSSAU系统中，以上算法步骤都自动进行，只需要分析人员将数据拖拽到分析框中，选择聚类数量即可，如下图：

通常情况下，建议聚类个数为3~6个比较好，SPSSAU默认聚类个数为3，本案例，预设将300名选手分为高、中、低3个类别，所以选择默认聚类个数3即可。因为K均值聚类是根据距离进行类别判断，所以需要消除量纲（单位）的影响，SPSSAU系统默认对聚类数据进行【标准化】处理，如果不需要进行标准化处理，可以选择取消勾选。同时SPSSAU默认【保存类别】，将聚类结束后，聚类的类别变量自动保存下来，用于后续分析。

四、聚类分析结果解读

K均值聚类分析（以下简称聚类分析）结果可以从以下几个方面进行分析：聚类基本情况、聚类类别命名、聚类中心、聚类效果图示化；接下来将逐个进行说明。

（1）聚类基本情况

SPSSAU输出聚类类别基本情况汇总表如下：

上表描述了聚类分析的基本情况，展示了本次聚类分析共得出3类，SPSSAU自动命名为cluster_1、cluster_2、cluster_3；同时展示每个类别人群数量和比例情况。这3类群体的占比分别是34.00%,、36.00%、 30.00%。整体来看，3类人群分布较为均匀，整体说明聚类效果较好。SPSSAU同时会输出聚类类别汇总图，方便分析人员更加直观的展示聚类类别占比情况。

（2）聚类类别命名

得到聚类结果后，需要根据各个聚类类别的特征进行类别命名。

为了得到各个类别之间的差异，使用方差分析进行聚类类别的差异对比分析，然后根据各个类别的差异性特征进行聚类类别的命名。

从上表聚类类别方差分析差异对比结果来看，7个裁判对于3个类别的评分之间均存在差异性（p<0.05），说明聚类分析得到的3个群体他们在研究的特征上具有明显的差异性，也能从一定程度上说明本次聚类分析效果较好。3个聚类类别的具体差异性可通过评分的平均值进行对比，并对聚类类别进行命名。

从3个类别的评分平均值来看，结合前面预设将300名选手分为高水平、中水平、低水平3类，故将cluster_1命名为低水平、cluster_2命名为中水平、cluster_3命名为高水平。SPSSAU可使用数据处理中的【数据标签】功能，进行命名，操作如下：

（3）聚类中心

前面我们通俗介绍了K均值聚类分析的聚类过程，提到初始聚类中心，在迭代过程中最后会成为最终聚类中心点，这个结果SPSSAU也为大家提供了，见下表：

聚类中心是聚类算法的数学理论或中间过程指标，针对分析来看其实际意义较小。一般来讲相较于聚类中心，K均值聚类更关注误差平方和SSE值。该值可用于测量各点与中心点的距离情况，理论上是希望越小越好，通常用于辅助判断聚类个数。如果在开始分析之初，不确定聚类个数，那么可以多次分析选择不同聚类个数，对比分析SSE值，比如发现从3个聚类个数到4个聚类个数时SSE值减少幅度明显很大，那么此时选择4个聚类类个数较好。但聚类类别并不是越多越好，还需要结合专业知识进行判断。