如何评价聚类结果的好坏？

news2025/7/12 14:15:53

聚类有效性的评价可分为内部指标和外部指标，内部指标是一种无监督的评价方法，它对聚类结果的评价不需要借助样本集的真实标签，仅利用样本集自身结构信息对聚类结果进行评价；而外部指标是一种有监督的评价方法，它通过对比聚类标签和真实标签之间的匹配程度来评价聚类效果。内部指标只是无法获取真实标签时的一种权宜之计，当真实标签存在时，显然外部指标更为客观和准确。

（1）Purity

（2）Cluster Similarity Measure

（3）Normalized mutual information

（4）Cluster-based cross entropy

（5）Class-based cross entropy

上述5种指标从不同的角度对聚类结果进行评价，它们的范围都在0到1之间。PUR、CSM 和 NMI 越大代表聚类效果越好，值为1时表示聚类结果与样本集完全匹配；CluCE 和 ClaCE越小代表聚类效果越好，值为0时表示聚类结果与样本集完全匹配。

众多试验表明，PUR、CSM 和 NMI之间的差别体现在对类别种数和错误率的敏感程度上：一方面，当错误匹配的样本个数相同时，随着样本集中类别数量的增加，CSM呈减小的趋势，NMI呈增大的趋势，而PUR则不受影响；另一方面，当样本集中的数量保持不变时，随着错误匹配的样本个数增加， 3个指标均呈减小的趋势，这是显然的，但 PUR 随错误匹配的样本个数线性变化，NMI 减小的速度先快后慢，CSM 减小的速度先慢后快。CluCE 和ClaCE主要受标签混乱程度的影响，当聚类标签更混乱时，CluCE 得分低，反之当样本标签更混乱时，ClaCE 得分更低。另外NMI、CluCE 和ClaCE 只适用于聚类后类别数与样本集中真实类别数相同的情况，而 PUR 和 CSM不受此限制，但PUR在聚类结果很差时仍能有较高的值，例如当对一个具有等样本容量的二分类样本集进行聚类时，不执行任何操作而仅对两类样本给出相同的标签也能获得50%的PUR正确率。可见任何一个指标都有其局限性，应用时应当采用尽量多的指标对聚类结果进行全面的评价。