聚类有效性的评价可分为内部指标和外部指标,内部指标是一种无监督的评价方法,它对聚类结果的评价不需要借助样本集的真实标签,仅利用样本集自身 结构信息对聚类结果进行评价;而外部指标是一种有监督的评价方法,它通过对比聚类标签和真实标签之间的匹配程度来评价聚类效果。内部指标只是无法获取真实标签时的一种权宜之计,当真实标签存在时,显然外部指标更为客观和准确。
(1)Purity
(2)Cluster Similarity Measure
(3)Normalized mutual information
(4)Cluster-based cross entropy
(5)Class-based cross entropy
上述5种指标从不同的角度对聚类结果进行评价,它们的范围都在0到1之 间。PUR、CSM 和 NMI 越大代表聚类效果越好,值为1时表示聚类结果与样本集完全匹配;CluCE 和 ClaCE越小代表聚类效果越好,值为0时表示聚类结果与样本集完全匹配。
众多试验表明,PUR、CSM 和 NMI之间的差别体现在对类别种数和错误率的敏感程度上:一方面,当错误匹配的样本个数相同时,随着样本集中类别数量的增加,CSM呈减小的趋势,NMI呈增大的趋势,而PUR则不受影响;另一方面,当样本集中的数量保持不变时,随着错误匹配的样本个数增加, 3个指标均呈减小的趋势,这是显然的,但 PUR 随错误匹配的样本个数线性变化,NMI 减小的速度先快后慢,CSM 减小的速度先慢后快。CluCE 和ClaCE主 要受标签混乱程度的影响,当聚类标签更混乱时,CluCE 得分低,反之当样本标签更混乱时,ClaCE 得分更低。另外NMI、CluCE 和ClaCE 只适用于聚类后类别数与样本集中真实类别数相同的情况,而 PUR 和 CSM不受此限制,但PUR在聚类结果很差时仍能有较高的值,例如当对一个具有等样本容量的二分类样本集进行聚类时,不执行任何操作而仅对两类样本给出相同的标签也能获得50%的PUR正确率。可见任何一个指标都有其局限性,应用时应当采用尽量多的指标对聚类结果进行全面的评价。
相关的文章参考
几种信号降噪算法(第一部分)
https://www.toutiao.com/article/7190201924820402721/
几种信号降噪算法(第二部分)
https://www.toutiao.com/article/7190270349236683264/
机械故障诊断及工业工程故障诊断若干例子(第一篇)
https://www.toutiao.com/article/7193957227231855163/
知乎咨询:哥廷根数学学派
算法代码地址:mbd.pub/o/GeBENHAGEN
擅长现代信号处理(改进小波分析系列,改进变分模态分解,改进经验小波变换,改进辛几何模态分解等等),改进机器学习,改进深度学习,机械故障诊断,改进时间序列分析(金融信号,心电信号,振动信号等)