聚类算法的性能度量

news2026/2/14 7:58:22

聚类算法的性能度量

聚类算法就是根据数据中样本与样本之间的距离或相似度，将样本划分为若干组／类／簇，其划分的原则：簇内样本相似、簇间样本不相似，聚类的结果是产生一个簇的集合。

其划分方式主要分为两种，

嵌套类型

非嵌套类型

其中簇往往分为三种情况

基于中心的簇：簇内的点和其“中心”较为相近（或相似），和其他簇的“中心”较远，这样的一组样本形成的簇
基于邻接的簇：相比其他任何簇的点，每个点都至少和所属簇的某一个点更近
基于密度的簇：簇是由高密度的区域形成的，簇之间是一些低密度的区域

簇的相似性与距离度量

若采用距离为度量

闵可夫斯基距离： $dist(x^i,x^j)=\left(\sum_{d=1}^D|x_{i,d}-x_{j,d}|^p\right)^{1/p}$
当 $p = 2$ 时，为欧氏距离 $:dist(x^i,x^j)=\sqrt{\sum_{d=1}^D\left(x_{i,d}-x_{j,d}\right)^2}$
当 $p = 1$ 时，为曼哈顿距离： $dist(x^i,x^j)=\sum_{d=1}^D\left|x_{i,d}-x_{j,d}\right|$

这类距离函数对特征的旋转和平移变换不敏感，对数值尺度敏感

若采用余弦相似度量

两变量 $x^i,x^j$ ,看作D维空间的两个向量，这两个向量间的夹角余弦可用下式进行计算
$s(x^i,x^j)=\frac{\sum_{d=1}^Dx_{i,d}x_{j,d}}{\sqrt{\sum_{d=1}^Dx_{i,d}^2}\sqrt{\sum_{d=1}^Dx_{j,d}^2}}=\frac{(x^i)^Tx^j}{\|x^i\|\|x^j\|}$
若采用相关系数
$\begin{gathered} r(x^i,x^j)=\frac{cov(x^i,x^j)}{\sigma_{x_i}\sigma_{x_j}}=\frac{\mathbb{E}[(x^i-\mu^i)(x^j-\mu^j)]}{\sigma_{x_i}\sigma_{x_j}} \\ \begin{aligned}=\frac{\sum_{d=1}^D(x_{i,d}-\mu_{i,d})(x_{j,d}-\mu_{j,d})}{\sqrt{\sum_{d=1}^D\left(x_{i,d}-\mu_{i,d}\right)^2\sum_{d=1}^D\left(x_{j,d}-\mu_{j,d}\right)^2}}\end{aligned} \end{gathered}$
当数据采用中心化处理后 $\mu_i=\mu_j=0$ ，相关系数等于余弦相似度

对聚类算法的性能评价指标

参考模型

设存在数据集 $D=\{x^1,x^2,...x^N\}$ ，聚类结果 $:C=\{\mathcal{C}_1,\mathcal{C}_2,...\mathcal{C}_K\}$ ,其中 $\mathcal{C}_k$ 表示属于类别 $k$ 的样本的集合，其中参考模型的分类结果为 $\mathcal{C}^*=\{\mathcal{C}_1^*,...,\mathcal{C}_K^*\}$ , $\lambda$ 和 $\lambda^*$ 分别为 $c$ 和 $c^*$ 的标记向量

其中聚类结果有4种情况
$\begin{aligned} a=&\begin{Bmatrix}(x^i,x^j)|x^i,x^j\in\mathcal{C}_k;&x^i,x^j\in\mathcal{C}_l^*\end{Bmatrix}\\ &\text{在两种聚类结果中，两个样本的所属的簇相同}\\ d=&\{(x^i,x^j)|x^i\in\mathcal{C}_{k1},x^j\in\mathcal{C}_{k2};\:x^i\in\mathcal{C}_{l1}^*,x^j\in\mathcal{C}_{l2}^*\}\\ &\text{在两种聚类结果中，两个样本的所属的簇不同}\\ b=&\big\{(x^i,x^j)|x^i,x^j\in\mathcal{C}_k;\:x^i\in C_{l1}^*,x^j\in\mathcal{C}_{l2}^*\big\}\\ c=&\big\{(x^i,x^j)|x^i\in\mathcal{C}_{k1},x^j\in\mathcal{C}_{k2};\:x^i,x^j\in\mathcal{C}_l^*\big\} \end{aligned}$
每个样本对 $x_i,x_j)(i<j)$ 仅能出现在一个集合中，因此有 $a + b + c + d = m (m - 1) /2$ 成立

Jaccard 系数(Jaccard Coefficient, 简称 JC)
$\text{JC}=\frac a{a+b+c}$
FM 指数(Fowlkes and Mallows Index, 简称 FMI)
$\mathrm{FMI}=\sqrt{\frac a{a+b}\cdot\frac a{a+c}}$
Rand 指数(Rand Index, 简称 RI$) $
$\mathrm{RI}=\frac{2(a+d)}{N(N-1)}$
上述性能度量的结果值均在 [0,1] 区间，值越大越好

无参考模型

其要求簇内相似度越大越好，簇间相似度越小越好

平均距离：
$avg(\mathcal{C}_k)=\frac1{|\mathcal{C}_k|(|\mathcal{C}_k|-1)}\sum_{x^i,x^j\in\mathcal{C}_k}dist(x^i,x^j)$
最大距离：
$diam\left(\mathcal{C}_k\right)=\max_{x^i,x^j\in\mathcal{C}_k}dist(\boldsymbol{x}^i,\boldsymbol{x}^j)$
簇的半径：
$diam(\mathcal{C}_k)=\sqrt{\frac1{|C_k|}\sum_{x^i\in\mathcal{C}_k}(dist(x^i,\mu^k))^2}$
其中 $\mu^{k}=\frac{1}{|\mathcal{C}_{k}|}\sum_{x^{i}\in\mathcal{C}_{k}}\boldsymbol{x}^{i}$

最小距离：
$d_{min}(\mathcal{C}_k,\mathcal{C}_l)=\min_{x^i\in\mathcal{C}_k,x^j\in\mathcal{C}_l}dist(x^i,x^j)$
类中心的距离：
$d_{cen}(\mathcal{C}_k,\mathcal{C}_l)=dist(\mathbf{\mu}^k,\mathbf{\mu}^l),$
DB指数（DBI）【簇内距离/簇间距离】：
$DBI=\frac1K\sum_{k=1}^K\max_{k\neq l}\frac{\arg(\mathcal{C}_k)+avg(\mathcal{C}_l)}{d_{cen}(\mathcal{C}_k,\mathcal{C}_l)}$
其中DBI越小越好，即簇越小越远