【Python机器学习】凝聚聚类——层次聚类与树状图

news2026/2/15 3:16:11

凝聚聚类生成了所谓的层次聚类。聚类过程迭代进行，每个点都从一个单点簇变为属于最终的某个簇。每个中间步骤都提供了数据的一种聚类（簇的个数也不相同）。有时候，同时查看所有可能的聚类也是有帮助的。

举例：


import matplotlib.pyplot as plt
import mglearn.plots

mglearn.plots.plot_agglomerative()
plt.show()

虽然这种可视化为层次聚类提供了非常详细的视图，但它依赖于数据的二维性质，因此不能呢个用于具有两个特征的数据集。但还有另一个层次聚类可视化的工具，那就是树状图，它可以处理多维数据集。

可以利用SciPy生成树状图，SciPy的聚类算法接口与scikit-learn的聚类算法稍有不同。SciPy提供了一个函数，然后接收数组X并计算出一个链接数组，它对层次聚类的相似度进行编码。然后我们就可以将这个链接数组提供给scipy的dendrogram函数来绘制树状图。


import matplotlib.pyplot as plt
import mglearn.plots
from scipy.cluster.hierarchy import dendrogram,ward
from sklearn.datasets import make_blobs,make_moons


X,y=make_blobs(random_state=0,n_samples=12)
linkage_array=ward(X)
dendrogram(linkage_array)

ax=plt.gca()
bounds=ax.get_xbound()
ax.plot(bounds,[7.25,7.25],'--',c='k')
ax.plot(bounds,[4,4],'--',c='k')

ax.text(bounds[1],7.25,'2',va='center',fontdict={'size':15})
ax.text(bounds[1],4,'3',va='center',fontdict={'size':15})
plt.xlabel('Sample index')
plt.ylabel('Cluster distance')
plt.show()