【Python】sklearn机器学习之Birch聚类算法

news2026/2/7 14:19:20

文章目录

- 基本原理
- sklearn调用

基本原理

BIRCH，即Balanced Iterative Reducing and Clustering Using Hierarchies，利用分层的平衡迭代规约和聚类，特点是扫描一次数据就可以实现聚类，

而根据经验，一般这种一遍成功的算法，背后一定有一棵树，而这棵树的生成规则，往往就是算法的核心。Birch算法的核心，叫做聚类特征树(Clustering Feature Tree)，简称CF树。

CF树由CF构成，每个CF都是三元组，表示为(N, LS, SS)，其中N表示点数；LS表示点的向量和；SS表示CF各分量的平方和。

CF树常见的操作有两个，分别是添加样本点和CF分裂。而一个新的样本点到来之后，是融入现有的CF，还是另行开辟一个新的CF，则要受到至少两个参数的约束：

最大CF数
每个CF的最大样本半径

sklearn调用

在sklearn中，Birch类的构造函数如下

Birch(*, threshold=0.5, branching_factor=50, n_clusters=3, compute_labels=True, copy=True)

其中

threshold表示CF最大样本半径，当新的样本加入到某个CF中后，如果大于threshold，则会发生CF分裂。
branching_factor 表示每个节点的最大CF个数

考虑到Birch适用于较大样本数量，所以下面

import numpy as np
from sklearn.cluster import Birch
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

xs, ys = np.indices([10,10])*5
n_centers = np.array(list(zip(xs.reshape(-1), ys.reshape(-1))))
X, y = make_blobs(n_samples=25000, centers=n_centers, random_state=0)
birch = Birch(threshold=1.7, n_clusters=None)
birch.fit(X)
plt.scatter(X[:,0], X[:,1], c=birch.labels_, marker='.')
plt.show()

效果为

在这里插入图片描述

貌似效果不太好，主要原因可能是没预设样本数，

birch = Birch(threshold=1.7, n_clusters=100)
birch.fit(X)
plt.scatter(X[:,0], X[:,1], c=birch.labels_, marker='.')
plt.show()

将n_cluster设为100之后，效果为

在这里插入图片描述

接下来测试一下Birch算法的效率，通过make_blobs生成10万个点，然后通过Birch算法完成聚类

import time
X, y = make_blobs(n_samples=100000, centers=n_centers, random_state=0)
t = time.time()
birch = Birch(threshold=1.7, n_clusters=100)
birch.fit(X)
print(time.time()-t)
plt.scatter(X[:,0], X[:,1], c=birch.labels_, marker='.')
plt.show()