文章目录
- 基本原理
- sklearn中谱聚类的构造
- 实战
基本原理
谱聚类是一种基于图论的聚类方法,所谓图,就是将空间中的所有点连接起来,只要这些连接中出现了一个圈,就可以称之为图。如果把这些连线加上一个权重,就叫做加权图。
如果连线越长则权重越小,连线越短则权重越大,然后把权重最小的边切断,使得一个图变成两个图,便完成了一次聚类,这就是谱算法的基本思路,而其基本流程,就是构图->切图。
所以,问题来了,如何构图?若将所有的点都连接起来,这显然有些离谱,毕竟这种平方级别的复杂度不是一般内存能吃得消的,作为有一点聚类基础的人,第一时间就会想到KNN算法,即k近邻。
由于谱聚类中,两个点是否要被切断,最关键的因素是短边而非长边,所以只要将点与其最近的k
个点连接起来就行了。这样得到的图有一个问题,即x
最近的k
个点中可能有y
,但y
最近的k
个点中可能没有x
,像极了女神和你。
对此有两种解决方案,一种是x
也不要y
了,另一种是强制让x
加入到y
的近邻中。
除了k近邻之外,还可以定死一个距离r
,凡是距离小于r
的都连线,大于r
的都不连线。由于点和点之间的距离往往相差较大,故其权重一般会在距离的基础上做一些变换,这个变换在下文乘坐权重函数。
sklearn中谱聚类的构造
在sklearn
中,谱聚类的构造函数为
SpectralClustering(n_clusters=8, *, eigen_solver=None, n_components=None, random_state=None, n_init=10, gamma=1.0, affinity='rbf', n_neighbors=10, eigen_tol='auto', assign_labels='kmeans', degree=3, coef0=1, kernel_params=None, n_jobs=None)
其中affinity
参数表示构图方法,可以输入字符串或者sklearn.metrics.pairwise.pairwise_kernels
中的函数,当输入字符串时:
nearest_neighbors
: 表示采用最邻近算法rbf
:即rbf
方法,表达式为 e − γ d i j 2 e^{-\gamma d_{ij}^2} e−γdij2, d i j d_{ij} dij表示点i和j的距离。
在pairwise_kernels
中,还支持5种变换方法:rbf
,sigmoid
, polynomial
/poly
, linear
, cosine
。
当选择最近邻算法时,可通过参数n_neighbors
来设置最近邻的个数,即KNN
的K
。
当选择rbf
时,可通过参数gamma
来设置权重函数的系数
γ
\gamma
γ。
当选择poly
或者polynomial
时,表示采用多项式函数,可通过degree
来设置最高次的值。
当采用多项式或者sigmoid
时,可通过coef0
来设置0阶项系数。
通过kernel_params
可以设置更加复杂的权重函数的系数。
此外,还有如下常用的参数
n_clusters
聚类数eigen_solver
特征值分解策略,可选'arpack'
,'lobpcg'
和'amg'
;其中amg
要求安装pyamg
,可以更快地处理大规模样本,但可能有点不稳定;random_state
:随机数种子,便于结果复现n_init
:k-means算法的初值个数eigen_tol
:精度要求assign_labels
:表示分配标签的策略,可选kmeans
,discretize
和cluster_qr
n_jobs
并行数
实战
import numpy as np
from sklearn import datasets
from sklearn.cluster import SpectralClustering
import matplotlib.pyplot as plt
X, y = datasets.make_circles(n_samples=1000, factor=0.5, noise=0.05)
fig = plt.figure()
# 谱聚类默认聚类数为8
model = SpectralClustering().fit(X)
ax = fig.add_subplot(131)
ax.scatter(X[:,0], X[:,1], c=model.labels_, marker='.')
model = SpectralClustering(n_clusters=2).fit(X)
ax = fig.add_subplot(132)
ax.scatter(X[:,0], X[:,1], c=model.labels_, marker='.')
model = SpectralClustering(n_clusters=2, affinity="nearest_neighbors").fit(X)
ax = fig.add_subplot(133)
ax.scatter(X[:,0], X[:,1], c=model.labels_, marker='.')
plt.show()
效果为
SpectralClustering
有一个成员是affitiny_matrix_
,存储了连接矩阵,将其调出后,可绘制具体的图
model = SpectralClustering( affinity="nearest_neighbors").fit(X)
inds = model.affinity_matrix_.nonzero()
inds = np.array(inds).T
for ind in inds:
tmp = plt.plot(X[ind,0], X[ind, 1], c='g', lw=0.5)
plt.scatter(X[:,0], X[:,1], c=model.labels_, marker='o')
plt.show()
效果为