模型聚类

模型（Model）聚类假定每个簇符合一个分布模型，通过找到这个分布模型，就可以对样本点进行分簇。

在机器学习领域，这种先假定模型符合某种概率分布（或决策函数），然后在学习过程中学习到概率分布参数（或决策函数参数）的最优值的模型，称为参数学习模型。

模型聚类主要包括概率模型和神经网络模型两大类，前者以高斯混合模型（Gaussian Mixture Models，GMM）为代表，后者以自组织映射网络（Self Organizing Map，SOM）为代表。

高斯混合模型GMM

记随机变量X服从含有未知变量τ=(μ,σ^2)的高斯分布，其概率密度为：

高斯混合模型P(├ x|θ)是多个高斯分布混合的模型：

式中，K是混合的高斯分布的总数，τ_i是第i个高斯分布的未知变量，记τ=(τ_1,τ_2,…,τ_K)。α_i是第i个高斯分布的混合系数，α_i>0，∑▒α_i=1，α_i可看作概率值，记α=(α_1,α_2,…,α_K)。记θ=(α，τ)。

将高斯混合模型用于聚类任务时，认为样本是由P(├ x|θ)产生的，产生的过程是先按概率α选择一个高斯分布f(├ x|τ_j)，再由该高斯分布生成样本。

由同一高斯分布产生的样本属于同一簇，即高斯混合模型中的高斯分布与聚类的簇一一对应。

在分簇过程中，算法的任务是从训练集中学习到模型参数θ=(α，τ)，在分配过程，模型计算测试样本由每个高斯分布产生的概率，取最大概率对应的高斯分布的簇作为分配的簇。

以（0，0）和（10，10）为中心，以1.2和1.8为标准差，分别生成两个簇。

本次示例中，生成的两个簇是完全间隔开的，观察模型学习到的均值和方差是非常小的，由此可见误差比较小

代码如下

X1, y1 = make_blobs(n_samples=300, n_features=2, centers=[[0,0]], cluster_std=[1.2])
X2, y2 = make_blobs(n_samples=600, n_features=2, centers=[[3,3]], cluster_std=[1.8])
plt.scatter(X1[:, 0], X1[:, 1], marker='o', color='r')
plt.scatter(X2[:, 0], X2[:, 1], marker='+', color='b')
plt.show()

下面是将两个簇的一部分重合的效果

这次均值和协方差都变大了很多，由此可见高斯混合聚类对重合部分的点并不能很好的预测，分簇结果有一条明显的分界线，该分界线是两个模型计算概率值相等的地方

下面对txt文件中的点的坐标进行高斯混合聚类分析的效果如下

代码如下

from sklearn.mixture import GaussianMixture
import numpy as np
samples = np.loadtxt("kmeansSamples.txt")
gm = GaussianMixture(n_components=2, random_state=0).fit(samples)
labels = gm.predict(samples)
import matplotlib.pyplot as plt
plt.scatter(samples[:,0],samples[:,1],c=labels+1.5,linewidths=np.power(labels+1.5, 2))
plt.show()

创作不易觉得有帮助请点赞关注收藏~~~

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/97950.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！