目录
居于密度的划分
DBSCAN算法
居于密度的划分
基于划分聚类和基于层次聚类的方法在聚类过程中根据距离来划分类簇,因此只能够用于挖掘球状簇。
为了解决这一缺陷,基于密度聚类算法利用密度思想,将样本中的高密度区域(即样本点分布稠密的区域)划分为簇,将簇看作是样本空间中被稀疏区域(噪声)分隔开的稠密区域。这一算法的主要目的是过滤样本空间中的稀疏区域,获取稠密区域作为簇
基于密度的聚类算法是根据密度而不是距离来计算样本相似度,所以基于密度的聚类算法能够用于挖掘任意形状的簇,并且能够有效过滤掉噪声样本对于聚类结果的影响
常见的基于密度的聚类算法有DBSCAN、OPTICS和DENCLUE等。其中,OPTICS 对DBSCAN算法进行了改进,降低了对输入参数的敏感程度。DENCLUE算法综合了基于划分、基于层次的方法
DBSCAN算法
DBSCAN采用基于中心的密度定义,样本的密度通过核心对象在 ϵ 半径内的样本点个数(包括自身)来估计。
概念:直接密度可达、密度可达、密度相连
在下图中,若 MinPts = 3,则 a、b、c 和 x、y、z 都是核心对象,因为在各自的ε-邻域中,都至少包含3个对象。
对象c是从对象b直接密度可达的
对象b是从对象a直接密度可达的
则对象c是从对象a密度可达的
对象y是从对象x密度可达的
对象z是从对象x密度可达的
则对象y和z是密度相连的