聚类--机器学习西瓜书阅读笔记(六)

无监督学习：通过对无标记训练样本的学习，揭示数据内在规律和性质。

聚类试图将数据集中的样本划分为若干不相交的子集，聚类过程自动形成簇结构，簇对应的语义需要子集命名把握。

聚类过程可以作为单独的过程，寻找数据内在分布结构，也可作为其他任务的前驱过程。

聚类涉及的两个基本问题——————性能度量和距离计算

性能度量（有效性指标）：外部指标、内部指标，明确性能度量可以作为聚类过程的优化目标。

距离度量：常用闵可夫斯基距离。

闵可夫斯基距离可用于有序属性（可以直接在属性值上计算距离）；

VDM用于无序属性（不能直接在属性值上计算距离）；

闵可夫斯基距离和VDM结合可以处理混合属性。

样本空间中，不同属性的重要性不同，可以使用加权距离。

一般基于距离定义相似性度量，距离越大，相似性度量越大，用于相似性度量的距离未必一点要满足距离度量所有基本属性（非负、同一、对称、直递），即非度量距离。现实任务中，有必要基于数据样本确定合适的距离计算。

原型聚类：假设聚类结构能通过一度原型刻画

原型：样本空间中具有代表性的点。

K均值算法（k-means）：属于NP问题，采用贪心策略

具体步骤包括：

初始化：随机选择K个数据点作为初始的簇质心。
分配：根据每个数据点与各个簇质心的距离，将其分配给最近的簇。
更新：重新计算每个簇的质心，即取簇内所有数据点的平均值作为新的质心。
迭代：重复分配和更新步骤，直到满足某种终止条件（如簇质心不再发生显著变化或达到预设的迭代次数）。需要设置最大运行次数和最小调整幅度阈值。

优点：

算法简单，易于实现。
计算效率高，适合处理大规模数据集。
可以识别出任意形状的聚类，只要聚类是凸形的。

缺点：

对初始聚类中心的选择敏感，不同的初始值可能导致不同的聚类结果。
需要预先指定聚类数目K，但K值往往难以确定。
对噪声和异常值敏感，可能影响聚类结果。
只适合发现具有相似方差的聚类，且聚类是凸形的。

为了改善K-means算法对初始聚类中心选择的敏感性，K-means++算法被提出。K-means++的主要改进在于初始聚类中心的选取方式：

从数据集中随机选择一个点作为第一个聚类中心。
对于数据集中的每个点，计算其到已选择的聚类中心的距离。
选择下一个聚类中心，其被选中的概率与到已选择聚类中心的距离的平方成正比。
重复步骤2和3，直到选择了K个聚类中心。

K-means算法的变种和改进：

K-means||：一种快速的K-means算法，用于大规模数据集。
模糊C均值（FCM）：允许数据点属于多个聚类，具有一定程度的隶属度。
基于密度的K-means：结合了密度信息，更适合处理非球形聚类。

学习向量量化（LVQ）

数据带有标签，学习过程利用监督信心辅助聚类。

假设给定样本集，共m个，每个样本是由n个属性描述的特征向量。LVQ的学习目标，学得一组n维原型向量，每个原型向量代表一个聚类簇。形成对样本空间的簇划分，称为Voronoi剖分。

LVQ的工作流程主要包括以下步骤：

初始化：随机选择若干个初始码本向量，每个向量对应一个类别标签。
训练：对于每一个输入样本，算法计算其与所有码本向量之间的距离，并将其归为最近的类别。然后根据LVQ更新规则，调整最近类别对应的码本向量的位置。
迭代优化：重复上述过程直至达到预设的停止条件，如达到最大迭代次数或误差率低于阈值。

LVQ算法的更新规则

当输入样本与正类别原型的距离小于负类别原型时，正类别原型会向输入样本移动；
反之，则远离输入样本。这一动态更新机制确保了码本向量能够逐步逼近训练集各类别的边界，实现更准确的分类决策边界学习。

优点：

LVQ具有直观易理解的特点，它的解释性强，能直接生成可视化的分类边界。
算法训练速度快，适用于实时或增量式学习场景。
结构简单，不需要复杂的反向传播过程。

缺点：

对初始码本向量的选择敏感，不同的初始化可能会导致不同的收敛结果。
当类间边界复杂时，LVQ可能无法很好地捕捉特征空间的拓扑结构，特别是在高维数据集中表现一般。
对噪声和异常值较为敏感，可能导致过拟合或欠拟合。

高斯混合聚类：利用概率模型表达原型聚类

是一种基于概率的聚类算法，它假设数据是由多个高斯分布混合而成的。GMC使用期望最大化（Expectation-Maximization, EM）算法来估计数据的生成模型参数，包括各个高斯分布的均值、协方差和混合系数。这种算法特别适用于数据集中存在多个子群体且这些群体具有不同统计特性的情况。

算法原理

GMC的核心思想是将数据集表示为多个高斯分布的混合。每个高斯分布（也称为组件）都有其自己的均值、协方差和混合权重。算法的目标是找到一组参数，使得这些高斯分布的混合能够最好地拟合观测数据。GMC通过迭代的方式进行参数估计：

E步（期望步骤）：计算每个数据点属于每个高斯分布的后验概率。
M步（最大化步骤）：根据这些后验概率，更新每个高斯分布的参数，以最大化观测数据的似然。

优缺点

优点：

能够处理多维数据，并且可以很好地拟合数据的分布。
可以处理混合分布数据，提供灵活的聚类形状。
软聚类特性为数据点提供了属于每个聚类的概率，表达不确定性。

缺点：

计算复杂度高，尤其是在大数据集上。
对初始化敏感，不同的初始化可能导致不同的聚类结果。
需要预先指定高斯分布的数量，这可能需要领域知识或通过交叉验证等方法确定。
对异常值敏感，且可能遇到协方差矩阵奇异的问题。

变体和优化

为了解决GMC的一些局限性，研究者们提出了多种变体和优化方法，例如：

带有协方差约束的GMM：对协方差矩阵施加约束，如球形、对角或带对角线约束，以简化模型或避免过度拟合。
变分贝叶斯GMM：通过引入先验分布和变分推断来自动确定聚类的数量，减少对初始化的依赖。

高斯混合聚类是一种强大的聚类工具，尤其适用于数据中存在多个潜在子群体的情况。通过为每个数据点提供属于每个聚类的概率信息，它提供了对数据的更丰富的解释。

密度聚类

假设聚类的结构能通过样本分布的紧密程度确定，从样本密度的角度考察样本之间的可连接性，基于可连接样本不断扩展聚类簇获得结果。是基于数据空间中密度分布的聚类方法，它特别适用于发现任意形状的聚类，并且能够处理噪声数据。密度聚类方法的主要优点是它们不依赖于距离度量，能够发现任意形状的聚类，并且对噪声数据具有较好的鲁棒性。然而，这些算法通常需要仔细选择参数，以确保聚类结果的有效性。此外，密度聚类算法在处理大规模数据集时可能会遇到性能瓶颈，因此常常需要采用索引结构或基于网格的方法来加速密度估计

DBSCAN是一种著名的密度聚类方法，基于一组邻域参数刻画样本分布近密程度。

DBSCAN算法的核心思想是利用密度的概念来识别聚类。它将具有足够密度的区域划分为聚类，并能够在具有噪声的空间数据库中发现任意形状的聚类。
算法通过两个主要参数来工作：Eps（邻域的最大半径）和MinPts（在Eps邻域中的最少点数）。
DBSCAN将数据点分为三类：核心点、边界点和噪声点。核心点的邻域内点的数量满足最小密度要求，边界点位于核心点的邻域内但本身不是核心点，而噪声点则是不满足核心点或边界点条件的点。
DBSCAN的优点包括能够发现任意形状的聚类、对噪声不敏感，且不需要预先指定聚类数目。缺点是对参数Eps和MinPts敏感，且在高维数据中表现可能不佳