机器学习之无监督学习:九大聚类算法

news2024/10/7 16:22:06

今天,和大家分享一下机器学习之无监督学习中的常见的聚类方法。

今天,和大家分享一下机器学习之无监督学习中的常见的聚类方法。

在无监督学习中,我们的数据并不带有任何标签,因此在无监督学习中要做的就是将这一系列无标签的数据输入到算法中,然后让算法找到一些隐含在数据中的结构,通过下图中的数据,可以找到的一个结构就是数据集中的点可以分成两组分开的点集(簇),能够圈出这些簇(cluster)的算法,就叫做聚类算法(clustering algorithm)。

聚类算法的应用

  • 市场分割:将数据库中客户的信息根据市场进行不同的分组,从而实现对其分别销售或者根据不同的市场进行服务改进。
  • 社交网络分析:通过邮件最频繁联系的人及其最频繁联系的人来找到一个关系密切的群体。
  • 组织计算机集群:在数据中心里,计算机集群经常一起协同工作,可以用它来重新组织资源、重新布局网络、优化数据中心以及通信数据。
  • 了解银河系的构成:利用这些信息来了解一些天文学的知识。

聚类分析的目标是将观测值划分为组(“簇”),以便分配到同一簇的观测值之间的成对差异往往小于不同簇中的观测值之间的差异。聚类算法分为三种不同的类型:组合算法、混合建模和模式搜索。

常见的几种聚类算法有:
  • K-Means Clustering
  • Hierarchical Clustering
  • Agglomerative Clustering
  • Affinity Propagation
  • Mean Shift Clustering
  • Bisecting K-Means
  • DBSCAN
  • OPTICS
  • BIRCH

K-means

K-means 算法是目前最流行的聚类方法之一。

K-means 是由贝尔实验室的 Stuart Lloyd 在 1957 年提出来的,最开始是用于脉冲编码调制,直到 1982 年才将该算法对外公布。1965 年,Edward W.Forgy 发布了相同的算法,因此 K-Means 有时被称为 Lloyd-Forgy。

在聚类问题中,我们会给定一组未加标签的数据集,同时希望有一个算法能够自动地将这些数据分成有紧密关系的的(coherent)子集(subsets) 或是簇(clusters)。K 均值(K-means)算法是现在最热门最为广泛运用的聚类算法。

直观理解 K 均值算法:

假如有一个无标签的数据集(上图左),并且我们想要将其分为两个簇,现在执行 K 均值算法,具体操作如下:

  • 第一步,随机生成两个点(因为想要将数据聚成两类)(上图右),这两个点叫做聚类中心(cluster centroids)。
  • 第二步,进行 K 均值算法的内循环。K 均值算法是一个迭代算法,它会做两件事情,第一个是簇分配(cluster assignment),第二个是移动聚类中心(move centroid)。

内循环的第一步是要进行簇分配,也就是说,遍历每一个样本,再根据每一个点到聚类中心距离的远近将其分配给不同的聚类中心(离谁近分配给谁),对于本例而言,就是遍历数据集,将每个点染成红色或蓝色。

内循环的第二步是移动聚类中心,将红色和蓝色的聚类中心移动到各自点的均值处(每组点的平均位置)。

接着就是将所有的点根据与新的聚类中心距离的远近进行新的簇分配,如此循环,直至聚类中心的位置不再随着迭代而改变,并且点的颜色也不再发生改变,此时可以说 K 均值已经聚合了。该算法在找出数据中两个簇的方面做的相当好。

K-Means算法的优点:

简单易懂,计算速度较快,适用于大规模数据集。

缺点:
  • 例如对于非球形簇的处理能力较差,容易受到初始簇心的选择影响,需要预先指定簇的数量K等。
  • 此外,当数据点之间存在噪声或者离群点时,K-Means算法可能会将它们分配到错误的簇中。

Hierarchical Clustering

层次聚类(Hierarchical Clustering)顾名思义就是按照某个层次对样本集进行聚类操作,这里的层次实际上指的就是某种距离定义。

层次聚类最终的目的是消减类别的数量,所以在行为上类似于树状图由叶节点逐步向根节点靠近的过程,这种行为过程又被称为“自底向上”。

更通俗的,层次聚类是将初始化的多个类簇看做树节点,每一步迭代,都是将两两相近的类簇合并成一个新的大类簇,如此反复,直至最终只剩一个类簇(根节点)。

层次聚类策略分为两种基本范式:聚集型(自下而上)和分裂型(自上而下)。

与层次聚类相反的是分裂聚类(divisive clustering),又名 DIANA(Divise Analysis),它的行为过程为“自顶向下”。

应用 K-means 的结果取决于要搜索的聚类数量的选择和起始配置分配。相反,层次聚类方法不需要这样的规范。相反,它们要求用户根据两组观察值之间的成对差异性,指定(不相交)观察组之间的差异性度量。顾名思义,它们产生层次结构表示,其中层次结构每个级别的集群都是通过合并下一个较低级别的集群来创建的。在最低级别,每个集群包含一个观察值。在最高级别,只有一个集群包含所有数据。

优点:
  • 距离和规则的相似度容易定义,限制少;
  • 不需要预先制定聚类数;
  • 可以发现类的层次关系;
  • 可以聚类成其它形状。
缺点:
  • 计算复杂度太高;
  • 奇异值也能产生很大影响;
  • 算法很可能聚类成链状。

Agglomerative Clustering

凝聚层次聚类(Agglomerative Clustering)是一种自底向上的聚类算法,它将每个数据点视为一个初始簇,并将它们逐步合并成更大的簇,直到达到停止条件为止。在该算法中,每个数据点最初被视为一个单独的簇,然后逐步合并簇,直到所有数据点被合并为一个大簇。

优点:
  • 适用于不同形状和大小的簇,且不需要事先指定聚类数目。
  • 该算法也可以输出聚类层次结构,便于分析和可视化。
缺点:
  • 计算复杂度较高,尤其是在处理大规模数据集时,需要消耗大量的计算资源和存储空间。
  • 该算法对初始簇的选择也比较敏感,可能会导致不同的聚类结果。

Affinity Propagation

Affinity Propagation(AP)算法,通常被翻译为近邻传播算法或者亲和力传播算法,

Affinity Propagation 是一种基于图论的聚类算法,旨在识别数据中的"exemplars"(代表点)和"clusters"(簇)。与 K-Means 等传统聚类算法不同,Affinity Propagation 不需要事先指定聚类数目,也不需要随机初始化簇心,而是通过计算数据点之间的相似性得出最终的聚类结果。

优点:
  • 不需要制定最终聚类族的个数
  • 已有的数据点作为最终的聚类中心,而不是新生成一个簇中心。
  • 模型对数据的初始值不敏感。
  • 对初始相似度矩阵数据的对称性没有要求。
  • 相比与 k-centers 聚类方法,其结果的平方差误差较小。
缺点:
  • 该算法的计算复杂度较高,需要大量的存储空间和计算资源;
  • 对于噪声点和离群点的处理能力较弱。

Mean Shift Clustering

Mean Shift Clustering 是一种基于密度的非参数聚类算法,其基本思想是通过寻找数据点密度最大的位置(称为"局部最大值"或"高峰"),来识别数据中的簇。算法的核心是通过对每个数据点进行局部密度估计,并将密度估计的结果用于计算数据点移动的方向和距离。算法的核心是通过对每个数据点进行局部密度估计,并将密度估计的结果用于计算数据点移动的方向和距离。

优点:
  • 不需要指定簇的数目,且对于形状复杂的簇也有很好的效果。
  • 算法还能够有效地处理噪声数据。
缺点:
  • 计算复杂度较高,尤其是在处理大规模数据集时,需要消耗大量的计算资源和存储空间;
  • 该算法还对初始参数的选择比较敏感,需要进行参数调整和优化。

Bisecting K-Means

Bisecting K-Means 是一种基于 K-Means 算法的层次聚类算法,其基本思想是将所有数据点划分为一个簇,然后将该簇分成两个子簇,并对每个子簇分别应用 K-Means 算法,重复执行这个过程,直到达到预定的聚类数目为止。

算法首先将所有数据点视为一个初始簇,然后对该簇应用K-Means算法,将该簇分成两个子簇,并计算每个子簇的误差平方和(SSE)。然后,选择误差平方和最大的子簇,并将其再次分成两个子簇,重复执行这个过程,直到达到预定的聚类数目为止。

优点:
  • 具有较高的准确性和稳定性,能够有效地处理大规模数据集,并且不需要指定初始聚类数目。
  • 该算法还能够输出聚类层次结构,便于分析和可视化。
缺点:
  • 计算复杂度较高,尤其是在处理大规模数据集时,需要消耗大量的计算资源和存储空间。
  • 此外该算法对初始簇的选择也比较敏感,可能会导致不同的聚类结果。

DBSCAN

具有噪声的基于密度的聚类方法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)是一种典型的基于密度的空间聚类算法。

基于密度的方法的特点是不依赖于距离,而是依赖于密度,从而克服基于距离的算法只能发现“球形”聚簇的缺点。

DBSCAN算法的核心思想是:对于一个给定的数据点,如果它的密度达到一定的阈值,则它属于一个簇中;否则,它被视为噪声点。

优点:
  • 这类算法能克服基于距离的算法只能发现“类圆形”(凸)的聚类的缺点;
  • 可发现任意形状的聚类,且对噪声数据不敏感;
  • 不需要指定类的数目 cluster;
  • 算法中只有两个参数,扫描半径 (eps)和最小包含点数(min_samples)。
缺点:
  • 计算复杂度,不进行任何优化时,算法的时间复杂度是O(N^{2}),通常可利用R-tree,k-d tree, ball;
  • tree索引来加速计算,将算法的时间复杂度降为O(Nlog(N));
  • 受eps影响较大。在类中的数据分布密度不均匀时,eps较小时,密度小的cluster会被划分成多个性质相似的cluster;eps较大时,会使得距离较近且密度较大的cluster被合并成一个cluster。在高维数据时,因为维数灾难问题,eps的选取比较困难;
  • 依赖距离公式的选取,由于维度灾害,距离的度量标准不重要;
  • 不适合数据集集中密度差异很大的,因为eps和metric选取很困难。

OPTICS

OPTICS(Ordering Points To Identify the Clustering Structure)是一种基于密度的聚类算法,其能够自动确定簇的数量,同时也可以发现任意形状的簇,并能够处理噪声数据。

OPTICS 算法的核心思想是:对于一个给定的数据点,通过计算它到其它点的距离,确定其在密度上的可达性,从而构建一个基于密度的距离图。然后,通过扫描该距离图,自动确定簇的数量,并对每个簇进行划分。

优点:
  • 能够自动确定簇的数量,并能够处理任意形状的簇,并能够有效地处理噪声数据。
  • 该算法还能够输出聚类层次结构,便于分析和可视化。
缺点:
  • 计算复杂度较高,尤其是在处理大规模数据集时,需要消耗大量的计算资源和存储空间。
  • 该算法对于密度差异较大的数据集,可能会导致聚类效果不佳。

BIRCH

BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)是一种基于层次聚类的聚类算法,其可以快速地处理大规模数据集,并且对于任意形状的簇都有较好的效果。

BIRCH算法的核心思想是:通过对数据集进行分级聚类,逐步减小数据规模,最终得到簇结构。BIRCH算法采用一种类似于B树的结构,称为CF树,它可以快速地插入和删除子簇,并且可以自动平衡,从而确保簇的质量和效率。

优点:
  • 能够快速处理大规模数据集,并且对于任意形状的簇都有较好的效果。
  • 该算法对于噪声数据和离群点也有较好的容错性。
缺点:
  • 对于密度差异较大的数据集,可能会导致聚类效果不佳;
  • 对于高维数据集的效果也不如其他算法。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1296832.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

idea使用maven的package打包时提示“找不到符号”或“找不到包”

介绍:由于我们的项目是多模块开发项目,在打包时有些模块内容更新导致其他模块在引用该模块时不能正确引入。 情况一:找不到符号 情况一:找不到包 错误代码部分展示: Failure to find com.xxx.xxxx:xxx:pom:0.5 in …

NLP项目实战01之电影评论分类

介绍: 欢迎来到本篇文章!在这里,我们将探讨一个常见而重要的自然语言处理任务——文本分类。具体而言,我们将关注情感分析任务,即通过分析电影评论的情感来判断评论是正面的、负面的。 展示: 训练展示如下…

ABAP - Function ALV 01 Function ALV的三大基石

森莫是Function ALV? 业务顾问和用户方面的名词定义为报表,在开发顾问方面定义的名词为ALV 通过调用Function方式展示的ALV叫做FunctionALV.Function的解释:封装好的函数 Function ALV的三大基石 Fieldcat :Function ALV字段级别的处理 Layout …

CentOS服务自启权威指南:手动启动变为开机自启动(以Jenkins服务为例)

前言 CentOS系统提供了多种配置服务开机自启动的方式。本文将介绍其中两种常见的方式, 一种是使用Systemd服务管理器配置,不过,在实际中,如果你已经通过包管理工具安装的,那么服务通常已经被配置为Systemd服务&#…

利用法线贴图渲染逼真的3D老虎模型

在线工具推荐: 3D数字孪生场景编辑器 - GLTF/GLB材质纹理编辑器 - 3D模型在线转换 - Three.js AI自动纹理开发包 - YOLO 虚幻合成数据生成器 - 三维模型预览图生成器 - 3D模型语义搜索引擎 当谈到游戏角色的3D模型风格时,有几种不同的风格&#xf…

让聪明的车连接智慧的路,C-V2X开启智慧出行生活

“聪明的车 智慧的路”形容的便是车路协同的智慧交通系统,从具备无钥匙启动,智能辅助驾驶和丰富娱乐影音功能的智能网联汽车,到园区的无人快递配送车,和开放的城市道路上自动驾驶的公交车、出租车,越来越多的车联网应用…

ELK(四)—els基本操作

目录 elasticsearch基本概念RESTful API创建非结构化索引(增)创建空索引(删)删除索引(改)插入数据(改)数据更新(查)搜索数据(id)&…

【Copilot】Edge浏览器的copilot消失了怎么办

这种原因,可能是因为你的ip地址的不在这个服务的允许范围内。你需要重新使用之前出现copilot的ip地址,然后退出edge的账号,重新登录一遍,最后重启edge,就能够使得copilot侧边栏重新出现了。

mac苹果电脑清除数据软件CleanMyMac X4.16

在数字时代,保护个人隐私变得越来越重要。当我们出售个人使用的电脑,亦或者离职后需要上交电脑,都需要对存留在电脑的个人信息做彻底的清除。随着越来越多的人选择使用苹果电脑,很多人想要了解苹果电脑清除数据要怎样做才是最彻底…

Endnote在word中加入参考文献及自定义参考文献格式方式

第一部分:在word中增加引用步骤 1、先下载对应文献的endnote引用格式,如在谷歌学术中的下载格式如下: 2、在endnote中打开存储env的格式库,导入对应下载的文件格式:file>import>file>choose,import对应文件&a…

套接字应用程序

这章节是关于实现 lib_chan 库的 。 lib_chan 的代码在 TCP/IP 之上实现了一个完整的网络层,能够提供认证和Erlang 数据流功能。一旦理解了 lib_chan 的原理,就能量身定制我们自己的通信基础结构,并把它叠加在TCP/IP 之上了。 就lib_chan 本身…

PSP - 计算蛋白质复合物链间接触的残基与面积

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/134884889 在蛋白质复合物中,通过链间距离,可以计算出在接触面的残基与接触面的面积,使用 BioPython 库 与 SA…

在Pytorch中使用Tensorboard可视化训练过程

这篇是我对哔哩哔哩up主 霹雳吧啦Wz 的视频的文字版学习笔记 感谢他对知识的分享 本节课我们来讲一下如何在pytouch当中去使用我们的tensorboard 对我们的训练过程进行一个可视化 左边有一个visualizing models data and training with tensorboard 主要是这么一个教程 那么这里…

28BYJ-48步进电机的驱动

ULN2003的工作原理 28BYJ48可以用ULN2003来驱动,STM32使用开漏模式外接5V上拉电阻也可以产生5V电压,为什么不直接使用单片机的 GPIO来驱动的原因是虽然电压符合电机的驱动要求,但单片机引脚产生的驱动电流太小,因此驱动步进电机要…

IBM Qiskit量子机器学习速成(四)

量子核机器学习 一般步骤 量子核机器学习的一般步骤如下 定义量子核 我们使用FidelityQuantumKernel类创建量子核,该类需要传入两个参数:特征映射和忠诚度(fidelity)。如果我们不传入忠诚度,该类会自动创建一个忠诚度。 注意各个类所属的…

leaflet:经纬度坐标转为地址,点击鼠标显示地址信息(137)

第137个 点击查看专栏目录 本示例的目的是介绍演示如何在vue+leaflet中将经纬度坐标转化为地址,点击鼠标显示某地的地址信息 。主要利用mapbox的api将坐标转化为地址,然后在固定的位置显示出来。 直接复制下面的 vue+leaflet源代码,操作2分钟即可运行实现效果 文章目录 示…

UniDBGrid序号列添加标题

有人想要在UniDBGrid的序号列加上标题,就是这里 可以使用如下代码 UniSession.AddJS(MainForm.UniDBGrid1.columnManager.columns[0].setText("序号"));

VMware安装Ubuntu20.04并使用Xshell连接虚拟机

文章目录 虚拟机环境准备重置虚拟网络适配器属性(可选)配置NAT模式的静态IP创建虚拟机虚拟机安装配置 Xshell连接虚拟机 虚拟机环境准备 VMware WorkStation Pro 17.5:https://customerconnect.vmware.com/cn/downloads/details?downloadGr…

样本数量对问卷信度效度分析的影响及应对策略

问卷调研是一种常见的数据收集方法。明确问卷的真实性和效率是保证其靠谱性和有效性的重要一步。但问卷的真实性和品质会受到样本数量的影响吗? 一、问卷信度的认识 1、信度的概念和重要性:在问卷实验中,信度是指问卷测量值的稳定性和一致性。高信度代…

go grpc高级用法

文章目录 错误处理常规用法进阶用法原理 多路复用元数据负载均衡压缩数据 错误处理 gRPC 一般不在 message 中定义错误。毕竟每个 gRPC 服务本身就带一个 error 的返回值,这是用来传输错误的专用通道。gRPC 中所有的错误返回都应该是 nil 或者 由 status.Status 产…