【非监督学习 | 聚类】聚类算法类别大全 距离度量单位大全

news2024/11/26 6:24:44

在这里插入图片描述

🤵‍♂️ 个人主页: @AI_magician
📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。
👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!🐱‍🏍
🙋‍♂️声明:本人目前大学就读于大二,研究兴趣方向人工智能&硬件(虽然硬件还没开始玩,但一直很感兴趣!希望大佬带带)

在这里插入图片描述

【深度学习 | 核心概念】那些深度学习路上必经的核心概念,确定不来看看? (一)
作者: 计算机魔术师
版本: 1.0 ( 2023.8.27 )

摘要: 本系列旨在普及那些深度学习路上必经的核心概念,文章内容都是博主用心学习收集所写,欢迎大家三联支持!本系列会一直更新,核心概念系列会一直更新!欢迎大家订阅

该文章收录专栏
[✨— 《深入解析机器学习:从原理到应用的全面指南》 —✨]

聚类算法

聚类算法是一种无监督学习的机器学习算法,用于将数据集中的样本划分为具有相特征的组或簇。其目标划分的原则是组内(内部)距离最小化,而组间(外部)距离最大化。在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体,并且概括出每一类消费者的消费模式或消费习惯。同时,聚类分析也可以作为数据分析算法中其他分析算法的一个预处理步骤,如异常值识别、连续型特征离散化等。

以下是基于不同方法的算法类别表

算法类别包括的主要算法优缺点分析
划分(分裂)方法K-Means算法(K-平均),K-MEDOIDS算法(K-中心点)和CLARANS算法(基于选择的算法)。优点:简单且易于实现,对处理大数据集和高维数据具有良好的可扩展性。缺点:对初始聚类中心的选择敏感,可能收敛到局部最优解,对异常值和噪声敏感。
层次分析方法BIRCH算法(平衡迭代规约和聚类),CURE算法(代表点聚类)和CHAMELEON算法(动态模型)。优点:可以自动发现任意形状和大小的聚类,不需要预先指定聚类个数。缺点:对于大数据集,计算成本较高,可能受到噪声和异常点的干扰。
基于密度的方法DBSCAN算法(基于高密度连接区域),DENCLUE算法(密度分布函数)和OPTICS算法(对象排序识别)。优点:能够发现任意形状的聚类,对噪声和异常值具有较好的鲁棒性。缺点:对于高维数据和具有不同密度聚类的数据集效果较差,需要事先指定一些参数。
基于网格的方法STING算法(统计信息网络),CLIOUE算法(聚类高维空间)和WAVE-CLUSTER算法(小波变换)。优点:对于高维数据和大规模数据集有良好的可扩展性,能够处理不同形状和大小的聚类。缺点:对初始网格的选择敏感,可能受到数据分布的影响。

以下是常用的聚类算法,

聚类算法模型所需参数适用范围距离度量优缺点
K-means簇的数量数值型数据欧几里德距离优点:简单易实现,计算效率高;缺点:对初始聚类中心敏感,不适用于非凸形状的簇
层次聚类(Hierarchical Clustering)距离或相似度的度量方法数值型或类别型数据可选多种距离度量方法,如欧几里德距离、曼哈顿距离等优点:不需要预先指定簇的数量,可用于发现任意形状的簇;缺点:计算复杂度高,不适用于处理大规模数据
DBSCAN邻域半径(epsilon)和最小邻域样本数(min_samples)数值型或类别型数据基于密度的距离度量优点:能够发现任意形状的簇,对初始聚类中心不敏感;缺点:对参数的选择敏感,不适用于高维数据
密度聚类(Density-Based Clustering)邻域密度阈值数值型或类别型数据基于密度的距离度量优点:对噪声数据和离群点具有较好的鲁棒性;缺点:对参数的选择敏感
局部离群因子(Local Outlier Factor,LOF)邻域大小(k)数值型或类别型数据基于密度的距离度量优点:能够检测出离群点和数据集中的聚类结构;缺点:对数据集中的局部结构敏感
高斯混合模型(Gaussian Mixture Model,GMM)簇的数量数值型数据基于概率模型的距离度量优点:能够对数据进行软聚类,灵活性高;缺点:对初始聚类中心敏感,计算复杂度高

以下是常用的聚类中的距离度量算法及其介绍,以及相应的优缺点分析:

名称介绍优缺点分析
欧氏距离(Euclidean Distance)欧氏距离是最常用的距离度量算法之一,它衡量两个向量之间的直线距离。在欧氏空间中,两个向量的欧氏距离等于它们各个维度差值的平方和的开方。优点:简单直观,易于理解和计算。缺点:对异常值敏感,受维度灾难影响。
曼哈顿距离(Manhattan Distance)曼哈顿距离衡量两个向量之间沿坐标轴的总距离。在二维空间中,曼哈顿距离等于两个点横坐标差的绝对值加上纵坐标差的绝对值。优点:对异常值不敏感,适用于稀疏数据。缺点:不考虑维度之间的相关性。
切比雪夫距离(Chebyshev Distance)切比雪夫距离是衡量两个向量之间的最大维度差值。在二维空间中,切比雪夫距离等于两个点横坐标差的最大绝对值和纵坐标差的最大绝对值中的较大值。优点:对异常值不敏感,适用于稀疏数据。缺点:不考虑维度之间的相关性。
闵可夫斯基距离(Minkowski Distance)闵可夫斯基距离是欧氏距离和曼哈顿距离的一种推广,它通过参数p来控制距离的计算方式。当p=1时,闵可夫斯基距离等同于曼哈顿距离;当p=2时,等同于欧氏距离。优点:灵活性强,可以根据需求选择不同的参数p。缺点:对于参数p的选择较为敏感。
马氏距离(Mahalanobis Distance)马氏距离考虑了数据集的协方差矩阵,通过将数据映射到一个空间中,使得在该空间中的欧氏距离与原始空间中的马氏距离等价。马氏距离可以解决特征之间的相关性和尺度不同的问题。优点:考虑了特征之间的相关性,适用于高维数据。缺点:需要估计协方差矩阵,计算复杂度较高。
皮尔逊相关系数(Pearson Correlation Coefficient)皮尔逊相关系数衡量两个向量之间的线性相关性。它的取值范围在-1到1之间,其中-1表示完全负相关,1表示完全正相关,0表示无相关性。优点:可以衡量线性相关性,不受尺度变换影响。缺点:只能衡量线性相关性,对于非线性关系不敏感。
余弦相似度(Cosine Similarity)余弦相似度衡量两个向量之间的夹角余弦。它通过计算两个向量的内积除以它们的模的乘积来衡量相似度。余弦相似度的取值范围在-1到1之间,其中1表示完全相似,-1表示完全相反,0表示无相似性。优点:对于稀疏向量计算高效,不受维度灾难影响。缺点:不考虑维度之间的差异。

其中大部分算法都可以通过sklearn 库进行实现.

在这里插入图片描述

						  🤞到这里,如果还有什么疑问🤞
					🎩欢迎私信博主问题哦,博主会尽自己能力为你解答疑惑的!🎩
					 	 🥳如果对你有帮助,你的赞是对博主最大的支持!!🥳

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1255193.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java基于SpringBoot+vue的租房网站设计与实现(V2.0)

文章目录 一、前言介绍二、主要技术三、系统设计(部分)3.1、主要功能模块设计3.2、系统登录设计 四、数据库设计(部分)五、运行截图5.1、 **管理员** **登录****5.2、管理员功能模块**5.2.1、用户管理5.2.2、房屋类型管理5.2.3、房…

Unity-链接MySql8.0

链接MySql8.0 1.准备dll 一、找到l18N相关的dll 这里给出一个参考地址 D:\Unity\2020.3.48f1c1\Editor\Data\MonoBleedingEdge\lib\mono\unityjit在里面找到如下图的四个dll 二、下载数据库链接dll https://downloads.mysql.com/archives/c-net/在这里搜索历史版本(Archiv…

7.前端--CSS-字体属性【2023.11.26】

CSS字体属性 CSS Fonts (字体)属性用于定义字体样式、粗细、大小、和字形。 1.文字样式 CSS 使用 font-style 属性设置文本的风格。 语法: p { font-style: normal; }属性: 2字体粗细 CSS 使用 font-weight 属性设置文本字体的粗细。 语法&#xff1a…

计算机中vcomp140.dll丢失的解决方法,一键修复vcomp140.dll缺失问题

vcomp140.dll是Visual C 2015 Redistributable的一个组件,它是运行一些基于Visual Studio开发的软件所必需的。当你在运行某些程序时,可能会遇到“找不到vcomp140.dll”的错误提示,这通常是由于系统缺少这个组件导致的。本文将介绍vcomp140.d…

【brpc学习实践十】streaming log实战

实战实例 通常我们在服务还没正式起来时,会用brpc流式log打印,支持对日志输出到ostream对象中(默认std)。同时会在服务初始化时配置LogSink,实现自己的log,这样后续都可以将输出重定向至自己的log. int init(int arg…

北塞浦路斯土耳其共和国关于成立欧洲数字股票交易所企业交流会

在地中海的温暖波涛中,北塞浦路斯土耳其共和国这个古老而充满活力的国家正成为全球关注的焦点。2023年11月22日至11月24日,为期三天的北塞浦路斯土耳其共和国关于成立欧洲数字股票交易所企业交流会隆重谢幕,北塞副总统,经济部长&a…

【C++】类型转换 ③ ( 重新解释类型转换 reinterpret_cast | 指针类型数据转换 )

文章目录 一、重新解释类型转换 reinterpret_cast1、指针数据类型转换 - C 语言隐式类型转换报错 ( 转换失败 )2、指针数据类型转换 - C 语言显示类型强制转换 ( 转换成功 )3、指针数据类型转换 - C 静态类型转换 static_cast ( 转换失败 )4、指针数据类型转换 - C 重新解释类型…

思维模型 古烈治效应

本系列文章 主要是 分享 思维模型,涉及各个领域,重在提升认知。见异思迁。 1 古烈治效应的应用 1.1 古烈治效应之心理学研究 在一项研究中,研究者让男性和女性参与者分别观看一系列异性的照片,并评估他们的吸引力。在观看完所有…

ns-3安装教程

1️⃣ VMware安装Ubuntu虚拟机 VMware安装Ubuntu 18.04虚拟机 6.桥接模式网络配置往后都不看 VMware16 安装Ubuntu22.04.1 服务器版操作系统教程 这块主要看怎么从清华镜像下载ubuntu 本人安装的是ubuntu22.04.3 2️⃣ 安装ns3 【ns-3】零基础安装教程 安装依赖库时遇到了问题 …

1998-2021年全国各省PM2.5平均浓度数据

1998-2021年全国各省PM2.5平均浓度数据 1、时间:1998-2021年 2、指标:省、省代码、年份、均值、总和、最小值、最大值、标准差 3、来源:华盛顿大学大气成分分析小组 4、范围:34省市 5、指标说明: PM2.5是指大气中…

Mybatis反射核心类Reflector

Reflector类负责对一个类进行反射解析&#xff0c;并将解析后的结果在属性中存储起来。 一个类反射解析后都有哪些属性呢&#xff1f;我们可以通过Reflector类定义的属性来查看 public class Reflector {// 要被反射解析的类private final Class<?> type;// 可读属性列…

linux系统初始化本地git,创建ssh-key

step1, 在linux系统配置你的git信息 sudo apt install -y git//step1 git config --global user.name your_name // github官网注册的用户名 git config --global user.email your_email //gitub官网注册绑定的邮箱 git config --list //可以查看刚才你的配置内容…

前端实现埋点

前端实现埋点 如何去了解用户呢&#xff1f;最直接有效的方式就是了解用户的行为&#xff0c;了解用户在网站中做了什么&#xff0c;呆了多久。而如何去实现这一操作&#xff0c;这就涉及到我们前端的埋点了。 埋点方式 什么是埋点&#xff1f; 所谓埋点是数据采集领域&…

【限时免费】20天拿下华为OD笔试之【DP/贪心】2023B-观看文艺汇演-200分【欧弟算法】全网注释最详细分类最全的华为OD真题题解

【DP/贪心】2023B-观看文艺汇演 题目描述与示例 某公园将举行多场文艺表演&#xff0c;很多演出都是同时进行&#xff0c;一个人只能同时观看一场演出&#xff0c;且不能迟到早退&#xff0c;由于演出分布在不同的演出场地&#xff0c;所以连续观看的演出最少有 15 分钟的时间…

难怪被人卷了不知道啊!这么学自动化测试,一个星期就搞定了!!!

目前自动化测试并不属于新鲜的事物&#xff0c;或者说自动化测试的各种方法论已经层出不穷&#xff0c;但是&#xff0c;能够明白自动化测试并很好落地实施的团队还不是非常多&#xff0c;我们接来下用通俗的方式来介绍自动化测试…… 首先我们从招聘岗位需求说起。看近期的职…

[论文阅读]CBAM——代码实现和讲解

CBAM 论文网址&#xff1a;CBAM 论文代码&#xff1a;CBAM 本文提出了一种卷积块注意力模块&#xff08;CBAM&#xff09;&#xff0c;它是卷积神经网络&#xff08;CNN&#xff09;的一种轻量级、高效的注意力模块。该模块沿着通道和空间两个独立维度依次推导注意力图&#x…

探索深度学习:从理论到实践的全面指南

探索深度学习&#xff1a;从理论到实践的全面指南 摘要&#xff1a; 本文旨在提供一个关于深度学习的全面指南&#xff0c;带领读者从理论基础到实践应用全方位了解这一技术。我们将介绍深度学习的历史、基本原理、常用算法和应用场景&#xff0c;并通过Python代码示例和Tens…

Grafana采用Nginx反向代理

一、场景介绍 在常规操作中&#xff0c;一般情况下不会放开许多端口给外部访问&#xff0c;特别是直接 ip:port 的方式开放访问。但是 Grafana 的请求方式在默认情况下是没有任何规律可寻的。 为了满足业务需求&#xff08;后续通过 Nginx 统一一个接口暴露 N 个服务&#xf…

WordPress最廉价优化整站的加载速度

为什么说一个站不优化就等于一个人做整个团队的事务导致项目进展慢&#xff0c;网站也是如此 图片、静态文件、php分离加速&#xff0c;加载速度并不是很快但是很协调比单个网站加载速度快许多 一、图片单域名加载设置上传文件路径和域名 以下代码添加在主题目录&#xff1a;fu…

PyQt6实战开发之旅-代码均可运行

学习感悟 由于官方文档是英文的&#xff0c;所以学习起来不是很直观。网上的中文教程也都有点偏重就轻&#xff0c;去从头学习细枝末节不是很必要。假如每个控件组件讲十分钟&#xff0c;几百个控件可想而知。最关键的是有python基础&#xff0c;能理解类与继承&#xff0c;函…