【机器学习笔记】12 聚类

news2025/1/29 14:13:34

无监督学习概述

  • 监督学习
    在一个典型的监督学习中,训练集有标签𝑦 ,我们的目标是找到能够区分正样本和负样本的决策边界,需要据此拟合一个假设函数。
  • 无监督学习
    与此不同的是,在无监督学习中,我们的数据没有附带任何标签𝑦,无监督学习主要分为聚类、降维、关联规则、推荐系统等方面。

主要的无监督学习方法

  • 聚类(Clustering)
    如何将教室里的学生按爱好、身高划分为5类?
  • 降维( Dimensionality Reduction )
    如何将将原高维空间中的数据点映射到低维度的空间中?
  • 关联规则( Association Rules)
    很多买尿布的男顾客,同时买了啤酒,可以从中找出什么规律来提
    高超市销售额?
  • 推荐系统( Recommender systems)
    很多客户经常上网购物,根据他们的浏览商品的习惯,给他们推荐什么商品呢?

聚类

  • 主要算法
    K-means、密度聚类、层次聚类

  • 主要应用
    市场细分、文档聚类、图像分割、图像压缩、聚类分析、特征学习或者词典学习、确定犯罪易发地区、保险欺诈检测、公共交通数据分析、IT资产集群、客户细分、识别癌症数据、搜索引擎应用、医疗应用、药物活性预测……

  • 案例
    1.医疗
    医生可以使用聚类算法来发现疾病。以甲状腺疾病为例。当我们对包含甲状腺疾病和非甲状腺疾病的数据集应用无监督学习时,可以使用聚类算法来识别甲状腺疾病数据集。
    2.市场细分
    为了吸引更多的客户,每家公司都在开发易于使用的功能和技术。为了了解客户,公司可以使用聚类。聚类将帮助公司了解用户群,然后对每个客户进行归类。这样,公司就可以了解客户,发现客户之间的相似之处,并对他们进行分组。
    3.金融业
    银行可以观察到可能的金融欺诈行为,就此向客户发出警告。在聚类算法的帮助下,保险公司可以发现某些客户的欺诈行为,并调查类似客户的保单是否有欺诈行为。
    4.搜索引擎
    百度是人们使用的搜索引擎之一。举个例子,当我们搜索一些信息,如在某地的超市,百度将为我们提供不同的超市的选择。这是聚类的结果,提供给你的结果就是聚类的相似结果。
    5.社交网络
    比如在社交网络的分析上。已知你朋友的信息,比如经常发email的联系人,或是你的微博好友、微信的朋友圈,我们可运用聚类方法自动地给朋友进行分组,做到让每组里的人们彼此都熟识。

K-means聚类

聚类的背景知识–基本思想

图中的数据可以分成三个分开的点集(称为),一个能够分出这些点集的算法,就被称为聚类算法
在这里插入图片描述

K-均值算法(K-means)算法概述

K-means算法是一种无监督学习方法,是最普及的聚类算法,算法使用一个没有标签的数据集,然后将数据聚类成不同的组。
K-means算法具有一个迭代过程,在这个过程中,数据集被分组成若干个预定义的不重叠的聚类或子组,使簇的内部点尽可能相似,同时试图保持簇在不同的空间,它将数据点分配给簇,以便簇的质心和数据点之间的平方距离之和最小,在这个位置,簇的质心是簇中数据点的算术平均值。

  • 闵可夫斯基距离(Minkowski distance)
    在这里插入图片描述

𝑝取1或2时的闵氏距离是最为常用的 𝑝
𝑝 = 2即为欧氏距离
𝑝 = 1时则为曼哈顿距离
当𝑝取无穷时的极限情况下,可以得到切比雪夫距离
在这里插入图片描述

K-means算法流程

  1. 选择K个点作为初始质心。
  2. 将每个点指派到最近的质心,形成K个簇。
  3. 对于上一步聚类的结果,进行平均计算,得出该簇的新的聚类中心。
  4. 重复上述两步/直到迭代结束:质心不发生变化。
    在这里插入图片描述
    首先,初始化称为簇质心的任意点。初始化时,必须注意簇的质心必须小于训练数据点的数目。因为该算法是一种迭代算法,接下来的两个步骤是迭代执行的。
    在这里插入图片描述
    初始化后,遍历所有数据点,计算所有质心与数据点之间的距离。现在,这些簇将根据与质心的最小距离而形成。在本例中,数据分为3个簇(𝐾 = 3)。
    在这里插入图片描述
    第三步:移动质心,因为上面步骤中形成的簇没有优化,所以需要形成优化的簇。为此,我们需要迭代地将质心移动到一个新位置。取一个簇的数据点,计算它们的平均值,然后将该簇的质心移动到这个新位置。对所有其他簇重复相同的步骤。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    现在,这个算法已经收敛,形成了清晰可见的不同簇。该算法可以根据簇在第一步中的初始化方式给出不同的结果。
    在这里插入图片描述
  • K值的选择
    现在我们需要找到簇的数量。通常通过“肘部法则”进行计算。我们可能会得到一条类似于人的肘部的曲线。右图中,代价函数的值会迅速下降,在𝐾 = 3的时候达到一个肘点。在此之后,代价函数的值会就下降得非常慢,所以,我们选择𝐾 = 3。这个方法叫“肘部法则”。
    在这里插入图片描述
    K-均值的一个问题在于,它有可能会停留在一个局部最小值处,而这取决于初始化的情况。
    为了解决这个问题,我们通常需要多次运行K-均值算法,每一次都重新进行随机初始化,最后再比较多次运行K-均值的结果,选择代价函数最小的结果。

K-means的优缺点

  • 优点
    原理比较简单,实现也是很容易,收敛速度快。
    聚类效果较优。
    算法的可解释度比较强。
    主要需要调参的参数仅仅是簇数K
  • 缺点
    需要预先指定簇的数量;
    如果有两个高度重叠的数据,那么它就不能被区分,也不能判断有两个簇;
    欧几里德距离可以不平等的权重因素,限制了能处理的数据变量的类型;
    有时随机选择质心并不能带来理想的结果;
    无法处理异常值和噪声数据;
    不适用于非线性数据集;
    对特征尺度敏感;
    如果遇到非常大的数据集,那么计算机可能会崩溃。

密度聚类-DBSCAN

与划分和层次聚类方法不同,DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。它将簇定义为密度相连的点的最大集合‘’能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。
密度:空间中任意一点的密度是以该点为圆心,以扫描半径构成的圆区域内包含的点数目

  • DBSCAN使用两个超参数:
    扫描半径 (eps)和最小包含点数(minPts)来获得簇的数量,而不是猜测簇的数目。
    ➢ 扫描半径 (eps) :
    用于定位点/检查任何点附近密度的距离度量,即扫描半径。
    ➢ 最小包含点数(minPts)
    聚集在一起的最小点数(阈值),该区域被认为是稠密的

  • DBSCAN算法将数据点分为三类:
    1.核心点:在半径Eps内含有超过MinPts数目的点。
    2.边界点:在半径Eps内点的数量小于MinPts,但是落在核心点的邻域内的点。
    3.噪音点:既不是核心点也不是边界点的点
    在这里插入图片描述

DBSCAN密度聚类的算法流程

1.将所有点标记为核心点、边界点或噪声点;
2. 如果选择的点是核心点,则找出所有从该点出发的密度可达对象形成簇;
3. 如果该点是非核心点,将其指派到一个与之关联的核心点的簇中;
4. 重复以上步骤,直到所点都被处理过

在这里插入图片描述
对每个点计算其邻域Eps=3内的点的集合。
集合内点的个数超过MinPts=3的点为核心点。

在这里插入图片描述
查看剩余点是否在核点的邻域内,若在,则为边界点,否则为噪声点。

在这里插入图片描述
将距离不超过Eps=3的点相互连接,构成一个簇,核心点邻域内的点也会被加入到这个簇中。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

层次聚类

层次聚类假设簇之间存在层次结构,将样本聚到层次化的簇中。
层次聚类又有聚合聚类(自下而上)、分裂聚类(自上而下)两种方法。
因为每个样本只属于一个簇,所以层次聚类属于硬聚类。

  • 背景知识:
    如果一个聚类方法假定一个样本只能属于一个簇,或簇的交集为空集,那么该方法称为硬聚类方法。如果一个样本可以属于多个簇,或簇的交集不为空集,那么该方法称为软聚类方法。
    在这里插入图片描述

聚合聚类

开始将每个样本各自分到一个簇;
之后将相距最近的两簇合并,建立一个新的簇;
重复此操作直到满足停止条件;
得到层次化的类别。
在这里插入图片描述

在这里插入图片描述

分裂聚类

开始将所有样本分到一个簇;
之后将已有类中相距最远的样本分到两个新的簇;
重复此操作直到满足停止条件;
得到层次化的类别。
在这里插入图片描述

聚类的评价指标

(1) 均一性:𝑝
类似于精确率,一个簇中只包含一个类别的样本,则满足均一性。其实也可以认为就是正确率(每个聚簇中正确分类的样本数占该聚簇总样本数的比例和)
在这里插入图片描述
(2) 完整性:𝑟
类似于召回率,同类别样本被归类到相同簇中,则满足完整性;(每个聚簇中正确分类的样本数占该类型的总样本数比例的和)
在这里插入图片描述

(3) V-measure:
均一性和完整性的加权平均( 𝛽 默认为1)
在这里插入图片描述

(4) 轮廓系数
样本𝑖的轮廓系数:
在这里插入图片描述
簇内不相似度:计算样本𝑖到同簇其它样本的平均距离为𝑎(𝑖),应尽可能小。
簇间不相似度:计算样本𝑖到其它簇𝐶𝑗的所有样本的平均距离𝑏𝑖𝑗,应尽可能大。
轮廓系数𝑠(𝑖)值越接近1表示样本𝑖聚类越合理,越接近-1,表示样本𝑖应该分类到另外的簇中,近似为0,表示样本𝑖应该在边界上;所有样本的𝑠(𝑖)的均值被成为聚类结果的轮廓系数。

  • 假设数据集被拆分为4个簇,样本𝑖对应的𝑎(𝑖)值就是所有𝐶1 中其他样本点与样本𝑖的距离平均值;样本对应的𝑏(𝑖)值分两步计算,首先计算该点分别到𝐶2、 𝐶3和𝐶4中样本点的平均距离,然后将三个平均值中的最小值作为𝑏(𝑖)的度量.
    在这里插入图片描述

(5).调整兰德系数(ARI, Adjusted Rnd Index
数据集𝑆共有𝑁个元素, 两个聚类结果分别是:
𝑋 = {𝑋1, 𝑋2, . . . , 𝑋𝑟}, 𝑌 = {𝑌1, 𝑌2, . . . , 𝑌𝑠}
𝑋和𝑌的元素个数为:
𝑎 = {𝑎1, 𝑎2, . . . , 𝑎𝑟}, 𝑏 = {𝑏1, 𝑏2, . . . , 𝑏𝑠}
在这里插入图片描述
在这里插入图片描述
ARI取值范围为[−1,1],值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲,ARI衡量的是两个数据分布的吻合程度

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1454122.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Json格式文件

1.把Java对象转换成Json格式 1.1.导入依赖 这里推荐一个插件Jackson&#xff0c;其提供的类可以让Java的类转换成Jason格式文件 <dependency><groupId>com.fasterxml.jackson.core</groupId><artifactId>jackson-databind</artifactId><vers…

记录一次安卓手机使用wm命令错误参数,导致的屏幕大小错误以及挽救

使用安卓终端管理器运行wm命令调整屏幕大小 wm size wxh原本分辨率1024x2048&#xff0c;失手调成了800x600&#xff0c;手机屏幕一下子变成800x600 wm size 800x600wm命令重启后依旧会保持分辨率&#xff0c;所以重启手机没有用。 看锁屏界面连解锁图案都没了&#xff0c;通…

苹果公司宣布,为Apple Vision Pro打造了超过600款新应用

深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领域的领跑者。点击订阅&#xff0c;与未来同行&#xff01; 订阅&#xff1a;https://rengongzhineng.io/ 。 2月…

Java学习day13

流&#xff08;Stream&#xff09; 流是一个非常强大的概念&#xff0c;它提供了一种高效且便捷的方式来处理集合数据。你可以将流看作是一系列数据项的管道&#xff0c;你可以对这些数据进行各种操作&#xff0c;如过滤、映射、排序和归约。 流的创建 在Java中&#xff0c;…

MySQL事务的概念

一、事务定义 事务&#xff1a;事务是一个最小的不可在分的工作单元&#xff1b;通常一个事务对应一个完整的业务(例如银行账户转账业务&#xff0c;该业务是一个最小的工作单元)一个完整的业务需要批量的DML(insert、update、delete)语句共同联合完成。事务只和DML语句有关&a…

新款条码扫描数据采集终端 仓库盘点机 快递手持机 PDA手持终端

而随着技术的不断进步&#xff0c;数据采集终端也在不断地升级和优化。新款条码扫描数据采集终端、仓库盘点机PDA手持终端等高性能智能数据采集终端&#xff0c;正是在这样的背景下应运而生。 这些高性能智能数据采集终端&#xff0c;采用了最先进的技术和设计&#xff0c;具有…

计算机设计大赛 深度学习中文汉字识别

文章目录 0 前言1 数据集合2 网络构建3 模型训练4 模型性能评估5 文字预测6 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; 深度学习中文汉字识别 该项目较为新颖&#xff0c;适合作为竞赛课题方向&#xff0c;学长非常推荐&#xf…

14. Longest Common Prefix(最长公共前缀)

问题描述 编写一个函数来查找字符串数组中的最长公共前缀。 如果不存在公共前缀&#xff0c;返回空字符串 “”。 问题分析 方法一&#xff1a;我们可以假设一个字符串是最长的公共子串&#xff0c;然后去验证&#xff0c;如果此串被验证了&#xff0c;再增加一位字符进行验…

SpringBoot2——工程创建、启动原理分析、配置文件、集成框架

一、SpringBoot简介 1.1 Spring Boot概述 Spring Boot 是所有基于 Spring Framework 5.0 开发的项目。Spring Boot 的设计是为了让你尽可能快的跑起来 Spring 应用程序&#xff0c;并且尽可能减少你的配置文件。 设计目的&#xff1a; 用来简化 Spring 应用的初始搭建以及开…

Java实现停车场收费系统 JAVA+Vue+SpringBoot+MySQL

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 停车位模块2.2 车辆模块2.3 停车收费模块2.4 IC卡模块2.5 IC卡挂失模块 三、系统设计3.1 用例设计3.2 数据库设计3.2.1 停车场表3.2.2 车辆表3.2.3 停车收费表3.2.4 IC 卡表3.2.5 IC 卡挂失表 四、系统实现五、核心代码…

STM32F1 - 系统时钟SysTick

SysTick 1> SysTick硬件框图2> SysTick的时钟源3> 1ms定时_中断方式4> 思考&#xff1a;无符号数 0 - 255 ?相关资料 1> SysTick硬件框图 SysTick属于Cotex-M3&#xff0c;是CPU外设&#xff1b; SysTick: 位宽24bit&#xff0c; 递减计数&#xff0c;自动重装…

Debezium发布历史136

原文地址&#xff1a; https://debezium.io/blog/2023/01/06/change-data-capture-with-questdb-and-debezium/ 欢迎关注留言&#xff0c;我是收集整理小能手&#xff0c;工具翻译&#xff0c;仅供参考&#xff0c;笔芯笔芯. Change Data Capture with QuestDB and Debezium …

UE5中的DataTable说明

创建DataTable 在编辑器中创建 在文件夹空白处右击&#xff0c;选择Miscellaneous/DataTable&#xff0c;如图&#xff1a; 使用代码创建 // 创建DataTable实例 UDataTable* MyDataTable NewObject(); // 创建一个行结构体 UStruct* RowStruct UStruct::CreateEmpty(); // 添…

UE蓝图 Set节点和源码

文章目录 Set节点说明相关源码 Set节点说明 UE蓝图中的Set节点是用于对变量进行赋值操作的重要组件。它具有多种功能和作用&#xff0c;具体如下&#xff1a; 变量赋值&#xff1a;Set节点可以用于设置不同类型的变量值&#xff0c;包括整数、浮点数、布尔值、字符串等。在游戏…

c++开发基础之保障多线程编程中的原子操作InterlockedIncrement和InterlockedDecrement用法详解

一、介绍 在多线程编程中&#xff0c;确保对共享变量进行原子操作是至关重要的。当多个线程同时访问和修改同一共享资源时&#xff0c;如果没有合适的同步机制&#xff0c;可能会导致数据竞争、内存一致性问题&#xff0c;甚至造成程序崩溃。为了解决这个问题&#xff0c;C提供…

【退役之重学前端】JavaScript 类、构造器、原型的关系

ES6中类的概念&#xff0c;我之前花了较长的时间学习Java&#xff0c;所以对类感觉很亲切。我并不满足仅仅会使用&#xff0c;让我们一起深究一下 JavaScript 中的类吧。 构造一个类&#xff0c;并实例化一个对象 class Animal{constructor(name){this.name name;}getName(){…

中国传媒网CEO徐晓艺:媒体融合发展业态新媒体年后在沪召开

近日,在“坚守媒体初心,拥抱AI时代”2023外滩新媒体年会上,有多项合作达成。 在当前竞争激烈的市场环境中,媒体宣传已经成为企业品牌推广不可或缺的一环。对于很多企业来说往往会犯一个错误,就是默默地参加了展会,并没有进行媒体营销。展会是一种非常有力的宣传和推广方式,可以…

Vue中 如何监听键盘事件中的按键

在Web前端开发中&#xff0c;键盘事件的处理是非常常见的需求之一。而在Vue框架中&#xff0c;如何监听键盘事件中的按键是一个相对简单但又很实用的功能。本文将为你介绍如何在Vue中监听键盘事件&#xff0c;并演示一些常用的按键操作。 首先&#xff0c;在Vue中监听键盘事件…

数学建模【线性规划】

一、线性规划简介 线性规划通俗讲就是“有限的资源中获取最大的收益”&#xff08;优化类问题&#xff09;。而且所有的变量关系式都是线性的&#xff0c;不存在x、指数函数、对数函数、反比例函数、三角函数等。此模型要优化的就是在一组线性约束条件下&#xff0c;求线性目标…

2024年全国教资笔试报名流程(建议电脑报名),看看有啥新要求?

一.报名、考试时间节点 1.笔试报名时间: 2024年1月12日-15日 2.笔试考试时间:2024年3月9日 3.笔试成绩查询时间:2024年4月15日 4.面试报名时间:2024年4月15日 5.面试考试时间:2024年5月18日 6.面试成绩查询时间:2024年6月14日 二.笔试报名流程: 登陆→考生注册 →填报个…