【机器学习】无监督学习算法之:层次聚类

news2025/1/18 16:56:03

层次聚类

  • 1、引言
  • 2、层次聚类
    • 2.1 定义
    • 2.2 原理
    • 2.3 实现方式
    • 2.4 算法公式
    • 2.5 代码示例
  • 3、总结

1、引言

小屌丝:鱼哥, 这周末过的滋润啊。
小鱼:… 每个周末都挺滋润的啊。
小屌丝:啊~ ~ 你这…
小鱼:周末加班,岂不滋润?
小屌丝:加班…
小鱼:对啊,加班哦。
小屌丝:你这加班…是在哪里,加什么班? ?
小鱼:你这…
小屌丝:难道 ??
在这里插入图片描述

小鱼:你是不是想学习 层次聚类算法? ?
小屌丝: 啊…这 …
小鱼:学不学?
小屌丝:这个,是学,还是不学??
小鱼:你说学不学?
小屌丝:这个… 学吧。
小鱼: 那咱就开始 ~

2、层次聚类

2.1 定义

层次聚类(Hierarchical Clustering)是一种无监督学习算法,用于对数据进行分组或聚类。
不同于K-means等聚类算法,层次聚类可以输出一个层次结构的分组结果,可以从粗到细地描述数据的聚类关系。

2.2 原理

层次聚类的原理是不断合并最相似的样本或子聚类,直到所有样本或子聚类都被合并成一个大的聚类。这个过程可以形象地表示为一个树状结构,称为聚类树(dendrogram)。

在层次聚类中,有两种常见的方法:凝聚式聚类和分裂式聚类

  • 凝聚式聚类(Agglomerative Clustering)从每个样本开始,将最相似的样本或聚类合并在一起,直到所有样本都被合并成一个大的聚类。这个过程中,通过计算样本或聚类之间的相似度来确定最相似的样本或聚类。

  • 分裂式聚类(Divisive Clustering)从一个整体开始,将整个样本或聚类分成若干个子聚类,然后逐步细分子聚类,直到每个样本都成为一个独立的聚类。这个过程中,通过计算样本或聚类内部的差异来确定划分方式。

2.3 实现方式

实现层次聚类算法通常包括以下步骤:

  • 初始化:每个样本点都被视为一个独立的簇。

  • 计算距离矩阵:计算所有样本点之间的距离,形成一个距离矩阵。这个矩阵将用于确定哪些簇应该合并。

  • 合并簇:基于某种链接准则(如单链接、全链接或平均链接),选择距离最近的两个簇进行合并。

  • 更新距离矩阵:随着簇的合并,更新距离矩阵以反映新簇之间的距离。

  • 重复步骤:重复步骤3和4,直到达到预设的簇数量或满足其他停止条件。

在合并簇的过程中,可以选择不同的链接准则,如单链接(Single-linkage)、全链接(Complete-linkage)或平均链接(Average-linkage)等。这些链接准则决定了如何计算簇之间的距离或相似度。

2.4 算法公式

凝聚层次聚类的核心步骤是计算簇之间的距离或相似度。以欧氏距离为例,假设有两个簇(C_i)和(C_j),它们分别包含样本点集合({x_1, x_2, …, x_m})和({y_1, y_2, …, y_n}),则簇间距离(d(C_i, C_j))可以使用以下公式计算:

单链接(Single-linkage) ( d ( C i , C j ) = min ⁡ x ∈ C i , y ∈ C j d ( x , y ) ) (d(C_i, C_j) = \min_{x \in C_i, y \in C_j} d(x, y)) (d(Ci,Cj)=xCi,yCjmind(x,y))
全链接(Complete-linkage) ( d ( C i , C j ) = max ⁡ x ∈ C i , y ∈ C j d ( x , y ) ) (d(C_i, C_j) = \max_{x \in C_i, y \in C_j} d(x, y)) (d(Ci,Cj)=xCi,yCjmaxd(x,y))
平均链接(Average-linkage) ( d ( C i , C j ) = 1 m n ∑ x ∈ C i ∑ y ∈ C j d ( x , y ) ) (d(C_i, C_j) = \frac{1}{mn} \sum_{x \in C_i} \sum_{y \in C_j} d(x, y)) (d(Ci,Cj)=mn1xCiyCjd(x,y))
其中, ( d ( x , y ) ) (d(x, y)) (d(x,y))表示样本点(x)和(y)之间的距离。

2.5 代码示例

# -*- coding:utf-8 -*-
# @Time   : 2024-03-01
# @Author : Carl_DJ

'''
实现功能:
	使用sklearn库中的AgglomerativeClustering实现层次聚类:

'''

from sklearn.cluster import AgglomerativeClustering
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# 创建示例数据
X, _ = make_blobs(n_samples=100, n_features=2, centers=3, random_state=42)

# 应用层次聚类
cluster = AgglomerativeClustering(n_clusters=None, linkage='ward')  # 不预设聚类数量,采用 ward 方法
prediction = cluster.fit_predict(X)

# 可视化结果
plt.scatter(X[:, 0], X[:, 1], c=prediction)
plt.title('Hierarchical Clustering')
plt.show()

在这里插入图片描述

3、总结

层次聚类是一种简单而直观的无监督学习方法,它通过构建层次结构来组织数据。
不同的链接准则和距离度量方法会影响聚类的结果,因此在实际应用中需要根据数据的特性和需求选择合适的参数。
层次聚类的一个主要优点是能够生成簇的层次结构,这有助于理解数据的内在结构和关系。
然而,它也有一些局限性,例如对于大规模数据集的计算效率可能较低,且一旦做出合并决策就无法撤销。
因此,在选择层次聚类时,需要综合考虑其优缺点以及具体应用场景的需求。

我是小鱼

  • CSDN 博客专家
  • 阿里云 专家博主
  • 51CTO博客专家
  • 多个名企认证讲师等
  • 认证金牌面试官
  • 名企签约职场面试培训、职场规划师
  • 多个国内主流技术社区的认证专家博主
  • 多款主流产品(阿里云等)测评一、二等奖获得者

关注小鱼,学习机器学习领域的知识。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1518755.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从大厂到高校,鸿蒙人才“红透半边天”!

截至目前,继清华大学、北京航空航天大学、武汉大学等985高校开设鸿蒙相关课程后,已经或将要开设鸿蒙相关课程的985、211高校达到近百所,为鸿蒙人才培养提供沃土。 随着鸿蒙系统即将摒弃安卓,鸿蒙原生应用将全面启动的背景下&…

win10从Huggingface下载模型

这里写自定义目录标题 安装CLI工具设置环境变量下载 安装CLI工具 安装Huggingface CLI pip install -U huggingface_hub设置环境变量 设置好变量后,重新启动一个新的命令窗口,cmd或者powershell 下载 huggingface-cli download --resume-download fa…

基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的安全帽检测系统(深度学习模型+UI界面代码+训练数据集)

摘要:开发先进的安全帽识别系统对提升工作场所的安全性至关重要。本文详细介绍了使用深度学习技术创建此类系统的方法,并分享了完整的实现代码。系统采用了强大的YOLOv8算法,并对其与YOLOv7、YOLOv6、YOLOv5的性能进行了详细比较,…

mysql数据库:使用 bash脚本 + 定时任务 自动备份数据

mysql数据库:使用 bash脚本 定时任务 自动备份数据 1、前言2、为什么需要自动化备份?3、编写备份脚本4、备份脚本授权5、添加定时任务6、重启 crond / 检查 crond 服务状态7、备份文件检查 💖The Begin💖点点关注,收藏…

pytorch(十)循环神经网络

文章目录 卷积神经网络与循环神经网络的区别RNN cell结构构造RNN例子 seq2seq 卷积神经网络与循环神经网络的区别 卷积神经网络:在卷积神经网络中,全连接层的参数占比是最多的。 卷积神经网络主要用语处理图像、语音等空间数据,它的特点是局部…

【分类讨论】【解析几何】【 数学】【推荐】1330. 翻转子数组得到最大的数组值

作者推荐 视频算法专题 本文涉及知识点 分类讨论 解析几何 LeetCode1330. 翻转子数组得到最大的数组值 给你一个整数数组 nums 。「数组值」定义为所有满足 0 < i < nums.length-1 的 |nums[i]-nums[i1]| 的和。 你可以选择给定数组的任意子数组&#xff0c;并将该子…

3月15日ACwing每日一题

789. 数的范围 - AcWing题库 #include <bits/stdc.h> using namespace std; int n,q; const int N100007; int a[N]; void solve(){//lower_bound是大于等于 upper_bound是大于int num;cin>>num;if(lower_bound(a,an,num)!an&&*lower_bound(a,an,num)num)…

fs模块 之 文件读取

fs 文件读取&#xff1a; 利用文件读取而不是直接打开文本查看的目的是为了实现自动化 读取文件的应用场景:电脑开机/程序运行/播放视频音乐/上传文件... 一、异步读取 &#xff08;1&#xff09;语法&#xff1a;fs.readFile(path,[options],callback); 以之前写的文件写…

matlab去除图片上的噪声

本问题来自CSDN-问答板块,题主提问。 如何利用matlab去除图片上的噪声? 一、运行效果图 左边是原图,右边是去掉噪音后的图片。 二、中文说明 中值滤波是一种常见的图像处理技术,用于去除图像中的噪声。其原理如下: 1. 滤波器移动:中值滤波器是一个小的窗口,在图像上移…

红队笔记7--Web机器为Linuxdocker逃逸

其实&#xff0c;不知道大家有没有想过&#xff0c;我们之前练习的都是web机器是windows的版本&#xff0c;但是其实&#xff0c;在现实生活中&#xff0c;服务器一般都是Linux的版本&#xff0c;根本不可能用到windows的版本 那么如果是Linux的话&#xff0c;我们就有很多的困…

express+mysql+vue,从零搭建一个商城管理系统14--快递查询(对接快递鸟)

提示&#xff1a;学习express&#xff0c;搭建管理系统 文章目录 前言一、安装md5&#xff0c;axios&#xff0c;qs二、新建config/logistics.js三、修改routes/order.js四、添加商品到购物车总结 前言 需求&#xff1a;主要学习express&#xff0c;所以先写service部分 快递鸟…

隐藏深的bug发现不了 ,有点挫备感 ,那是你没有进行bug总结 。

1.bug总结的意义 作为功能测试人员来说&#xff0c;可能有一半的时间都花在了和bug打交道上&#xff0c;比如如何发现bug &#xff0c;提交bug &#xff0c;跟踪bug以及回归bug上 。作为测试人员最重要的成果的bug &#xff0c;我们往往更看重的是它的数量 &#xff0c;却很少…

Android 辅助功能 -抢红包(三)

Android 辅助功能 -抢红包(三) 本篇文章继续讲述辅助功能. 主要通过监听通知栏红包消息,来跳转聊天页面,并自动回复对方"谢谢". 上篇文章我们讲述了监听notification, 跳转聊天界面. 具体可查看: Android 辅助功能 -抢红包(二) 1: 使用monitor抓取id. 打开andro…

RabbitMQ 模拟实现【六】:程序模拟实现

文章目录 模拟实现模拟消费者模拟生产者效果展示 启动结果如下&#xff1a; ![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/71841546ad8043f1bd51e4408df791de.png)![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/f6e3e72ff9a4483c978ec48e24f075c2.p…

运营模型—RFM 模型

运营模型—RFM 模型 RFM 是什么其实我们前面的文章介绍过,这里我们不再赘述,可以参考运营数据分析模型—用户分层分析,今天我们要做的事情是如何落地RFM 模型 我们的数据如下,现在我们就开始进行数据处理 数据预处理 因为数据预处理没有一个固定的套路,都是根据数据的实…

Unity类银河恶魔城学习记录10-1 10-2 P89,90 Character stats - Stat script源代码

Alex教程每一P的教程原代码加上我自己的理解初步理解写的注释&#xff0c;可供学习Alex教程的人参考 此代码仅为较上一P有所改变的代码 【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili Stat.cs using System.Collections; using System.Collections.Generic; us…

C类期刊:基于改进粒子群优化算法的电力系统有功最优潮流程序代码!

程序提出了一种基于改进粒子群优化算法的有功最优潮流模型及求解方法&#xff0c;采用了自适应罚函数法处理最优潮流问题的各种约束条件。通过对IEEE-30节点系统的仿真计算&#xff0c;并且与遗传算法进行比较&#xff0c;验证了提出的模型和方法的有效性。程序算例丰富、注释清…

3.排序查找——2.整数奇偶排序

输入 4 7 3 13 11 12 0 47 34 98 输出 47 13 11 7 3 0 4 12 34 98 【提交地址】 题目分析 关键是找到交换位序的逻辑&#xff0c;有如下几种情况&#xff1a; 左值为奇数&#xff0c;右值为偶数 > 不需要交换左值为偶数&#xff0c;右值为奇数 > 需要交换左值和右值同…

【数据结构】 Map和Set万字总结(搜索树+哈希桶+使用方法+实现方法)

文章目录 Map和Set一、搜索树1.二叉搜索树的查找&#xff08;search&#xff09;2.二叉搜索树的插入3.二叉搜索树的删除4.性能分析 二、搜索方法1.概念 三、Map的使用1.概念&#xff1a;2.Map的常用方法&#xff1a;1.V put(K Key ,V Value )2.V get(Object key)3.V getOrDefau…

YOLOv8旋转目标检测实战:训练自己的数据集

课程链接&#xff1a;https://edu.csdn.net/course/detail/39393 旋转目标检测是计算机视觉领域的一个高级任务&#xff0c;它在传统目标检测的基础上进一步发展。传统目标检测技术主要关注于识别和定位图像中的物体&#xff0c;通常以水平边界框(HBB)来标识目标物体的位置。而…