层次聚类算法原理及Python实现

news2024/9/19 9:47:58

层次聚类算法(Hierarchical Clustering Method)是一种基于簇间相似度在不同层次上分析数据,从而形成树形聚类结构的算法。它主要分为两种形式:凝聚层次聚类(自下而上)和分裂层次聚类(自上而下)。以下将详细介绍凝聚层次聚类的原理与步骤:

一、原理

凝聚层次聚类算法的基本思想是将每个样本点视为一个单独的簇,然后在算法运行的每一次迭代中找出相似度最高的两个簇进行合并,这个过程不断重复,直到达到预设的簇类个数K或只剩下一个簇。

在层次聚类中,簇间的相似度通常通过距离来度量,距离越小表示相似度越高。常用的距离度量方法包括欧氏距离、曼哈顿距离、切比雪夫距离等。

二、步骤

  1. 初始化:将每个样本点视为一个独立的簇。

  2. 计算相似度:计算所有簇之间的相似度(或距离)。这一步通常生成一个相似度矩阵(或距离矩阵),其中矩阵的元素表示对应簇之间的相似度(或距离)。

  3. 合并簇:找出相似度最高(或距离最小)的两个簇,将它们合并为一个新的簇。同时,更新相似度矩阵,以反映新簇与其他簇之间的相似度(或距离)。

  4. 重复合并:重复步骤2和步骤3,直到达到预设的簇类个数K或只剩下一个簇。在每一步中,都需要重新计算并更新相似度矩阵。

  5. 生成聚类结果:根据最终的簇结构,将样本点分配到相应的簇中,形成聚类结果。

三、优缺点

优点

  • 不需要预先指定簇的数量,可以通过观察聚类树状图来决定簇的数量。
  • 可以发现不同层次上的簇结构,有助于更深入地理解数据。

缺点

  • 计算复杂度较高,特别是当样本点数量较多时。
  • 合并或拆分的决策一旦作出,就不能撤销,这可能导致聚类结果对初始条件敏感。

四、优化方法

为了降低层次聚类算法的计算复杂度,可以采用一些优化方法,如:

  • 使用连通性约束来减少需要计算相似度的簇对数量。
  • 利用并行计算技术来加速算法的执行。

总的来说,层次聚类算法是一种灵活且强大的聚类方法,适用于探索性数据分析和复杂数据集的聚类任务。

五、Python实现

在Python中,实现层次聚类算法通常可以使用scipy库中的linkage函数和fcluster函数,它们提供了层次聚类的核心功能。不过,需要注意的是,scipy直接提供的是层次聚类的计算部分,而聚类结果的可视化(如树状图或称为树状结构图,dendrogram)则可能需要借助matplotlibscipy.cluster.hierarchy模块的其他函数。

以下是一个使用scipy进行层次聚类的基础示例,包括计算层次聚类的结果并绘制树状图:

import numpy as np
import matplotlib.pyplot as plt
from scipy.cluster.hierarchy import dendrogram, linkage
from scipy.spatial.distance import pdist

# 示例数据
X = np.array([[1, 2], [1, 4], [1, 0],
              [4, 2], [4, 0], [4, 4],
              [4, 5], [0, 1], [2, 2],
              [3, 3], [5, 5]])

# 计算所有点之间的欧氏距离
Y = pdist(X, 'euclidean')

# 使用linkage函数进行层次聚类,method='ward'表示最小方差法
Z = linkage(Y, 'ward')

# 绘制树状图
plt.figure(figsize=(10, 7))
dendrogram(Z, labels=range(1, len(X) + 1))
plt.xlabel('Sample index')
plt.ylabel('Distance')
plt.title('Dendrogram')
plt.show()

# 如果需要按照一定的簇数量进行切割,可以使用fcluster
from scipy.cluster.hierarchy import fcluster

# 假设我们想要得到3个簇
max_d = 3  

# 这里的max_d并不是直接的簇数量,而是用于fcluster的一个阈值参数
# 对于'ward'方法,通常使用'maxclust'参数来指定簇的数量,但这里为了演示fcluster的用法,我们仍然使用阈值
# 注意:对于'ward'方法,使用fcluster的'maxclust'参数可能更直接
clusters = fcluster(Z, max_d, criterion='distance')

# 打印聚类结果
print("Cluster memberships:", clusters)

# 注意:由于我们是用阈值来划分簇的,这可能导致簇的数量不等于max_d
# 如果想要精确控制簇的数量,应该使用'maxclust'参数(但'ward'方法可能不直接支持)
# 或者,可以先观察树状图,然后选择一个合适的阈值

重要说明

  1. 在上面的代码中,linkage函数的method参数设置为'ward',它代表Ward最小方差法,这是一种常用的层次聚类方法。但是,fcluster函数中的criterion='distance'并不是与'ward'方法直接对应的最佳方式,因为'ward'方法更适合使用criterion='maxclust'(尽管scipy的当前版本中fcluster可能不直接支持'ward''maxclust'的组合)。然而,为了演示fcluster的用法,我们还是使用了'distance'作为示例。

  2. 在实际应用中,你可能需要根据树状图的形状和你对数据的理解来选择一个合适的阈值或簇的数量。

  3. 如果你确实需要按照簇的数量来切割树状图,并且你的scipy版本不支持criterion='maxclust''ward'方法的组合,你可能需要手动选择一个阈值,或者寻找其他支持这种功能的库(如scikit-learn中的层次聚类实现,尽管它可能不完全相同)。但是,请注意,scikit-learn的层次聚类实现可能更注重于凝聚层次聚类,并且可能不提供与scipy相同的所有功能。

运行结果:

Cluster memberships: [4 4 3 2 2 1 1 3 4 2 1]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2056465.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ansible --------拓展

编辑 hosts 配置文件 [rootmo ~]# vim /etc/ansible/hosts # 创建目录 [rootmo ~]# mkdir /etc/ansible/playbook # 编辑配置文件 [rootmo ~]# vim /etc/ansible/playbook/nginx.yml # 执行测试 [rootmo ~]# ansible-playbook /etc/ansible/playbook/nginx.yml roles 修…

C# asnyc和await

asnyc和await是什么? 异步编程是一种编程范式,C#中的异步编程可以通过Thread,TheadPool,Task,async/await等来实现。 await能等待什么? 不能等待同步代码,只能等待Task或异步方法,且异步方法必须有返回值, async/await的出现…

遇到BUG怎么分析,全方位带你分析

软件测试的目的是尽可能早地找出软件产品中潜藏的缺陷,并确保其得以修复。所以缺陷的分析就会变得很关键,那么如何来分析缺陷呢? 根据缺陷的定义描述准则: 所有不满足需求或超出需求的都是缺陷。缺陷的判定主要的依赖点在于产品…

配置oss cdn加速静态资源访问 阿里云

效果对比 配置cdn下载速度对比 步骤 1: 登录阿里云控制台控制台主页,找到并点击“对象存储 OSS” 创建存储空间(Bucket) 设置权限 步骤 2: 获取外网访问地址 步骤 3 在 CDN 中使用该地址 复制该外网访问地址 打开全站加速 DCDN/域名管理 添…

【LeetCode热题100】双指针

class Solution { public:void moveZeroes(vector<int>& nums) {int dst -1,cur 0;while(cur<nums.size()){if(nums[cur] 0){cur;}else{swap(nums[dst1],nums[cur]);cur;dst;}}} }; 题目分析&#xff1a;对于数组分块/数组划分的问题&#xff0c;我们可以使用双…

Jmeter请求发送加密参数详解

&#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 最近在做http加密接口&#xff0c;请求头的uid参数及body的请求json参数都经过加密再发送请求&#xff0c;加密方式为&#xff1a;ase256。所以&#xff0c;jmeter…

社区志愿者服务系统设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言具体实现截图详细视频演示技术栈系统测试为什么选择我官方认证玩家&#xff0c;服务很多代码文档&#xff0c;百分百好评&#xff0c;战绩可查&#xff01;&#xff01;入职于互联网大厂&#xff0c;可以交流&#xff0c;共同进步。有保障的售后 代码参考数据库参…

【AI落地应用实战】Amazon SageMaker JumpStart 体验零一万物的 Yi 1.5 模型

目录 一、前言1.1、Amazon SageMaker JumpStart1.2、Yi-1.5 9B Chat 模型 二、Yi 1.5实践流程2.1、准备SageMaker Studio环境2.2、部署Yi-1.5-9B模型2.3、运行推理Yi-1.5-9B模型 三、体验总结 中国大模型公司零一万物发布开源大模型Yi-1.5&#xff0c;包含多个版本。同时发布多…

YOLOv8轻量化改进之slimneck

目录 一、原理 二、代码 三、修改到YOLOv8中 四、yaml文件修改 一、原理 论文地址:2206.02424 (arxiv.org) 主要模块的网络结构 二、代码 slimneck的代码如下,slimneck主要由GSConv和VoVGSCSPC两部分组成。 class GSConv(nn.Module):# GSConv https://github.com/Alan…

分布式高可用架构设计

一、限流 1、单机限流 如图&#xff0c;应用C的资源c/x被上游的应用A和应用C并发访问&#xff0c;应用C的系统能力支持c/x资源最高5000/qps的访问量&#xff1b;为了不让高并发流量或尖峰流量压垮应用C&#xff0c;可以针对应用C的资源c/x做限流&#xff1b;比如设置限流4500…

为什么会有浮毛猫毛?这些不容忽视的危害宠物空气净化器能解决!

很多人看到朋友家可爱的猫猫狗狗&#xff0c;自己也心痒痒想要养一只。但一想到宠物可能会带来的掉毛、体臭等问题&#xff0c;又犹豫不决。诚然&#xff0c;养宠物确实会对室内空气造成一定影响&#xff0c;但养宠人的共识是&#xff1a;那份与宠物共度的快乐时光&#xff0c;…

mysql索引探索

《令人困惑的mysql索引》在这篇文章中&#xff0c;遗留了几个困惑。为了解决这些困惑&#xff0c;我又进行了一些测试。 本文中索引的建立&#xff0c;并不一定科学&#xff0c;查询的SQL也不一定科学&#xff0c;只是为了理解mysql索引建的一些测试数据。 CREATE TABLE cms_…

加密与安全_双向RSA+AES加密及Code实现

文章目录 AES / RSA流程Code生成AES密钥 和 生成RSA密钥对AES工具类&#xff0c;提供AES加密和解密功能RSA加密工具类测试类 总结 AES / RSA AES&#xff1a;一种对称加密算法&#xff0c;意味着加密和解密使用相同的密钥。速度快&#xff0c;适合加密大量数据。RSA&#xff1…

Tina-Linux Bootloaer简述

Tina-Linux Bootloaer简述 目录介绍 ubuntuubuntu1804:~/tina-v2.0-sdk/lichee/brandy-2.0$ tree -L 1 . ├── build.sh ├── opensbi ├── spl //boot0 ├── spl-pub //boot0 ├── tools └── u-boot-2018 /ubootTina-Linux 启动流程简述

ant design pro v6 如何做好角色管理

先上图&#xff1a; 整个角色管理是如何做的吗&#xff1f; 首先你要处理后端&#xff0c;要先把角色存到用户那。 这是用户管理部分的内容&#xff1a; 可以看到一个用户是有多个角色的。 看到没有&#xff0c;存的是数组 数组的是一个 role 对象 role 对象是这样&#xf…

reactive 和 ref 的区别和联系

在 Vue3 的组合式 API &#xff08;Composition API&#xff09;中&#xff0c;ref 和 reactive 是用于创建响应式数据的两个核心函数。尽管二者都用于实现响应式数据&#xff0c;但在使用方式和适用场景上存在一些区别。 1. 基本概念 1.1 ref 用途&#xff1a;用于定义 基本…

深入探讨视频美颜SDK:直播美颜工具的核心技术与实现

本篇文章&#xff0c;笔者将深入探讨视频美颜SDK的核心技术及其在直播美颜工具中的实现。 一、视频美颜SDK的核心技术 视频美颜SDK通过一系列复杂的算法和技术&#xff0c;实时处理视频流并应用各种美颜效果。这些核心技术主要包括以下几个方面&#xff1a; 1.人脸识别与追踪…

【Hot100】LeetCode—24. 两两交换链表中的节点

目录 1- 思路四指针 2- 实现⭐24. 两两交换链表中的节点——题解思路 3- ACM 实现 原题连接&#xff1a;24. 两两交换链表中的节点 1- 思路 四指针 定义 dummyHead&#xff1a;便于处理头结点① cur 指针&#xff0c;记录两个交换节点的前 前一个结点② 第一个指针 first③ 第…

嵌入式开发--STM32G030C8T6,写片上FLASH死机CFGBSY和写入出错

故障现象1 G0系列&#xff0c;写片上FLASH时&#xff0c;经常死机&#xff0c;而且按复位键都没用&#xff0c;属于不断电都救不回来的那种死法。这种情况一般是由硬件置位了某个标志导致&#xff0c;只有断电才能故障复原。 故障查找 检查FLASH的相关寄存器&#xff0c;发现…

【秋招笔试】8.18大疆秋招(第一套)-后端岗

🍭 大家好这里是 春秋招笔试突围,一起备战大厂笔试 💻 ACM金牌团队🏅️ | 多次AK大厂笔试 | 编程一对一辅导 ✨ 本系列打算持续跟新 春秋招笔试题 👏 感谢大家的订阅➕ 和 喜欢💗 和 手里的小花花🌸 ✨ 笔试合集传送们 -> 🧷春秋招笔试合集 🍒 本专栏已收…