聚类分析 #数据挖掘 #Python

news2024/10/5 18:29:40

聚类分析(Cluster Analysis)是一种无监督机器学习方法,主要用于数据挖掘和数据分析中,它的目标是将一组对象或观测值根据它们之间的相似性或相关性自动分组,形成不同的簇或类别。聚类分析并不预先知道每个观测值的具体标签,而是基于数据本身的内在结构进行分组。

聚类过程主要包括以下几个步骤:

  1. 选择算法:常见的聚类算法有K-means、层次聚类(如凝聚层次聚类和分裂层次聚类)、DBSCAN、谱聚类等。
  2. 初始化:确定初始聚类中心或簇的数量。
  3. 迭代:根据所选算法,计算每个观测值与当前簇中心的距离,将其分配到最接近的簇;然后更新簇的中心点。
  4. 评估:根据簇内的相似性和簇间的差异性(如轮廓系数、Calinski-Harabasz指数等)评估聚类效果。
  5. 停止条件:当满足预定的停止标准(如达到预设的迭代次数或聚类不再变化)时,结束聚类过程。

在Python中,有许多库支持聚类分析,其中最常用的是scikit-learn

scikit-learn中的主要模块cluster提供了多种聚类算法,如:

  1. K-Means:这是一种基于距离的聚类算法,通过迭代将数据点分配到最近的质心形成的簇中。
  2. 层次聚类(Hierarchical Clustering):包括凝聚式(自下而上合并)和分裂式(自上而下分裂)两种方法,如单链接、全连接、平均链接和 ward 方法。
  3. DBSCAN:密度聚类算法,能识别任意形状的簇,并对噪声有很好的处理能力。
  4. 谱聚类(Spectral Clustering):利用数据的特征图(如拉普拉斯矩阵)进行聚类,适用于非凸形状的簇和高维数据。
  5. GMM(高斯混合模型):一种概率模型,常用于生成模型和混合分布的聚类。

这里我们主要运用K-Means:

K均值聚类是一种常用的无监督机器学习算法,用于数据分群。它的目标是将一组对象(通常称为数据点)划分为K个互不重叠的类别,每个类别由一个中心点(聚类中心)代表,目的是最小化所有数据点与其所属聚类中心的距离之和,通常采用欧几里得距离作为度量。

下面是K均值聚类的主要步骤:

  1. 选择K值:确定要创建的聚类数量K。
  2. 初始化聚类中心:随机从数据集中选择K个点作为初始聚类中心。
  3. 分配数据点:每个数据点被分配到最近的聚类中心。
  4. 更新聚类中心:根据当前分配的数据点计算每个聚类的新中心。
  5. 迭代过程:重复步骤3和4,直到聚类中心不再改变,或达到预设的最大迭代次数。


1、读取NBA球员数据:players.csv。

# 读取球员数据
import pandas as pd
players = pd.read_csv('players.csv')
players.head()

查看数据形式:

 

2、提取得分、命中率、三分命中率和罚球命中率4个指标作为球员聚类的依据,并对指标数据进行标准化。


# 数据标准化处理
from sklearn import preprocessing
X = preprocessing.minmax_scale(players[['得分','罚球命中率','命中率','三分命中率']])
# 将数组转换为数据框
X = pd.DataFrame(X, columns=['得分','罚球命中率','命中率','三分命中率'])

# 绘制得分与命中率的散点图
import seaborn as sns
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']    #指定默认字体
plt.rcParams['axes.unicode_minus'] = False      #用来正常显示负号


sns.lmplot(x = '得分', y = '命中率', data = players, 
           fit_reg = False, scatter_kws = {'alpha':0.8, 'color': 'steelblue'})
plt.show()

 

3、绘制簇内离差平方和与K的关系图,使用拐点法确定合适的K值(参考:K可以取3、4、5之一)。


import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
#构造自定义函数————用于绘制不同k值和对应总的簇类离差平方和的折线图
def k_SSE(X,clusters):
    K = range(1,clusters+1)    #选择连续的k种不同的值
    TSSE = []    #构建空列表用于存储总的簇内离差平方和
    for k in K:
        SSE = []        #用于存储各个簇内离差平方和
        kmeans = KMeans(n_clusters=k)
        kmeans.fit(X)
        labels = kmeans.labels_        #返回簇标签
        centers = kmeans.cluster_centers_        #返回簇中心
        #计算各簇样本的离差平方和,并保存到列表中
        for label in set(labels):
            SSE.append(np.sum((X.loc[labels == label,]-centers[label,:])**2))
        TSSE.append(np.sum(SSE))        #计算总的簇内离差平方和
    #中文和负号的正常显示
    plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
    plt.rcParams['axes.unicode_minus'] = False
    #设置绘图风格
    plt.style.use('ggplot')
    # 绘制 K 的个数与 GSSE 的关系
    plt.plot(K, TSSE, 'b*-')
    plt.xlabel('簇的个数')
    plt.ylabel('簇内离差平方和之和')
    # 显示图形
    plt.show()

# 使用拐点法选择最佳的 K 值
k_SSE(X, 15)

 

4、取合适的K值,使用得分与命中率两个指标绘制聚类效果图。


# 将球员数据集聚为 3 类
kmeans = KMeans(n_clusters = 3)
kmeans.fit(X)
# 将聚类结果标签插入到数据集 players 中
players['cluster'] = kmeans.labels_
# 构建空列表,用于存储三个簇的簇中心
centers = []
for i in players.cluster.unique():
    centers.append(players.loc[players.cluster == i,
                               ['得分','罚球命中率','命中率','三分命中率']].mean())
# 将列表转换为数组,便于后面的索引取数
centers = np.array(centers)
# 绘制散点图
sns.lmplot(x = '得分', y = '命中率', hue = 'cluster',data = players,
           markers = ['^','s','o'],fit_reg = False,
           scatter_kws = {'alpha':0.8},legend = False)
# 添加簇中心
plt.scatter(centers[:,0], centers[:,2], c='k', marker = '*', s = 180)
plt.xlabel('得分')
plt.ylabel('命中率')
# 图形显示
plt.show()

 

5、绘制雷达图。

(提示:雷达图要在操作系统下打开)


# 雷达图
import pygal
# 调用模型计算出来的簇中心
centers_std = kmeans.cluster_centers_
# 设置填充型雷达图
radar_chart = pygal.Radar(fill = True)
# 添加雷达图各顶点的名称
radar_chart.x_labels = ['得分','罚球命中率','命中率','三分命中率']

# 绘制雷达图代表三个簇中心的指标值
radar_chart.add('C1', centers_std[0])
radar_chart.add('C2', centers_std[1])
radar_chart.add('C3', centers_std[2])
# 保存图像
radar_chart.render_to_file('radar_chart.svg')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1836982.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

cloudflare worker访问自己的网站显示521问题解决

写在前面:如果你的网站不是在80端口上运行的,开一下80端口可能就行了… 1.在cloudlare上添加域名 前文搭建了自己的DNS服务器(DNS服务器搭建),现在想通过自己的DNS服务器解析域名,需要四步: 添…

2Y0A21 GP2Y0A21YK0F 红外测距传感器 arduino使用教程

三根线 正极负极信号线 确认自己的三根线分别代表什么,我们的颜色可能不一样 附一张我买的传感器他们的说明图 正极 接 开发板5V 负极 接开发板GND 信号线 接A0 代码arduino ide上面写 // Infračerven senzor vzdlenosti Sharp 2Y0A21// připojen potře…

vscode-关闭ts与js语义校验

1.ts与js语义校验 TypeScript(TS)和JavaScript(JS)在语义校验方面有很大的不同。TypeScript是一种静态类型检查的编程语言,它是JavaScript的一个超集,为JavaScript添加了类型系统和其他一些特性。而JavaScr…

软件测试技术(一):软件测试流程

软件测试流程 软件测试流程如下: 测试计划测试设计测试执行 单元测试集成测试确认测试系统测试验收测试回归测试验证活动 测试计划 测试计划由测试负责人来编写,用于确定各个测试阶段的目标和策略。这个过程将输出测试计划,明确要完成的测…

有个网友问Webview2如何另存为mhtml

有个网友问Webview2如何另存为mhtml 。俺查了一下,Webview2没有直接的saveas函数。然后我查到 之后我就使用 webview2 capture 这2个关键字去查询,果然搜到了 一段代码 然后我把这段代码 改成成C#的, string data await webView21.CoreWebV…

这四个有意思的工具,很香

提醒英雄 提醒英雄应用是一款能够帮助用户彻底解决健忘症的应用程序。该应用创建的事项会完全同步到通知中心,并且持续保持在锁屏界面上,只要打开手机,用户就会看到之前设置的提醒事项。这种设计确保了用户在任何时候都能及时收到提醒&#…

[C#] opencvsharp对Mat数据进行序列化或者反序列化以及格式化输出

【简要介绍】 在OpenCVSharp中,FileStorage类用于将数据(包括OpenCV的Mat类型数据)序列化为XML或YAML格式的文件,以及从这些文件中反序列化数据。以下是关于FileStorage类用法的详细说明: 写入数据(序列化…

铠侠全面复产:NAND价格还会涨吗?

近期,日本经济新闻(Nikkei)报道指出,经历长达20个月的产能削减后,全球第四大三维NAND闪存制造商铠侠已全面恢复生产。这一转变不仅标志着铠侠再次全力投入到市场份额的争夺中,也可能预示着闪存市场价格即将…

深入探究RTOS的任务调度

阅读引言: 此文将会从一个工程文件, 一步一步的分析RTOS的任务调度实现, 这里选用FreeRTOS分析, 别的也差不多的, 可能在细节上有少许不一样。 目录 1, 常见嵌入式实时操作系统 2, 任务调度的…

数据库系统概述选择简答概念复习

目录 一、组成数据库的三要素 二、关系数据库特点 三、三级模式、二级映像 四、视图和审计提供的安全性 审计(Auditing) 视图(Views) 五、grant、revoke GRANT REVOKE 六、三种完整性 实体完整性 参照完整性 自定义完整性 七、事务的特性ACDI 原子性(Atomicity)…

基于卷积变分自编码器的心电信号异常检测

代码较为简单,运行代码如下: # Built-in libraries # import os import time import random import pandas as pd import numpy as np from tqdm import tqdm # ------------------------------- # Visualization libraries # import matplotlib.p…

179海关接口源码并实践:打造具备跨境报关功能的多平台商城

一、跨境电商的发展与挑战 随着全球化的快速发展,跨境电商成为了各国商家开拓市场的重要方式。然而,跨境电商在面临海关报关等复杂流程时,常常遇到各种挑战。为了解决这些问题,许多商家开始关注179海关接口源码的使用&#xff0c…

mkv文件怎么转成mp4?教你四种常见的转换方法!

mkv文件怎么转成mp4?大家在使用mkv文件的时候有没有遇到过下面这些缺点,首先是mkv的兼容性不行,这体验在它不方便分享上面,很有可能我们分享出去但是对方根本无法进行接受,这就导致我们需要进行额外的操作才能分享&…

qt登录和闹钟实现

qt实现登录 #include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this);// 去掉头部this->setWindowFlag(Qt::FramelessWindowHint);// 去掉空白部分this->s…

汽车IVI中控开发入门及进阶(二十七):车载摄像头vehicle camera

前言: 在车载IVI、智能座舱系统中,有一个重要的应用场景就是视频。视频应用又可分为三种,一种是直接解码U盘、SD卡里面的视频文件进行播放,一种是手机投屏,就是把手机投屏软件已视频方式投屏到显示屏上显示,另外一种就是对视频采集设备(主要就是摄像头Camera)的视频源…

反激开关电源保险丝以及热敏电阻的选型

保险丝(2A/250V) 保险丝的选型及计算 1、保险丝的作用就是在电路出现故障造成过流甚至短路时能及时切断电路电源的联系。( 保护后 级电路,一旦出现故障,由于电流过大温度过高,保险丝熔断 ) 2、…

硫碳复合材料可用作固态电池正极材料 锂硫电池是重要下游

硫碳复合材料可用作固态电池正极材料 锂硫电池是重要下游 硫碳复合材料,是半固态电池、固态电池的正极材料,主要用于金属硫电池制造领域,在锂硫电池应用中研究热度最高。 锂硫电池,一种二次电池,以硫元素为正极&#x…

【多模态】39、HRVDA | 基于高分辨率输入的高效文档助手(CVPR2024)

论文:HRVDA: High-Resolution Visual Document Assistant 代码:暂无 出处:中国科学技术大学 | 腾讯优图 贡献点: 作者提出了高分辨率视觉文档助手 HRVDA,能直接处理高分辨率图像输入作者提出了内容过滤机制和指令过…

【Linux环境下Hadoop部署】— 报错“bash: myhadoop.sh: command not found“

项目场景: 执行 “myhadoop.sh stop” 命令。 问题描述 bash: myhadoop.sh: command not found 原因分析: 查看我们的系统配置,发现没有myhadoop.sh文件存放的路径。 解决方案: 1、执行 “sudo vim /etc/profile” 命令&#xff…

滚球游戏笔记

1、准备工作 (1) 创建地面:3D Object-Plane,命名为Ground (2) 创建小球:3D Object-sphere,命名为Player,PositionY 0.5。添加Rigidbody组件 (3) 创建文件夹:Create-Foder,分别命名为Material…