【聚类】K-Means聚类

news2025/1/12 8:43:09

cluster:簇

原理:

这边暂时没有时间具体介绍kmeans聚类的原理。简单来说,就是首先初始化k个簇心;然后计算所有点到簇心的欧式距离,对一个点来说,距离最短就属于那个簇;然后更新不同簇的簇心(簇内所有点的平均值,也就是簇内点的重心);循环往复,直至簇心不变达到规定的迭代次数

python实现

我们这边通过调用sklearn.cluster中的kmeans方法实现kmeans聚类

入门

原始数据的散点图

from sklearn.cluster import KMeans
import numpy as np
import matplotlib.pyplot as plt

# 数据
class1 = 1.5 * np.random.randn(100,2) #100个2维点,标准差1.5正态分布
class2 = 1.5*np.random.randn(100,2) + np.array([5,5])#标准正态分布平移5,5

# 画出数据的散点图
plt.figure(0,dpi = 300)
plt.scatter(class1[:,0],class1[:,1],c='y',marker='*')
plt.scatter(class2[:,0],class2[:,1],c='k',marker='.')
plt.axis('off')  # 不显示坐标轴
plt.show()

kmeans聚类

#---------------------------kmeans--------------------
# 调用kmeans函数
features = np.vstack((class1,class2))
kmeans = KMeans(n_clusters=2)
kmeans .fit(features)

plt.figure(1,dpi = 300)

#满足聚类标签条件的行
ndx = np.where(kmeans.labels_==0)
plt.scatter(features[ndx,0],features[ndx,1],c='b',marker='*')

ndx = np.where(kmeans.labels_==1)
plt.scatter(features[ndx,0],features[ndx,1],c='r',marker='.')
# 画出簇心
plt.scatter(kmeans.cluster_centers_[:,0],kmeans.cluster_centers_[:,1],c='g',marker='o')

plt.axis('off')   # 去除画布边框
plt.show()

进一步:选择簇心k的值 

前面的数据是我们自己创建的,所以簇心k是我们自己可以定为2。但是在实际中,我们不了解数据,所以我们需要根据数据的情况确定最佳的簇心数k。

这是下面用到的数据data11_2.txt【免费】这是kmean聚类中用到的一个数据资源-CSDN文库

簇内离差平方方和与拐点法(不太好判断)

定义w是簇内的点,m_i是簇的重心。

则所有簇的簇内离差平方和的和为J_k = \sum_{i=1}^{k} \sum_{w \in G_i} ||w-m_i||^2。然后通过可视化的方法,找到拐点,认为突然变化的点就是寻找的目标点,因为继续随着k的增加,聚类效果没有大的变化

借助python中的“md = KMeans(i).fit(b),md.inertia_”实现。

import numpy as np
from sklearn.cluster import KMeans
import pylab as plt

plt.rcParams['font.sans-serif'] = ['SimHei']  # 显示中文
a = np.loadtxt('data/data11_2.txt')  # 加载数
b=(a-a.min(axis=0))/(a.max(axis=0)-a.min(axis=0))  # 标准化

# 求出k对应的簇内离差平均和的和
SSE = []; K = range(2, len(a)+1)
for i in K:
    md = KMeans(i).fit(b)
    SSE.append(md.inertia_)  # 它表示聚类结果的簇内平方误差和(Inertia)

# 可视化
plt.figure(1)
plt.title('k值与离差平方和的关系曲线')
plt.plot(K, SSE,'*-');
# 生成想要的 x 轴刻度细化值
x_ticks = np.arange(2, 10, 1)
# 设置 x 轴刻度
plt.xticks(x_ticks)
plt.show()

通过上图可以看出k=3时,是个拐点。所有选择k=3。

轮廓系数法(十分客观)

定义样本点i的轮廓系数S_i = \frac{b_i-a_i}{max(a_i,b_i)},S_i代表样本点i的轮廓系数,a_i代表该点到簇内其他点的距离的均值;b_i分两步,首先计算该点到其他簇内点距离的平均距离,然后将最小值作为b_i。a_i表示了簇内的紧密度,b_i表示了簇间的分散度。

k个簇的总轮廓点系数定义为所有样本点轮廓系数的平均值。因此计算量大

总轮廓系数越接近1,聚类效果越好。簇内平均距离小,簇间平均距离大。

调用sklearn.metrics中的silhouette_score(轮廓分数)函数实现

#程序文件ex11_7.py
import numpy as np
import matplotlib.pyplot  as plt
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
plt.rcParams['font.sans-serif'] = ['SimHei']

# 忽略警告
import warnings
# 使用过滤器来忽略特定类型的警告
warnings.filterwarnings("ignore")


a = np.loadtxt('data/data11_2.txt')
b=(a-a.min(axis=0))/(a.max(axis=0)-a.min(axis=0))
S = []; K = range(2, len(a))
for i in K:
    md = KMeans(i).fit(b)
    labels = md.labels_
    S.append(silhouette_score(b, labels))
plt.figure(dpi = 300)
plt.title('k值与轮廓系数的关系曲线')
plt.plot(K, S,'*-'); plt.show()

综上两种方法,好像并没有什么最好的方法,离差平均和不好判断,轮廓系数又像上面的情况。感觉综合两种方法比较好 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/969348.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

nginx中模块的设置以及反向代理

nginx设置 nginx http 模块的配置文件位于 "/apps/nginx/conf/nginx.conf"(以自己安装时选择的目录为准,若使用yum安装,则在 /etc/nginx/nginx.conf)。在该文件中,需要定义一些常见的配置项,包括…

《Communicative Agents for Software Development》全文翻译

《Communicative Agents for Software Development》- 沟通性智能主体促进软件开发 论文信息Abstract1. Introduction2. CHATDEV2.1 聊天链2.2 设计2.3 编码2.4 测试2.5 记录 3. 实验4. 讨论5. 相关工作6. 结论 论文信息 题目:《Communicative Agents for Software…

TienChin 渠道管理-查看渠道接口

自定义 hasPermission 校验规则 自定义一个 Spring Security hasPermission 校验规则: 在 tienchin-framework 模块当中进行自定义,新建 CustomSecurityExpressionRoot.java 自定义 hasPermission 判断逻辑类: /*** author BNTang* version 1…

SSM框架-Spring框架核心知识梳理

目录 一、SpringIoC 1.1认识SpringIoC容器 1.2基于xml配置SpringIoC容器 1.3基于xml配置下Bean的生命周期和作用域 1.4 基于xml与注解配置SpringIoC容器 1.5 基于完全注解类配置SpringIoc容器 二、SpringAop面对切面编程 2.1认识SpringAop面向切面编程 2.2SpringAop基…

list【2】模拟实现(含迭代器实现超详解哦)

模拟实现list 引言(实现概述)list迭代器实现默认成员函数operator* 与 operator->operator 与 operator--operator 与 operator!迭代器实现概览 list主要接口实现默认成员函数构造函数析构函数赋值重载 迭代器容量元素访问数据修改inserterasepush_ba…

数学建模--二维插值函数模型的Python实现

目录 1.算法实现步骤 2.算法核心代码 3.算法效果展示 1.算法实现步骤 #二维插值函数的展示通过Axes3D函数来进行实现 #我们需要绘制出20*20的插值效果和500*500的插值效果,进行比较. 具体步骤如下所示: 1.将x-y分为20*20并且绘制网格图 2.进行20*20的插值计算并且绘制可视化图…

使用SimPowerSystems并网光伏阵列研究(Simulink实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

9.4.tensorRT高级(4)封装系列-使用pybind11为python开发扩展模块

目录 前言1. pybind112. 补充知识2.1 pybind11 介绍 总结 前言 杜老师推出的 tensorRT从零起步高性能部署 课程,之前有看过一遍,但是没有做笔记,很多东西也忘了。这次重新撸一遍,顺便记记笔记。 本次课程学习 tensorRT 高级-使用p…

《网络是怎样连接的》(六)

本文主要取材于 《网络是怎样连接的》 第六章。 目录 6.1 服务器概览 6.2 服务器的接收操作 6.3 Web服务器程序解释请求消息并作出响应 6.4 浏览器接收响应消息并显示内容 简述:本文主要内容是解释 网络包到达服务器之后,如何给客户端响应的。 服务…

电商实战项目(java)知识点整理(持续更新)《苍穹外卖》

一、重要知识点精讲 1.1 nginx反向代理 1. nginx反向代理好处: 1. 提高访问速度(可以进行缓存,如果访问相同资源可以直接响应数据) 2. 可以进行负载均衡(如果没有nginx前端只能固定地访问后端某一台服务器&#xf…

Linux系统编程—socket网络编程

Linux系统编程—socket网络编程 理论概念1. TCP与UDP对比端口号作用 socket开发过程服务端1. socket 创建套接字2. bind 绑定IP端口3. listen 监听客户端4. accept 接收客户端5. read / write 数据传输 客户端1. socket 创建套接字2. connect 连接服务3. read / write 数据传输…

合宙Air724UG LuatOS-Air LVGL API控件--下拉框 (Dropdown)

下拉框 (Dropdown) 在显示选项过多时,可以通过下拉框收起多余选项。只为用户展示列表中的一项。 示例代码 -- 回调函数 event_handler function(obj, event)if (event lvgl.EVENT_VALUE_CHANGED) thenprint("Option:", lvgl.dropdown_get_symbol(obj)…

稀疏数组的实现

文章目录 目录 文章目录 前言 一 什么是稀疏数组? 二 稀疏数组怎么存储数据? 三 稀疏数组的实现 总结 前言 大家好,好久不见了,这篇博客是数据结构的第一篇文章,望大家多多支持! 一 什么是稀疏数组? 稀疏数组(Sparse Array)是一种数据结构&a…

Elastic-job分布式调度系统

一、定时任务实现方式 1、Thread方式 final int timeInterval 1000;Thread thread new Thread(new Runnable() {Overridepublic void run() {while (true){try {//每一秒执行一次Thread.sleep(timeInterval);System.out.println("run...");} catch (InterruptedE…

数据结构和算法(1):开始

算法概述 所谓算法,即特定计算模型下,旨在解决特定问题的指令序列 输入 待处理的信息(问题) 输出 经处理的信息(答案) 正确性 的确可以解决指定的问题 确定性 任一算法都可以描述为一个由基本操作组成的序…

SpringBoot核心原理与实践

第一章、SpringBoot简介 1、入门案例 2、官网创建压缩包程序 注意使用的版本pom文件中java --> 1.8、 springboot --> 2.5.0 3、SpringBoot快速启动 运行程序--找引导类 换技术、加技术--加starter 第二章、基础配置 1、配置文件格式 《1、端口号配置》 《2、将目录文…

React原理 - React Hooks

目录 扩展学习资料 React Hooks 编写函数组件 Hooks使命 Hooks解决了什么问题 Hooks原理 useState源码解析 mountState源码解析 Hooks应用 Hooks 实践 倒计时组件 练习 扩展学习资料 名称 链接 React Hooks 官方文档 Introducing Hooks – React useEffect 完整…

PYTHON知识点学习-列表和元组

🌈write in front🌈 🧸大家好,我是Aileen🧸.希望你看完之后,能对你有所帮助,不足请指正!共同学习交流. 🆔本文由 Aileen_0v0🧸 原创 CSDN首发🐒 如…

把一般数据转换成因子数据格式,做单因子、债券对历史数据回测+获取curl命令+垃圾数据转换成标准行情数据(bardata)

下载curl软件,地址: curl for Windows for 64-bit下载好后解压到文件夹,将里面的bin文件添加到环境变量中,bon文件地址为:C:\Users\59980\curl-8.2.1_7-win64-mingw\bin 打开cmd,输入curl --help,出现下…

软考:中级软件设计师:程序语言基础:表达式,标准分类,法律法规,程序语言特点,函数传值传址

软考:中级软件设计师:程序语言基础:表达式 提示:系列被面试官问的问题,我自己当时不会,所以下来自己复盘一下,认真学习和总结,以应对未来更多的可能性 关于互联网大厂的笔试面试,都…