【菜菜的sklearn课堂笔记】聚类算法Kmeans-重要参数n_clusters

news2024/11/25 1:08:30

视频作者:菜菜TsaiTsai
链接:【技术干货】菜菜的机器学习sklearn【全85集】Python进阶_哔哩哔哩_bilibili

n_clusters是KMeans中的k,表示着我们告诉模型我们要分几类。这是KMeans当中唯一一个必填的参数,默认为8类,但通常我们的聚类结果会是一个小于8的结果。
在自建数据集上演示KMeans的基本使用

from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.cluster import KMeans

X,y = make_blobs(n_samples=500,n_features=2,centers=4,random_state=1)

fig,ax1 = plt.subplots(1)
# fig为画布,ax1为对象,画图需要在对象上画图,例如ax1.plot()
# 相比于之前直接画图,这里利用的是子图对象,里面1表示有1个图。如果只有一个数字,就像上面的情况,不同的子图在同一列上堆叠。两个数subplots(2,3)就是熟悉的两行三列的子图
# 需要注意的是,由于subplots(1)只有一个子图,因此ax1只有一个对象,如果有多个子图ax1就会成为一个列表,需要选择其中的元素来使用

fig,ax1 = plt.subplots(1)
ax1.scatter(X[:,0],X[:,1],marker='o',s=8)
plt.show()

![[附件/Pasted image 20221115211640.png|350]]

color = ['red','pink','orange','grey']
fig,ax1 = plt.subplots(1)
for i in range(4):
    ax1.scatter(X[y==i,0],X[y==i,1],c=color[i],s=8,marker='o')
plt.show()

![[附件/Pasted image 20221115211657.png|350]]

这里为了展示KMeans的聚类效果,所以k先设定为3

n_clusters = 3
cluster = KMeans(n_clusters=n_clusters,random_state=0).fit(X)
# 建模的目的是为了找出质心
# 这就告诉我们建模后的模型可以用于预测新的数据集

y_pred = cluster.labels_ # labels_返回fit输入的矩阵的聚类结果
y_pred.shape,set(y_pred)
---
((500,), {0, 1, 2})

pre = cluster.fit_predict(X)
# fit和predict可以分开,假设我们有一个极大的数据集500000条数据,我们切片取出2000条来fit建模,然后predict用于整个500000的数据集上,速度回快很多,效果不会差太多
pd.Series(pre == y_pred).value_counts()
---
True    500
dtype: int64

cluster_smallsub = KMeans(n_clusters=n_clusters,random_state=0).fit(X[:200])
y_pred_ = cluster_smallsub.predict(X)
pd.Series(y_pred == y_pred_).value_counts()
# 这个能说明用整体样本中取出来的小样本进行聚类,效果也可以很好
# 这里需要注意的是,进行不同的尝试的时候可能会出现大量False,这是因为在两次聚类时使用的标签不同
# 例如第一次聚类123属于同一类,标签为0,第二次聚类123也属于同一类,但标签为1,这时就会出现大量False
---
True     499
False      1
dtype: int64

# 质心
centroid = cluster.cluster_centers_
centroid
---
array([[-8.09286791, -3.50997357],
       [-1.54234022,  4.43517599],
       [-7.0877462 , -8.08923534]])

centroid = cluster_smallsub.cluster_centers_
# 如果上面两个聚类的结果出现大量False这里可以对比质心,只要质心差不多,就可以认为聚类效果基本相同
centroid
---
array([[-8.17006713, -3.44720552],
       [-1.44388438,  4.52237093],
       [-7.3963476 , -8.08221442]])

# 整体平方和
inertia = cluster.inertia_
inertia
---
1903.5342237665059

color = ['red','pink','orange']

fig,ax1 = plt.subplots(1)

for i in range(n_clusters):
    ax1.scatter(X[y_pred==i,0],X[y_pred==i,1],c=color[i],s=8,marker='o')
    
ax1.scatter(centroid[:,0],centroid[:,1],c='k',s=20,marker='x')
plt.show()

![[附件/Pasted image 20221115212129.png|350]]

其实inertia来评价KMeans效果有很大的局限性

n_clusters = 4
cluster_ = KMeans(n_clusters=n_clusters,random_state=0).fit(X)
inertia_ = cluster_.inertia_
inertia_
---
908.3855684760603

n_clusters = 5
cluster_ = KMeans(n_clusters=n_clusters,random_state=0).fit(X)
inertia_ = cluster_.inertia_
inertia_
---
811.0952123653016

n_clusters = 6
cluster_ = KMeans(n_clusters=n_clusters,random_state=0).fit(X)
inertia_ = cluster_.inertia_
inertia_
---
728.2827697678249

n_clusters = 500
cluster_ = KMeans(n_clusters=n_clusters,random_state=0).fit(X)
inertia_ = cluster_.inertia_
inertia_
---
0.0

可以看到,随着k的增大,KMeans的inertia单调减小,甚至当k=样本个数的时候inertia为0。我们生成数据集的时候指定有4簇,因此我们可以认为4簇是最好的,但是如果单纯的追求最小化inertia,我们甚至可设定k=500,显然这是错误的,所以我们要寻找更好的指标
这个例子也告诉我们,我们最小化inertia的前提是:有一个确定n_clusters

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/53252.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

glxy_阿里云存储

阿里云OSS储存 讲师的添加实现:oss服务 访问并登陆阿里云,,实名认证 产品分类---->对象储存OSS 开通OSS 进入管理控制台 使用OSS前先创建bucket java 代码实现 准备工作:创建操作阿里云oss许可证(阿里云颁发…

1545_AURIX_TC275_CPU子系统_存储以及性能

全部学习汇总: GreyZhang/g_TC275: happy hacking for TC275! (github.com) 章节的标题不是我写的标题,但是从功能分类看的话基本是,暂且如此总结。 1. DSYNC的命令之前看过,因为cache是具有不可见性的,通过这个命令可…

mysql分区表的增删改查操作

mysql分区表的增删改查操作一、mysql创建表分区二、基本分区信息查询2.1 查看mysql版本是否支持分区2.2 查看表是否为分区表2.2.1 查询表分区信息2.2.2 查看表的所有分区三、分区表的查询操作四、分区表的增删改操作4.1 新增分区4.1.1 给已有的表加上分区4.1.2 新增分区4.2 重新…

面试字节,过关斩将到 3 面,结果找了个架构师来吊打我?

人人都有大厂梦,对于程序员来说,BAT 为首的一线互联网公司肯定是自己的心仪对象,毕竟能到这些大厂工作,不仅薪资高待遇好,而且能力技术都能够得到提升,最关键的是还能够给自己镀上一层金,让人瞻…

物联网卡与共享饮水机的关系

近些年来居民更加注重饮水健康,对水质,口感的要求明显提升,饮水机市场高速发展,很多小区,校园,公园等公共场所都出现了共享饮水机。共享饮水机随处可见,马路边、商场里、社区里的社区直饮水机等…

Java+JSP+MySQL基于SSM的扶贫信息管理系统-计算机毕业设计

项目介绍 扶贫信息管理系统采用了B/S(浏览器/服务器)体系结构,JAVA作为开发语言,MySQL作为数据存储进行开发,Tomcat作为WEB服务器,开发平台windows,开发工具采用比elicpse更好用的myeclipse。系统角色分为用户和管理员…

GIS工具maptalks开发手册(二)03——渲染面

GIS工具maptalks开发手册(二)03——渲染面 效果 1、html单页面 index.html <!DOCTYPE html> <html> <meta charset"UTF-8"> <meta name"viewport" content"widthdevice-width, initial-scale1"> <title>图形 -…

Linux基础知识与实操-篇三: 文件压缩打包与vim基本使用

文章目录压缩打包与备份压缩文件命令gzip bzip2 xzgzip 命令bzip2 命令xz命令打包指令XFS文件系统备份与还原光盘写入工具其他常见的压缩与备份工具Vim 基本使用多文件编辑多窗口编辑Vim 的关键字补全Vim环境设定与记录其他使用注意事项中文编码问题断行字符语系编码转换最后本…

Spring依赖注入的三种方式

参考 : 面试突击77&#xff1a;Spring 依赖注入有几种&#xff1f;各有什么优缺点&#xff1f; - 掘金 目录 更加简单地从Spring中取出Bean对象(超级重要) 属性注入 属性注入的优点和缺点 setter注入 Setter注入的优缺点 构造方法注入 注意事项 构造方法注入的优缺点 …

基于springboot书籍推荐系统设计与实现的源码+文档

DROP TABLE IF EXISTS book_classification; CREATE TABLE book_classification( book_classification_id int(11) NOT NULL AUTO_INCREMENT COMMENT 图书分类ID, book_category varchar(64) comment 图书类别, examine_state varchar(16) DEFAULT 已通过 NOT NULL comm…

01-go基础-06-切片(声明切片、初始化切片、切片赋值、切片长度、切片容量、空切片、append、copy)

文章目录1. 声明切片2. 初始化切片2.1 切片长度2.1.1 初始化指定长度的切片2.1.2 查看切片长度 len()2.2 切片容量2.2.1 初始化指定容量的切片2.2.2 查看切片长度 len()3 切片赋值3.1 直接赋值3.2 引用数组给切片赋值3.3 引用数组某区间给切片赋值3.3.1 从数组位置N个取到第M个…

k8s中的Pod

Pod 是可以在 Kubernetes 中创建和管理的、最小的可部署的计算单元; Pod 中会启动一个或一组紧密相关的业务容器, 各个业务容器相当于Pod 中的各个进程, 此时就可以将Pod 作为虚拟机看待; 在创建 Pod 时会启动一个init容器, 用来初始化存储和网络, 其余的业务容器都将在init容器…

redis在实践中的一些常见问题以及优化思路(包含linux内核参数优化)

文章目录redis在实践中的一些常见问题以及优化思路&#xff08;包含linux内核参数优化&#xff09;fork耗时导致高并发请求延时AOF的阻塞问题主从复制延迟问题主从复制风暴问题vm.overcommit_memoryswapiness最大打开文件句柄tcp backlogredis在实践中的一些常见问题以及优化思…

【数据库高级】Mysql窗口函数的使用和练习

Mysql窗口函数&#x1f33e;Mysql窗口函数&#x1f54a;️一、什么是窗口函数&#x1f343;1、怎么理解窗口?&#x1f343;2、什么是窗口函数&#x1f375;1. 基本语法&#xff1a;&#x1f375;2. 窗口函数多用在什么场景&#xff1f;主要有以下两类&#xff1a;&#x1f375…

【AAAI2023】视觉辅助的常识知识获取Visually Grounded Commonsense Knowledge Acquisition 个人学习笔记

视觉辅助的常识知识获取 摘要&#xff1a;大规模的常识知识库为广泛的AI应用提供了能力&#xff0c;其中常识知识的自动提取extraction of commonsense knowledge (CKE)是一个基本和具有挑战性的问题。文本中的CKE因其固有的稀疏性和文本中常识的报道偏差reporting bias而闻名…

Windows OpenGL ES 图像色调

目录 一.OpenGL ES 图像色调 1.原始图片2.效果演示 二.OpenGL ES 图像色调源码下载三.猜你喜欢 零基础 OpenGL ES 学习路线推荐 : OpenGL ES 学习目录 >> OpenGL ES 基础 零基础 OpenGL ES 学习路线推荐 : OpenGL ES 学习目录 >> OpenGL ES 特效 零基础 OpenGL E…

Java+JSP+MySQL基于SSM的在线投票系统-计算机毕业设计

项目介绍 随着社会的发展&#xff0c;人们在处理一些问题的时候不同意见越来越多&#xff0c;这源于人们对思想的解放和对社会的认识。所以在处理同一问题上&#xff0c;为了征求不同人的意见在线投票系统诞生了。 基于SSM的在线投票系统以钦州学院为背景&#xff0c;运用在校…

CSS详解

文章目录1. CSS快速入门2. 四种CSS导入方式3. 三种基本选择器4. 层次选择器5. 结构伪类选择器5. 属性选择器6. CSS样式HTML(结构)CSS(表现)JavaScript(交互)1. CSS快速入门 <style>可以编写css代码&#xff0c;每一个声明&#xff0c;最好使用分号; <!DOCTYPE html&…

【JavaWeb】Servlet系列 --- HttpServletRequest接口详解(接口方法要记住!!!)

HttpServletRequest接口一、HttpServletRequest接口中有哪些常用的方法&#xff1f;思考&#xff1a;如果是前端的form表单提交了数据之后&#xff0c;你准备怎么存储这些数据&#xff0c;你准备采用什么样的数据结构去存储这些数据呢&#xff1f;二、request接口中四个非常重要…

FlutterAcivity 包已导入 但是仍然爆红

FlutterAcivity 包已导入 但是仍然爆红 这种情况就比较广泛了 我说一下我遇到的这种情况 上一篇 FlutterActivity找不到http://t.csdn.cn/HvgtI 1.大家可以看到我这个FlutterActivity包已导入 但是依然报错 2.可以清楚的看到我这个提示是 LifecycleOwner 找不到我们点Flutter…