K-Means算法实现鸢尾花数据集聚类

news2024/11/27 5:30:08

目录

  • 1. 作者介绍
  • 2. K-Means聚类算法
    • 2.1 基本概念
    • 2.2 算法流程
  • 3. K-Means聚类算法实现
    • 3.1 鸢尾花数据集
    • 3.2 准备工作
    • 3.3 代码实现
    • 3.4 结果展示
  • 4. 问题与解析
  • 参考链接

1. 作者介绍

张勇,男,西安工程大学电子信息学院,2022级研究生
研究方向:智能信息处理与信息系统研究
电子邮件:17605542959@163.com

陈梦丹,女,西安工程大学电子信息学院,2022级硕士研究生,张宏伟人工智能课题组
研究方向:机器视觉与人工智能
电子邮件:1169738496@qq.com

2. K-Means聚类算法

2.1 基本概念

K-Means聚类算法即K均值算法,是一种迭代求解的聚类分析算法,是一个将数据集中在某些方面相似的数据成员进行分类组织的过程。给定一个数据点集合和需要的聚类数目K,K由用户指定,K均值算法根据某个距离函数反复把数据分入K个聚类中。

K均值算法优势在于它速度很快,原理简单、易于操作,但是也有缺点:(1)必须选择有多少个组或类;(2)不同的算法运行中可能产生不同的聚类结果,结果不可重复,缺乏一致性;(3)常常终止于局部最优;(4)对噪声和异常数据敏感及不适合用于发现非凸形状的聚类簇。

2.2 算法流程

K-Means的核心目标是将给定的数据集划分成K个簇(K是超参),并给出每个样本数据对应的中心点。具体步骤非常简单,可以分为4步:

  1. 数据预处理。主要是标准化、异常点过滤。
  2. 随机选取K个中心,记为 :
    在这里插入图片描述
  3. 定义损失函数:
    在这里插入图片描述
  4. 令t=0,1,2,… 为迭代步数,重复如下过程知道J 收敛:
    (1)对于每一个样本,将其分配到距离最近的中心
    在这里插入图片描述
    (2)对于每一个类中心k,重新计算该类的中心
    在这里插入图片描述

3. K-Means聚类算法实现

3.1 鸢尾花数据集

Iris鸢尾花数据集: 包含 3 类分别为山鸢尾(Iris-setosa)、变色鸢尾(Iris-versicolor)和维吉尼亚鸢尾(Iris-virginica),共 150 条数据,每类各 50 个数据,每条记录都有 4 项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,通常可以通过这4个特征预测鸢尾花卉属于哪一品种。
在这里插入图片描述
Iris数据集是一个.csv文件,其数据格式如下:
在这里插入图片描述
图中第一行数据的意义是:150(数据集中数据的总条数);4(特征值的类别数),即花萼长度、花萼宽度、花瓣长度、花瓣宽度;setosa、versicolor、virginica:三种鸢尾花名。

从第二行开始各列数据的意义:第一列为花萼长度值;第二列为花萼宽度值;第三列为花瓣长度值;第四列为花瓣宽度值;第五列对应是种类(三类鸢尾花分别用0,1,2表示)。

3.2 准备工作

1、首先要在自己的Python环境中下载sklearn(进入个人虚拟环境并输入):

pip install scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple

2、下载数据集:

from sklearn.cluster import KMeans         
from sklearn import datasets
from sklearn.datasets import load_iris    
iris = load_iris() 

3.3 代码实现

当K分别等于2、3、4时,具体实现代码如下:
K=2:

import matplotlib.pyplot as plt
import numpy as np
from sklearn.cluster import KMeans         
from sklearn import datasets
from sklearn.datasets import load_iris    
iris = load_iris()
X = iris.data[:]     
estimator = KMeans(n_clusters=2)       #构造聚类器,这里聚成两类
estimator.fit(X)                       #聚类
label_pred = estimator.labels_         #获取聚类标签
#绘图
x0 = X[label_pred == 0]
x1 = X[label_pred == 1]
plt.scatter(x0[:, 0], x0[:, 1], c = "red", marker='o', label='label0')
plt.scatter(x1[:, 0], x1[:, 1], c = "green", marker='*', label='label1')
plt.xlabel('petal length')
plt.ylabel('petal width')
plt.legend(loc=2)
plt.show()

K=3:

import matplotlib.pyplot as plt
import numpy as np
from sklearn.cluster import KMeans         
from sklearn import datasets
from sklearn.datasets import load_iris    
iris = load_iris()
X = iris.data[:]     
estimator = KMeans(n_clusters=3)       #构造聚类器,这里聚成两类
estimator.fit(X)                       #聚类
label_pred = estimator.labels_         #获取聚类标签
#绘图
x0 = X[label_pred == 0]
x1 = X[label_pred == 1]
x2 = X[label_pred == 2]
plt.scatter(x0[:, 0], x0[:, 1], c = "red", marker='o', label='label0')
plt.scatter(x1[:, 0], x1[:, 1], c = "green", marker='*', label='label1')
plt.scatter(x2[:, 0], x2[:, 1], c = "blue", marker='+', label='label2')
plt.xlabel('petal length')
plt.ylabel('petal width')
plt.legend(loc=2)
plt.show()

K=4:

import matplotlib.pyplot as plt
import numpy as np
from sklearn.cluster import KMeans         
from sklearn import datasets
from sklearn.datasets import load_iris    
iris = load_iris()
X = iris.data[:]     
estimator = KMeans(n_clusters=4)       #构造聚类器,这里聚成两类
estimator.fit(X)                       #聚类
label_pred = estimator.labels_         #获取聚类标签
#绘图
x0 = X[label_pred == 0]
x1 = X[label_pred == 1]
x2 = X[label_pred == 2]
x3 = X[label_pred == 3]
plt.scatter(x0[:, 0], x0[:, 1], c = "red", marker='o', label='label0')
plt.scatter(x1[:, 0], x1[:, 1], c = "green", marker='*', label='label1')
plt.scatter(x2[:, 0], x2[:, 1], c = "blue", marker='+', label='label2')
plt.scatter(x3[:, 0], x3[:, 1], c = "orange", marker='+', label='label3')
plt.xlabel('petal length')
plt.ylabel('petal width')
plt.legend(loc=2)
plt.show()

3.4 结果展示

在这里插入图片描述
在这里插入图片描述在这里插入图片描述

4. 问题与解析

在构建聚类器时,修改K值,即修改需要分成几类(簇),单单修改参数cluster=2、3、4是不正确的,在绘图程序部分也要与之对应进行修改

例如:cluster=4,绘图程序仍然用cluster=3的绘图程序,虽然程序不会报错,但是导致分类只有三类,实验结果错误。下面是错误代码及结果演示:

import matplotlib.pyplot as plt
import numpy as np
from sklearn.cluster import KMeans         
from sklearn import datasets
from sklearn.datasets import load_iris    
iris = load_iris()
X = iris.data[:]     
estimator = KMeans(n_clusters=4)       #构造聚类器,这里聚成两类
estimator.fit(X)                       #聚类
label_pred = estimator.labels_         #获取聚类标签
#绘图
x0 = X[label_pred == 0]
x1 = X[label_pred == 1]
x2 = X[label_pred == 2]
plt.scatter(x0[:, 0], x0[:, 1], c = "red", marker='o', label='label0')
plt.scatter(x1[:, 0], x1[:, 1], c = "green", marker='*', label='label1')
plt.scatter(x2[:, 0], x2[:, 1], c = "blue", marker='+', label='label2')
plt.xlabel('petal length')
plt.ylabel('petal width')
plt.legend(loc=2)
plt.show()

错误代码实验结果展示:
在这里插入图片描述

参考链接

https://zhuanlan.zhihu.com/p/184686598?utm_source=qq
https://blog.csdn.net/u010916338/article/details/86487890

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/573388.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第3章“程序的机器级表示”:算术和逻辑操作

文章目录 3.5 算术和逻辑操作3.5.1 加载有效地址3.5.2 一元和二元操作3.5.3 移位操作3.5.4 讨论3.5.5 特殊的算术操作 3.5 算术和逻辑操作 下图列出了一些双字整数操作,分为四类。 二元操作有两个操作数,而一元操作只有一个操作数。 描述这些操作数的…

极光笔记 | EngageLab Push的多时区解决方案

01、引言 多时区问题一直是全球客户和终端用户面临的挑战之一。EngageLab Push 致力于解决这个问题,确保全球各地的终端用户可以平等地享受到同样的推送服务,同时让客户能够更好地管理不同时区的应用和对应的终端用户。 02、解决多时区问题的总体方案 1…

软件测试----软件开发模型

1、瀑布模型 (1)瀑布模型如下 (2)瀑布模型的缺点: 在瀑布模型中,测试是在编码结束后才介入,对软件开发流程前期质量是没有保障的 (3)采用瀑布模型的场景: …

31 KVM管理系统资源-管理虚拟内存NUMA

文章目录 31 KVM管理系统资源-管理虚拟内存NUMA31.1 NUMA简介31.2 配置Host-NUMA操作步骤 31.3 配置Guest-NUMA操作步骤 31 KVM管理系统资源-管理虚拟内存NUMA 31.1 NUMA简介 传统的多核运算使用SMP(Symmetric Multi-Processor)模式:将多个…

Flume系列:Flume 自定义Interceptor拦截器

目录 Apache Hadoop生态-目录汇总-持续更新 1:Interceptor拦截器的使用场景 2:Interceptor拦截器在采集流程中的位置 3:自定义Interceptor拦截器 pom.xml 拦截器java代码 打包上传 4:使用自定义的拦截器 方式一&#xff1…

Springboot +spring security,自定义认证和授权异常处理器

一.简介 在Spring Security中异常分为两种: AuthenticationException 认证异常AccessDeniedException 权限异常 我们先给大家演示下如何自定义异常处理器,然后再结合源码帮助大家进行分析 二.创建项目 如何创建一个SpringSecurity项目,前…

分布式锁和事务关系的细节

使用redssion在redis上以及结合自定义注解利用spring的环绕切面来实现分布式锁功能 代码示例 controller、service层 RequestMapping("insertNumber/{number}/{id}") public boolean insertNumber(PathVariable Long number,PathVariable Long id){return testSer…

rust 中protobuf生成与使用

首先创建一个项目proto 进入到这个文件夹中 创建我们的proto文件 初始化的项目结构是这个样子的 新建一个hello.proto文件内容如下 syntax "proto3";package hello;service Greeter {rpc SayHello (HelloRequest) returns (HelloReply) {} }message HelloRequest …

干货 | 师兄手把手教你如何踏上科研道路

Hello,大家好! 这里是壹脑云科研圈,我是喵君姐姐~ 今天,邀请到鲁小白,给大家分享一下他踏上科研道路的心路历程。 大家好,我是鲁小白,我真正进入科研的时间,研究生3年再…

【C++】类和对象——类的引入、类的访问限定符、类的作用域、类的实例化、类的储存、this指针的引出和特性

文章目录 1.类的引入2.类的访问限定符3.类的作用域4.类的实例化5.类的储存6.this指针6.1this指针的引出6.2this指针的特性 1.类的引入 C是在C的基础上加以扩展。 在C语言中,我们想要让一个类型含有多种成员变量,我们使用结构体;而在C中我们可…

Doris节点扩容及数据表

扩容和缩容 上篇文章简单讲了doris的安装,本章分享的是doris中fe和be节点的扩容缩容以及doris的数据表1、FE 扩容和缩容 使用 MySQL 登录客户端后,可以使用 sql 命令查看 FE 状态,目前就一台 FE mysql -h linux -P 9030 -uroot -p mysql&…

python+django乡村居民数据的可视化平台

本论文主要论述了如何使用Django框架开发一个乡村振兴数据的可视化平台 ,本系统将严格按照软件开发流程进行各个阶段的工作,采用B/S架构,面向对象编程思想进行项目开发。在引言中,作者将论述乡村振兴数据的可视化平台的当前背景以…

拼多多二面,原来是我对自动化测试的理解太浅了

如果你入职一家新的公司,领导让你开展自动化测试,作为一个新人,你肯定会手忙脚乱,你会如何落地自动化测试呢? 01 什么是自动化 有很多人做了很长时间的自动化但却连自动化的概念都不清楚,这样的人也是很悲…

Android之 MVC到MVVM架构发展和封装

一 简介 1.1 软件架构发展趋势是解耦,即分离数据层和视图层,使得数据层专注于业务的数据和逻辑处理。从而提高代码的可读可编辑效率,提高团队协作能力,项目的生产能力,降低后期维护成本。 1.2 Android架构发展MVC -…

计算机组成原理实验四 微程序控制器实验报告

我班算是几乎最后一个做实验的班级了,报告参考了一些朋友提供的数据加上一些自己的主观拙见,本人水平有限加之制作仓促难免有错误,望大家批评指正。 4.1 微程序控制器实验 一、实验目的 (1) 掌握微程序控制器的组成原理。 (2) 掌握微程序的…

【蓝桥杯计算思维题】少儿编程 蓝桥杯青少组计算思维真题及详细解析第5套

少儿编程 蓝桥杯青少组计算思维真题及详细解析第5套 1、北京冬奥会经历 17( ),中国体育代表团收获的金牌数和奖牌数均创历史新高 A、年 B、月 C、天 D、小时 答案:C 考点分析:主要考查小朋友们对时事的了解,北京冬奥会总共经历了17天,所以答案C 2、下面图形的周长是…

Python系列模块之标准库json详解

感谢点赞和关注 ,每天进步一点点!加油! 目录 一、Json介绍 二、JSON 函数 2.1 json.dumps 2.2 json.loads 2.3 实战案例:钉钉消息发送 一、Json介绍 JSON(JavaScript Object Notation)是一种轻量级的数据交换格式。它使得人们…

2023年21个最佳的Ruby测试框架

作者 | Veethee Dixit 测试人员总是在寻找最好的自动化测试框架,它能提供丰富的功能,并且语法简单、兼容性好、执行速度快。如果你选择将Ruby与Selenium结合起来进行web测试,那么可能需要搜索基于Ruby的测试框架进行web应用程序测试。 Ruby…

【Python】函数式编程第二弹

知识目录 一、写在前面✨二、最小公倍数三、移除数字四、总结撒花😊 一、写在前面✨ 大家好!我是初心,希望我们一路走来能坚守初心! 今天跟大家分享的文章是 Python函数式编程第二弹,再次以两个简单的例子带大家更好…

selenium UI自动化中文件上传的两种方式

前言 文件上传是自动化中很常见的一个功能,那么对于文件上传你又有多少了解呢?请往下看 1、被测产品中文件上传的功能非常普遍,一般情况下需要将准备好的文件放在预定的路径下,然后在自动化测试的脚本中,去预置的路径…