聚类算法k-means(手撕和调用skl)

news2025/1/9 23:29:20

定义

K均值聚类(k-means clustering)算法是一种常用的、基于原型的聚类算法,简单、直观、高效。其步骤为:

第一步:根据事先已知的聚类数,随机选择若干样本作为聚类中心,计算每个样本与每个聚类中心的欧式距离,离哪个聚类中心近,就算哪个聚类中心的聚类,完成一次聚类划分.

第二步:计算每个聚类的几何中心,如果几何中心与聚类中心不重合,再以几何中心作为新的聚类中心,重新划分聚类. 重复以上过程,直到某一次聚类划分后,所得到的各个几何中心与其所依据的聚类中心重合或足够接近为止. 聚类过程如下图所示:

 

注意事项:

(1)聚类数(K)必须事先已知,来自业务逻辑的需求或性能指标.

(2)最终的聚类结果会因初始中心的选择不同而异,初始中心尽量选择离中心最远的样本.

手撸k-means

原理

上述公式不好求解,一般我们通过迭代的方式近似化求解 

代码实现 

数据集选择西瓜书中提供的数据

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import math

data = pd.read_csv('西瓜数据集4.0.csv')
feature = ['密度','含糖率']
data = data[feature]

K = 3

#随机选取簇初始化
C_list = data.sample(K).values

data = data.values
while True:
    C_cluster = [[] for _ in range(K)]#存放每个簇的数据
    for i in range(len(data)):
        C_dist = {}#字典形式存放每个元素对于每个簇的距离,以此来判断该放入哪个簇
        for j in range(len(C_list)):
            diff = math.sqrt((data[i][0]-C_list[j][0])**2+(data[i][1]-C_list[j][1])**2)
            C_dist[j] = diff
        C_dist_sort = sorted(C_dist.items(),key = lambda x:x[1])    
        print(C_dist_sort)
        C_cluster[C_dist_sort[0][0]].append(data[i])
    print(C_cluster)
    
    flag = True#用于判断是否结束循环
    
    #计算每个簇的均值并置为新的中心点,若均值与之前相等则结束循环
    for i in range(len(C_list )):
        i_mean = np.mean(C_cluster[i],axis = 0)
        for j in range(i_mean.shape[0]):
            if i_mean[j] != C_list [i][j]:
                flag = False
                C_list [i] = i_mean
                break
    if flag:
        break

color = np.random.random((3,K)) #随机颜色

#得到最终的分类结果并绘图
for i in range(K):
    C = C_cluster[i] #每一簇的元素
    x = [i[1] for i in C]
    y = [i[0] for i in C]
    plt.scatter(x,y,c = color[i],label = 'C'+str(i)) #随机颜色
plt.legend()
plt.xlabel('midu')
plt.ylabel('hantang')
plt.show()

 将聚类后结果绘制出来

调用sklearn的库函数 

import pandas as pd
import matplotlib.pyplot as plt
import sklearn.cluster as sc

data = pd.read_csv('西瓜数据集4.0.csv')
feature = ['密度','含糖率']
data = data[feature]

model = sc.KMeans(n_clusters=4)

model.fit(data)

label = model.labels_

result_y = model.predict([[0.4,0.5]])
print(result_y)

plt.scatter(data['含糖率'],data['密度'],c= label,cmap='spring')
plt.xlabel('midu')
plt.ylabel('hantang')
plt.legend()
plt.show()

 

特点及使用

优点

(1)原理简单,实现方便,收敛速度快;

(2)聚类效果较优,模型的可解释性较强;

缺点

(1)需要事先知道聚类数量;

(2)聚类初始中心的选择对聚类结果有影响;

(3)采用的是迭代的方法,只能得到局部最优解;

(4)对于噪音和异常点比较敏感.

什么时候选择k-means

(1)事先知道聚类数量

(2)数据分布有明显的中心

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2085159.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大数据及人工智能产品应该如何测试?

当今社会,人工智能的发展非常快,自从2016年AlphaGo战胜了世界围棋冠军李世石之后,人工智能的发展,特别是以深度学习为代表的人工智能的发展到了一个高速发展的阶段。 现在人工智能的发展已经渗透到了我们生活的方方面面&#xff…

如何对 PDF 进行密码保护

保护机密文件非常关键。对 PDF 进行密码保护的策略是在未经授权的访问时增加一层安全保护。在处理高度机密的文档或个人数据时,使用密码保护它们是一个好主意。 也就是说,如果您担心如何在笔记本电脑和台式机上使用密码保护 PDF, 以及您是否…

深入浅出通信原理 | 单位冲激响应和时域卷积定理

微信公众号上线,搜索公众号小灰灰的FPGA,关注可获取相关源码,定期更新有关FPGA的项目以及开源项目源码,包括但不限于各类检测芯片驱动、低速接口驱动、高速接口驱动、数据信号处理、图像处理以及AXI总线等 本节目录 一、单位冲激响应 1、离…

rpm安装出现警告: 密钥 ID f4a80eb5: NOKEY的解决办法

当我们使用rpm安装时有时会出现警告:/mnt/Packages/ethtool-4.8-9.el7.x86_64.rpm: 头V3 RSA/SHA256 Signature, 密钥 ID f4a80eb5: NOKEY 这是因为各个软件之间总会存在一些依赖关系,所以才会发出警告,这时候我们只需要在后面加上"–…

C++面向对象高级开发A

一、概述 目标:培养正规、大气的编程习惯;学习面向对象设计 Object Based(基于对象):以良好的方式编写Cclass class without pointer members【示例:Complex类】class with pointer members【示例&#xff…

挂个人-CSDN Java优秀内容博主rundreamsFly抄袭

事件起因 今天点开自己的CSDN博客,发现给我推了一篇文章抄袭我自己昨天18点发的文章。 就是这篇,一字不差,博主昵称是:rundreamsFly,账号是rundreams。 抄袭者文章 发布于2024-8-26 19:37:41秒,比我发布…

C语言穿墙迷宫

目录 开头程序程序的流程图程序游玩的效果下一篇博客要说的东西 开头 大家好&#xff0c;我叫这是我58。 程序 #define _CRT_SECURE_NO_WARNINGS 1 #include <stdio.h> #include <stdlib.h> #include <time.h> #include <Windows.h> void printmaze…

Axure团队协作功能详解:从创建到管理的全流程

Axure RP 支持团队协作&#xff0c;通过创建团队项目&#xff0c;多个团队成员可以同时在同一个项目上进行编辑和管理。以下是使用 Axure 进行团队协作的详细步骤&#xff1a; Axure 使用地址 1. 创建团队项目 打开 Axure RP&#xff0c;并在菜单栏中选择 “Team” > “Cr…

【6678专题】-点亮LED灯(寄存器方式)

本章需要参考的资料为 《General Purpose Input Output (GPIO) User Guide.pdf》&#xff0c;具体在创龙资料文件夹目录下D:\JYTL\12DSP_FPGA\08_文档\创龙\TL6678ZH-EVM_V1.5\TL6678ZH-EVM_V1.5\6-开发参考资料\数据手册\核心板元器件\DSP\Technical Reference Manual 《Multi…

CentOS 安装 NVIDIA 相关软件包时出现依赖问题

CentOS 安装 NVIDIA 相关软件包时出现依赖问题 1 CentOS 安装 NVIDIA 相关软件包时报错如下2 解决方法 1 CentOS 安装 NVIDIA 相关软件包时报错如下 Error: Package: 3:kmod-nvidia-latest-dkms-550.90.07-1.el7.x86_64 (cuda-rhel7-x86_64)Requires: dkms Error: Package: 3:…

嵌入式中详解STM32启动文件

本文对STM32启动文件startup_stm32f10x_hd.s的代码进行讲解,此文件的代码在任何一个STM32F10x工程中都可以找到。 启动文件使用的ARM汇编指令汇总 Stack——栈 Stack_Size EQU 0x00000400 AREA STACK, NOINIT, READWRITE, ALIGN=Stack_Mem SPACE Stack_Size__initial_sp 开辟…

EEG揭秘:视觉线索如何操控我们的运动表现

摘要 在脑电图(EEG)或皮层脑电图(ECoG)实验中&#xff0c;视觉线索常用于时间同步&#xff0c;但可能会无意中诱发神经活动和认知加工&#xff0c;从而使任务解码变得更具挑战性。为了解决这一问题&#xff0c;本研究引入了四种新的视觉线索(淡出(Fade)、旋转(Rotation)、参考…

使用插件i18n实现国际化多语言

1、安装 npm install vue-i18nnext --save 或者 yarn add vue-i18nnext --save 2、配置 新建目录及文件夹 - src - locales - lang - zh.js // 中文&#xff0c; - en.js // 英语&#xff0c; - ar.js // 法语&#xff0c; - jp.js // 日语&#xff0c; - fr…

上万人苦心研究数年的数据,备份怎么做才保险?-Infortrend

业界领先的应用研究机构&#xff0c;拥有上万名员工。需要一套存储设备&#xff0c;能够长期保存大量备份数据。他们从事的研究项目周期&#xff0c;往往持续数月甚至数年&#xff0c;涉及大量的数据收集和分析。为了确保研究的连续性&#xff0c;并且保护关键数据&#xff0c;…

效率提升关键

在当今快节奏的工作环境中&#xff0c;效率软件成为了提升个人和团队生产力的重要工具。这些软件可以帮助人们更好地管理时间、优化工作流程以及增强团队协作。具体分析如下&#xff1a; 1 亿可达 ◦ 简介&#xff1a;亿可达作为一款自动化工具&#xff0c;亿可达被誉为国…

为什么要学习 CCRC-PIPP

背景&#xff1a; 在数字化时代背景下&#xff0c;数据已成为重要的生产要素和国家战略资源&#xff0c;个人信息的保护尤为关键。 保障公民的个人信息权益&#xff0c;促进其依法合理有效利用&#xff0c;是政府和企业推动数字经济健康发展的首要任务。 中国网络安全审查技…

TypeScript入门简介

TypeScript&#xff08;TS&#xff09;是JavaScript的超集&#xff0c;其可以编译出纯净、 简洁的JavaScript代码&#xff0c;并且可以运行在任何浏览器上、Node.js环境中和任何支持ECMAScript 3&#xff08;或更高版本&#xff09;的JavaScript引擎中。TypeScript提供最新的和…

【如何在MacOS升级ruby版本】

&#x1f3a5;博主&#xff1a;程序员不想YY啊 &#x1f4ab;CSDN优质创作者&#xff0c;CSDN实力新星&#xff0c;CSDN博客专家 &#x1f917;点赞&#x1f388;收藏⭐再看&#x1f4ab;养成习惯 ✨希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出…

如何在手机上设置国内代理IP地址:详细指南

在某些情况下&#xff0c;我们可能需要在手机上设置国内代理IP地址&#xff0c;以便访问特定的网络服务或提高网络连接的稳定性。本文将详细介绍如何在Android和iOS设备上设置代理IP地址。 在Android设备上设置代理IP地址 在Android设备上设置代理IP地址非常简单&#xff0c;只…

AD7046 GD32 SPI驱动设计

硬件设计 AD7046简介&#xff1a;ADS7046 12 位&#xff0c; 3 MSPS&#xff0c; 单端输入&#xff0c; 小型低功耗 SAR ADC。ADS7046 是一款 12 位 3 MSPS SAR ADC&#xff0c; 支持0V到 AVDD 范围内的单端输入&#xff0c; AVDD 的范围为2.35V至 3.6V。内部失调电压校准功能…