Kmeans算法原理及Python实现

news2024/11/15 14:20:01

K-means算法是一种广泛使用的聚类算法,其原理相对简单且易于实现,属于无监督学习的一种。以下是对K-means算法原理的详细解析:

一、基本思想

K-means算法的基本思想是将数据集划分为K个簇,使得每个簇内的数据点尽可能相似,而不同簇之间的数据点则尽可能不相似。算法通过迭代的方式,不断调整簇的中心点,直到满足某个终止条件为止。

二、算法步骤

  1. 指定聚类数目K:首先,用户需要指定希望将数据集聚类成的簇的数量K。这个K值的选择对于最终的聚类结果有重要影响。
  2. 选择初始簇中心:算法开始时,需要从数据集中随机选择K个数据点作为初始的簇中心。这些初始簇中心的选择对于算法的收敛速度和聚类结果的质量有一定影响。为了改善这一点,可以使用一些改进算法,如K-means++。
  3. 分配数据点到簇:对于数据集中的每一个数据点,计算它与各个簇中心的距离,并将其分配到距离最近的簇中。这一步骤会生成初始的聚类结果。
  4. 更新簇中心:根据当前的聚类结果,重新计算每个簇的中心点。簇中心通常是通过计算簇内所有数据点的平均值得到的。
  5. 迭代优化:重复步骤3和步骤4,直到簇中心不再发生变化,或者达到预定的迭代次数。在迭代过程中,簇中心会逐渐移动到数据点分布的中心位置,从而使得簇内的数据点更加紧密,簇间的数据点更加分散。

三、终止条件

K-means算法的终止条件通常包括以下几种:

  1. 簇中心不再发生变化:如果连续多次迭代后,簇中心的位置没有发生显著变化,则认为算法已经收敛,可以停止迭代。
  2. 达到预定的迭代次数:为了防止算法无限期地运行下去,通常会设置一个最大迭代次数。当迭代次数达到这个预设值时,算法会停止运行并输出当前的聚类结果。

四、优缺点

  1. 优点:
  1. 算法原理简单易懂,实现起来相对容易。
  2. 计算效率高,特别适用于处理大规模数据集。
  3. 聚类效果通常较好,能够发现数据中的潜在结构。
  1. 缺点:
  1. 需要用户事先指定簇的数量K,这个值的选择对聚类结果有很大影响。
  2. 对初始簇中心的选择敏感,不同的初始簇中心可能导致不同的聚类结果。
  3. 对于非凸形状的数据集,K-means算法可能无法很好地发现簇结构。
  4. 容易陷入局部最优解,无法得到全局最优的聚类结果。

综上所述,K-means算法是一种简单而有效的聚类算法,但在使用时需要注意选择合适的K值和初始簇中心,以及考虑数据的特性和分布情况。

五、Python实现

Python中,实现K-means算法的一个常见方法是使用sklearn库中的KMeans类。不过,为了理解K-means算法的工作原理,我们也可以从头开始实现它。下面是一个简单的K-means算法的Python实现示例:

import numpy as np

class KMeans:
    def __init__(self, k=3, max_iters=100, tol=1e-4):
        self.k = k
        self.max_iters = max_iters
        self.tol = tol

    def fit(self, X):
        # 初始化质心
        indices = np.random.choice(X.shape[0], self.k, replace=False)
        centroids = X[indices]

        for _ in range(self.max_iters):
            # 将每个点分配给最近的质心
            clusters = [[] for _ in range(self.k)]
            for features in X:
                distances = [np.linalg.norm(features - centroid) for centroid in centroids]
                closest_cluster = np.argmin(distances)
                clusters[closest_cluster].append(features)

            # 计算新的质心
            new_centroids = np.array([np.mean(cluster, axis=0) for cluster in clusters if cluster])

            # 检查质心是否变化
            if np.allclose(centroids, new_centroids, atol=self.tol):
                break

            centroids = new_centroids

        self.centroids = centroids
        self.clusters = clusters

    def predict(self, X):
        y_pred = [np.argmin([np.linalg.norm(x - centroid) for centroid in self.centroids]) for x in X]
        return np.array(y_pred)

# 示例使用
if __name__ == "__main__":
    # 生成一些随机数据
    from sklearn.datasets import make_blobs
    X, _ = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

    # 创建KMeans实例并拟合数据
    kmeans = KMeans(k=4)
    kmeans.fit(X)

    # 预测每个点的簇标签
    y_pred = kmeans.predict(X)

    # 打印质心
    print("Centroids:")
    print(kmeans.centroids)

    # 你可以使用matplotlib来可视化结果
    import matplotlib.pyplot as plt
    plt.scatter(X[:, 0], X[:, 1], c=y_pred, cmap='viridis', marker='o', edgecolor='k')
    plt.scatter(kmeans.centroids[:, 0], kmeans.centroids[:, 1], c='red', s=200, alpha=0.75)
    plt.show()
    

请注意,这个实现是为了教学目的而简化的,它可能不包括一些sklearn.cluster.KMeans中的优化和特性,比如处理空簇的情况(在上面的代码中,我们通过if cluster来简单地跳过空簇的计算)。

在实际应用中,建议使用sklearnKMeans类,因为它经过了优化,并且提供了更多的功能和灵活性。例如,使用sklearnKMeans可以很容易地指定初始化质心的方法(如k-means++),设置随机种子以确保结果的可重复性,以及访问算法的内部属性和收敛信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2072084.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从0到1使用webpack搭建react脚手架

背景 好多前端童鞋工作多年依然不会使用webpack搭建react脚手架,本文就介绍下如何从零开始搭建一个属于你自己的前端脚手架,提高自己的工程化实力,同时也提高团队的开发效率。 一、基础配置 目标:可以启动最简单的react项目 初…

调用股票网站接口读取大A数据——个股资金流入趋势

以某股票为例,调用自定义的一个类,读取数据。 class BigAData:# 获取资金流向数据def get_money_flow(self, stock_code, page1, num20, sortopendate, asc0):该函数通过股票代码从新浪财经API获取资金流向数据。参数包括股票代码、页数、每页数量、排序…

Elasticsearch安装 Kibana安装

安装Elasticsearch 一、拉取镜像或者上传 docker pull Elasticsearch 二、将上传的镜像导入(在仓库拉取的这一步跳过) docker load -i es.tar docker load -i 三、创建容器 1.Elasticsearch 注意修改到自己的网络(第八行) docker run -d \--nam…

创意无限,思维升级:2024年思维导图软件新趋势与精选推荐

如何高效地整理思绪、规划项目、乃至进行知识管理,成为了每个人都需要面对的重要课题。xmind思维导图这一强大的思维工具,可以辅助我们对只是进行梳理,这次我就展示一下这类思维导图工具有哪些。 1福晰思维导图 链接一下:https:…

HashMap 的实现原理

说一下 HashMap 的实现原理? JDK1.7 HashMap的主干是一个Entry数组。Entry是HashMap的基本组成单元,每一个Entry包含一个key-value键值对。(其实所谓Map其实就是保存了两个对象之间的映射关系的一种集合),其中Key 和…

pycharm 出现库已经安装了,但是无法导入的解决方法

打开File - Setttings , 找到 Project interpreter 找到system interpreter 安装

Golang | Leetcode Golang题解之第372题超级次方

题目: 题解: const mod 1337func pow(x, n int) int {res : 1for ; n > 0; n / 2 {if n&1 > 0 {res res * x % mod}x x * x % mod}return res }func superPow(a int, b []int) int {ans : 1for _, e : range b {ans pow(ans, 10) * pow(a…

【Python】家庭用电数据分析Prophet预测

数据集:Household Electricity Consumption | Kaggle 目录 数据集简介 探索性分析 Prophet预测 Prophet模型 Prophet理念 Prophet优点 数据集简介 240000-household-electricity-consumption-records数据集包含了一个家庭6个月的用电数据,收集于2…

vitepress打包异常 build error

今天给vitepress进行打包发布时出现了一个很奇怪的报错。 然后通过git版本回滚发现是正常发布的,说明环境是没有问题的 那么,就看看到改变了哪些文件。 环境版本 vitepress(^1.3.1) node(v18.19.0)猜测1 是文件的内容里面图片找不到导致的错误。猜测2 是…

Ps:首选项 - 历史记录

Ps菜单:编辑/首选项 Edit/Preferences 快捷键:Ctrl K Photoshop 首选项中的“历史记录” History选项卡允许用户更好地管理Photoshop中的编辑历史,确保在需要时能够回溯操作或提供详细的操作记录。 提示: 默认情况下,…

[数据集][目标检测]电力场景输电线防震锤检测数据集VOC+YOLO格式2721张2类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):2721 标注数量(xml文件个数):2721 标注数量(txt文件个数):2721 标注…

Go语言操作文件上传和下载应用教程

Go语言操作文件上传和下载应用教程 我们在使用Go的日常开发中,经常会遇到对文件的处理,例如:上传、下载、读写等(详情见Go 文件操作基本方法大全),且我们在实际应用中,基本都是使用框架自带的文…

数据结构(Java实现):链表习题

文章目录 1. 题目列表及链接2. 题目解析及代码2.1 删除链表中等于给定值 val 的所有节点2.2 反转一个单链表2.3 给定一个带有头结点 head 的非空单链表,返回链表的中间结点。如果有两个中间结点,则返回第二个中间结点2.4 输入一个链表,输出该…

Edge浏览器:Github加速插件,让你在国内自由自在的访问Github!

你是否有访问GitHub要么超级慢,要么无法访问的时刻,是不是感觉痛苦不已; 现在给大家分享我解决问题的方法。 点击浏览器右上角的三个点【…】按钮,然后选择【扩展】 选择【管理扩展】 点击【获取 Miscrosoft Edge扩展】 在搜索框…

解决方案:在jupyter notebook环境下安装不了numpy

文章目录 一、现象二、解决方案 一、现象 平台:autodl 镜像:PyTorch 2.0.0 Python 3.8(ubuntu20.04) Cuda 11.8 GPU:RTX 4090(24GB) * 1 CPU:12 vCPU Intel Xeon Platinum 8352V CPU 2.10GHz 内存:90GB 安装numpy环…

推荐两款好用的录屏软件

Ocam oCam 是一款功能强大的屏幕录制软件,主要用于录制电脑屏幕上的活动。它支持多种视频格式,包括 AVI、MP4、FLV、MOV、TS 和 VOB,同时也支持多种音频格式,如 MP3。oCam 可以录制视频并保存为各种视频格式,还可以编辑…

绘剪批量软件——绘剪批量软件

批量软件是一种可以批量处理大量数据或操作的软件。它通常通过自动化的方式,快速高效地完成任务,减少人工操作的时间和工作量。批量软件可以用于数据处理、文件转换、批量重命名、批量下载等各种场景。 绘剪批量软件——绘剪TK批量软件 AIWYZ77 批量软…

前端JS——补充内容

这期是番外篇,主要是补充一下,之前没有说完整的内容。 后面两期太仓促了,一些值得注意的细节没有提到 之前的内容可以点击: JS总结上 JS总结中 JS总结下——DOM操作 JS总结下——事件操作 前面的两篇总结没什么好补充的&…

[Algorithm][综合训练][mari和shiny][重排字符串]详细讲解

目录 1.mari和shiny1.题目链接2.算法原理详解 && 代码实现 2.重排字符串1.题目链接2.算法原理详解 && 代码实现 1.mari和shiny 1.题目链接 mari和shiny 2.算法原理详解 && 代码实现 自己的版本:三层循环暴力枚举 --> 超时 --> 40% …

[项目]-通讯录的实现

前言 各位师傅大家好,我是qmx_07,今天来结合前面所学知识点,写一个能够增删改查,持久化数据的通讯录功能 准备工作 项目 一般会写成多个文件来实现,调用,接口声明,接口实现,这是一…