机器学习-聚类问题

机器学习-聚类问题

news2026/2/15 3:48:51

前言

聚类算法又叫做”无监督分类“，目标是通过对无标记训练样本来揭示数据的内在性质及规律，为进一步的数据分析提供基础。

Kmeans

作为聚类算法的典型代表，Kmeans可以说是最简单的聚类算法，没有之一，那她是怎么完成聚类的呢?

算法接受参数k
给定样本集 $D=\{x_1,x_2,...,x_n\}$
随机选点k个中心(质心)
遍历样本集,先取距离最近的质心,从而根据质心分解样本集D簇划分 $C=\{C_1,C_2,...,C_k\}$
最小化平方误差
利用簇中均值等方法更新该簇类的中心k个；
重覆4-6的步骤,直至E不再更新

Kmeans中用的是欧式距离

kmeans的计算过程

现在有4组数据，每组数据有2个维度，对其进行聚类分为2类，将其可视化一下。
通过比较，将其进行归类。并使用平均法更新中心位置。
再次计算每个点与更新后的位置中心的距离,直到上一次的类别标记无变化，即可停止

import matplotlib.pyplot as plt
from sklearn.cluster import  KMeans
from sklearn.datasets import make_blobs

## 创建数据集
X, _ = make_blobs(n_samples=10000, centers=2, random_state=0)

## kmeans超参数值列表
n_clusters_list = [4, 8, 16]

# 图的框架
fig, axs = plt.subplots(
    1, len(n_clusters_list), figsize=(12, 5)
)
axs = axs.T
for j, n_clusters in enumerate(n_clusters_list):
    ## 创建模型
    algo = KMeans(n_clusters=n_clusters, random_state=random_state, n_init=3)
    algo.fit(X)
    centers = algo.cluster_centers_
    axs[j].scatter(X[:, 0], X[:, 1], s=10, c=algo.labels_)
    ## 画质心
    axs[j].scatter(centers[:, 0], centers[:, 1], c="r", s=20)
    axs[j].set_title(f"{n_clusters} clusters")
for ax in axs.flat:
    ax.label_outer()
    ax.set_xticks([])
    ax.set_yticks([])
plt.show()

聚类算法用于降维

K-Means聚类最重要的应用之一是非结构数据（图像，声音）上的矢量量化（VQ）。非结构化数据往往占用比较多的储存空间，文件本身也会比较大，运算非常缓慢，我们希望能够在保证数据质量的前提下，尽量地缩小非结构化数据的大小，或者简化非结构化数据的结构。

一组40个样本的数据，分别含有40组不同的信息(x1,x2)。
将代表所有样本点聚成4类，找出四个质心.这些点和他们所属的质心非常相似，因此他们所承载的信息就约等于他们所在的簇的质心所承载的信息。
使用每个样本所在的簇的质心来覆盖原有的样本，有点类似四舍五入的感觉，类似于用1来代替0.9和0.8。

这样，40个样本带有的40种取值，就被我们压缩了4组取值，虽然样本量还是40个，但是这40个样本所带的取值其实只有4个，就是分出来的四个簇的质心。查看官方用例

主要参考

《机器学习理论（十三）Kmeans聚类》

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1302333.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

力扣111. 二叉树的最小深度

力扣111. 二叉树的最小深度

给定一个二叉树，找出其最小深度。最小深度是从根节点到最近叶子节点的最短路径上的节点数量。说明：叶子节点是指没有子节点的节点。示例 1： 输入：root [3,9,20,null,null,15,7] 输出：2 示例 2： 输入…

阅读更多...

Win7告诉你如何扩大c盘空间

Win7告诉你如何扩大c盘空间

Win7告诉你如何扩大c盘空间 C盘是指电脑硬盘主分区之一，一般用于储存或安装系统使用。很多文件都默认安装到c盘，导致c盘空间严重不足，那么如何扩大c盘空间呢？接下来，小编就教你扩大c盘空间的具体步骤怎么给C盘扩容呢&…

阅读更多...

关于加密解密，加签验签那些事

关于加密解密，加签验签那些事

面对MD5、SHA、DES、AES、RSA等等这些名词你是否有很多问号？这些名词都是什么？还有什么公钥加密、私钥解密、私钥加签、公钥验签。这些都什么鬼？或许在你日常工作没有听说过这些名词，但是一旦你要设计一个对外访问的接口&#xff…

阅读更多...

LinuxBasicsForHackers笔记 --Python 脚本基础

LinuxBasicsForHackers笔记 --Python 脚本基础

添加Python模块 Python 有一个专门用于安装和管理 Python 包的包管理器，称为 pip（Pip Installs Packages）。由于我们在这里使用 Python 3，因此您将需要 Python 3 的 pip 来下载和安装软件包。默认情况下应包含 Pip，但…

阅读更多...

利用C语言模拟实现堆的基本操作和调堆算法

利用C语言模拟实现堆的基本操作和调堆算法

利用C语言模拟实现堆的基本操作和调堆算法文章目录利用C语言模拟实现堆的基本操作和调堆算法前言一、堆的基本原理大根堆和小根堆的比较二、实现堆的基本操作1）结构定义2）初始化堆（HeapInit）3）销毁堆（He…

阅读更多...

智能抠图软件有哪些？不妨试试这四款AI抠图工具

智能抠图软件有哪些？不妨试试这四款AI抠图工具

你知道的智能抠图软件有哪些？随着 AI 技术的迅速发展，许多图像处理任务都可以交由 AI 自动完成，例如修图、抠图、高清修复等。AI 图像工具不仅将我们从单调重复的工作中解放出来，而且其处理图像的效果和效率也往往优于人工。最近&…

阅读更多...

docker的资源控制：

docker的资源控制：

docker的资源控制： 对容器的使用宿主机的资源进行限制 cpu 内存磁盘i/0 docker使用linux自带的功能cgroup control grouos是linux内核系统提供的一种可以限制，记录，隔离进程所使用的物理资源 control grouos是linux内核系统提供的一种可…

阅读更多...

nginx中的正则表达式及location和rewrite

nginx中的正则表达式及location和rewrite

目录常用的Nginx 正则表达式 location和rewrite的区别 location location 大致可以分为三类 location 常用的匹配规则 location 优先级 location 示例说明 location优先级的总结 rewrite rewrite的功能 rewrite实现跳转的条件 rewrite的执行顺序 rewrite的语法格式…

阅读更多...

mysql：查询当前登录的用户

mysql：查询当前登录的用户

可以使用USER()函数查询当前登录的用户，例如：

阅读更多...

Axure-＞Axure安装，Axure菜单栏和工具栏功能介绍，页面及概要区

Axure-＞Axure安装，Axure菜单栏和工具栏功能介绍，页面及概要区

Axure安装Axure菜单栏和工具栏功能介绍，页面及概要区 1.Axure安装即时设计 - 可实时协作的专业 UI 设计工具 (js.design) 点击上方下载安装⬆ 打开软件点击帮助->管理授权-> 被授权人 Axure 授权密钥:gjqpIxSSUUqFwPoZPi8XwBBhRE2VNmOQsrord0JqShk4QCXxrw6…

阅读更多...

Java智慧校园-中小学校园管理系统源码

Java智慧校园-中小学校园管理系统源码

智慧校园系统是通过信息化手段，实现对校园内各类资源的有效集成整合和优化，实现资源的有效配置和充分利用，将校务管理过程的优化协调。为校园提供数字化教学、数字化学习、数字化科研和数字化管理。致力于为家长和教师提供一个全方位、多层…

阅读更多...

天池SQL训练营(四)-集合运算-表的加减法和join等

天池SQL训练营(四)-集合运算-表的加减法和join等

-天池龙珠计划SQL训练营 4.1表的加减法 4.1.1 什么是集合运算集合在数学领域表示“各种各样的事物的总和”, 在数据库领域表示记录的集合. 具体来说,表、视图和查询的执行结果都是记录的集合, 其中的元素为表或者查询结果中的每一行。在标准 SQL 中, 分别对检索结果使用 U…

阅读更多...

2023年度盘点：智能汽车、自动驾驶、车联网必读书单

2023年度盘点：智能汽车、自动驾驶、车联网必读书单

【文末送书】今天推荐几本自动驾驶领域优质书籍前言 2023年，智能驾驶和新能源汽车行业仍然有着肉眼可见的新进展。自动驾驶技术继续尝试从辅助驾驶向自动驾驶的过渡，更重要的是相关技术成本的下降。根据《全球电动汽车展望2023》等行业报告&#xff0c…

阅读更多...

centos7进程管理

centos7进程管理

什么是进程进程是已启动的可执行程序的运行实例，是程序运行的过程，动态的，有生命周期及运行状态。程序： 二进制文件，静态静态查看进程查看进程（一） [rootzaotounan ~]# ps aux ps :pro…

阅读更多...

upload-labs

upload-labs

01 随便上传个文件发现对于上传类型有限制查看页面代码发现是js的过滤直接关闭js 上传成功右键图片在新建标签页打开文件这里直接抓包改名字也行 02 抓包修改后缀名 03 发现后端做了检测抓包修改失败大小写绕过失败，php特性php1等会被当成php执行这里图片的…

阅读更多...

RE2文本匹配调优实战

RE2文本匹配调优实战

引言在RE2文本匹配实战的最后，博主说过会结合词向量以及其他技巧来对效果进行调优，本篇文章对整个过程进行详细记录。其他文本匹配系列实战后续也会进行类似的调优，方法是一样的，不再赘述。本文所用到的词向量可以在Gensim训练…

阅读更多...

如何用CHAT写方案？

如何用CHAT写方案？

问CHAT：帮我写一份航空无动力乐园的可执行方案 CHAT回复： 方案一：概念及地点筛选航空无动力乐园是指以航空运动为主题，利用自然地形与风力进行滑翔、跳伞等无动力航空运动的户外休闲娱乐乐园。鉴于此，首需要确定乐园…

阅读更多...

裸机单片机适用的软件架构

裸机单片机适用的软件架构

单片机通常分为三种工作模式，分别是 1、前后台顺序执行法 2、操作系统 3、时间片轮询法 1、前后台顺序执行法利用单片机的中断进行前后台切换，然后进行任务顺序执行，但其实在…

阅读更多...

windows错误事件 98、41、7000、55、153解决办法

windows错误事件 98、41、7000、55、153解决办法

事件错误：98、55、153 疑难解答清单在系统事件日志中，搜索新技术文件系统 (NTFS) 和磁盘相关的警告和错误。例如，事件 ID 55、153 或 98。管理员身份打开CMD，运行命令 chkdsk /scan 并检查结果。该 chkdsk /scan 命令是只读…

阅读更多...

SpringMVC项目出现404

SpringMVC项目出现404

目录问题讲解： 解决方案： 1、处理器映射器和处理器适配器以及视图解析器没有配置好 2、Controller的包扫描没有加或者包扫描的配置是错误的 3、当然也有说jar包没有 4、请求地址是错误的 5、还有一种解决办法说web.xml配置DispatcherServlet的时…

阅读更多...

推荐文章

最新文章