sheng的学习笔记-AI-K均值算法

news2024/12/28 21:04:45

ai目录:sheng的学习笔记-AI目录-CSDN博客 

需要学习前置知识:聚类,可参考  sheng的学习笔记-聚类(Clustering)-CSDN博客

目录

什么是k均值算法

流程

伪代码

数据集

伪代码 

代码解释

划分示意图

优化目标 

随机初始化

选择聚类数


什么是k均值算法

K-均值(K-Means Algorithm)是最普及的聚类算法,算法接受一个未标记的数据集,然后将数据聚类成不同的组。

流程

K-均值是一个迭代算法,假设我们想要将数据聚类成n个组,其方法为:

  1. 首先选择个随机的点,称为聚类中心cluster centroids);
  2. 对于数据集中的每一个数据,按照距离个中心点的距离,将其与距离最近的中心点关联起来,与同一个中心点关联的所有点聚成一类。
  3. 计算每一个组的平均值,将该组所关联的中心点移动到平均值的位置。
  4. 重复步骤。

示例图如下 

迭代 1 次

迭代 3 次

迭代 10 次

伪代码

样本9~21的类别是“好瓜=否”,其他样本的类别是“好瓜=是”。由于本节使用无标记样本,因此类别标记信息未在表中给出。为避免运行时间过长,通常设置一个最大运行轮数或最小调整幅度阈值,若达到最大轮数或调整幅度小于阈值,则停止运行。下面以表9.1的西瓜数据集4.0为例来演示k均值算法的学习过程。为方便叙述,我们将编号为i的样本为xi,这是一个包含“密度”与“含糖率”两个属性值的二维向量

数据集

伪代码 

代码解释

算法分为两个步骤,第一个for循环是赋值步骤,即:对于每一个样例,计算其应该属于的类。第二个for循环是聚类中心的移动,即:对于每一个类,重新计算该类的质心

1)假定聚类簇数k=3,算法开始时随机选取三个样本x6,x12,x24作为初始均值向量,即:

μ1=(0.403;0.237),μ2=(0.343;0.099),μ3=(0.478;0.437)。

2)考察样本x1=(0.697;0.460),它与当前均值向量μ1,μ2,μ3的距离分别为0.369,0.506,0.220,因此x1将被划入簇C3中。类似的,对数据集中的所有样本考察一遍后,可得当前簇划分为

C1={x3,x5,x6,x7,x8,x9,x10,x13,x14,x17,x18,x19,x20,x23};

C2={x11,x12,x16);

C3={x1,x2,x4,x15,x21,x22,x24,x25,x26,x27,x28,x29,x30};

3)于是,可从C1,C2,C3分别求出新的均值向量

4) 更新当前均值向量后,不断重复上述过程,如图9.3所示,第五轮迭代产生的结果与第四轮迭代相同,于是算法停止,得到最终的簇划分

划分示意图

优化目标 

随机初始化

选择聚类数

没有所谓最好的选择聚类数的方法,通常是需要根据不同的问题,人工进行选择的。选择的时候思考我们运用K-均值算法聚类的动机是什么,然后选择能最好服务于该目的标聚类数。

当人们在讨论,选择聚类数目的方法时,有一个可能会谈及的方法叫作“肘部法则”。关于“肘部法则”,我们所需要做的是改变K值,也就是聚类类别数目的总数。我们用一个聚类来运行K均值聚类方法。这就意味着,所有的数据都会分到一个聚类里,然后计算成本函数或者计算畸变函数J。K代表聚类数字

我们可能会得到一条类似于这样的曲线。像一个人的肘部。这就是“肘部法则”所做的,让我们来看这样一个图,看起来就好像有一个很清楚的肘在那儿。好像人的手臂,如果你伸出你的胳膊,那么这就是你的肩关节、肘关节、手。这就是“肘部法则”。你会发现这种模式,它的畸变值会迅速下降,从1到2,从2到3之后,你会在3的时候达到一个肘点。在此之后,畸变值就下降的非常慢,看起来就像使用3个聚类来进行聚类是正确的,这是因为那个点是曲线的肘点,畸变值下降得很快,K=3之后就下降得很慢,那么我们就选K=3。当你应用“肘部法则”的时候,如果你得到了一个像上面这样的图,那么这将是一种用来选择聚类个数的合理方法。

例如,我们的 T-恤制造例子中,我们要将用户按照身材聚类,我们可以分成3个尺寸:S,M,L,也可以分成5个尺寸XS,S,M,L,XL,这样的选择是建立在回答“聚类后我们制造的T-恤是否能较好地适合我们的客户”这个问题的基础上作出的。

参考文章:

吴恩达机器学习

书:机器学习   周志华

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1871117.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

快来看,错过了今天就要设置为vip文章了----openEuler:智能算力时代的数字基础设施底座

会议主题:openEuler2024全球发展展望与战略规划 OpenEuler2024项目在2024年成功推出了多个长期支持(LTS)版本,标志着其在智能技术领域的全新篇章,并致力于构建全球性的开源新生态。以下是该项目的主要内容和成就概览&a…

ARM裸机:地址映射

S5PV210的地址映射详解 什么是地址映射? S5PV210属于ARM Cortex-A8架构,32位CPU,CPU设计时就有32根地址线&32根数据线。 32根地址线决定了CPU的地址空间为4G,那么这4G空间如何分配使用?这个问题就是内存映射问题。…

运算放大器输入、输出、单电源和轨到轨问题

单电源运算放大器问题 由于市场需求,单电源供电已成为一项日益重要的要求。汽车、机顶盒、照相机/摄像机、PC和笔记本电脑应用要求IC供应商提供各种采用单电源轨供电,而性能则与双电源器件相同的线性器件。功耗现已成为线路或电池供电系统的关键参数&am…

meizu M10 魅蓝 10 mblu10 root 解锁 安装LSPosed框架 紫光展锐改串 AT命令 一键新机 改机软件 硬改 改参数

meizu M10 魅蓝 10 mblu10 root 解锁 安装LSPosed框架 紫光展锐改串 AT命令 一键新机 改机软件 硬改 改参数 ro.system.build.version.release11 ro.system.build.version.release_or_codename11 ro.system.build.version.sdk30 ro.system.custom.versionAndroid_M01 ro.prod…

rk3568 OpenHarmony 串口uart与电脑通讯开发案例

一、需求描述: rk3568开发板运行OpenHarmony4.0,通过开发板上的uart串口与电脑进行通讯,相互收发字符串。 二、案例展示 1、开发环境: (1)rk3568开发板 (2)系统:OpenHar…

桃园三结义 | 第1集 | 三人一条心,黄土变成金,有你带着俺,大事定能成功啊!| 正所谓择木之禽,得其良木,择主之臣,得遇明主 | 三国演义 | 群雄逐鹿

🙋大家好!我是毛毛张! 🌈个人首页: 神马都会亿点点的毛毛张 📌这篇博客是毛毛张结合三国演义原著分享三国演义文学剧本中的经典台词和语句,本篇分享的是《三国演义》第Ⅰ部分《群雄逐鹿》的第1️⃣集《桃…

薄冰英语语法学习--名词2-格

名词后面 s,代表后面这个东西属于前面的。 比如toms book,汤姆的书。 末尾是s,那么直接在最后加就行了。比如boys,男孩们的 表示几个词共同 的所有关系在最后一个词的词尾加 sMary and Toms books 玛丽和汤姆共有的书表示几个词…

风水研究会官网源码系统-可展示自己的领域内容-商品售卖等

一款用于展示风水行业,周易测算行业,玄学行业的系统,并支持售卖自己的商品。 整洁大气,非常漂亮,前端内容均可通过后台修改。 大致功能: 支持前端内容通过后端自定义支持开启关闭会员功能,会…

基于PHP的初中数学题库管理系统

有需要请加文章底部Q哦 可远程调试 基于PHP的初中数学题库管理系统 一 介绍 此初中数学题库管理系统基于原生PHP开发,数据库mysql,系统角色分为学生,教师和管理员。(附带参考设计文档) 技术栈:phpmysqlphpstudyvscode 二 功能 …

电子电器及家电制造行业MES系统解决方案介绍

电子电器及家电制造行业是一个技术高度密集、生产工艺复杂且市场需求变化迅速的行业。为了提升生产效率、保证产品质量并快速响应市场变化,越来越多的电子电器及家电制造企业引入了MES系统。本文将详细介绍MES系统在电子电器及家电制造行业的应用方法及其价值。 一…

C++11 右值引用和移动语义,完美转发和万能引用,移动构造和移动赋值,可变参数模板,lambda表达式,包装器

文章目录 C11简介统一的列表初始化{}初始化std::initializer_list声明autodecltypenullptr 范围for循环 智能指针STL中一些变化右值引用和移动语义左值引用和右值引用左值引用与右值引用比较 右值引用使用场景和意义右值引用引用左值及其一些更深入的使用…

大数据------JavaWeb------Maven(完整知识点汇总)

额外知识点 IDE IDE是集成开发环境的缩写,它是一种软件应用程序,提供了编码、调试和部署软件的一站式解决方案。这些功能集成在一起,使开发人员能够在一个环境中完成整个软件开发过程,从编写代码到调试和测试,直到最终…

机械装备制造行业MES,实时监控生产流程

装备制造行业MES,是专门为装备制造行业设计的生产信息化管理系统。旨在实时监控装备制造生产流程,实现全流程的精细化管理和监控,提高生产效率、降低生产成本、提升产品质量。 本文将详细介绍装备制造行业MES的概念、技术及应用,…

七天速通javaSE:第四天 数组基础

文章目录 前言一、认识数组二、数组的声明和创建1. 声明数组变量2. 创建数组3. 变量的初始化(赋值)3.1 静态初始化3.2 动态初始化 3. 示例 三、数组的使用1. 循环1.1 普通for循环1.2 For-Each 循环 2. 数组作为函数的参数和返回值 前言 本文将为大家介绍…

【HarmonyOS4学习笔记】《HarmonyOS4+NEXT星河版入门到企业级实战教程》课程学习笔记(十九)

课程地址: 黑马程序员HarmonyOS4NEXT星河版入门到企业级实战教程,一套精通鸿蒙应用开发 (本篇笔记对应课程第 29 节) P29《28.网络连接-第三方库axios》 要想使用第三方库axios,需要先安装ohpm,因为 axios…

Redis优化之持久化

目录 1.Redis高可用 2.Redis持久化 2.1 RDB持久化 2.1.1 触发条件 2.1.2 执行流程 2.1.3 启动时加载 2.2 AOF持久化 2.2.1 开启AOF 2.2.2 执行流程 2.2.3 文件重写触发方式 2.2.4 文件重写的流程 2.2.5 启动时加载 2.3 RDB和AOF的优缺点 3.Redis性能管理 3.1 查看…

LEED绿色建筑认证的优缺点是什么

LEED绿色建筑认证的优缺点: 优点: 环保可持续性:LEED认证强调建筑的节能、节水以及材料循环利用等环保策略,有助于减少资源消耗和降低对环境的负面影响,推动建筑行业向更加环保的方向转变。 降低运营成本&#xff1a…

『Z-Workshop』 6月22日线下ALCOVE分享活动

2024 求是创新 ZJUBCA Sponsored by the ALCOVE Community TIME:2024/06/22 ADD:浙江大学紫金港校区 --- Alcove 是 Aptos 公链与 Alibaba Cloud 共同打造的亚洲首个 Move 开发者社区,致力于支持开发者使用 Move 语言构建下一代 Web3 应用&am…

华为笔记本电脑d盘数据丢失:原因、恢复方案与防范建议

华为笔记本电脑以其高性能和稳定的品质赢得了众多用户的青睐,但即使是如此优质的设备,也难免遭遇数据丢失的困境。本文将围绕华为笔记本电脑D盘数据丢失这一问题,探讨其常见原因、恢复方案,并提出未来防范的建议,以帮助…

用户订单管理API:轻松管理,购物无忧

在当今数字化时代,电子商务已经成为人们购物的首选方式。与传统的实体店相比,电商的优势在于便捷、快速、多样化等特点,使得更多的消费者选择了通过网络购物。而作为电商平台,如何提供更好的购物体验,是每个平台都需要…