人工智能算法工程师(中级)课程6-sklearn机器学习之聚类问题与代码详解

news2024/9/21 11:12:24

大家好,我是微学AI,今天给大家介绍一下人工智能算法工程师(中级)课程6-sklearn机器学习之聚类问题与代码详解。在机器学习领域,聚类是一种无监督学习方法,旨在将相似的数据点划分为同一类别。sklearn是一个广泛应用于机器学习的Python库,提供了多种聚类算法。本文将详细介绍K-Means、DBSCAN和层次聚类这三种算法的数学原理、公式及实现代码。

文章目录

  • sklearn机器学习之聚类问题与代码详解
    • 1.K-Means算法
      • K-Means的数学原理
      • K-Means的公式
      • K-Means算法代码实现
    • 2.DBSCAN算法
      • DBSCAN算法数学原理
      • DBSCAN算法公式
      • DBSCAN算法代码实现
    • 3.层次聚类
      • 层次聚类数学原理
      • 层次聚类公式
      • 层次聚类代码实现
    • 总结

在这里插入图片描述

sklearn机器学习之聚类问题与代码详解

1.K-Means算法

K-Means的数学原理

K-Means算法是一种基于距离的聚类方法。其目标是将数据集划分为K个簇,使得每个数据点与其所属簇的中心点距离最小。
K-Means算法过程如下:
-初始化:随机选择K个数据点作为初始聚类中心。
-分配步骤:对于数据集中的每一个数据点,计算它与每个聚类中心的距离,并将其分配到最近的聚类中心所代表的簇中。
-更新步骤:重新计算每个簇的中心点。新的聚类中心是该簇所有数据点的均值,即取簇内所有点的坐标的平均值。
-迭代:重复步骤2和步骤3,直到满足停止条件。停止条件可以是聚类中心的变化小于某个阈值、达到预设的迭代次数或者数据点的簇分配不再改变。
-结束:当聚类中心的变化小于预设的阈值或达到最大迭代次数时,算法停止迭代,此时的聚类中心即为最终结果。

K-Means的公式

设数据集为X,聚类中心为C,则K-Means算法的目标函数为:
J = ∑ i = 1 K ∑ x ∈ S i ∣ ∣ x − c i ∣ ∣ 2 J = \sum_{i=1}^{K} \sum_{x \in S_i} ||x - c_i||^2 J=i=1KxSi∣∣xci2
其中, S i S_i Si表示第i个簇, c i c_i ci表示第i个簇的中心点。

K-Means算法代码实现

from sklearn.cluster import KMeans
import numpy as np
# 生成数据
X = np.random.rand(100, 2)
# 初始化KMeans
kmeans = KMeans(n_clusters=3)
# 拟合数据
kmeans.fit(X)
# 预测结果
labels = kmeans.predict(X)
# 输出聚类中心
print("聚类中心:", kmeans.cluster_centers_)

2.DBSCAN算法

DBSCAN算法数学原理

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法。它将具有足够高密度的区域划分为簇,并可以发现任意形状的簇。

DBSCAN算法公式

DBSCAN算法涉及以下两个参数:

  • ε(邻域半径):判断一个点是否为核心点的邻域半径
  • MinPts(最小样本数):判断一个核心点是否为边界点的最小样本数
    一个点p的密度可达点定义为:从p出发,通过密度相连的点可以到达的所有点。

DBSCAN算法的过程如下:
1.参数选择:首先,需要选择两个参数:

  • ε(epsilon):邻域半径,表示一个点的邻域大小。
  • MinPts:最小样本数,表示一个区域内至少需要多少个点才能被视为密度可达。
    2.核心点识别:对于数据集中的每个点,计算以该点为中心、半径为ε的邻域内的点的数量。如果这个数量大于或等于MinPts,则该点被称为核心点。
    3.密度直达:如果一个点p在另一个核心点q的ε邻域内,那么点p由点q密度直达。
    4.密度可达:如果一个点p由核心点q密度直达,核心点q由核心点r密度直达,以此类推,形成一条链,那么点p由点r密度可达,即使点p不在点r的ε邻域内。
    5.簇的形成:从数据集中任意选择一个未访问过的核心点开始,找出所有从这个点密度可达的核心点,这些点组成一个簇。重复这个过程,直到所有核心点都被访问过。
    6.噪声点的识别:所有不是核心点且不与任何核心点密度可达的点被认为是噪声点。
    在这里插入图片描述

DBSCAN算法代码实现

from sklearn.cluster import DBSCAN
import numpy as np
# 生成数据
X = np.random.rand(100, 2)
# 初始化DBSCAN
dbscan = DBSCAN(eps=0.3, min_samples=5)
# 拟合数据
dbscan.fit(X)
# 预测结果
labels = dbscan.labels_
# 输出聚类结果
print("聚类结果:", labels)

3.层次聚类

层次聚类数学原理

层次聚类(Hierarchical Clustering)是一种逐步合并或分裂的聚类方法。它分为自底向上(凝聚)和自顶向下(分裂)两种策略。

层次聚类公式

层次聚类的相似度计算方法有多种,如最小距离、最大距离和平均距离等。以下是最小距离的计算公式:
d m i n ( C i , C j ) = min ⁡ x ∈ C i , y ∈ C j ∣ ∣ x − y ∣ ∣ d_{min}(C_i, C_j) = \min_{x \in C_i, y \in C_j} ||x - y|| dmin(Ci,Cj)=xCi,yCjmin∣∣xy∣∣
在这里插入图片描述

层次聚类代码实现

from sklearn.cluster import AgglomerativeClustering
import numpy as np
# 生成数据
X = np.random.rand(100, 2)
# 初始化层次聚类
agg_clustering = AgglomerativeClustering(n_clusters=3, linkage='ward')
# 拟合数据
agg_clustering.fit(X)
# 预测结果
labels = agg_clustering.labels_
# 输出聚类结果
print("聚类结果:", labels)

总结

本篇文章详细介绍了sklearn中三种常见的聚类算法:K-Means、DBSCAN和层次聚类。通过数学原理、公式及代码实现,帮助读者更好地理解和应用这些算法。在实际应用中,根据数据特点选择合适的聚类算法至关重要。希望本文对您有所帮助!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1916369.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

初识C++语言(1)

目录 C语言简介 C 语言概述 C 语言的特点 语言简洁紧凑,使用灵活方便 运算符丰富 数据结构丰富 结构化语言 生成的代码质量高 可移植性强 C程序结构 C语言系统的使用 一.启动Dev-C 二、新建源程序 三…

【观察】甲骨文:用“SQL”实现AI的“融会贯通”,打通应用落地的“最后一公里”...

从2022年的ChatGPT,到2024年的Sora,生成式AI和大模型技术正以不可思议的发展速度颠覆着我们的认知。刚刚过去的一年,国内的“百模大战”更让大模型站上了市场“风口”,通过更为泛化的能力,赋予了千行万业数智化无限的想…

ChatGPT提问获取高质量答案的艺术PDF下载书籍推荐分享

ChatGPT高质量prompt技巧分享pdf, ChatGPT提问获取高质量答案的艺术pdf。本书是一本全面的指南,介绍了各种 Prompt 技术的理解和利用,用于从 ChatGPTmiki sharing中生成高质量的答案。我们将探讨如何使用不同的 Prompt 工程技术来实现不同的目…

aws sap认证考试如何轻松通过

如何高效备考AWS SAP (Solutions Architect Professional) 认证? AWS SAP认证是AWS认证体系中难度最高的认证之一,要通过这个考试确实需要下一番功夫。但通过合理规划和有效准备,你可以提高通过的几率。以下是一些建议: 评估起点 首先诚实地评估自己的AWS知识水平和实践经验。…

聚鼎科技:装饰画未来前景好不好

在这个快速变化的时代,装饰画作为家居装饰和艺术表达的一种形式,其未来前景备受各界关注。随着人们审美的多元化和居住环境的个性化需求增长,装饰画逐渐从传统领域延伸到更加广阔的生活空间。 装饰画的市场潜力不容小觑。现代社会对美的追求日…

重塑肌肤DNA!华贝甄选解锁生命活力密码

在探索生命奥秘与健康的征途中,华贝甄选携手前沿干细胞科技,为您开启一场前所未有的健康革命。我们深知,生命的活力源自细胞的不懈更新与修复,而干细胞,正是这场生命奇迹的钥匙。 【重塑内分泌平衡,焕发自…

spring boot的学习--Springboot的Web开发(3)

1. 简介 1.1 创建springboot应用,选中我们需要的模块 1.2 springBoot已经默认将这些场景配置好了,只需要在配置文件中指定少量配置就可以运行起来 1.3 自己编写业务代码 顺便回顾下上一篇的自动装配 这个场景SpringBoot帮我们配置了什么?能不能修改?能修…

vue 搭建 pinia

文章目录 环境设置存储读取数据【 storeToRefs】借助storeToRefs将store中的数据转为ref对象,方便在模板中使用【getters】当state中的数据,需要经过处理后再使用时,可以使用getters配置【$subscribe】通过 store 的 $subscribe() 方法侦听 s…

韦尔股份:深蹲起跳?

利润大增7倍,是反转信号还是回光返照? 今天我们聊聊光学半导体龙头——韦尔股份。 上周末,韦尔股份发布半年业绩预告,预计上半年净利润13至14亿,同比增幅高达 754%至 819%。 然而,回首 2023 年它的净利仅 …

代码随想录算法训练营第二十九天

452. 用最少数量的箭引爆气球 这道题目我原本的想法是只要当前的气球半径范围在已有的箭头能够击穿的气球半径内就可以实现 但是 箭射出去的地方是一个值 而不是一个范围 因此有相同的重叠范围的许多气球并一定都有相同的值,因此这种方法不可取 这题的主要局部最…

『Django』自带的后台

theme: smartblue 本文简介 点赞 关注 收藏 学会了 上一篇讲了 Django 操作 MySQL 的方法,讲了如何创建模型,如何对数据库做增删改查的操作。但每次修改数据都要写代码,多少有点麻烦。 有没有简单一点的方法呢? 有的有的&#…

kotlin Flow 学习指南 (三)最终篇

目录 前言Flow生命周期StateFlow 替代LiveDataSharedFlow其他常见应用场景处理复杂、耗时逻辑存在依赖关系的接口请求组合多个接口的数据 Flow使用注意事项总结 前言 前面两篇文章,介绍了Flow是什么,如何使用,以及相关的操作符进阶&#xff…

leetcode 1421 净现值查询(postgresql)

需求 表: NPV ---------------------- | Column Name | Type | ---------------------- | id | int | | year | int | | npv | int | ---------------------- (id, year) 是该表主键. 该表有每一笔存货的年份, id 和对应净现值的信息. 表: Queries ---------------------- …

Nginx -Web服务器/反向代理/负载均衡

文章目录 一、web服务1.1 nginx安装1.2 配置文件1.3 Nginx处理Web机制 二、反向代理三、负载均衡3.1 分类3.2 负载相关配置文件3.3 keepalive 提高吞吐量3.4 配置浏览器缓存 附、JMeter性能测试工具 以赛促学内容,大概率感觉会使用nginx做web服务,特对nginx做总结归纳. Nginx是…

AI in Finance 金融领域AI应用-基于DeepNLP AI App Store 真实用户评论打分和排名

AI在金融领域应用 AI in Finance 金融服务领域的AI应用和传统的金融智能应用不同。传统金融智能应用包括如风险评估 (Risk assessment), 风险管理(Risk management), 欺诈检测 (Fraud Detection)等等。 通用AI大模型和人工智能应用如ChatGPT&#xff0c…

PyTorch复现PointNet——模型训练+可视化测试显示

因为项目涉及到3D点云项目,故学习下PointNet这个用来处理点云的神经网络 论文的话,大致都看了下,网络结构有了一定的了解,本博文主要为了下载调试PointNet网络源码,训练和测试调通而已。 我是在Anaconda下创建一个新的…

香蕉派BPI-Wifi6迷你路由器公开发售

Banana Pi BPI-Wifi6 Mini 公开发售。 Banana Pi BPI-Wifi6 Mini 开源路由器采用Triductor TR6560 TR5220 wifi SOC设计,是一款迷你尺寸的wifi6路由器解决方案。内置高性能双核ARM Cortec A9处理器用于WIFI报文转发或智能业务处理,内置高性能LSW和硬件N…

最新浪子授权系统网站源码 全开源免授权版本

最新浪子授权系统网站源码 全开源免授权版本 此版本没有任何授权我已经去除授权,随意二开无任何加密。 更新日志 1.修复不能下载 2.修复不能更新 3.修复不能删除用户 4.修复不能删除授权 5.增加代理后台管理 6.重写授权读取文件 7.修复已经知道漏洞 源码下…

pytorch-RNN实战-正弦曲线预测

目录 1. 正弦数据生成2. 构建网络3. 训练4. 预测5. 完整代码6. 结果展示 1. 正弦数据生成 曲线如下图: 代码如下图: 50个点构成一个正弦曲线随机生成一个0~3之间的一个值(随机的原因是防止每次都从相同的点开始,50个点的正弦曲…

云手机批量操作使用场景,从Amazon、TK等软件分析

云手机目前所具备的群控,批量操作,自动化等功能,对于电商,软测,办公,直播,营销等行业有很好的减负作用。 针对于具体的海外APP,云手机具体可以做哪些事情来帮助我们减轻压力&#x…