【Python机器学习】密度聚类DBSCAN、OPTICS的讲解及实战演示(附源码 超详细)

news2024/9/24 21:27:20

需要源码和数据集请点赞关注收藏后评论区留言私信~~~

划分聚类、密度聚类和模型聚类是比较有代表性的三种聚类思路

1:划分聚类

划分(Partitioning)聚类是基于距离的,它的基本思想是使簇内的点距离尽量近、簇间的点距离尽量远。k-means算法就属于划分聚类。划分聚类适合凸样本点集合的分簇。

2:密度聚类

密度(Density)聚类是基于所谓的密度进行分簇

密度聚类的思想是当邻域的密度达到指定阈值时,就将邻域内的样本点合并到本簇内,如果本簇内所有样本点的邻域密度都达不到指定阈值,则本簇划分完毕,进行下一个簇的划分。

 DBSCAN

DBSCAN算法将所有样本点分为核心点、边界点和噪声点,如灰色点、白色点和黑色点所示

核心点:在指定大小的邻域内有不少于指定数量的点。指定大小的邻域,一般用邻域半径eps来确定。指定数量用min_samples来表示。

边界点:处于核心点的邻域内的非核心点。

噪声点:邻域内没有核心点的点

DBSCAN算法需要预先指定eps和min_samples两个参数,即它们是超参数。

算法寻找一个簇的过程是先对样本点按顺序排查,如果能找到一个核心点,就从该核心点出发找出所有直接和间接与之相邻的核心点,以及这些核心点的所有边界点,这些核心点和边界点就形成一个簇

接着,从剩下的点中再找另一个簇,直到没有核心点为止。余下的点为噪声点。

效果展示如下 对数据集中三十个坐标应用DBSCAN算法

 

下面三幅图是eps和min_samples取不同值时候的分布情况 

 

代码如下

from sklearn.cluster import DBSCAN
import numpy as np
samples = np.loadtxt("kmeansSamples.txt")
clustering = DBSCAN(eps=5, min_samples=5).fit(samples)
clustering.labels_
>>>array([ 0,  0,  0,  0, -1,  0,  0,  0,  1,  1,  1,  1,  0,  0,  0,  0, -1,        1,  1,  0,  0,  1,  0,  0,  0,  0,  0,  1, -1,  0], dtype=int64)
import matplotlib.pyplot as plt
plt.scatter(samples[:,0],samples[:,1],c=clustering.labels_+1.5,linewidths=np.power(clustering.labels_+1.5, 2))
plt.show()

 DBSCAN算法善于发现任意形状的稠密分布数据集,但它的结果对邻域参数eps和min_samples敏感。不像k-means算法只需要调整一个参数,DBSCAN算法需要对两个参数进行联合调参,复杂度要高的多。

如果能确定聚类的具体评价指标,如簇数、噪声点数限制和SC、DBI、CH和ZQ等,则可以对参数eps和min_samples的合理取值依次运行DBSCAN算法,取最好的评价结果。如果数据量特别大,则可以将参数空间划分为若干网格,每个网格取一个代表值进行聚类。

OPTICS

OPTICS算法的基本思想是在DBSCAN算法的基础上,将每个点离最近的核心点密集区的可达距离都计算出来,然后根据预先指定的距离阈值把每个点分到与密集区对应的簇中,可达距离超过阈值的点是噪声点。点到核心点密集区的可达距离是它到该区内所有核心点的距离的最小值。

引入可达距离可以直观的看到样本点的聚集情况,OPTICS算法巧妙地解决了确定eps参数值的问题

输出结果如下

 

 

 代码如下

from sklearn.cluster import OPTICS, cluster_optics_dbscan
import matplotlib.pyplot as plt
import numpy as np
samples = np.loadtxt("kmeansSamples.txt")
clust = OPTICS(max_eps=np.inf,min_samples=5, cluster_method='dbscan',eps=4.5)
clust.fit(samples)
clust.ordering_
reachability = clust.reachability_[clust.ordering_]
reachability
labels = clust.labels_[clust.ordering_]
labels
plt.plot(list(range(1, 31)),reachability,marker='.',markeredgewidth=3,linestyle='-')
plt.show()
plt.scatter(samples[:,0],samples[:,1],c=clust.labels_+1.5,linewidths=np.power(clust.labels_+1.5, 2))
plt.show()

创作不易 觉得有帮助请点赞关注收藏~~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/98015.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

UOS SDN

​ 文章目录 一.安装相关软件包二.上传并解压opendaylight软件包三.创建拓扑四.下发流表五.启动HTTP-server服务六.截图测试启动 OpenDayLight 的 karaf 程序,并安装如下组件: feature:install odl-restconf feature:install odl-l2switch-switch-ui feature:install odl-…

关于torch.fx的使用

torch.fx 前言 最近在学习一些AI编译器,推理框架的知识,恰好看到了torch.fx这个部分。这个其实在1.10就已经出来了,但是一直不知道,所以花了一点时间学习了这部分的内容。 以下所有的代码基于Mac M1 pytorch 1.13,其…

JavaScript(六):数组

JavaScript数组数组的创建方式数组的索引(不使用内置方法)数组的遍历数组中新增元素(不使用内置方法)数组的检测数组的方法数组的创建方式 1.利用new创建数组 var 数组名 new Array(); 例如: var arr new Array();…

一句话生成角色动画 # text2motion

‍‍‍‍当你和他人谈论人工智能的潜力时,很多人都表露出同样的担心:害怕被取代‍特别在最近几个月,随着生成式人工智能的投资和创新的爆炸性增长,这些不安的感觉更加强烈。机器学习中相对较新的创新,即扩散模型&#…

干货 | 轮廓逼近原理与OpenCV应用(附Python-OpenCV文档下载)

导 读 本文主要介绍轮廓逼近的原理及其在OpenCV中的使用演示。同时可在文末获取Python-OpenCV学习文档pdf。 背景介绍 轮廓逼近的应用比较广泛,如下路线俯视图的简化: 通过迭代平滑一些顶点,从而产出更加线性的路线: 当然这只是轮廓逼近的其中一个应用,后续我们将…

nodejs企业工厂设备维修管理系统vue

目 录 摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章 相关技术 3 2.1 web简介 4 2.3 B/S结构 4 2.4 MySQL数据库 4 第3章 系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性:技术背景 5 …

【Linux权限】文件权限值,权限掩码,粘滞位,普通用户添加信任名单

目录 1.权限分为2种用户:超级用户,普通用户 2.文件类型和访问权限 ​3.权限掩码(八进制) 4.sudo短暂提升权限 5.粘滞位 1.权限分为2种用户:超级用户,普通用户 超级用户(通常为root&#x…

【前端开发学习】5.JQuery

文章目录1 JQuery2 快速上手3 寻找标签3.1 直接寻找3.2 间接寻找案例:菜单转换4 操作样式5 值的操作案例:动态创建数据库6 事件案例:表格操作7 前端整合案例1 JQuery 一个 JavaScript 的第三方模块(第三方类库)。 基…

再学C语言7:数据类型(3)——char类型

char类型用于存储字母和标点符号之类的字符 在技术实现上,char是整数类型,因为char类型实际存储的是整数而不是字符 为了处理字符,计算机使用一种数字编码,用特定的整数表示特定的字符 经典和常用的是ASCII码,标准A…

React学习29(react-redux最终完整版)

说明 1)所有变量名字要规范,尽量触发对象的简写形式 2)reducers文件夹中,编写index.js专门用于汇总并暴露所有的reducer 项目结构 代码示例 index.js import React from react import ReactDOM from react-dom import App fr…

ios 证书与签名

证书与签名 XCode中配置的Code Signing Identity(entitlements、certificate)必须与Provisioning Profile匹配,并且配置的Certificate必须在本机Keychain Access中存在对应Public/Private Key Pair,否则编译会报错。 X…

Improved Techniques for Training Score-Based Generative Models论文阅读

论文链接:Improved Techniques for Training Score-Based Generative Models 文章目录摘要引言背景郎之万动力学基于分数的生成模型选择噪声尺度初始的噪声尺度其它噪声等级结合噪音信息配置退火朗之万动力学EMA改善稳定性组合所有技巧定量结果消融研究更高分辨率结…

[附源码]计算机毕业设计PythonQ宝商城(程序+源码+LW文档)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程 项目运行 环境配置: Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术: django python Vue 等等组成,B/S模式 pychram管理等…

同样是1亿数据,为什么nutsdb扛不住,而badgerdb可以?

背景 ​ 之前在知乎上看到一个问题:作为一个KV数据库,levelDB为什么使用LSM树实现,而不是hash索引?当时就想作答一番。不过看到问题下方已经有大佬作答了,而我也说不出什么新东西来。于是选择作罢。 ​ 但是最近有nut…

磁共振功能成像BOLD-fMRI原理

小川诚二(Seiji Ogawa)教授于1990年首次在大鼠上实现了功能磁共振成像 fMRI的对比度产生机制 fMRI的信号来源仍然为氢质子,MRI解剖图像对解剖结构的差别非常敏感,fMRI功能图像对神经元活动所伴随的生理变化敏感fMRI的生理学基础 脑的血液动力学&#x…

【Ubuntu】将Qt程序打包制作成deb

1、打包Qt程序 1.1 下载linuxdeployqt 如果使用环境是x86可以直接下载,下载地址 https://github.com/probonopd/linuxdeployqt/releases如果使用环境是嵌入式,需要下载linuxdeployqt源码,自行编译 1.2 安装linuxdeployqt 将下载解压后的linuxdeployqt,拷贝到/usr/local…

Dubbo 3 Dubbo 快速入门 3.2 Dubbo 快速入门 3.2.1 Spring和 SpringMvc 整合

Dubbo 【黑马程序员Dubbo快速入门,Java分布式框架dubbo教程】 3 Dubbo 快速入门 文章目录Dubbo3 Dubbo 快速入门3.2 Dubbo 快速入门3.2.1 Spring和 SpringMvc 整合3.2 Dubbo 快速入门 3.2.1 Spring和 SpringMvc 整合 依然拿着 架构图来比着搞 【实现步骤】 ①创…

5G无线技术基础自学系列 | 单站点验证准备

素材来源:《5G无线网络规划与优化》 一边学习一边整理内容,并与大家分享,侵权即删,谢谢支持! 附上汇总贴:5G无线技术基础自学系列 | 汇总_COCOgsta的博客-CSDN博客 单站点验证需要的准备工作包括硬件及通…

超越nnFormer!UNETR++:高效准确的3D医学图像分割

UNETR: Delving into Efficient and Accurate 3D Medical Image Segmentation 论文链接: https://arxiv.org/abs/2212.04497 代码链接: https://github.com/Amshaker/unetr_plus_plus 导读 这篇论文主要讲述了一种名为 UNETR 的 3D 医学图像分割方法&…

[附源码]Node.js计算机毕业设计黑河市劳务人员管理系统Express

项目运行 环境配置: Node.js最新版 Vscode Mysql5.7 HBuilderXNavicat11Vue。 项目技术: Express框架 Node.js Vue 等等组成,B/S模式 Vscode管理前后端分离等等。 环境需要 1.运行环境:最好是Nodejs最新版,我…