【聚类算法】DBSCAN基于密度聚类

news2024/11/16 1:28:53

every blog every motto: You can do more than you think.
https://blog.csdn.net/weixin_39190382?type=blog

0. 前言

瞬间感觉kmeans不香了,哈哈哈

说明: 该算法不仅能聚类,还能剔除离群点,聚类以后标签为-1的即噪声点(离群点),剔除即可。
在这里插入图片描述

1. 正文

1.1 概念

DBSCAN(Density-Based Spatial Clustering of Applications with Noise) 基于密度的空间聚类。根据密度将数据划分成簇,可以在有噪声的空间中发现任意形状的簇。

1.1.1 形象化理解

现在有一群人,要在他们中发展微商。一个人只有发展直系亲属,且人数大于5个,微商才算做成功。通过这个规则,很容易在人群中划分出不同的“微商群”,即实现了聚类。(是不是很简短,有木有~)

1.2.2 一般概念

(1). 三种点

  • 核心点
  • 边界点
  • 噪声点

如下图,一个点,如果在指定的半径内(上面所说的直系亲属,确定远近关系的)存在一定数量的其他点(上面的大于5,用于确定密度),则称该点为 核心点

继续用半径数量发展“下线”,直到最后无法满足规则未知,最后的“下线”称为边界点,不在簇中的点为噪声点
在这里插入图片描述

(2). 四种关系

  1. 如果P是核心点,Q在P的邻域内,则称P到Q密度直达
    • 核心点到自身密度直达
    • 密度直达不对称。(P到Q密度直达,Q到P不一定密度直达,注意: 上面微商的例子在这里不对,可以看数据点之间距离,应该比较好理解)
  2. 如果核心点P1到P2密度直达,P2到P3密度直达,…,Pn到Q密度直达 ,则,P1到Q密度可达 (密度可达同样无对称性,由密度直达不具有对称性,应该比较好理解)
  3. 如果存在核心带S,使S到P和Q都密度可达,则P和Q密度相连,密度相连具有对称性,密度相连的两个点在同一个聚类簇。
  4. 如果两个点不属于密度相连关系,则两个点非密度相连,非密度相连的两个点属于不同的聚类簇,或者其中存在噪声。

可以看下图理解:
在这里插入图片描述

1.2 算法步骤

  1. 遍历所有样本点,如果指定半径内样本数大于指定的值,则当前样本纳入核心点列表,并将其密度直达的点形成临时聚类簇
  2. 对于每个临时聚类簇,检查其中的点是否为核心点,如果是,将当前点形成的聚类簇和当前点自身的临时聚类簇合并,得到新的临时聚类簇。(发展下线过程)
  3. 重复此过程,直到当前临时聚类簇中的每个点要么不在核心点列表中,要么其密度直达点都已经在该临时聚类簇。该临时聚类簇升级为聚类簇。
  4. 继续对剩余的临时聚类簇进行此过程。直到所有临时聚类簇被处理。

在这里插入图片描述

1.3 demo

说明:jupyter notebook里面运行

生成样本点

%matplotlib inline
%config InlineBackend.figure_format = 'svg'
import numpy as np
import pandas as pd
from sklearn import datasets


X,_ = datasets.make_moons(500,noise = 0.1,random_state=1)
df = pd.DataFrame(X,columns = ['feature1','feature2'])

df.plot.scatter('feature1','feature2', s = 100,alpha = 0.6, title = 'dataset by make_moon');

在这里插入图片描述
聚类

%matplotlib inline
%config InlineBackend.figure_format = 'svg'

from sklearn.cluster import dbscan

# eps为邻域半径,min_samples为最少点数目
core_samples,cluster_ids = dbscan(X, eps = 0.2, min_samples=20) 
# cluster_ids中-1表示对应的点为噪声点

df = pd.DataFrame(np.c_[X,cluster_ids],columns = ['feature1','feature2','cluster_id'])
df['cluster_id'] = df['cluster_id'].astype('i2')

df.plot.scatter('feature1','feature2', s = 100,
    c = list(df['cluster_id']),cmap = 'rainbow',colorbar = False,
    alpha = 0.6,title = 'sklearn DBSCAN cluster result');

在这里插入图片描述

1.4 eps值的设定

1.4.1 方法一:OPTICS算法

from sklearn.cluster import OPTICS
from sklearn.datasets import make_blobs

# 生成随机数据
X, y = make_blobs(n_samples=1000, centers=3, random_state=42)

# 使用 OPTICS 算法自适应估计 eps 值
optics = OPTICS(min_samples=10, xi=0.05)
optics.fit(X)

# 输出聚类结果和估计的 eps 值
print("Estimated eps:", optics.eps_)
print("Cluster labels:", optics.labels_)

1.4.3 方法二:K-距离

from sklearn.neighbors import NearestNeighbors
from sklearn.datasets import make_blobs

# 生成随机数据
X, y = make_blobs(n_samples=1000, centers=3, random_state=42)

# 计算 k-距离
knn = NearestNeighbors(n_neighbors=10)
knn.fit(X)
distances, indices = knn.kneighbors(X)

# 估计 eps 值
eps = distances[:, 9].mean()

# 输出估计的 eps 值
print("Estimated eps:", eps)

1.5 动画理解

推荐一个动画网站:
https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/

在这里插入图片描述

1.6 噪声点(离群点)显示

显示一维数据

def show_scatter_1D(data,labels,noise_black=False):
    plt.clf()
    if noise_black:
        noise_data = data[labels == -1, 0]
        plt.scatter(noise_data,np.zeros_like(noise_data), edgecolor='red',c='white', label='Noise')
    for l in set(labels) - {-1}:
        norm_data = data[labels == l, 0]
        plt.scatter(norm_data, np.zeros_like(norm_data), cmap='viridis', label=f'Cluster {l}')
    plt.legend()
    plt.show()

显示二维数据

def show_scatter_2D(data,labels,noise_black=False):
    plt.clf()
    if noise_black:
        plt.scatter(data[labels == -1, 0], data[labels == -1, 1],edgecolor='red', c='white', label='Noise')
    for l in set(labels) - {-1}:
        plt.scatter(data[labels == l, 0], data[labels == l, 1], label=f'Cluster {l}')
    plt.legend()
    plt.show()

在这里插入图片描述

参考

[1] https://blog.csdn.net/swy_swy_swy/article/details/106130675
[2] https://blog.csdn.net/Cyrus_May/article/details/113504879
[3] https://blog.csdn.net/huacha__/article/details/81094891#t0
[4] https://zhuanlan.zhihu.com/p/336501183
[5] https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/706344.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

滑动折叠效果简单实现

绿色为标题&#xff0c;滑动时始终不会被折叠、不会滑动。红色和黑色会在滑动的时候折叠&#xff0c;先折叠红色&#xff0c;在折叠黑色。 activity_shop_search.xml&#xff1a; <?xml version"1.0" encoding"utf-8"?> <layout xmlns:androi…

css实现元素纵向排列自动换列

块级元素在容器类纵向排列&#xff0c;当达到最大高度后自动换到下一列 <div id"main-div"><div class"item">1 一条内容一条内容一条内容一条内容一条内容一条内容一条内容一条内容一条内容一条内容一条内容一条内容一条内容一条内容一条内容…

王道考研计算机网络第四·章知识点汇总

4.1.1网络层功能概述 4.1.2 SDN基本概念 4.2.1 路由算法和路由协议概述 4.3.1 IP数据报格式 4.3.2 IP数据报分片 4.3.3 IPv4地址 4.3.4 网络地址转换NAT 4.3.5 子网划分和子网掩码 不同子网掩码得到的网络地址可能相同 网络号为B类地址&#xff0c;16位网络号&#xff1b;6位子…

从四个角度全面认识 ChatGPT

传统语言模型是什么样的&#xff1f;ChatGPT 涌现出了哪些新能力&#xff1f;这些能力都是怎么做到的&#xff1f;在 ChatGPT 大模型时代&#xff0c;我们应该怎么做&#xff1f; 当下最引人注目的语言模型 ChatGPT 如火如荼&#xff0c;主要还是因为其能力远远超越了传统模型。…

js中堆的操作和案例!

堆 什么是堆&#xff1f; 堆是一种特殊的完全二叉树。完全二叉树的含义就是每层节点都完全填满&#xff0c;除了最后一层外只允许最右边缺少若干个节点。在 JavaScript 中通常用数组表示堆&#xff08;按照广度优先遍历顺序&#xff09;。 最大堆 最小堆 特性 所有的节…

Python入门教程+项目实战-14.4节-lambda表达式

目录 14.4.1 理解匿名函数 14.4.2 lambda表达式 14.4.3 lambda表达式与具名函数 14.4.4 知识要点 14.4.5 系统学习python 14.4.1 理解匿名函数 匿名函数&#xff0c;从其字面意思来进行理解。所谓的匿名即不具名&#xff0c;没有名称。匿名函数&#xff0c;也就是没有函…

chatgpt赋能python:Python编程语言-让生活更有趣

Python编程语言-让生活更有趣 作为一名10年的Python工程师&#xff0c;我可以毫不犹豫地说&#xff0c;Python是一种编辑器最有趣的编程语言之一。作为Python的忠实拥护者和使用者&#xff0c;我深信Python可以让生活变得更轻松&#xff0c;更有趣。 Python简介 Python是一种…

std::function的讲解与实战

一、C语言中的函数指针 先看一个函数指针的例子 test_fun.cpp&#xff1a; #include<iostream>//定义函数指针 typedef int (*func)();using namespace std;int test1(){cout<<"hello, test1"<<endl;return 0; }int test2(){cout<<"h…

第三十五章Java面向对象概念及封装、继承、多态三种特性详解

面向对象简称 OO&#xff08;Object Oriented&#xff09;&#xff0c;20 世纪 80 年代以后&#xff0c;有了面向对象分析&#xff08;OOA&#xff09;、 面向对象设计&#xff08;OOD&#xff09;、面向对象程序设计&#xff08;OOP&#xff09;等新的系统开发方式模型的研究。…

ch10_2控制单元的_微程序设计

1. 微程序设计 1.1 微程序设计思想 使用微程序的设计方式&#xff0c;实现计算机系统的控制器&#xff1b; 微程序的设计&#xff0c;是方便指令集的修改和扩展&#xff1b; 每个节拍发出的控制命令&#xff0c; 实际上就是一个电信号&#xff0c;或者是几个电信号&#xf…

堆的向下调整算法,堆排,TopK问题

文章目录 堆的向下调整算法堆的删除&#xff1a;堆排序向上调整建堆的时间复杂度向下调整建堆的时间复杂度为&#xff1a;TopK问题 堆的向下调整算法 我们在这里都已小堆为例&#xff1a; 在这里我们有一个数组 int array[] {27,15,19,18,28,34,65,49,25,37}; 我们通过把根节…

Oracle VM VirtualBox添加磁盘

文章目录 1、Oracle VM VirtualBox添加磁盘 1、Oracle VM VirtualBox添加磁盘 1.关闭正在启动的Oracle VM VirtualBox 2、选择存储 3、点击最右边 4、选择创建 直接下一步&#xff1a; 直接下一步&#xff1a; 调整需要的大小–创建即可: 此时此刻磁盘加载成功&#xff0…

【综合企业管理平台】网络杂谈(10)之什么是Unicenter TNG?

涉及知识点 什么是 Unicenter TNG&#xff0c;Unicenter TNG的基本管理功能&#xff0c;Unicenter TNG Discovery &#xff0c;深入了解Unicenter TNG技术&#xff0c;综合企业管理平台 Unicenter TNG 。 原创于&#xff1a;CSDN博主-《拄杖盲学轻声码》&#xff0c;更多内容可…

8.串行通信

1.通信接口相关知识&#xff1a; &#xff08;1&#xff09;处理器与外界设备通信的两种方式&#xff1a; 1&#xff09;并行通信&#xff1a; 传输原理&#xff1a;数据各个位同时传输&#xff1b; 优点&#xff1a;速度快&#xff1b; 缺点&#xff1a;占用引脚资源多&…

vue+leaflet笔记之地图网格

vueleaflet笔记之地图网格 本文介绍了Web端使用Leaflet开发库显示地图经纬网和标准图幅网格的方法 (底图来源:天地图)&#xff0c; 地图格网是由间隔均匀的横向线和纵向线组成的网络&#xff0c;用于在地图上识别各个位置。 经纬网通过在地图上描绘纬度和经度格网&#xff0c;…

40.Docker

目录 一、Docker。 &#xff08;1&#xff09;认识Docker。 &#xff08;1.1&#xff09;什么是Docker。 &#xff08;1.2&#xff09;Docker和虚拟机的区别。 &#xff08;2&#xff09;镜像、容器、DockerHub、Docker架构。 &#xff08;3&#xff09;安装Docker&#…

VS+QT+VTK三维曲面网格点选切割

程序示例精选 VSQTVTK三维曲面网格点选切割 如需安装运行环境或远程调试&#xff0c;见文章底部个人QQ名片&#xff0c;由专业技术人员远程协助&#xff01; 前言 这篇博客针对<<VSQTVTK三维曲面网格点选切割>>编写代码&#xff0c;代码整洁&#xff0c;规则&…

DAMA学习笔记1:概念模型-逻辑模型篇

A实体的某个字段指向 B实体的主键, 则称A实体的那个字段为该实体的外键, 一个表里可以有多个外键&#xff0c;也可以没有外键&#xff1b; 被指向的实体称为主实体(主表)&#xff0c;也叫父实体(父表)&#xff0c;负责指向的实体称为从实体(从表)&#xff0c;也叫子实体(子表)…

记录好项目D18

记录好项目 你好呀&#xff0c;这里是我专门记录一下从某些地方收集起来的项目&#xff0c;对项目修改&#xff0c;进行添砖加瓦&#xff0c;变成自己的闪亮项目。修修补补也可以成为毕设哦 本次的项目是个网上商城 一、系统介绍 前台商城系统&#xff1a;包含首页登录、商…

动态规划——下降路径最小和

题目链接 leetcode在线oj题——下降路径最小和 题目描述 给你一个 n x n 的 方形 整数数组 matrix &#xff0c;请你找出并返回通过 matrix 的下降路径 的 最小和 。 下降路径 可以从第一行中的任何元素开始&#xff0c;并从每一行中选择一个元素。在下一行选择的元素和当前…