DBSCAN密度聚类介绍样本点样本集合半径邻域核心对象边界点密度直达密度可达密度相连

news2026/2/13 10:03:29

DBSCAN密度聚类介绍样本点样本集合半径邻域核心对象边界点密度直达密度可达密度相连

简介
概念定义
原理
DBSCAN的优点
DBSCAN的缺点
小尝试
制作不易，感谢三连，谢谢啦

简介

DBSCAN（Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法）是一种基于密度的空间聚类算法，用于将具有足够密度的区域划分为簇，并在具有噪声的空间数据库中发现任意形状的簇。该算法将簇定义为密度相连的点的最大集合，利用基于密度的聚类的概念，即要求聚类空间中的一定区域内所包含对象（点或其他空间对象）的数目不小于某一给定阈值。

概念定义

x_i：为每一个样本点
D：样本集合，包含所有样本点
半径：以样本点为中心画圆的半径
邻域：对于给定的对象，其ε-邻域是指与该对象距离不超过ε的所有对象的集合。
核心对象：如果一个对象的邻域（通常称为ε-邻域）内至少有MinPts个对象（包括该对象本身），则该对象被称为核心对象。
密度直达：样对于样本集合D中的两个点p和q，如果存在一个点的序列p1, p2, …, pn，其中p1 = p, pn = q，并且对于序列中的任意点pi (1 ≤ i < n)，pi+1都是从pi密度可达的，那么我们说点q是从点p密度可达的。
密度可达：如果你可以从点p通过一系列的核心对象到达点q（即沿着由核心对象组成的路径走），那么点q就是从点p密度可达的。这种关系并不是对称的，也就是说，即使q从p密度可达，也不意味着p从q密度可达。
密度相连在DBSCAN中，如果点q从点p密度可达，并且点s也从点p密度可达，那么点q和点s就被认为是密度相连的。这种关系是对称的，即如果q和s是密度相连的，那么s和q也是密度相连的。

原理

首先，选择一个核心对象。然后对核心点的邻域内的每个点进行评估，以确定它是否在邻域内有n个对象。如果该点满足标准，它将成为另一个核心点，集群将扩展。如果一个点不满足标准，它成为边界点。随着过程的继续，算法开始发展成为核心点“a”是“b”的邻居，而“b”又是“c”的邻居，以此类推。当集群被边界点包围时，这个聚类簇已经搜索完全，因为在距离内没有更多的点。选择一个新的随机点，并重复该过程以识别下一个簇。
他就和我们遍历二叉树或者N叉树一样，把所有的点都进行深度遍历，把符合要求的点添加到当前的簇内，找不到新的边界点就去接着遍历整个点集合D。

DBSCAN的优点

不需要像KMeans那样预先确定集群的数量
对异常值不敏感
能将高密度数据分离成小集群
可以聚类非线性关系(聚类为任意形状)

DBSCAN的缺点

很难在不同密度的数据中识别集群
难以聚类高维数据
对极小点的参数非常敏感

小尝试

from sklearn.cluster import DBSCAN
import numpy as np

# 输入数据
X = np.array([(1,1), (1,2), (2,1), (8,8), (8,9), (9,8), (15,15)])

# 创建DBSCAN对象，设置半径和最小样本数
dbscan = DBSCAN(eps=2, min_samples=3)

# 进行聚类
labels = dbscan.fit_predict(X)

# 输出聚类结果
for i in range(max(labels)+1):
    print(f"Cluster {i+1}: {list(X[labels==i])}")
print(f"Noise: {list(X[labels==-1])}")

结果为

Cluster 1: [array([1, 1]), array([1, 2]), array([2, 1])]
Cluster 2: [array([8, 8]), array([8, 9]), array([9, 8])]
Noise: [array([15, 15])]

其中聚集为两个簇Cluster 1和Cluster 2和一个干扰点

制作不易，感谢三连，谢谢啦

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1460767.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

DBSCAN密度聚类介绍样本点样本集合半径邻域核心对象边界点密度直达密度可达密度相连

DBSCAN密度聚类介绍样本点样本集合半径邻域核心对象边界点密度直达密度可达密度相连

简介

概念定义

原理

DBSCAN的优点

DBSCAN的缺点

小尝试

制作不易，感谢三连，谢谢啦

相关文章

Codeforces Round 927 (Div. 3)（A,B,C,D,E,F,G）

LeetCode 0105.从前序与中序遍历序列构造二叉树：分治（递归）——五彩斑斓的题解（若不是彩色的可以点击原文链接查看）

java数据类型、运算符

wine 源码 vk3d wine-gecko wine-mono 各版本国内下载地址中国科技技术大学源

Https证书续签-acme.sh-腾讯云之DnsPod

Android全新UI框架之Jetpack Compose入门基础

【八股文面试】Java基础常见面试题总结(上)

Springcloud：LiteFlow

手动代码实现神经网络

使用IntelliJ IDEA查看接口的全部实现方法

swagger 内容信息与代码不一致，已解决

STM32 TIM2重映射

博途PLC PID仿真(单容水箱液位高度控制)

【笔记】【算法设计与分析 - 北航童咏昕教授】绪论

运维07：堡垒机

vue3 用xlsx 解决 excel 低版本office无法打开问题

Aster实现一台电脑当两台使——副屏搭配键鼠

Code-Audit(代码审计)习题记录

2024pytest自动化测试框架学习（三）

《Solidity 简易速速上手小册》第8章：高级 Solidity 概念（2024 最新版）

DBSCAN密度聚类介绍 样本点 样本集合 半径 邻域 核心对象 边界点 密度直达 密度可达 密度相连

DBSCAN密度聚类介绍 样本点 样本集合 半径 邻域 核心对象 边界点 密度直达 密度可达 密度相连

简介

概念定义

原理

DBSCAN的优点

DBSCAN的缺点

小尝试

制作不易，感谢三连，谢谢啦

相关文章

DBSCAN密度聚类介绍样本点样本集合半径邻域核心对象边界点密度直达密度可达密度相连

DBSCAN密度聚类介绍样本点样本集合半径邻域核心对象边界点密度直达密度可达密度相连