【聚类算法】谱聚类spectral clustering

news2024/11/15 12:22:23

every blog every motto: You can do more than you think.
https://blog.csdn.net/weixin_39190382?type=blog

0. 前言

说明: 后续增补

1. 正文

1.1 整体理解

谱聚类(Spectral Clustering)是一种基于图论的聚类方法,将带权无向图划分为两个或两个以上的最优子图。使子图内尽量相似,子图间距离尽量较远。其中的最优是指最优目标函数不同。有以下两种:

  • smallest cut
  • best cut
    如下图所示:
    在这里插入图片描述

1.1.1 无向图

如下图所示,由若干顶点组成,由于边没有方向,故称为无向图。其中,

点集合: V = { v 1 , v 2 , . . . . . , v 3 } V = \{v1,v2,.....,v3\} V={v1,v2,.....,v3}
边集合: E = { e 1 , e 2 , . . . . . , e 3 } E = \{e1,e2,.....,e3\} E={e1,e2,.....,e3}

所以,图表示为 G ( V , E ) G(V,E) G(V,E)


权重矩阵(邻接矩阵) W W W W i j W_{ij} Wij表示 i i i j j j之间的权重,由于是无向图,所以
W i j = W j i W_{ij}=W_{ji} Wij=Wji
请添加图片描述

1.1.2 度和度矩阵

在数据结构中,度定义为与该点直接连接的顶点个数。
在这里,定义如下:
d i = ∑ j = 1 n W i j d_i = \sum_{j=1}^{n}W_{ij} di=j=1nWij

即,某行(或列)的权重和。
度矩阵为n个度构成的对角阵,如下:

[ d 1 0 ⋯ 0 0 d 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ d n ] \begin{bmatrix} {d_{1}}&{0}&{\cdots}&{0}\\ {0}&{d_{2}}&{\cdots}&{0}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}\\ {0}&{0}&{\cdots}&{d_{n}}\\ \end{bmatrix} d1000d2000dn

1.1.3 相似矩阵

注意: 我们可以计算两点间的距离,生成一个邻接矩阵表示我们点与点的关系(即,我们所说的),这里的相似矩阵是在“距离矩阵”的基础上(根据距离的远近判断是否相似)根据一定的方法(下面的三种方法)进一步“筛选”
(可以粗略理解,有的点离的比较远不要了)

上述的权重矩阵 由任意两点之间的权重构成,在实际当中,我们并不能直接获得权重,只有数据点的定义,通常会通过两点之间的距离计算权重。距离远权重点,距离近权重高。通常由三种方法

(1). ϵ ϵ ϵ-邻近法(使用较少)

设置一个阈值 ϵ ϵ ϵ,计算两点之间的欧式距离并与阈值比较,

W i j = { 0 , i f s i j > ϵ ϵ , i f s i j ⩽ ϵ W_{ij}=\left\{ \begin{matrix} 0 , & if &s_{ij}>ϵ \\ ϵ, &if &s_{ij}\leqslantϵ \end{matrix} \right. Wij={0,ϵ,ififsij>ϵsijϵ
用阈值筛选距离,卡的比较死,样本之间权重之间和0,缺失很多信息

(2). k-近邻法

对于任意一点,求取与他最近的k个顶点,该顶点与k个顶点的权重由计算得到(都大于0,其余顶点距离为0),但会导致得到的相似矩阵不对称。如: i i i j j j k k k个近邻中,但 j j j可能不在 i i i k k k个近邻中。针对这个问题由两种解决方法:
说明: s i j s_{ij} sij表示距离

a. 方法一

宽松版
只要一个满足k近邻,则令 W i j = W j i W_{ij}=W_{ji} Wij=Wji,只有同时不满足k近邻,则为0。
在这里插入图片描述

b. 方法二

严格版
两个顶点互为近邻,才计算距离,否则权重为0。
在这里插入图片描述

(3). 全连接

计算所有点之间的相互连接,因此权重都大于0,可以选择不同 核函数计算距离,常用的有:

  • 多项式核函数
  • 高斯核函数
  • sigmoid核函数

在这里插入图片描述

1.1.4 拉普拉斯矩阵

L = D − W L = D - W L=DW

D D D 为度矩阵, W W W为上面的邻接矩阵

1.1.5 切图,聚类

下面进入重点了,现在我们要对上面说到的无向图进行切图
在这里插入图片描述
切割优化目标:
C o s t ( G 1 , . . . G 2 ) = ∑ i C ( G i , G i ^ ) Cost(G1,...G2) = \sum_{i}C(G_i,\hat{G_{i}}) Cost(G1,...G2)=iC(Gi,Gi^)
C ( G 1 , G 2 ) = ∑ i ∈ G 1 , j ∈ G 2 w i j C(G_1,G_2) = \sum_{i\in G_1,j\in G_2}w_{ij} C(G1,G2)=iG1,jG2wij

  • 目标是使切割子图时间的权重和最小,即,切割的边最少。
  • 切割中可能会出现局部最优,因此,根据不同的切割方法有不同的切图方法。

(1). RatioCut切图

(2). RatioCut切图

目标: 使子图的节点数尽可能的大
R a t i o n C u t ( G 1 , . . . G 2 ) = ∑ i C ( G i , G i ^ ) ∣ G i ^ ∣ RationCut(G1,...G2) = \sum_i{C(G_i,\hat{G_i}) \over \mid \hat{G_i} \mid } RationCut(G1,...G2)=iGi^C(Gi,Gi^)
分母为子图的节点个数

(3). NCut切图

目标: 考虑每个子图边的权重和
N C u t ( C 1 , . . . C k ) = ∑ i C ( G i , G I ^ ) v o l ( G i ^ ) NCut(C_1,...C_k) = \sum_i{C(G_i,\hat{G_I} )\over vol(\hat{G_i})} NCut(C1,...Ck)=ivol(Gi^)C(Gi,GI^)

分母为子图各边的权重和

1.2 计算流程

核心主要三部分:

  • 相似矩阵的生成(常用:全连接方法)
  • 切图方式(常用:NCut)
  • 最后的聚类方法(常用:K-Means)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/673620.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于java,springboot的校园闲置物品租售系统设计与实现

背景 校园闲置物品租售系统应有的主要功能模块,本系统有管理员、卖家和用户,管理员;首页、个人中心、用户管理、卖家管理、商品种类管理、商品信息管理、商品租借管理、商品购买管理、闲置鱼塘、系统管理,用户;首页、…

Java并发中的原子性、可见性和有序性

基于JMM的内存模型,Java并发编程的核心问题:原子性、可见性、有序性 那么在此之前,我们有必要先说一下Java的JMM内存模型:java内存模型,是java虚拟机规范的一种工作模式,它将内存分为主内存和工作内存。线…

【机器学习】十大算法之一 “PCA”

作者主页:爱笑的男孩。的博客_CSDN博客-深度学习,活动,python领域博主爱笑的男孩。擅长深度学习,活动,python,等方面的知识,爱笑的男孩。关注算法,python,计算机视觉,图像处理,深度学习,pytorch,神经网络,opencv领域.https://blog.csdn.net/Code_and516?typeblog个…

高性能计算的意义是什么

高性能计算(High-Performance Computing,HPC)在现代科学、工程和商业领域中具有重要意义。以下是一些高性能计算的重要意义: 加速科学研究和创新:高性能计算可以提供大规模的计算能力和存储资源,使得科学家…

stm32数据对齐、PRESERVE8、freertos堆栈

为什么需要数据对齐? 避免数据在内存中跨边界存储,减少读取数据次数,提高效率,本质上是以空间换时间的做法 下图中属于同一水平位置的为同一边界 变量在同一边界里的一次存储周期就可以读取 一旦跨了上下两个边界来存储就需要至少…

干爆源码系列之Step by step lldb/gdb调试多线程

Step by step lldb/gdb调试多线程 0.叙谈1.断点分析2.多线程切换 2.1 并发队列 2.1.1 两次入队 2.2 线程调度 2.2.1 执行build端子MetaPipeline 2.2.1.1 Thread6调度第一个PipelineInitializeTask 2.2.1.2 Thread7调度第二个Pipelin…

TypeScript 数据联合类型的解读

概念: 联合类型(Union Types)表示取值可以为多种类型中的一种,或者也可以理解将多个类型合并为一个类型对变量进行注解。 语法结构: 联合类型使用 | 分隔每个类型。 let 变量:类型1 | 类型2 | 类型3… 案列…

基于Java校园代购服务订单系统设计实现(源码+lw+部署文档+讲解等)

博主介绍: ✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战 ✌ 🍅 文末获取源码联系 🍅 👇🏻 精…

你的前端技术是否能通过这些高频面试题?

文章目录 1.储存了某个数据到 localStorage,立即进行 localStorage.getItem,能否取到值?2.实现异步的方式有几种3.异步不阻塞4.选择 div 的第二个子元素5.display: none 和 visibility: hidden 的区别6.如果想要让一个元素的宽高包含元素的 b…

【初识C语言】选择语句+循环语句+函数+数组

文章目录 前言1. 选择语句2. 循环语句3. 函数4. 数组 前言 C语言是一门结构化的程序设计语言 顺序结构; 选择结构; 循环结构。 1. 选择语句 生活中处处面临着选择,如果你好好学习,校招时拿一个好offer,走上人生巅峰。…

关于程序员的工作总结

程序员工作总结篇1 从我x月x日进入公司到现在已经过去一年了,从一名刚刚结束实习的学生到一名独立的开发人员,角色改变了,职责也改变了。虽然已经预计了工作之中会有很多困难,可是在实际的项目开发中,自己所遇到远远不…

(超级详细)如何在Mac OS上的VScode中配置OpenGL环境并编译

文章目录 安装环境下载GLAD与GLFW一、下载GLAD二、下载GLFW 项目结构配置测试程序与项目的编译测试可执行文件HelloGL 安装环境 机器:macbook air 芯片: M1芯片(arm64) macOS:macOS Ventura 13.4 VScode version&#…

Pytorch数据类型Tensor张量操作(操作比较全)

文章目录 Pytorch数据类型Tensor张量操作一.创建张量的方式1.创建无初始化张量2.创建随机张量3.创建初值为指定数值的张量4.从数据创建张量5.生成等差数列张量 二.改变张量形状三.索引四.维度变换1.维度增加unsqueeze2.维度扩展expand3.维度减少squeeze4.维度扩展repeat 五.维度…

SpringCloud Alibaba入门5之使用OpenFegin调用服务

我们继续在上一章的基础上进行开发 SpringCloud Alibaba入门4之nacos注册中心管理_qinxun2008081的博客-CSDN博客 Feign是一种声明式、模板化的HTTP客户端。使用Feign,可以做到声明式调用。Feign是在RestTemplate和Ribbon的基础上进一步封装,使用RestT…

SAP从入门到放弃系列之BOM行项目-虚拟装配-Part4

文章目录 虚拟组件(Phantom assemblies):作用:BOM中虚拟件维护的方式: 物料主数据维度BOM组件维度(数据优先级最高) BOM组件的展开类型:BOM组件的特殊采购类数据测试示例&#xff1…

基于open62541库的OPC UA协议节点信息查询及多节点数值读写案例实践

目录 一、OPC UA协议简介 二、open62541库简介 三、 opcua协议的多点查询、多点读写案例服务端opcua_server 3.1 opcua_server工程目录 3.2 程序源码 3.3 工程组织文件 3.4 编译及启动 四、opcua协议的多点查询、多点读写案例客户端opcua_client 4.1 opcua_client工程目录 4…

医院管理系统源码PACS超声科室源码DICOM影像工作站

一、医学影像系统(PACS)是一种应用于医院影像科室的系统,主要任务是将日常产生的各种医学影像(如核磁、CT、超声、X光机、红外仪、显微仪等设备产生的图像)通过各种接口(模拟、DICOM、网络)以数…

社区活动 | OpenVINO™ DevCon 中国系列工作坊第二期 | 使用 OpenVINO™ 加速生成式 AI...

生成式 AI 领域一直在快速发展,许多潜在应用随之而来,这些应用可以从根本上改变人机交互与协作的未来。这一最新进展的一个例子是 GPT 模型的发布,它具有解决复杂问题的能力,比如通过医学和法律考试这种类似于人类的能力。然而&am…

Android Studio实现推箱子小游戏

项目目录 一、项目概述二、开发环境三、详细设计四、运行演示五、项目总结 一、项目概述 推箱子是一款非常受欢迎的益智游戏,游戏的玩法简单,但是需要玩家具备一定的逻辑思维能力和空间感知能力,因此深受广大玩家的喜爱。在游戏中&#xff0…

正点原子F4HAL库串口中断再解读

七步走,参考usart.c文件 void HAL_UART_MspInit(UART_HandleTypeDef *huart) 这个函数进行了(1)、(2)、(3)、(5)中的使能中断 void uart_init(u32 bound)函数进行了&…