聚类(性能度量)

news2025/1/21 22:08:32

文章目录

  • 聚类(性能度量)
    • 外部指标
      • 例1
    • 内部指标
      • 例2

聚类(性能度量)

对数据集 D = { x 1 , x 2 , . . . , x m } D=\{x_1,x_2,...,x_m\} D={x1,x2,...,xm} ,假定通过聚类给出的簇划分为 C = { C 1 , C 2 , . . . , C k } C=\{C_1,C_2,...,C_k\} C={C1,C2,...,Ck} ,参考模型给出的簇划分为 C ∗ = { C 1 ∗ , C 2 ∗ , . . . , C s ∗ } C^*=\{C_1^*,C_2^*,...,C_s^*\} C={C1,C2,...,Cs} ,相应的,令 λ \lambda λ λ ∗ \lambda^* λ 分别表示与 C C C C ∗ C^* C 对应的簇标记向量。我们将样本两两配对考虑,定义:
a = ∣ S S ∣ , S S = { ( x i , x j ) ∣ λ i = λ j , λ i ∗ = λ j ∗ , i < j } b = ∣ S D ∣ , S S = { ( x i , x j ) ∣ λ i = λ j , λ i ∗ ≠ λ j ∗ , i < j } c = ∣ D S ∣ , S S = { ( x i , x j ) ∣ λ i ≠ λ j , λ i ∗ = λ j ∗ , i < j } d = ∣ D D ∣ , S S = { ( x i , x j ) ∣ λ i ≠ λ j , λ i ∗ ≠ λ j ∗ , i < j } a=\vert SS \vert,\quad SS=\{(x_i,x_j) \quad| \quad \lambda_i=\lambda_j,\lambda_i^*=\lambda_j^*,i<j\} \\ b=\vert SD \vert,\quad SS=\{(x_i,x_j) \quad| \quad \lambda_i=\lambda_j,\lambda_i^* \neq \lambda_j^*,i<j\} \\ c=\vert DS \vert,\quad SS=\{(x_i,x_j) \quad| \quad \lambda_i \neq \lambda_j,\lambda_i^*=\lambda_j^*,i<j\} \\ d=\vert DD \vert,\quad SS=\{(x_i,x_j) \quad| \quad \lambda_i \neq \lambda_j,\lambda_i^* \neq \lambda_j^*,i<j\} a=SS,SS={(xi,xj)λi=λj,λi=λj,i<j}b=SD,SS={(xi,xj)λi=λj,λi=λj,i<j}c=DS,SS={(xi,xj)λi=λj,λi=λj,i<j}d=DD,SS={(xi,xj)λi=λj,λi=λj,i<j}

其中,集合 S S SS SS 包含了在 C C C 中隶属于相同簇且在 C ∗ C^* C 中也隶属于相同簇的样本对,…

由于每个样本对 ( x i , x j ) ( i < j ) (x_i,x_j)(i<j) (xi,xj)(i<j) 仅能出现在一个集合中,因此有下列式子成立:
a + b + c + d = m ( m − 1 ) 2 a+b+c+d=\frac {m(m-1)} {2} a+b+c+d=2m(m1)

外部指标

基于以上式子可导出下面这些常用的聚类性能度量外部指标:

  • Jaccard系数(Jaccard Coefficient,简称 JC)

J C = a a + b + c JC = \frac {a} {a+b+c} JC=a+b+ca

  • FM指数(Fowlkes and Mallows Index,简称 FMI)

F M I = a a + b ⋅ a a + c FMI = \sqrt{\frac {a} {a+b} \cdot \frac {a} {a+c}} FMI=a+baa+ca

  • Rand指数(Rand Index,简称 RI)

R I = a ( a + d ) m ( m − 1 ) RI = \frac {a(a+d)} {m(m-1)} RI=m(m1)a(a+d)

显然,上述性能度量的结果值均在 [ 0 , 1 ] [0,1] [0,1] 区间,值越大越好。

例1

聚类 C C C参考 C ∗ C^* C
C 1 : x 1 , x 2 , x 3 C_1:x_1,x_2,x_3 C1:x1,x2,x3 C 1 ∗ : x 1 , x 2 , x 4 C_1^*:x_1,x_2,x_4 C1:x1,x2,x4
C 2 : x 4 , x 5 C_2:x_4,x_5 C2:x4,x5 C 2 ∗ : x 3 , x 5 C_2^*:x_3,x_5 C2:x3,x5

a = ∣ S S ∣ = 1 ( x 1 , x 2 ) b = ∣ S D ∣ = 3 ( x 1 , x 3 ) , ( x 2 , x 3 ) , ( x 4 , x 5 ) c = ∣ D S ∣ = 3 ( x 1 , x 4 ) , ( x 2 , x 4 ) , ( x 3 , x 5 ) d = ∣ D D ∣ = 3 ( x 1 , x 5 ) , ( x 2 , x 5 ) , ( x 3 , x 4 ) \begin {aligned} a&=\vert SS \vert =1 \quad (x_1,x_2) \\ b&=\vert SD \vert =3 \quad (x_1,x_3),(x_2,x_3),(x_4,x_5) \\ c&=\vert DS \vert =3 \quad (x_1,x_4),(x_2,x_4),(x_3,x_5) \\ d&=\vert DD \vert =3 \quad (x_1,x_5),(x_2,x_5),(x_3,x_4) \end {aligned} abcd=SS=1(x1,x2)=SD=3(x1,x3),(x2,x3),(x4,x5)=DS=3(x1,x4),(x2,x4),(x3,x5)=DD=3(x1,x5),(x2,x5),(x3,x4)

J C = a a + b + c = 1 1 + 3 + 3 = 1 7 F M I = a a + b ⋅ a a + c = 1 1 + 3 ⋅ 1 1 + 3 = 1 4 R I = a ( a + d ) m ( m − 1 ) = R I = 2 ( 1 + 3 ) 5 ( 5 − 1 ) = 2 5 \begin {aligned} JC &= \frac {a} {a+b+c} = \frac {1} {1+3+3} = \frac {1} {7} \\ FMI &= \sqrt{\frac {a} {a+b} \cdot \frac {a} {a+c}} = \sqrt{\frac {1} {1+3} \cdot \frac {1} {1+3}} = \frac {1} {4} \\ RI &= \frac {a(a+d)} {m(m-1)} = RI = \frac {2(1+3)} {5(5-1)} = \frac {2} {5} \end {aligned} JCFMIRI=a+b+ca=1+3+31=71=a+baa+ca =1+311+31 =41=m(m1)a(a+d)=RI=5(51)2(1+3)=52

内部指标

考虑聚类结果的簇划分为 C = { C 1 , C 2 , . . . , C k } C = \{C_1,C_2,...,C_k\} C={C1,C2,...,Ck} ,定义
a v g ( C ) = 2 ∣ C ∣ ( ∣ C ∣ − 1 ) ∑ 1 ≤ i < j ≤ ∣ C ∣ d i s t ( x i , x j ) avg(C) = \frac {2} {\vert C \vert (\vert C \vert -1)} \sum_{1 \leq i < j \leq \vert C \vert} dist(x_i,x_j) avg(C)=C(C1)21i<jCdist(xi,xj)

其中, a v g ( C ) avg(C) avg(C) 对应于簇 C C C 内样本间的平均距离, d i s t ( ⋅ , ⋅ ) dist(\cdot,\cdot) dist(,) 用于计算两个样本之间的距离。

d i a m ( C ) = m a x 1 ≤ i < j ≤ ∣ C ∣ d i s t ( x i , x j ) diam(C) = max_{1 \leq i < j \leq \vert C \vert} dist(x_i,x_j) diam(C)=max1i<jCdist(xi,xj)

d i a m ( C ) diam(C) diam(C) 对应于簇 C C C 内样本间的最远距离。

d m i n ( C i , C j ) = m i n x i ∈ C i , x j ∈ C j d i s t ( x i , x j ) d_{min}(C_i,C_j) = min_{x_i \in C_i,x_j \in C_j} dist(x_i,x_j) dmin(Ci,Cj)=minxiCi,xjCjdist(xi,xj)

d m i n ( C i , C j ) d_{min}(C_i,C_j) dmin(Ci,Cj) 对应于簇 C i C_i Ci 和簇 C j C_j Cj 最近样本间的距离。

d c e n ( C i , C j ) = d i s t ( μ i , μ j ) d_{cen}(C_i,C_j) = dist(\mu_i,\mu_j) dcen(Ci,Cj)=dist(μi,μj)

d c e n ( C i , C j ) d_{cen} (C_i,C_j) dcen(Ci,Cj) 对应于簇 C i C_i Ci 和簇 C j C_j Cj 中心点间的距离, μ \mu μ 代表簇 C C C 的中心点 μ = 1 ∣ C ∣ ∑ 1 ≤ i ≤ ∣ C ∣ x i \mu = \frac {1} {\vert C \vert} \sum_{1 \leq i \leq \vert C \vert} x_i μ=C11iCxi

基于以上式子可导出下面这些常用的聚类性能度量内部指标:

  • DB指数(Davies-Bouldin Index,简称 DBI)

D B I = 1 k ∑ i = 1 k max ⁡ j ≠ i ( a v g ( C i ) + a v g ( C j ) d c e n ( C i , C j ) ) DBI = \frac {1} {k} \sum_{i=1}^{k} \max \limits_{j \neq i}(\frac {avg(C_i) + avg(C_j)} {d_{cen}(C_i,C_j)}) DBI=k1i=1kj=imax(dcen(Ci,Cj)avg(Ci)+avg(Cj))

  • Dunn指数(Dunn Index,简称DI)

D I = min ⁡ 1 ≤ i ≤ k min ⁡ j ≠ i ( d m i n ( C i , C j ) m a x 1 ≤ l ≤ k d i a m ( C l ) ) DI = \min \limits_{1 \leq i \leq k} \min \limits_{j \neq i}(\frac {d_{min}(C_i,C_j)} {max_{1 \leq l \leq k} diam(C_l)}) DI=1ikminj=imin(max1lkdiam(Cl)dmin(Ci,Cj))

显然, D B I DBI DBI 的值越小越好,而 D I DI DI 则相反,值越大越好。

例2

a v g ( C 1 ) = 2 3 ( 3 − 1 ) ⋅ ( ∣ x 1 − x 2 ∣ + ∣ x 1 − x 3 ∣ + ∣ x 2 − x 3 ∣ ) a v g ( C 2 ) = 2 2 ( 2 − 1 ) ⋅ ( ∣ x 4 − x 5 ∣ ) a v g ( C 3 ) = 2 2 ( 2 − 1 ) ⋅ ( ∣ x 6 − x 7 ∣ ) \begin {aligned} avg(C_1) &= \frac {2} {3 (3 -1)} \cdot (\vert x_1-x_2 \vert + \vert x_1 - x_3 \vert + \vert x_2 - x_3 \vert) \\ avg(C_2) &= \frac {2} {2 (2 -1)} \cdot (\vert x_4-x_5 \vert) \\ avg(C_3) &= \frac {2} {2 (2 -1)} \cdot (\vert x_6-x_7 \vert) \end {aligned} avg(C1)avg(C2)avg(C3)=3(31)2(x1x2+x1x3+x2x3)=2(21)2(x4x5)=2(21)2(x6x7)

d i a m ( C 1 ) = ∣ x 1 − x 3 ∣ d i a m ( C 2 ) = ∣ x 4 − x 5 ∣ d i a m ( C 3 ) = ∣ x 6 − x 7 ∣ diam(C_1) = \vert x_1 - x_3 \vert \\ diam(C_2) = \vert x_4 - x_5 \vert \\ diam(C_3) = \vert x_6 - x_7 \vert diam(C1)=x1x3diam(C2)=x4x5diam(C3)=x6x7

d m i n ( C 1 , C 2 ) = ∣ x 3 − x 4 ∣ d m i n ( C 2 , C 3 ) = ∣ x 5 − x 6 ∣ d m i n ( C 1 , C 3 ) = ∣ x 3 − x 6 ∣ d_{min}(C_1,C_2) = \vert x_3 - x_4 \vert \\ d_{min}(C_2,C_3) = \vert x_5 - x_6 \vert \\ d_{min}(C_1,C_3) = \vert x_3 - x_6 \vert dmin(C1,C2)=x3x4dmin(C2,C3)=x5x6dmin(C1,C3)=x3x6

μ 1 = x 1 + x 2 + x 3 3 μ 2 = x 4 + x 5 2 μ 3 = x 6 + x 7 2 \mu_1 = \frac {x_1 + x_2 + x_3} {3} \quad \mu_2 = \frac {x_4 + x_5} {2} \quad \mu_3 = \frac {x_6 + x_7} {2} μ1=3x1+x2+x3μ2=2x4+x5μ3=2x6+x7

d c e n ( C 1 , C 2 ) = ∣ μ 1 − μ 2 ∣ d c e n ( C 2 , C 3 ) = ∣ μ 2 − μ 3 ∣ d c e n ( C 1 , C 3 ) = ∣ μ 1 − μ 3 ∣ d_{cen}(C_1,C_2) = \vert \mu_1-\mu_2 \vert \\ d_{cen}(C_2,C_3) = \vert \mu_2-\mu_3 \vert \\ d_{cen}(C_1,C_3) = \vert \mu_1-\mu_3 \vert dcen(C1,C2)=μ1μ2dcen(C2,C3)=μ2μ3dcen(C1,C3)=μ1μ3

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/364055.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机组成原理错题

静态RAM&#xff08;SRAM&#xff09;和动态RAM&#xff08;DRAM&#xff09;的基本电路图不同&#xff0c;因此可以通过观察存储器的基本电路图来判断它属于哪一类。 静态RAM的基本电路图包括一个存储单元和一个数据选择器。每个存储单元由一个触发器&#xff08;flip-flop&a…

汽车零部件企业数字工厂管理系统建设方案

在汽车零部件制造领域&#xff0c;伴随工业信息化与机器人化&#xff0c;制造模式逐渐从 CAD/CAE/CAM 数字化设计及加工走向全产品周期虚拟现实的数字化工厂管理系统平台&#xff0c;实现虚拟现实设计制造&#xff0c;防范产品缺陷并预防设备故障&#xff0c;大幅提高生产效率。…

做出选择,直面挑战,揭开数据中心网络的发展真相

为什么&#xff1f;你们发现没有&#xff1f;不知道&#xff0c;从什么时候开始&#xff0c;这个世界&#xff0c;变得越来越快了。快得仿佛昨天刚刚来到这个世界&#xff0c;一眨眼就日暮西山了。是的&#xff0c;时间过得好快&#xff0c;回想起2002年7月电气和电子工程师协会…

炼石:八年饮冰难凉热血,初心如磐百炼成钢

炼石成立八周年 八载笃行&#xff0c;踔厉奋发。创立于2015年的炼石&#xff0c;今天迎来了八岁生日&#xff0c;全体员工共同举行了温暖又充满仪式感的周年庆典。过去的2022&#xff0c;是三年疫情的艰难“收官之年”&#xff0c;新的2023&#xff0c;将是数据安全行业成为独…

FFT的物理意义

FFT结果的物理意义 FFT是离散傅立叶变换的快速算法&#xff0c;可以将一个信号变换到频域。有些信号在时域上是很难看出什么特征的&#xff0c;但是如果变换到频域之后&#xff0c;就很容易看出特征了。这 就是很多信号分析采用FFT变换的原因。另外&#xff0c;FFT可以将一…

内网渗透(四十九)之域控安全和跨域攻击-多种方式离线读取ntds.dit文件中的hash值

系列文章第一章节之基础知识篇 内网渗透(一)之基础知识-内网渗透介绍和概述 内网渗透(二)之基础知识-工作组介绍 内网渗透(三)之基础知识-域环境的介绍和优点 内网渗透(四)之基础知识-搭建域环境 内网渗透(五)之基础知识-Active Directory活动目录介绍和使用 内网渗透(六)之基…

Java方法【未完待续】

目录 前言 一、什么是方法&#xff1f; 二、方法的定义和调用 方法的定义 方法的调用 三、方法的重载 重载规则 实现理论 总结 前言 随着对Java这一编程语言的深入学习&#xff0c;大家可能会遇到一个熟悉又陌生的词——方法&#xff0c;其实Java方法就是我们学习C/C时…

2023该好好赚钱了,推荐三个下班就能做的副业

在过去的两年里&#xff0c;越来越多的同事选择辞职创业。许多人通过互联网红利赚到了他们的第一桶金。随着短视频的兴起&#xff0c;越来越多的人吹嘘自己年收入百万&#xff0c;导致很多刚进入职场的年轻人逐渐迷失自我&#xff0c;认为钱特别容易赚。但事实上&#xff0c;80…

构造agent类型的内存马(内存马系列篇十三)

写在前面 前面我们对JAVA中的Agent技术进行了简单的学习&#xff0c;学习前面的Agent技术是为了给这篇Agent内存马的实现做出铺垫&#xff0c;接下来我们就来看看Agent内存马的实现。 这是内存马系列篇的第十三篇了。 环境搭建 我这里就使用Springboot来搭建一个简单的漏洞…

电脑病毒已灭绝,是真的吗?

大家有没有这样一个疑问&#xff0c;觉得自己的电脑好像很久没有电脑病毒了&#xff1f;之前大名鼎鼎的蠕虫2000&#xff0c;熊猫烧香都变得不那么常见了。到底是电脑因为自身优化和杀毒软件的防护导致病毒变少了&#xff0c;还是本身电脑病毒变少了呢&#xff1f;&#xff08;…

Boost库文档搜索引擎

文章目录综述效果展示去标签化&#xff0c;清理数据构建索引用户查询综述 该项目使用了BS架构&#xff0c;实现了用户对Boost库进行站内搜索的功能&#xff0c; 用户输入关键字使用http协议通过ajax将数据发送给后端服务器&#xff0c;后端进行分词&#xff0c; 通过倒排索引…

【Kubernetes】第七篇 - Service 服务介绍和使用

一&#xff0c;前言 上一篇&#xff0c;通过配置一个 Deployment 对象&#xff0c;在内部创建副本集对象&#xff0c;副本集帮我们创建了 3 个 pod 副本 由于 pod 存在 IP 漂移现象&#xff0c;pod 的创建和重启会导致 IP 变化&#xff1b; 本篇&#xff0c;介绍 Service 服…

《计算机网络:自顶向下方法》实验5:NAT协议分析 Wireshark实验

实验12:NAT协议分析 1 What is the IP address of the client? 客户端的 IP 地址是192.168.1.100 2 The client actually communicates with several different Google servers in order to implement “safe browsing.” (See extra credit section at the end of this la…

Safety-Gym环境配置与安

官网&#xff1a; https://github.com/openai/safety-gym https://github.com/openai/safety-starter-agents 一、安装依赖环境配置 建议使用python 3.7及以下环境&#xff0c;因为官方的safety-rl是基于tensorflow1.13.1实现&#xff0c;而tensorflow1.13.1只能支持python…

leaflet 自定义添加地图网格线(087)

第087个 点击查看专栏目录 本示例的目的是介绍演示如何在vue+leaflet中自定义添加地图网格线。 直接复制下面的 vue+openlayers源代码,操作2分钟即可运行实现效果. 文章目录 示例效果配置方式示例源代码(共76行)安装插件相关API参考:专栏目标示例效果 配置方式 1)查看基…

前端学习第九站——Vue3基础篇

目录 一、环境搭建 创建项目 编码 IDE 修改端口 配置代理 项目架构 二、Vue组件 main.ts 属性绑定 事件绑定 表单绑定 计算属性 xhr axios 环境变量 baseURL 拦截器 条件和列表 监听器 vueuse useRequest usePagination&#xff08;分页&#xff09; 子组…

你什么档次?敢和我用一样的即时通讯平台WorkPlus?

现今&#xff0c;很多企业越来越青睐私有化部署&#xff0c;尤其是在选择组织内部即时通讯平台的时候&#xff0c;更是会提出私有化部署的需求。究其原因&#xff0c;企业选择私有化部署即时通讯软件完全是出于安全方面考虑。因此&#xff0c;越来越多的企业将眼光望向了本地化…

深入讲解CFS组调度!(上)

注&#xff1a;本文缩写说明 一、CFS组调度简介 1.1. 存在的原因 总结来说是希望不同分组的任务在高负载下能分配可控比例的CPU资源。为什么会有这个需求呢&#xff0c;比如多用户计算机系统每个用户的所有任务划分到一个分组中&#xff0c;A用户90个相同任务&#xff0c;而B…

NIO蔚来 面试——IP地址你了解多少?

目录 前言 1、IP地址 1.1、什么是IP地址 1.2、IP地址的格式 1.2.1、32位二进制数表示IP地址&#xff0c;够用吗&#xff1f; 1.3、IP地址的组成 1.4、为什么会出现IPv6 1.4.1、为什么IPv6还没有大量普及呢&#xff1f; 1.5、子网掩码 1.6、特殊的IP地址 2、路由选择 …

微信小程序 之 云开发

一、概念1. 传统开发模式2. 新开发模式 ( 云开发模式 )3. 传统、云开发的模式对比4. 传统、云开发的项目流程对比5. 云开发的定位1. 个人的项目或者想法&#xff0c;不想开发服务器&#xff0c;直接使用云开发2. 某些公司的小程序项目是使用云开发的&#xff0c;但是不多&#…