聚类分析例题 (多元统计分析期末复习)

news2024/11/19 23:31:28

例一

动态聚类,K-means法,随机选取凝聚点(题目直接给出)

已知5个样品的观测值为:1,4,5,7,11。试用K均值法分为两类(凝聚点分别取1,4与1,11)


解:以1,4为例
STEP1确定凝聚点:X1和X5
STEP2确定初始分类, G 1 ( 0 ) {G_1^{(0)}} G1(0)={x1,x2,x3}, G 2 ( 0 ) {G_2^{(0)}} G2(0)={x4,x5}
STEP3重新计算各类的重心,以其作为新的凝聚点,分别为3.3和9
STEP4 以新的重心为凝聚点重新修改分类,结果不变,故聚类结果为 G 1 {G_1} G1={x1,x2,x3}, G 2 {G_2} G2={x4,x5}

例二

动态聚类,K-means法,还是上面的例子,使用密度法选取凝聚点

已知5个样品的观测值为:1,4,5,7,11。试用K均值法分为三类


密度法:

  • 首先计算出每个样品的密度,密度即:以正数d为半价,样品为球心,落在球内的样品数;
  • 选择密度最大的样品作为第一凝聚点;
  • 人为确定一个正数D(一般D>d),若次大密度样品点与第一凝聚点距离大于D则作为第二个凝聚点,否则舍去,选取密度次于它的样品;

解:d=2,D=3.5

STEP1计算出每个样品的密度

x1x2x3x4x5
密度01210

因此第一凝聚点为x3,次大密度样品点位x2和x4,但它们与x3的距离小于D,故舍去,选取x1和x5作为第二凝聚点;

STEP2确定初始分类,除凝聚点之外的样品点按照最小距离原则确定它们的分类
G 1 ( 0 ) {G_1^{(0)}} G1(0)={x1}, G 2 ( 0 ) {G_2^{(0)}} G2(0)={x2,x3,x4}, G 3 ( 0 ) {G_3^{(0)}} G3(0)={x5}。

STEP3重新计算各类的重心,以其作为新的凝聚点
三类重心分别为:1,5.3,11
STEP4 重新确定各样品归属的类别:
G 1 ( 1 ) {G_1^{(1)}} G1(1)={x1}, G 2 ( 1 ) {G_2^{(1)}} G2(1)={x2,x3,x4}, G 3 ( 1 ) {G_3^{(1)}} G3(1)={x5}

若与上一次分类的结果不同,需要继续计算各类的重心,重新分类。可以看到这次的分类结果与上一次相同,因此算法终止,聚类结果为 G 1 {G_1} G1={x1}, G 2 {G_2} G2={x2,x3,x4}, G 3 {G_3} G3={x5}。

例三

[应用多元统计分析(高惠璇版)6-3]
系统聚类法——最长距离、类平均法
在这里插入图片描述


系统聚类法基本思想 :设有n个样品,每个样品m项指标。首先将n个样品视为n类,计算类间距离(此时类间距离与样品间距离是等价的),选取 距离最近 的两类合并成新类,并计算新类与其他类的距离,再按最小距离原则并类,每次合并一类直至所有样品都并成一类。

最长距离法

最长距离法和最短距离法的本质是一样的,计算类与类的距离时使用下面的公式:
在这里插入图片描述
STEP1从初始矩阵出发,选择类间距离最小的合并为一类,即并类距离 D 1 {D_1} D1=1
合并x1和x4,记CL4={x1,x4},画出距离矩阵 D ( 1 ) {D^{(1)}} D(1)
其他类 x i {x_i} xi(i=2、3、5)到CL4的距离为: x i {x_i} xi到x1的距离与 x i {x_i} xi到x4的距离中最大的那个
D ( 1 ) {D^{(1)}} D(1)= [ x 2 x 3 x 5 C L 4 x 2 0 x 3 9 0 x 5 3 5 0 C L 4 7 10 8 0 ] \begin{bmatrix} & x2 & x3 & x5& CL4 \\ x2 & 0 & \\ x3 & 9 & 0 \\ x5 & 3 & 5 &0 \\ CL4 & 7 & 10 &8 &0 \end{bmatrix} x2x3x5CL4x20937x30510x508CL40

STEP2同样选择类间距离最小的合并为一类,x2和x5的距离最近,并类距离 D 2 {D_2} D2=3
合并x2和x5,记CL3={x2,x5},画出距离矩阵 D ( 2 ) {D^{(2)}} D(2)
x3到CL4和CL3的距离计算和上面一样

D ( 2 ) {D^{(2)}} D(2)= [ x 3 C L 4 C L 3 x 3 0 C L 4 10 0 C L 3 9 8 0 ] \begin{bmatrix} & x3 & CL4 & CL3 \\ x3 & 0 & \\ CL4 & 10 & 0 \\ CL3 & 9 & 8 &0 \\ \end{bmatrix} x3CL4CL3x30109CL408CL30

STEP3选择类间距离最小的合并为一类,CL4和CL3的距离最近,并类距离 D 3 {D_3} D3=8
合并CL3和CL4,记CL2={x1,x2,x4,x5},画出距离矩阵 D ( 3 ) {D^{(3)}} D(3)

D ( 3 ) {D^{(3)}} D(3)= [ x 3 C L 2 x 3 0 C L 2 10 0 ] \begin{bmatrix} & x3 & CL2 \\ x3 & 0 & \\ CL2 & 10 & 0 \\ \end{bmatrix} x3CL2x3010CL20

STEP4将所有类合并为一类,CL1={x1,x2,x3,x4,x5},并类距离 D 4 {D_4} D4=10

D ( 4 ) {D^{(4)}} D(4)= [ C L 1 C L 1 0 ] \begin{bmatrix} & CL1 \\ CL1 & 0 & \\ \end{bmatrix} [CL1CL10]

STEP5画出谱系聚类图

在这里插入图片描述

类平均法

类平均法的类间距离计算公式如下
在这里插入图片描述
具体步骤和上面类似,不同的是在计算类间距离的不同。这里使用距离的平方。
STEP1从初始矩阵出发,选择类间距离最小的合并为一类,即并类距离 D 1 {D_1} D1=1
合并x1和x4,记CL4={x1,x4},画出距离矩阵 D ( 1 ) {D^{(1)}} D(1)
其他类 x i {x_i} xi(i=2、3、5)到CL4的距离为:
以x2到CL4的距离为例,其他的同理:
D 2 {D^2} D2= 1 2 {1 \over 2} 21 D 21 2 {D_{21}^2} D212+ 1 2 {1 \over 2} 21 D 24 2 {D_{24}^2} D242= 1 2 {1 \over 2} 21× 4²+ 1 2 {1 \over 2} 21× 7²=65/2

所以可以画出的距离矩阵为:
D ( 1 ) {D^{(1)}} D(1)= [ x 2 x 3 x 5 C L 4 x 2 0 x 3 9 2 0 x 5 3 2 5 2 0 C L 4 65 / 2 136 / 2 100 / 2 0 ] \begin{bmatrix} & x2 & x3 & x5& CL4 \\ x2 & 0 & \\ x3 & 9² & 0 \\ x5 & 3² & 5² &0 \\ CL4 & 65/2 & 136/2 &100/2 &0 \end{bmatrix} x2x3x5CL4x20923265/2x3052136/2x50100/2CL40

STEP2同样选择类间距离最小的合并为一类,x2和x5的距离最近,并类距离 D 2 {D_2} D2=3
合并x2和x5,记CL3={x2,x5},画出距离矩阵 D ( 2 ) {D^{(2)}} D(2)

CL4到CL3的距离计算如下:

D 2 {D^2} D2= 1 2 {1 \over 2} 21 D ( C L 4 ) 2 2 {D_{(CL4)2}^2} D(CL4)22+ 1 2 {1 \over 2} 21 D ( C L 4 ) 5 2 {D_{(CL4)5}^2} D(CL4)52= 1 2 {1 \over 2} 21× (65/2)+ 1 2 {1 \over 2} 21× (100/2)=165/4

D ( 2 ) {D^{(2)}} D(2)= [ x 3 C L 4 C L 3 x 3 0 C L 4 136 / 2 0 C L 3 106 / 2 165 / 4 0 ] \begin{bmatrix} & x3 & CL4 & CL3 \\ x3 & 0 & \\ CL4 & 136/2 & 0 \\ CL3 & 106/2 & 165/4 &0 \\ \end{bmatrix} x3CL4CL3x30136/2106/2CL40165/4CL30

STEP3选择类间距离最小的合并为一类,CL4和CL3的距离最近,并类距离 D 3 {D_3} D3= 165 / 4 \sqrt{165/4} 165/4
合并CL3和CL4,记CL2={x1,x2,x4,x5},画出距离矩阵 D ( 3 ) {D^{(3)}} D(3)

D ( 3 ) {D^{(3)}} D(3)= [ x 3 C L 2 x 3 0 C L 2 121 / 2 0 ] \begin{bmatrix} & x3 & CL2 \\ x3 & 0 & \\ CL2 & 121/2 & 0 \\ \end{bmatrix} x3CL2x30121/2CL20

STEP4将所有类合并为一类,CL1={x1,x2,x3,x4,x5},并类距离 D 4 {D_4} D4= 121 / 2 \sqrt{121/2} 121/2

D ( 4 ) {D^{(4)}} D(4)= [ C L 1 C L 1 0 ] \begin{bmatrix} & CL1 \\ CL1 & 0 & \\ \end{bmatrix} [CL1CL10]

STEP5画出谱系聚类图

在这里插入图片描述


(注:无论用什么系统聚类法,在并类时都是选择类间距离最小的两个类,使用最长距离法/类平均法/···的区别只是在计算类与类之间的距离时不同)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1269676.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深入探索 Vue 响应式原理:数据驱动视图的奥秘

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

原神:夏洛蒂是否值得培养?全队瞬抬治疗量不输五星,但缺点也很明显

作为四星冰系治疗角色,夏洛蒂的实战表现可以说相当让人惊喜。不仅有相当有意思的普攻动作以及技能特效,而且她还有治疗和挂冰等功能性。下面就来详细聊聊夏洛蒂是否值得培养。 【治疗量让人惊喜,但也有缺点】 说实话,在使用夏洛蒂…

第二部分 系统管理篇

文件和目录管理 Linux基础 在Linux操作系统中,一切都是文件。Linux文件是区分大小写的。 Linux文件的拓展名和它的种类没有任何关系 Linux的目录结构为树状结构,顶级的目录为根目录“/”。 文件类型 用file命令查看文件类型 文件操作命令 1.mkdir创…

深度学习框架:Pytorch与Keras的区别与使用方法

☁️主页 Nowl 🔥专栏《机器学习实战》 《机器学习》 📑君子坐而论道,少年起而行之 文章目录 Pytorch与Keras介绍 Pytorch 模型定义 模型编译 模型训练 输入格式 完整代码 Keras 模型定义 模型编译 模型训练 输入格式 完整代…

GoLong的学习之路,进阶,Redis

这个redis和上篇rabbitMQ一样,在之前我用Java从原理上进行了剖析,这里呢,我做项目的时候,也需要用到redis,所以这里也将去从怎么用的角度去写这篇文章。 文章目录 安装redis以及原理redis概念redis的应用场景有很多red…

机器学习笔记 - 3D数据的常见表示方式

一、简述 从单一角度而自动合成3D数据是人类视觉和大脑的基本功能,这对计算机视觉算法来说是比较难的。但随着LiDAR、RGB-D 相机(RealSense、Kinect)和3D扫描仪等3D传感器的普及和价格的降低,3D 采集技术的最新进展取得了巨大飞跃。与广泛使用的 2D 数据不同,3D 数据具有丰…

C# 友元程序集

1.友元程序集 使用友元程序集可以将internal成员提供给其他的友元程序集访问。 程序集FriendTest1.dll [assembly:InternalsVisibleTo("FriendTest2")] namespace FriendTest1 {internal class Friend{string name;public string Name > name;public Friend(str…

删除list中除最后一个之外所有的数据

1.你可以新建一个list List<Integer> listnew ArrayList<>();int i0;while (i<100){list.add(i);}List<Integer> subList list.subList(list.size()-1, list.size());System.out.println("原list大小--"list.size());System.out.println("…

golang channel执行原理与代码分析

使用的go版本为 go1.21.2 首先我们写一个简单的chan调度代码 package mainimport "fmt"func main() {ch : make(chan struct{})go func() {ch <- struct{}{}ch <- struct{}{}}()fmt.Println("xiaochuan", <-ch)data, ok : <-chfmt.Println(&…

基础算法学习

文章目录 快速排序归并排序二分浮点数二分 高精度BigIntegerBigDecimal 前缀和差分双指针位运算离散化区间合并 快速排序 确定分界点x &#xff08;可以是左边界&#xff0c;右边界&#xff0c;中间随机&#xff09;将小于等于x的数放到左边&#xff0c;大于等于x的放右边递归…

Intellij idea 内存不够用了,怎么处理?

目录 如何判断内存不够用了 下面演示一下如何开启内存指示器&#xff08;Memory Indicator&#xff09; 解决方案 第一种&#xff1a;双击"内存指示器(Mempory Indicator)" 第二种&#xff1a;增大Intellij Idea 最大可使用内存 如何判断内存不够用了 运行项目后…

ExoPlayer - Failed to initialize OMX.qcom.video.decoder.avc

人莫鉴于流水而鉴于止水&#xff0c;唯止能止众止 1. 背景 使用ExoPlayer&#xff0c;我不信你没遇到过这个问题&#xff1a; java.lang.IllegalArgumentException: Failed to initialize OMX.qcom.video.decoder.avc 详细内容如下图所示&#xff1a; 2. MediaCodec(解码器) …

渲染到纹理:原理及WebGL实现

这篇文章是WebGL系列的延续。 第一个是从基础知识开始的&#xff0c;上一个是向纹理提供数据。 如果你还没有阅读过这些内容&#xff0c;请先查看它们。 NSDT在线工具推荐&#xff1a; Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - …

快速入门opencv(python版)

Open Source Computer Vision Library。OpenCV是一个&#xff08;开源&#xff09;发行的跨平台计算机视觉库&#xff0c;可以运行在Linux、Windows和Mac OS操作系统上。它轻量级而且高效——由一系列 C 函数和少量 C 类构成&#xff0c;同时提供了Python、Ruby、MATLAB等语言的…

PHP微信UI在线聊天系统源码 客服私有即时通讯系统 附安装教程

DuckChat是一套完整的私有即时通讯解决方案&#xff0c;包含服务器端程序和各种客户端程序&#xff08;包括iOS、Android、PC等&#xff09;。通过DuckChat&#xff0c;站点管理员可以快速在自己的服务器上建立私有的即时通讯服务&#xff0c;用户可以使用客户端连接至此服务器…

CAN网络出现错误帧从哪些方面去分析解决

标题&#xff1a;CAN网络出现错误帧从哪些方面去分析 实例1&#xff1a; 断电重启后&#xff0c;会有错误帧产生。 检查方案&#xff1a; 查看收发模块的初始化、使能是否在发送CAN报文之前完成&#xff1f; 实例2&#xff1a; 周期性报文&#xff0c;有时会冒出一帧错误帧&…

四则计算机实现(C++)(堆栈的应用)

算法要求&#xff1a; 输入一个数学表达式(假定表达式输入格式合法)&#xff0c;计算表达式结果并输出。数学表达式由单个数字和运算符“”、“-”、“*”、“/”、“(、) ”构成&#xff0c;例如 2 3 * ( 4 5 ) - 6 / 4。变量、输出采用整数&#xff0c;只舍不入。 图解算…

MySQL InnoDB Cluster

MySQL InnoDB Cluster 一、InnoDB Cluster 基本概述 MySQL InnoDB Cluster 为 MySQL 提供了一个完整的高可用解决方案。通过使用 MySQL Shell 提供的 AdminAPI,你可以轻松地配置和管理一组至少由3个MySQL服务器实例组成的 InnoDB 集群。 InnoDB 集群中的每个 MySQL 服务器实例…

linux无网络 无ip,显示网络未连接

标题:linux无网络 无ip&#xff0c;显示网络未连接 参考blog&#xff1a;Linux无网络连接问题排查 首先我们发现ens33没有ip地址&#xff0c;说明这个接口并没有被分到ip&#xff1b; 我们可以通过手动方式来给ens33获得网络ip sudo dhclient ens33&#xff0c;之后再输入ifc…

大数据Hadoop-HDFS_元数据持久化

大数据Hadoop-HDFS_元数据持久化 &#xff08;1&#xff09;在HDFS第一次格式化后&#xff0c;NameNode&#xff08;即图中的主NameNode&#xff09;就会生成fsimage和editslog两个文件&#xff1b; &#xff08;2&#xff09;备用NameNode&#xff08;即图中的备NameNode&…