【学习笔记】《模式识别》2:聚类分析

news2025/4/8 11:54:41

聚类分析

文章目录

  • 聚类分析
    • 一、聚类分析的概念
    • 二、相似性的测度
      • 1.距离的四条基本公理
      • 2.欧氏距离(Euclid,欧几里得)--距离
      • 3.马氏距离(Maharanobis)
      • 4.马氏距离与欧氏距离之间的关系
      • 5.明氏距离(Minkowaki)
      • 6.汉明距离(Hamming)
      • 7.角度相似性函数
      • 8.应用举例:计算两个文档的距离
    • 三、聚类准则
      • 1.定义
      • 2.确定聚类准则的两种方式
      • 3.聚类准则函数
    • 四、基于距离阈值的聚类算法
      • 1.近邻聚类法
      • 2.最大最小距离算法(小中取大距离算法 )
    • 五、系统聚类法(层次/分级聚类法)
      • 1.算法介绍
      • 2.类间距离计算准则
    • 参考文献:

一、聚类分析的概念

1.属于非监督分类

2.难点:

  • 特征选择
  • 测量值的量化

二、相似性的测度

1.距离的四条基本公理

  • d(x,y) >= 0,对于任意的x,y∈P(两点之间的距离大于0
  • d(x,y) = 0, 当且仅当x=y(相同输入,距离为0
  • d(x,y) = d(y,x),对于任意的x,y∈P(对称性
  • d(x,y) <= d(x,z) + d(z,y),对于任意的x,y,z∈P(满足三角不等式

2.欧氏距离(Euclid,欧几里得)–距离

在这里插入图片描述

注意:将特征数据标准化,使其与变量的单位无关。

3.马氏距离(Maharanobis)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.马氏距离与欧氏距离之间的关系

在这里插入图片描述

马氏距离的计算是建立在总体样本的基础上的。也就是说,相同的两个样本,如果放入两个不同的总体中,最后计算得出的两个样本之间的马氏距离通常是不相同的。

  • C=I(单位矩阵)时,马氏距离等于欧氏距离。

5.明氏距离(Minkowaki)

在这里插入图片描述

明氏距离适用于多维连续空间中两个点位置的判断。每个空间内的数值必须是连续的。这一类距离定义包括:欧几里得距离(欧氏距离),曼哈顿距离,切比雪夫距离。 而这一族距离的定义,统称为闵可夫斯基距离(明氏距离)。

m取1或2时的明氏距离是最为常用的:

  • m=2即为欧氏距离
  • m=1时则为曼哈顿距离
  • 当m取无穷时的极限情况下,可以得到切比雪夫距离

以2维空间为例,欧氏距离即两点之间的直线距离。曼哈顿距离就是各坐标差的绝对值的和。而切比雪夫距离则是各坐标上差的绝对值的最大值。

明氏距离(曼哈顿距离、欧氏距离和切比雪夫距离)的缺点

  1. 各个分量的单位必须是等价的。如果有量纲不相等的维度,就无法适用。
    举例来说,考虑楼宇内的定位问题:水平方向上的单位是米,垂直方向的单位是”层“,在这种情况下就无法直接使用明氏距离。
    解决办法:需要对数据做正规化
  2. 没有考虑各个分量的分布(期望,方差等)可能是不同的 ;
  3. 各个维度必须是互相独立的,也就是“正交”的。

马氏距离针对上述第1,3个缺点做出了改进。
它是一种有效的计算两个未知样本集的相似度的方法。
与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的),并且是尺度无关的(scale-invariant),即独立于测量尺度。

6.汉明距离(Hamming)

在这里插入图片描述

举例:
d(10010,10000) = 1
d(abcbc,abdab) = 3

7.角度相似性函数

在这里插入图片描述

8.应用举例:计算两个文档的距离

  1. 文本特征向量化
  • 统计各词在文档中是否出现(词集模型)
    OneHot编码向量化文本:只要单个文本中单词出现在字典中,就将其置为1,不管出现多少次。
  • 统计各词在文档中出现次数(词袋模型)
    TF(词频)TF-IDF(词频-逆文档频率)
  1. 计算向量之间的距离

在这里插入图片描述


三、聚类准则

1.定义

根据相似度测度确定的,衡量模式之间是否相似的标准。把不同模式聚为一类还是归为不同类的准则。

2.确定聚类准则的两种方式

  • 阈值准则:根据规定的距离阈值进行分类
  • 函数准则:利用聚类准则函数进行分类

3.聚类准则函数


四、基于距离阈值的聚类算法

1.近邻聚类法

在这里插入图片描述在这里插入图片描述

2.最大最小距离算法(小中取大距离算法 )

在这里插入图片描述在这里插入图片描述


五、系统聚类法(层次/分级聚类法)

1.算法介绍

在这里插入图片描述

2.类间距离计算准则

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

以上距离准则算法需要掌握,有例题


参考文献:

[1]各种距离的归纳和总结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2959.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

4款实用的黑科技软件,白嫖党最爱,功能强大到离谱

闲话少说&#xff0c;直上干货。 1、Dism 这是一款国人研发&#xff0c;免费又好用的电脑优化工具&#xff0c;备受全球电脑爱好者追捧&#xff0c;它解决了系统安装与维护两大痛点问题——自定义设置与优化&#xff0c;相当于给电脑请了免费“保姆”。从系统安装到调校&#x…

LabVIEW基础-VI Scripting

文章目录使用过程前面板界面修改属性节点VI属性无输入时默认当前VI。输入VI引用的静态方法输入VI引用的动态方法获取对象引用从VI获取前面板所有控件的引用设置修饰物的前景色获取选项卡1上所有的数值控件并设置标签前景色从VI获取前面板选项卡的引用-转换为特定的类-获取选项卡…

B+树的插入、删除和分裂,注意国内教材和国外的对于B+树的定义的不同

B树 1 国内教材上B树的定义 一棵 m 阶的B树满足 (考研教材)&#xff1a; 每个非叶子结点最多有 m 棵子树&#xff08;孩子结点&#xff09;根结点至少有2棵子树 (1层除外)&#xff0c;非叶结点至少有 m/2 (向上取整) 棵子树结点的子树的个数与关键字的个数相等: 介于 m/2 (向…

DSL查询文档

目录一、DSL查询语法二、DSL查询分类全文检索查询精确查询地理坐标查询复合查询复合查询——fuction score复合查询——Boolean Query三、搜索结果处理排序分页高亮一、DSL查询语法 DSL Query基本语法 查询成功 二、DSL查询分类 DSL Query的分类 Elasticsearch提供了基于…

【数据结构基础】之树的介绍,生动形象,通俗易懂,算法入门必看

前言 本文为 数据结构基础【树】 相关知识&#xff0c;下边将对树的定义与相关概念&#xff0c;二叉树的定义、特点与性质&#xff0c;二叉树的存储结构&#xff0c;二叉树的遍历&#xff0c;二叉查找树&#xff0c;平衡二叉树&#xff0c;红黑树&#xff0c;B-树与B树等进行详…

六十九、Vue3

Vue3一 Vue3的变化二 创建Vue3项目的两种方式2.1 vue-cl创建2.2 vite创建三 常用API3.1 setup3.2 ref和reactive3.3 计算和监听属性3.4 生命周期3.5 自定义hook函数一 Vue3的变化 性能的提升 打包大小减少41% 初次渲染快55%, 更新渲染快133% 内存减少54% 源码的升级 使用Proxy…

Spring Boot 并行任务,这才是优雅的实现方式!

Spring Boot 的定时任务&#xff1a; 第一种&#xff1a;把参数配置到.properties文件中&#xff1a; 代码&#xff1a; package com.accord.task;import java.text.SimpleDateFormat; import java.util.Date;import org.springframework.scheduling.annotation.Scheduled; …

不会Python迟早失业?Python何以成为找工作必备技能(资料下载)

前言 大数据时代&#xff0c;没听说过Python的人可能很少。&#xff08;文末送福利&#xff09; 未来和data与AI紧密连接的当下&#xff0c;金融公司纷纷改成Fintech&#xff08;financial technology&#xff09;&#xff0c;投行热衷于向科技公司砸钱&#xff0c;就连卖汉堡…

推进生态社会化分工 与伙伴共担未来 数商云受邀出席京东科技合作伙伴论坛

11月1日&#xff0c;2022京东云城市峰会上海站正式启幕。京东科技携手生态伙伴&#xff0c;共聚“合作伙伴论坛”。作为京东集团科技生态的总担当&#xff0c;京东科技秉承“生态社会化分工”理念&#xff0c;与伙伴共担未来。会上&#xff0c;8大场景合作案例依次分享&#xf…

STM32单片机可变频率幅度DDS信号发生器正弦波三角波方波AD9833

实践制作DIY- GC0094-DDS信号发生器 一、功能说明&#xff1a; 基于STM32单片机设计-DDS信号发生器 功能介绍&#xff1a; 硬件组成&#xff1a;STM32F103C系列最小系统板 LCD1602显示器AD9833信号模块4*4矩阵键盘多个按键 1.通过4*4键盘来设定频率值和三角波正弦波的幅度&…

内网搭建图片网站:软件安装配置 1-3

现代的手机功能越来越强大&#xff0c;也让我们能随时随地抓拍有趣瞬间。而照片越来越多&#xff0c;全都存放在手机上并不现实&#xff0c;存在云端又有安全隐患&#xff0c;只能存放在自己的电脑上。而这又带来难以随时与他人分享的问题。不过&#xff0c;我们完全可以在自己…

智能网联赋能汽车品牌全球化 第五届全球汽车发展趋势论坛将召开

当前&#xff0c;全球汽车产业正处于百年未遇的大变革时期&#xff0c;全球汽车产业格局正在重塑&#xff0c;其中&#xff0c;中国汽车产业正在依靠智能化、网联化优势不断加深在全球汽车市场中的影响力&#xff0c;正在迈入高质量发展的新阶段。如何利用智能网联技术以及顺应…

单片机毕业设计 stm32智能婴儿床系统

文章目录1 简介2 项目背景3 设计概要4 设计方案5 硬件清单5.1 stm32主控5.2 OLED显示屏5.3 继电器模块5.4 L298N电机驱动板模块5.5 MAX声音传感模块 一个5.6 Jdy-311蓝牙模块5.7 音乐播放模块6 软件部分设计6.1 声音传感器子函数6.2 声音传感器软件7 实现效果8 关键代码1 简介 …

大数据行业现在工作很难找吗?

工作到底好不好找&#xff0c;市场需求是一方面&#xff0c;更多的还是要看个人成长背景和实际能力~ 抛开两点都不谈就单说好找或者不好找纯属有点耍流氓了~ 大数据开发主要是负责大数据挖掘&#xff0c;大数据清洗处理&#xff0c;大数据建模等&#xff0c;负责大规模数据的处…

C动态内存管理|有张三和如花的故事你心动了吗

C内存管理C程序地址空间为什么存在&#xff1f;1.堆区空间足够大2.堆区空间大小更为灵活动态内存函数mallocfreefree的注意事项内存泄漏没有free和free另外的细节不可对堆区的空间多次释放释放后要对指针置为NULL&#xff0c;避免野指针free(NULL)会有影响吗callocreallocreall…

报表工具怎么选?JAVA开源工具那么好用,为什么大家还花钱买商用

做报表很长时间了&#xff0c;最近发现一个比较奇怪的现象&#xff1a;各家工具使出各种手段做广告、吸引注意力&#xff0c;但是受到程序员热烈追捧的反倒一直是 Jaspereport &#xff0b; ireport 这种免费、开源的 JAVA 工具&#xff0c;几个开了专版讨论 JAVA 报表的论坛里…

场景应用:你知道 i = i++;的含义么?

文章目录引言正文题目原理i i;呢&#xff1f;总结引言 今年面试官小姐姐问了一个灵魂问题&#xff1a;i0; i i;等于多少&#xff1f; 当时人就傻了 当然&#xff0c;面试官小姐姐还是很可爱的&#xff0c;人也很好&#xff0c;让我研究一下&#xff0c;好&#xff0c;那么…

毕业设计 基于CNN实现谣言检测 - python 深度学习 机器学习

文章目录1 前言1.1 背景2 数据集3 实现过程4 CNN网络实现5 模型训练部分6 模型评估7 预测结果8 最后1 前言 Hi&#xff0c;大家好&#xff0c;这里是丹成学长&#xff0c;今天向大家介绍 一个深度学习项目 基于CNN实现谣言检测 1.1 背景 社交媒体的发展在加速信息传播的同时…

多层高速PCB设计学习(一)初探基本知识(附单层设计补充)

目录前言一、常见概念名词科普二、层数的选择三、基本原则二、层叠结构分析电源层和地层耦合各层的种类选择三、元器件布局及布线单层知识点补充前言 简单学会两层板的设计方法&#xff0c;想学习四层板以及多层板的设计方法&#xff0c;立创EDA上有开源的四层板的四旋翼飞机的…

(4)UART应用设计及仿真验证(整体回顾)

在新公司入职以后,第一个小demo就是设计一个UART模块,支持apb2.0,支持中断上报,支持环回,支持有效数据位可配置,支持校验可配置,支持FIFO水位线可配置,支持波特率可配置等等。UART最早是在补习班的时候接触的,当时学习地很吃力,对它地理解不算深刻。当时实现的只有发…