聚类算法概要及相关知识准备

news2025/2/23 14:38:25

聚类的概念

聚类分析是在数据中发现数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好。
将物理或抽象对象的集合分成由类似对象组成的多个类或簇(cluster)的过程被称为聚类(Clustering)。由聚类所生成的簇是一组数据对象的集合,这些对象与同一簇中的对象相似度较高,与其他簇的对象的相似度较低。相似度是根据描述对象的属性值来度量的,距离是采用度量的方式。
在这里插入图片描述相同点集的不同聚类方法
相同点集的不同聚类方法

类的度量方法

常用的类的度量方法有2种,即距离和相似系数。距离用来度量样品之间的相似性,相似系数用来度量变量之间的相似性。

距离

欧式距离

定义在两个向量(两个点)上:点X和Y的欧式距离为:
在这里插入图片描述

闵可夫斯基距离

两个向量(点)的p阶距离:
在这里插入图片描述
当p=1 时就是曼哈顿距离,p=2 时就是欧式距离。

马氏距离

定义在2个向量(两个点)上,这2个点在同一分布里,点 x和 y的马氏距离为

其中, 是这个分布的协方差。
当 时,马氏距离退化为欧式距离。

海明威距离

定义:在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。即属性值相同,为0;属性值不同,为1。对应的分类属性 的海明威距离为:

在这里插入图片描述

混合距离

对于数据 和 的混合距离为:
在这里插入图片描述
其中,前p个为数值变量,后m-p个为分类变量。

相似度

两个n维向量X和Y,余弦相似性由点积和向量长度给出,如下所示:
在这里插入图片描述

余弦相似度

两个n维向量X和Y,余弦相似性由点积和向量长度给出,如下所示:
在这里插入图片描述

皮尔逊相关系数

假设有两个变量X、Y,那么两变量间的皮尔逊相关系数可通过以下公式计算:
在这里插入图片描述

斯皮尔曼相关系数

在这里插入图片描述

离散属性的相关性

假设有2个变量X,Y。则它们之间的相关系数为:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2847.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot+Vue的社区疫情防控管理系统|基于Python+Django的社区物资采购系统

💖💖作者:IT跃迁谷毕设展 💙💙个人简介:曾长期从事计算机专业培训教学,本人也热爱上课教学,语言擅长Java、微信小程序、Python、Golang、安卓Android等。平常会做一些项目定制化开发…

Cookie使用详解

Cookie使用详解 目录Cookie使用详解理论知识前言创建Cookiecookie 的属性介绍name 、valuedomainpathExpires 、Max-AgeSameSiteSecure,HttpOnlyCookie与跨域、安全知识点小结实践相关配置修改代码实践实验过程记录其它小结理论知识 前言 HTTP Cookie(…

使用Charles和iPhone进行微信小程序抓包详解

基于工作原因,需要对一款微信小程序进行测试。本次任务是纯黑盒方式,所以只有通过抓包的方式找到接口及参数列表,再逐一进行功能和性能测试。 一、使用工具 网络抓包工具:Charles 设备:iPhone6s,iPhone1…

数据分析 | Pandas 200道练习题,每日10道题,学完必成大神(8)

文章目录前期准备1. 将收盘价5日均线,20日均线与原始数据绘制在同一个图上2. 按周为采样规则,取一周收盘价的最大值3. 绘重制采样数据与原始数据4. 将数据往后移动5天、5. 将数据向前移动5天6. 使用expending函数计算开盘价的移动窗口的均值7. 绘制上一题…

牛客刷题系列(汽水瓶,跳台阶扩展问题,斐波那契凤尾)

牛客刷题系列一:汽水瓶题目链接常规写法简便写法二.跳台阶扩展问题三:斐波那契凤尾很多小伙伴为了刷题发愁 今天为大家推荐一款刷题神奇哦:刷题面试神器牛客 各大互联网大厂面试真题。从基础到入阶乃至原理刨析类面试题 应有尽有,…

云IDE介绍——CSDN开发云

云IDE产品介绍云IDE使用教程 免费使用地址:点击【云IDE】,即可开始创建工作空间啦~ 作者简介:一名在校云计算网络运维学生、每天分享网络运维的学习经验、和学习笔记。 座右铭:低头赶路,敬事如仪 个人主页&#xf…

【学习笔记之数据结构】时间复杂度与空间复杂度

一、算法效率 算法在编写成可执行程序后,运行时需要耗费时间资源和空间(内存)资源。因此衡量一个算法的好坏,一般是从时间和空间两个维度来衡量的,即时间复杂度和空间复杂度。   时间复杂度主要衡量一个算法的运行快…

2022年音视频面试题 C/C++/Linux/FFmpeg/webRTC/rtmp/hls/rtsp/ffplay/srs

1)OpenGL 是按照什么架构设计的? OpenGL 的渲染架构是 Client/Server 模式:Client(客户端)指的是我们在 CPU 上运行的一些代码,比如我们会编写 OC/C/Java 代码调用 OpenGL 的一些 API;而 Server…

mybatis学习(1)

使用mybatis也是有一段时间了,但是一直没有系统了解和学习,最近正好有空,索性花点时间熟悉下。 为什么是mybatis? 了解mybatis之前,需要知道什么是"数据库持久层",我的理解,就是将数…

Decoder与Encoder重要组件

Decoder与Encoder重要组件 大家知道,Netty从底层Java通道读到ByteBuf二进制数据,传入Netty通道的流水线,随后开始入站处理。在入站处理过程中,需要将ByteBuf二进制类型,解码成Java POJO对象。这个解码过程&#xff0c…

【Python基础篇020】网络编程初识

文章目录 🦠一、前言 🦠二、软件开发架构 🍀2.1、C/S架构 🍀2.2、B/S架构 🍀2.3、服务端与客户端 🦠三、ip与端口号 🍀3.1、IP地址与端口号常识 🍀3.2、MAC和IP的概念与不同…

实际应用效果不佳?来看看提升深度神经网络泛化能力的核心技术(附代码)

目录 数据增强 📌 技术介绍 📌 手动数据处理&增强 📌 基于 TensorFlow 的数据增强 Dropout 随机失活 📌 技术介绍 📌 基于TensorFlow应用Dropout 💡 L1 和 L2 正则化 📌 技术介绍 …

Mybatis日志框架

文章目录一、 用日志打印代替sout1、sout有什么问题①问题1:I/O影响性能②问题2:无法统一管理③问题3:显得你很low2、使用日志框架的好处①设定级别,统一管理②灵活指定输出位置③自定义日志格式④基于日志分析问题二、最佳用法1、…

设计模式之【单例模式】全解,单例模式实现方式,暴力打破单例模式与解决方案,你真的认识单例模式吗?

文章目录什么是单例模式单例模式的应用场景处理有线程冲突的资源表示全局唯一类单例模式的实现方式1、饿汉式之静态常量2、饿汉式之静态代码块3、懒汉式之线程不安全方式(不推荐)4、懒汉式之加锁方式(不推荐)5、懒汉式之双重锁检查…

波司登的高端化后遗症

(题图) 文|螳螂观察 作者| 青月 受“三重”拉尼娜现象的影响,2022年冬天可能会因为阶段性冷空气的影响出现阶段性低温,且极端寒潮爆发的可能性大。 极端天气越来越多,年年冷冬,有望催化以羽绒服为代表的…

【uni-app从入门到实战】打包

小程序打包发布 1、小程序的打包发布很简单,只需要将程序运行到微信开发者工具中,然后点击右上角的上传按钮即可 我们这里的上传按钮不能点击是因为没有配置微信小程序AppID 打开项目的 manifest.json,选中微信小程序配置,填入微…

Java并发编程——线程间通信

线程间通信一、volatile 关键字二、等待/通知机制三、管道通信四、Thread.join一、volatile 关键字 为什么volatile关键字可以?因为之前说过了,此关键字能保证变量的可见性,也就是说变量一旦被修改,立马能被其他线程所感知 例子如…

拓端tecdat|R语言代做泰坦尼克号随机森林模型案例数据分析

全文链接:http://tecdat.cn/?p4281 原文出处:拓端数据部落公众号 视频:从决策树到随机森林:R语言信用卡违约分析信贷数据实例 从决策树到随机森林:R语言信用卡违约分析信贷数据实例,时长10:11 如果我们对…

Linux:环境变量

基本概念 环境变量一般是指在操作系统中用来指定操作系统运行环境的一些参数。 环境变量通常具有某些特殊用途,通常具有全局特性,可以被子进程继承下去 常见的环境变量 PATH : 指定命令的搜索路径 HOME : 指定用户的主工作目录(即用户登陆到Linux系统中…

[Linux]----文件操作(复习C语言+文件描述符)

文章目录前言一、基础概念二、回顾C语言2.1 对文件进行写操作2.2 追加写文件2.3 读文件2.4 简易cat功能总结stdin&stdout&stderr打开文件的方式三、系统文件I/O接口介绍open介绍使用open接口closewriteread四、文件描述符先验证0,1,2就是标准的IO标准输入流标准输出流标…