聚类距离度量(保姆级讲解,包学会~)

news2024/11/16 19:50:07

        在机器学习的聚类中,我们通常需要使用距离来进行类的划分,或者比较不同类之间的各种距离,这里我们介绍西瓜书上所提出的一些距离计算方式。

        首先介绍一下距离的一些性质:

西瓜书上给出了四条性质,第一个是非负性,这个好理解,一般来说,距离不会产生负值。下面三条我们结合着例子解释,如下图:

        我们看图,这里我们就采用大家都熟悉的欧式距离来说明,第二条距离为零,那肯定就是一个点的距离,比如图中的A到A的距离;第三条的意思就是A到B的距离等于B到A的距离;第四条就是三角形的两边之和大于第三边,反应到图上就是B到C的距离小于B到A距离加A到C的距离。

        接下来介绍距离公式,如图所示:

第一个公式其实是一个总结的公式,我们令p为2就得到大家熟悉的欧式距离了,至于p为1时的曼哈顿距离,我们看下图:

        图中的绿色线就是欧式距离,蓝线、红线、黄线都是曼哈顿距离,并且它们的距离都相等,这是为什么呢?其实,曼哈顿距离就是两点的横坐标和纵坐标之差再相加,在现实情况中,曼哈顿距离可能会更常用,因为一般情况下两点之间总会有遮挡物,需要避开。

        上述说的都是可以直接对“数”进行计算的,那有些不是数值型变量的,我们又该如何进行计算的呢?比如下图中的变量:

比如图中这种变量的,我们又该如何计算距离?西瓜书中给出了一种方案:

书中的公式看着好复杂呀,那我们先不看公式,我们先看一个例子:

        我们看图中,假设说在颜色这个属性上,有红色和蓝色这两个值,一共有三个分类,我们看,第一个分类里面有七个红色,10个蓝色,红色总数有11个,蓝色总数有17,那在第一个类里面的距离计算就是红色的个数除以红色总数,蓝色的个数除以蓝色总数,就算出来了,以此类推,其他类也是这样,再把所有值相加就得出VDM了。

        现在再回头看上述的公式,是不是就很简单啦?

最后我们再介绍两种变形的公式:

第一个公式就是对于那种既有数值变量也有列名变量混合的计算公式,就是两种公式混合起来。

第二个公式加了一个权重,可能会有某些样本值得重要程度不同,所以加了权重,其实和前面距离计算公式差不多。

ok,这篇就到这里啦,欢迎小伙伴们批评指正~(图片来源于西瓜书和网络)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1864753.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MATLAB-DBO-CNN-SVM,基于DBO蜣螂优化算法优化卷积神经网络CNN结合支持向量机SVM数据分类(多特征输入多分类)

DBO-CNN-SVM,基于DBO蜣螂优化算法优化卷积神经网络CNN结合支持向量机SVM数据分类(多特征输入多分类) 1.数据均为Excel数据,直接替换数据就可以运行程序。 2.所有程序都经过验证,保证程序可以运行。 3.具有良好的编程习惯,程序均…

你的企业“赚钱能力”,银行怎么看?聊聊税贷与票贷背后的门道

大家都听过“税贷”和“票贷”吧?特别是这两年,国家扶持中小微企业,这些名词更是火得不行。但你知道吗,税贷和票贷并不是只看税和票那么简单。今天,咱就来聊聊这背后的门道(最后附上:企业信用贷…

四川赤橙宏海商务信息咨询有限公司一站式抖音电商服务

在数字化浪潮汹涌的当下,电商行业正以前所未有的速度发展,而抖音电商作为其中的佼佼者,更是吸引了无数商家和消费者的目光。在这个充满机遇与挑战的市场中,四川赤橙宏海商务信息咨询有限公司凭借其专业的服务和丰富的经验&#xf…

QCC51XX---开启手机log日志

QCC51XX---系统学习目录_trbi200软件-CSDN博客 目录 1.Vivo 2.华为 3.小米 4.三星 5.oppo 1.Vivo *#*#112#*#* 输入命令后会进入log日志系统(由于版本原因,界面可能不同),打开log开关,log就会在后台自动录制。 点击设置,则可进入图1(右边)的界面,可以导出log,导出…

使用IPXProxy动态住宅代理进行数据采集有哪些优势?

​随着全球化进程的加速,企业在网络信息时代必须利用先进的工具来扩展业务边界。动态住宅代理作为一种高效的网络代理服务,在许多关键业务场景中展现了其独特价值。本文将深入探讨动态住宅代理在数据分析、SEO优化、网络营销等领域的广泛应用&#xff0c…

【权威主办|检索稳定】2024年法律、教育与社会发展国际会议 (LESD 2024)

2024年法律、教育与社会发展国际会议 (LESD 2024) International Conference on Law, Education and Social Development in 2024 【重要信息】 大会地点:成都 官网地址:http://www.iclesd.com 投稿邮箱:iclesdsub-conf.com 【注意&#xff1…

STM32烧写hex及bin文件的五种方法

一.STVP 1.概述 STVP是ST早期的一款下载编程工具,支持早期的ST早期的芯片(比如ST7系列),也支持STM8、 STM32。 该工具虽然相对ST-LINK utility、STM32CubeProg比较老,但该工具官方在2017年还进行了维护,现…

使用SpringBoot整合Servlet

一、SpringBoot和Servlet的整合 1、用注解WebServlet配置Servlet映射 创建一个SpringBoot的web工程,在工程用创建一个Servlet 2、在SpringBoot的启动类上加注解ServletComponentScan 二、额外的方式 1、不使用WebServlet配置Servlet映射 创建一个SpringBoot工…

threejs tween补间动画(七)

1.引入依赖 import * as THREE from three import { OrbitControls } from three/examples/jsm/controls/OrbitControls.js//引入相机轨道控制器 import { GLTFLoader } from three/examples/jsm/loaders/GLTFLoader.js//引入GLTF模型加载器 import { DRACOLoader } from thre…

Cesium入门:Camera的关键知识点

作者: 还是大剑师兰特 ,曾为美国某知名大学计算机专业研究生,现为国内GIS领域高级前端工程师,CSDN知名博主,深耕openlayers、leaflet、mapbox、cesium,canvas,echarts等技术开发,欢迎加微信(gis-dajianshi),一起交流。 查看本专栏目录 - 本文是第 078篇文章 文章目录…

【第十七课】区域经济分析-探索性空间数据分析方法

一、前言 要素的属性及位置是 GIS数据的固有信息。此信息将用于创建视觉上可 进行分析的地图。统计分析有助于从 GIS 数据中提取只靠查看地图无法直接 获得的额外信息,例如各属性值如何分配,数据中是否存在空间趋势或者要素 是否能够形成空间模式。因此…

Zed+AD9361项目独立移植到windows中

首先下载HDL和NO-OS项目 git clone --recursive https://github.com/analogdevicesinc/hdl git clone --recursive https://github.com/analogdevicesinc/no-OS下载完成后需要更换版本,要与ubuntu中下载的vivado版本相同,使用如下命令进行查看版本&…

使用go语言来完成复杂excel表的导出导入

使用go语言来完成复杂excel表的导出导入(一) 1.复杂表的导入 开发需求是需要在功能页面上开发一个excel文件的导入导出功能,这里的复杂指定是表内数据夹杂着一对多,多对一的形式,如下图所示。数据杂乱而且对应不统一。…

原来链表如此简单

由于顺序表(数组)的插入、删除操作需要移动大量的元素,影响了运行效率,因此引入了线性表的链式存储——单链表。单链表通过一组任意的存储单元来存储线性表中的数据元素,不需要使用地址连续的存储单元,因此…

从Multisim到SmartEDA:开启电路设计智能革命

随着科技的飞速发展,电路设计领域也迎来了前所未有的变革。从传统的Multisim软件到新兴的SmartEDA平台,这一转变不仅代表了技术的进步,更预示着电路设计领域即将解锁全新的潜能。 一、Multisim的辉煌与局限 Multisim作为一款经典的电路设计…

比亚迪电池展厅OLED透明屏项目方案

一、项目概述 为满足比亚迪电池展厅在温州地区的现代化展示需求,我们计划于2024年6月实施OLED透明屏项目。该项目旨在通过采用先进的OLED透明屏技术,为展厅提供独特且高效的展示方式,提升观众体验,展示比亚迪电池技术的先进性和创…

「6.25更新日志」JVS·智能BI、逻辑引擎(服务编排)功能更新说明

项目介绍 JVS是企业级数字化服务构建的基础脚手架,主要解决企业信息化项目交付难、实施效率低、开发成本高的问题,采用微服务配置化的方式,提供了 低代码数据分析物联网的核心能力产品,并构建了协同办公、企业常用的管理工具等&am…

使用内部转换处理事件

在异或状态下处理具有内部转换的事件 此示例显示在异或(OR)状态下使用内部转换处理三个事件时会发生什么。 在异或状态下处理一个事件 此示例显示内部转换的行为。该图表使用outgoing转换的隐式排序。 起初,图表处于休眠状态。状态A处于活…

计算机毕业设计Thinkphp/Laravel+vue高校图书馆借阅系统_i0521

图书馆借阅系统,主要的模块包括首页、个人中心、会员管理、会员等级管理、图书分类管理、图书信息管理、图书借阅管理、借阅服务评价管理、超时费用管理、留言板管理、系统管理等功能。系统中管理员主要是为了安全有效地存储和管理各类信息,还可以对系统…

web课程大作业-科技强国、航天科技

文章目录 概叙科技强国的概述实例分析 代码截图代码连接 概叙 科技强国的概述 一个科技强国在全球范围内具备领先的科技创新能力和竞争力,能够在多个高科技领域内引领创新潮流和技术发展。成为科技强国通常依赖于以下几个关键因素: 经济实力&#xff1…