三种向量相似度计量方法——欧式距离、余弦相似度、皮尔逊相关系数

news2024/11/16 5:36:01

1、欧式距离

欧氏距离在机器学习可以清晰展示不同对象的相似程度。

欧式距离是最直观的距离度量方法之一,它衡量两个点之间的直线距离, 较小的欧式距离意味着较高的相似度。

分类——K近邻算法(KNN):需要对一个新的样本进行分类时,我们会计算新样本与所有训练样本之间的欧氏距离,然后选择距离最近的K个邻居,根据这些邻居的类别来决定新样本的类别。

聚类——K均值聚类(K-means):在聚类问题中,将数据分成不同的组或簇。算法会随机选择一些中心点,然后将每个数据点分配给离它最近的中心点所在的簇。这里的“最近”通常就是指欧氏距离最小。

推荐——有用户的评分数据,并且想知道用户之间的相似性,就可以使用欧氏距离来度量。例如,两个用户对很多物品的评分都很接近,那么他们之间的欧氏距离就小,说明他们的兴趣相似。

维度过多,欧氏距离都很大时,影响算法效果,维度灾难。

2、余弦相似度(Cosine Similarity)

余弦相似度是一种衡量两个非零向量方向之间夹角余弦值的方法, 衡量的是两个向量之间的角度相似度,较大的值意味着更高的相似度。余弦相似度的取值范围[ -1,1 ],其中 1 表示完全相同的方向,-1 表示完全相反的方向,0 表示两个向量正交。

3、皮尔逊相关系数(Pearson Correlation Coefficient)

皮尔逊相关系数用来衡量两个变量之间的线性相关程度。它的取值范围也在 -1 到 1 之间,其中 1 表示完全正相关,-1 表示完全负相关,0 表示没有线性相关性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1989979.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

IIS6 PUT漏洞

一.漏洞描述 IIS Server 在 Web 服务扩展中开启了 WebDAV ,配置了可以写⼊的权限,造成任意⽂件上传 1.1环境搭建 环境 fofa:"IIS-6.0" 本地搭建2003 server 1.2漏洞复现 1.开启 WebDAV 和写权限: 1.3 漏洞复现 使…

随笔(三)——项目代码优化

文章目录 一、数据驱动的优化点0.项目技术1.需求说明2. 优化前3.优化后(复杂版)4.优化后(可读性高版) 二、使用循环遍历,减少if-else1.源代码2. 优化后3. 优点 一、数据驱动的优化点 0.项目技术 vue2 view design …

OpenAI 推出 gpt-4o-2024-08-06 模型 解析结构化输出功能 附体验平台

人工智能技术的边界再次被突破,OpenAI 社区迎来了 gpt-4o-2024-08-06 模型的问世,这不仅是一次技术的飞跃,更是对智能助手功能和可靠性的一次全面革新。 技术革新:gpt-4o-2024-08-06 模型的诞生 gpt-4o-2024-08-06 模型是 OpenA…

【深度学习】用Pytorch完成MNIST手写数字数据集的训练和测试

模型训练相关 思路: 导入数据集(对数据集转换为张量)加载数据集(使数据集成为可以进行迭代)搭建卷积模型进行模型训练(每训练一轮查看一次在测试集上的准确率)使用tensorboard进行可视化保存训…

MySQL3 DQL数据查询语言

DQL SQL-DQL重要地位简单查询selectjia简单查询数据准备别名(AS)消除重复行(DISTINCT去重)算数运算符0.优先级1.算数运算符2.比较运算符3.逻辑运算符4.位运算符 空值空值参与运算 条件查询普通条件查询特殊比较运算符BETWEEN...AND...INLIKEIS NULLleast,greatest运…

Unity补完计划 之 SpriteEditer SingleMode

本文仅作笔记学习和分享,不用做任何商业用途 本文包括但不限于unity官方手册,unity唐老狮等教程知识,如有不足还请斧正 因为unity不只是3d需要,还有2d游戏需要大量编辑处理图片素材,所以需要了解Sprite(精灵…

ASC格式的协议数据解析

函数来自RTT的AT组件 - at_client.c 例如,数据是 CGREG: 0,1,通过at_resp_parse_line_args_by_kw把1赋予link_stat。 简化从AT响应中提取信息的过程,使得编写与硬件通信的代码更加简洁和易于维护。 这么提数据也太方便了 at_resp_parse_l…

结构体练习作业

作业一:结构体数组存储学生信息(姓名,年龄,分数),完成输入学生信息,输出学生信息,求学生成绩之和,求最低学生成绩。 .h文件 main.c .c文件 输入信息 输出信息 平均值 最低值 作业二:在堆区,申…

STC-ISP升级MCU

STC-ISP升级mcu步骤: 1、RS232线连接电脑,芯片型号选择STC8H8K64U 2、波特率选择115200 3、IRC频率选择24MHz 4、设置EEPROM大小为64K 如下图设置: 插上RS232选择相应的COM口: 我这里的COM口是COM5. 打开程序文件&#xff1…

揭秘Redis的“隐藏武器”:跳跃表的原理与应用

1. 引言 1.1 Redis的快速崛起 Redis,全名为Remote Dictionary Server,是一个开源的高性能键值对存储系统,它提供了多种类型的数据结构,如字符串、列表、集合、有序集合等。由于其高性能、持久化选项以及丰富的特性,Re…

【已解决】如何获取到DF数据里最新的调薪时间,就是薪资最高且时间最早?

问题说明: 前几天在Python最强王者交流群【群除我佬】问了一个Pandas处理的问题,这里拿出来给大家分享下。 看上去不太好理解,其实说白了,就是在工资最高里,再找时间最早的。 换句话说就是,这三个人&…

益九未来CEO曾宪军:创新引领,打造智能售货机行业新标杆

在智能零售行业迅速发展的今天,益九未来(天津)科技发展有限公司正以其创新精神和前瞻性的战略布局,引领着智能售货机市场的潮流。而这一切的背后,离不开总经理(CEO)曾宪军先生的卓越领导和远见卓…

人类预期寿命数据-1960至2022年(世界各国与中国各省)

数据简介:人类预期寿命是指在特定年龄出生的人群,按照当前的死亡率水平,预期平均能够存活的年数。预期寿命衡量一个国家和地区卫生健康状况、社会经济发展水平和生活条件的重要参数,这次数据包含世界各国(1960-2022年&…

代理IP类型详细解析:那么多种协议的代理如何选?

代理IP已经成为跨境业务的得力工具,但是仍有许多新手小白在初次接触到代理IP服务商时,不知道具体如何选择代理IP类型,面对五花八门的代理类型名称,往往需要付出一定的试错成本才知道哪个适合自己的业务。今天就来给大家科普科普&a…

深度学习中的规范化-层规范化

文章目录 层规范化层规范化参数与公式normalized_shape传入一个整数接口函数LayerNorm计算手动计算 normalized_shape传入一个列表接口函数LayerNorm计算手动计算 层规范化 在批量规范化这篇文章里详细介绍了批量规范化在卷积神经网络里的使用,本篇文章将继续介绍另…

LVS中NAT模式和DR模式实战讲解

1DR模式 DR:Direct Routing,直接路由,LVS默认模式,应用最广泛,通过为请求报文重新封装一个MAC首部进行 转发,源MAC是DIP所在的接口的MAC,目标MAC是某挑选出的RS的RIP所在接口的MAC地址;源 IP/PORT&#xf…

C++:auto关键字、内联函数、引用、带默认形参值的函数、函数重载

一、auto关键字 在C中,auto关键字是一个类型说明符,用于自动类型推导。 使用 auto 关键字时,变量的类型 是在编译时由编译器 根据 初始化表达式 自动推导出来的。这意味着你 不能在 声明 auto 变量时 不进行初始化 声明 auto 变量时&#x…

“八股文”:是助力还是阻力?

在程序员面试中,“八股文”是一个绕不开的话题。所谓“八股文”,指的是那些在面试中经常出现的标准问题及其答案,例如“解释一下死锁的概念”、“CAP理论是什么”等。这些内容通常被求职者反复练习,以至于变成了某种固定的模式或套…

分享6类10种政务AI大模型应用场景

大模型是指具有大规模参数和复杂计算结构的机器学习模型。这些模型通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数。大模型的设计目的是提高模型的表达能力和预测性能,能够处理更加复杂的任务和数据。大模型在各种领域都有广泛的应用&#xff0…