相似度计算方法

news2025/1/23 3:52:11

一、相似度计算方法

相似度算法是计算两个或多个对象之间相似程度的方法,这些对象可以是文本、图像、音频等不同类型的数据。在计算机科学、信息检索、推荐系统、数据挖掘等领域中,相似度算法具有广泛的应用。

在这里插入图片描述

二、应用场景

  • 搜索引擎:用于文本相似度计算,改善搜索结果的相关性。
  • 推荐系统:基于用户行为和兴趣相似度计算,提供个性化推荐。
  • 图像识别:比较图像的相似度,用于图像搜索和匹配。
  • 音频处理:用于语音识别和声音相似性比较。

三、距离函数

3.1 明可夫斯基(Minkowski)距离

对于任意样本对象 P = [ p 1 , p 2 , . . . , p n ] P=[p_1,p_2,...,p_n] P=[p1,p2,...,pn] Q = [ q 1 , q 2 , . . . , q n ] Q=[q_1,q_2,...,q_n] Q=[q1,q2,...,qn],它们之间的距离定义为
d ( P , Q ) = ( ∑ i = 1 n ( p i − q i ) 2 ) 1 k d(P, Q) = ({\sum_{i=1}^{n} (p_i - q_i)^2} )^{\frac{1}{k}} d(P,Q)=(i=1n(piqi)2)k1
k = 1 k=1 k=1时,即为曼哈顿(Manhattan)距离(L1距离),在某些特定的机器学习场景中,如Lasso回归(L1正则化),曼哈顿距离(或L1范数)被用作正则化项,以促进稀疏解的产生。定义如下:
d ( P , Q ) = ∑ i = 1 n ∣ p i − q i ∣ d(P, Q) = {\sum_{i=1}^{n} |p_i - q_i}| d(P,Q)=i=1npiqi
k = 2 k=2 k=2时,即为欧氏(Euclidean)距离(L2距离), 在聚类算法(如K-means)、分类算法(如K-NN)中,欧氏距离常被用作衡量样本之间相似度的指标。定义如下:
d ( P , Q ) = ∑ i = 1 n ( p i − q i ) 2 d(P, Q) = \sqrt {\sum_{i=1}^{n} (p_i - q_i)^2} d(P,Q)=i=1n(piqi)2
k = ∞ k=\infty k=时,即为切比雪夫(Chebyshev)距离
d ( P , Q ) = max ⁡ ∣ ( p i − q i ) ∣ ( 1 ⩽ i ⩽ n ) d(P, Q) =\max|(p_i - q_i)| (1⩽i⩽n) d(P,Q)=max(piqi)(1in)

3.2 马氏(Mahalanobis)距离

Mahalanobis距离考虑了属性之间的相关性,可以更加准确地衡量多维数据之间的距离。Mahalanobis距离是对Minkowski距离的改进,对于一切线性变换是不变的,克服了Minkowski距离受量纲影响的缺点,也部分地克服了多重相关性。Mahalanobis距离在分类算法中比较常用,但不足在于协方差矩阵难以确定,计算量比较大,不适合大规模数据集。公式如下:
d = ( p − q ) T A − 1 ( p − q ) d=(p-q)^TA^{-1}(p-q) d=(pq)TA1(pq)
其中, A A A n × n n×n n×n的协方差矩阵, A − 1 A^{−1} A1为协方差矩阵的逆。

3.3 汉明(Hamming)距离

汉明距离是指两个等长字符串在对应位置上不同字符(或比特)的数量。简单来说,它表示将一个字符串转换成另一个字符串所需替换的字符数。
d ( a , b ) = ∑ i = 1 n ( a i ≠ b i ) d(a,b)=\sum_{i=1}^{n}(a_i \neq b_i) d(a,b)=i=1n(ai=bi)
其中, n n n是字符串的长度, a i a_i ai b i b_i bi分别表示字符串 a a a b b b中第 i i i个位置的字符。如果 a i a_i ai b i b_i bi不相等,则求和项为1;否则为0。最终求和的结果即为两个字符串的汉明距离。例如,在特征匹配算法中,可以将图像的特征描述为二进制字符串,并使用汉明距离来衡量不同特征之间的相似度。

四、相似度(系数)

4.1 余弦相似度(Cosine Similarity)

余弦相似度是通过计算两个向量在多维空间中的夹角余弦值来评估它们的相似度。余弦相似度的取值范围是[-1, 1],夹角越小(即余弦值越接近于1),两个向量越相似。
cos ⁡ ( θ ) = a ⋅ b ∥ a ∥ ∥ b ∥ = ∑ i = 1 n ( a i b i ) ∑ i = 1 n a i 2 ∑ i = 1 n b i 2 \cos(\theta) = \frac{a \cdot b}{\|a\| \|b\|} = \frac{\sum_{i=1}^{n} (a_i b_i)}{\sqrt{\sum_{i=1}^{n} a_i^2} \sqrt{\sum_{i=1}^{n} b_i^2}} cos(θ)=a∥∥bab=i=1nai2 i=1nbi2 i=1n(aibi)
其中, a ⋅ b a⋅b ab 表示向量 a a a和向量 b b b的内积, ∣ ∣ a ∣ ∣ ||a|| ∣∣a∣∣ ∣ ∣ b ∣ ∣ ||b|| ∣∣b∣∣ 分别表示向量 a a a和向量 b b b的模(长度)

4.2 皮尔逊相关系数(Pearson Correlation Coefficient)

相关系数是对向量做标准差、标准化后的夹角余弦,表示两个向量的线性相关程度。
用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。皮尔逊相关系数具有平移不变性和尺度不变性,计算出了两个向量(维度)的相关性。
C o r r ( p , q ) = ∑ i n ( ( p i − p ˉ ) × ( q i − q ˉ ) ) ( ∑ i n ( p i − p ˉ ) 2 × ∑ i n ( q i − q ˉ ) 2 ) Corr(p,q)=\frac{\sum_{i}^{n}((p_i-\bar{p})\times(q_i-\bar{q}))}{\sqrt{(\sum_{i}^{n}(p_i-\bar{p})^2\times\sum_{i}^{n}(q_i-\bar{q})^2)}} Corr(p,q)=(in(pipˉ)2×in(qiqˉ)2) in((pipˉ)×(qiqˉ))
其中, n n n是样本量, p i p_i pi q i q_i qi分别是两个变量的第 i i i个特征值, p ‾ \overline{p} p q ‾ \overline{q} q分别是 p p p q q q的样本均值。

4.3 杰卡德相似系数(Jaccard Similarity Coefficient)

广义Jaccard系数又称为Tanimoto系数,用 E J EJ EJ表示,广泛用于信息检索和生物学分类中,在二次元性情况下简化为Jaccard系数。
E J ( p , q ) = ∑ i n p i × q i ∑ i n ( p i 2 ) ∑ i n ( q i 2 ) − ∑ i n ( p i × q i ) EJ(p,q)=\frac{\sum_{i}^{n}p_i\times q_i}{\sum_{i}^{n}({p_i}^2)\sum_{i}^{n}({q_i}^2)-\sum_{i}^{n}(p_i\times q_i)} EJ(p,q)=in(pi2)in(qi2)in(pi×qi)inpi×qi

4.4 KL散度

KL散度(Kullback-Leibler Divergence),即相对熵,是衡量两个分布(P、Q)之间的距离,计算出的距离越小越相似。
D K L ( p ∣ ∣ q ) = ∑ i = 1 n p i l o g p i q i D_{KL}(p||q)=\sum_{i=1}^{n}p_i log\frac{p_i}{q_i} DKL(p∣∣q)=i=1npilogqipi
表示的就是概率 q q q 与概率 p p p 之间的差异,很显然,散度越小,说明概率 q q q 与概率 p p p 之间越接近,那么估计的概率分布于真实的概率分布也就越接近。

4.5 结构相似性指数(Structural Similarity Index, SSIM)

结构相似性指数(Structural Similarity Index, SSIM)是一种用于衡量两幅图像之间相似度的指标。它通过比较图像的亮度、对比度和结构信息来确定两幅图像之间的相似程度。SSIM指数的取值范围是0到1之间,其中:1表示两幅图像完全相同,0表示两幅图像差异极大。

SSIM主要由以下三个方面组成:

  1. 亮度相似度(Luminance Similarity):反映了两幅图像的亮度信息是否一致。
  2. 对比度相似度(Contrast Similarity):反映了两幅图像的对比度信息是否一致。
  3. 结构相似度(Structure Similarity):反映了两幅图像的结构信息是否一致。

SSIM的计算公式为:

SSIM ( x , y ) = ( 2 μ x μ y + c 1 ) ( 2 σ x y + c 2 ) ( μ x 2 + μ y 2 + c 1 ) ( σ x 2 + σ y 2 + c 2 ) \text{SSIM}(x,y) = \frac{(2\mu_x\mu_y + c_1)(2\sigma_{xy} + c_2)}{(\mu_x^2 + \mu_y^2 + c_1)(\sigma_x^2 + \sigma_y^2 + c_2)} SSIM(x,y)=(μx2+μy2+c1)(σx2+σy2+c2)(2μxμy+c1)(2σxy+c2)

其中, x x x y y y 是待比较的两幅图像, μ x \mu_x μx μ y \mu_y μy 分别是 x x x y y y 的均值, σ x \sigma_x σx σ y \sigma_y σy 分别是 x x x y y y 的标准差, σ x y \sigma_{xy} σxy x x x y y y 的协方差。 c 1 c_1 c1 c 2 c_2 c2 是两个常数,用于避免分母为0,并调整结构相似度的范围。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1965580.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

实验3-2 计算符号函数的值

//实验3-2 计算符号函数的值#include <stdio.h> #include <math.h>int main() {int n 0;scanf("%d",&n);int sign;if(n > 0)sign1;else if(n < 0)sign-1;else sign0;printf("sign(%d) %d", n, sign); }

0731作业+梳理

一、作业 1.用两个进程完成拷贝 代码&#xff1a; #include<myhead.h> //定义一个求文件长度函数 int line(const char *pd1,const char *pd2) { int fd1 -1; int fd2 -1; //以只读形式打开源文件 if((fd1 open(pd1,O_RDONLY))-1) { p…

人最大的内耗,是不肯放过自己

你是否也有过这样的经历&#xff1a; 对别人漫不经心的一句话就琢磨很久&#xff0c;生怕产生隔阂&#xff1b;对自己曾经犯过的错误念念不忘&#xff0c;始终无法释怀&#xff1b;工作里出现一点小失误&#xff0c;便整宿翻来覆去难以入眠......每天陷在迷茫、焦虑、恐慌的情…

matlab 2022a 安装教程

下载安装包 &#xff0c;多个压缩包&#xff0c;依次解压 第一步 第二步 2、输入文件安装密钥&#xff1a;“50874-33247-14209-37962-45495-25133-28159-33348-18070-60881-29843-35694-31780-18077-36759-35464-51270-19436-54668-35284-27811-01134-26918-26782-54088” 50…

二百四十九、Linux——修改ulimit限制数量:打开文件的最大数量和用户进程的最大数量

一、目的 在安装OceanBase时脚本报错 [ERROR] OBD-1007: (127.0.0.1) The value of the ulimit parameter "open files" must not be less than 20000 (Current value: 1024), Please execute echo -e "* soft nofile 20000\n* hard nofile 20000" >&…

TiDB系列之:TiCDC同步TiDB数据库数据到Kafka集群Topic

TiDB系列之&#xff1a;TiCDC同步TiDB数据库数据到Kafka集群Topic 一、Changefeed 概述Changefeed 状态流转操作 Changefeed 二、同步数据到Kafka创建同步任务&#xff0c;复制增量数据 KafkaSink URI 配置 kafka最佳实践TiCDC 使用 Kafka 的认证与授权TiCDC 集成 Kafka Connec…

移动硬盘有盘符却难启?数据恢复全攻略

现象解析&#xff1a;移动硬盘有盘符打不开的谜团 在日常的数字生活中&#xff0c;移动硬盘作为数据存储与传输的重要工具&#xff0c;扮演着不可或缺的角色。然而&#xff0c;当用户遇到移动硬盘在系统中显示盘符却无法正常访问的情况时&#xff0c;无疑会令人感到焦头烂额。…

hackme漏洞打靶

1.安装好靶机后点击启动进入这样的一个页面 然后我们就要去找这个靶机的IP地址&#xff0c;首先将该虚拟机网卡设置为net模式&#xff0c;然后在物理机中查看自己ip&#xff0c;看看vmnet8的地址c段是什么&#xff0c;我这里是209&#xff0c;然后用工具去扫描该c段下哪个ip开放…

离乡路远,归途已断

首发于我的个人独立博客 guqing’s blog 每次踏上回乡的路&#xff0c;我心中总有一种难以言喻的情感。故乡&#xff0c;那片孕育我成长的土地&#xff0c;依然静静地躺在那儿&#xff0c;似乎未曾改变。 然而&#xff0c;每次回到家乡&#xff0c;我都能感受到微妙的变化&…

探索七款前沿UI设计软件:创新与实践

之前我们分享了制作原型的有用工具。制作完原型后&#xff0c;我们需要优化界面&#xff0c;这就是 UI 设计师的任务了。UI 设计软件对设计师来说非常重要。UI 设计工具的使用是否直接影响到最终结果的质量&#xff0c;所以有人会问&#xff1a;UI 界面设计使用什么软件&#x…

【切面编程】自定义注解实现操作日志

创建一个项目工程 引入相关依赖 <!-- aop切面 --> <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-aop</artifactId> </dependency> <!-- lombok --> <dependency><gro…

24导游证报名照片要求是什么❓整理好了❗

24导游证报名照片要求是什么❓整理好了❗ 导游资格考试今天开始报名啦&#xff01; ⚠️考生们注意&#xff0c;需要上传免冠证件照、身份证扫描件、学历证明等照片信息&#xff01; ⚠️这里需要注意一下上传的照片文件信息规格&#xff0c;否则上传失败&#xff0c;无法完…

中国星坤耳机插座系列:空间与音质的体验升级

在现代电子设备日益普及的今天&#xff0c;耳机插座作为连接音频设备与用户的重要接口&#xff0c;其设计和性能直接影响着用户的听觉体验。中国星坤耳机插座以其精巧的设计和卓越的性能&#xff0c;为用户提供了既节省空间又保证音质的解决方案。本文将探讨星坤耳机插座的特点…

Vue3_对接声网实时音视频_多人视频会议

目录 一、声网 1.注册账号 2.新建项目 二、实时音视频集成 1.声网CDN集成 2.iframe嵌入html 3.自定义UI集成 4.提高进入房间速度 web项目需要实现一个多人会议&#xff0c;对接的声网的灵动课堂。在这里说一下对接流程。 一、声网 声网成立于2014年&#xff0c;是全球…

知乎信息流广告怎么投?一文读懂知乎广告开户及投放!

作为中国领先的问答社区&#xff0c;知乎以其高质量的内容和活跃的用户群体成为了众多品牌青睐的营销阵地。为了帮助企业更高效地利用知乎平台进行品牌推广&#xff0c;云衔科技提供了全方位的知乎广告开户及代运营服务&#xff0c;助力您的品牌在知乎上实现快速增长。 一、知…

提单和提货单有什么区别❓一文读懂‼️

提货单与提单的区别 在国际贸易和物流领域中&#xff0c;提货单&#xff08;D/O&#xff09;和提单&#xff08;B/L&#xff09;是两个关键的单据&#xff0c;它们在货物清关和提货过程中扮演着重要角色。以下是对这两个单据的详细解释和它们之间的区别。 提货单&#xff08;…

pdf文件怎么删除页面?看完就能学会的四种删除pdf页面方法!

pdf文件怎么删除页面&#xff1f;在日常使用PDF文档的过程中&#xff0c;我们时常会遇到一些没必要存在的页面&#xff0c;保留这些页面可能带来多重不利影响&#xff0c;首先它们会打断阅读的流畅性&#xff0c;这会让人在阅读时感到突兀与不适&#xff0c;其次&#xff0c;这…

CentOS7下搭建配置SVN服务器

1、通过yum安装subversion&#xff0c;根据提示完成安装 <span style"color:#333333"><span style"background-color:#f5f5f5">sudo yum install subversion</span></span> subversion安装在/bin目录 <span style"colo…

蓝桥杯 Python 研究生组-2023-省赛-工作时长

蓝桥账户中心https://www.lanqiao.cn/problems/3494/learning/ 问题描述 小蓝手里有一份 20222022 年度自己的上班打卡记录文件&#xff0c;文件包含若干条打卡记录&#xff0c;每条记录的格式均为“yyyy-MM-dd HH:mm:ssyyyy-MM-dd HH:mm:ss”&#xff0c;即按照年-月-日 时:…

专业级翻译解决方案:2024年商务翻译工具精选

现在科技发达了&#xff0c;不会外语也不怕了&#xff08;因为可以借助很多翻译工具解决这个头疼的问题啦&#xff09;。如果说到翻译你想到的还是百度翻译&#xff0c;那你可以拓宽一些翻译工具待用库啦。现在有不少多功能&#xff0c;好用的翻译软件咯。 1.福昕在线翻译 链…