相似度计算方法-编辑距离 (Edit Distance)

news2025/1/11 4:28:01

定义

        编辑距离(Edit Distance),也称为Levenshtein距离,是一种衡量两个字符串相似度的方法。它定义为从一个字符串转换为另一个字符串所需的最少单字符编辑操作次数,这些操作包括插入、删除或替换一个字符。

计算方法

        对于两个字符串 S_1 = (s_{11}, s_{12}, \ldots, s_{1m})S_2 = (s_{21}, s_{22}, \ldots, s_{2n}),编辑距离 d_E(S_1, S_2) 可以通过动态规划的方式计算,其中mn分别是S_1S_2的长度。

        定义一个 (m+1) \times (n+1)的矩阵 D,其中 D[i][j] 表示 S_1 的前 i  个字符到 S_2 的前 j 个字符的编辑距离。

初始化矩阵的第一行和第一列为:

D[i][0] = i \quad \text{for } 0 \leq i \leq m
D[0][j] = j \quad \text{for } 0 \leq j \leq n

动态规划的状态转移方程为:

D[i][j] = \min \left( \begin{array}{c} D[i-1][j] + 1 \\ D[i][j-1] + 1 \\ D[i-1][j-1] + 1_{s_{1i} \neq s_{2j}} \end{array} \right)

其中 1_{s_{1i} \neq s_{2j}} 是指示函数,当  s_{1i} \neq s_{2j} 时返回 1,否则返回 0。

最终的编辑距离为:

d_E(S_1, S_2) = D[m][n]

逻辑解析

        编辑距离可以通过动态规划方法来求解。动态规划的核心是构建一个二维表来存储中间结果,并使用这些中间结果来解决更大的子问题。在这个问题中,我们构建一个矩阵 dp,其中 dp[i][j] 表示字符串S_1 的前 i 个字符到字符串 S_2 的前 j 个字符的编辑距离

        初始化

        初始化矩阵的第一行和第一列,因为要从空字符串转换到任意长度的字符串,只需要相应的插入或删除操作次数。因此,dp[i][0] = i 和 dp[0][j] = j

        动态规划方程

        对于每个 dp[i][j] 的值,我们可以考虑以下情况来决定其值:

  1. 如果 s1[i-1] == s2[j-1],则不需要做任何操作,所以 dp[i][j] = dp[i-1][j-1]
  2. 如果 s1[i-1] != s2[j-1],则可以考虑以下三种操作:
    • 替换:将 s1[i-1] 替换成 s2[j-1],那么 dp[i][j] = dp[i-1][j-1] + 1
    • 删除:从 s1 中删除一个字符,那么 dp[i][j] = dp[i-1][j] + 1
    • 插入:在 s1 中插入一个字符,那么 dp[i][j] = dp[i][j-1] + 1
  3. 如果进入到步骤2,我们肯定选择替换、删除、插入距离最小的一项,即对应上述计算方法中的状态转移方程。
  4. 等迭代计算完成后,最终的答案就是 dp[m][n],其中 mn 分别是字符串 S_1S_2 的长度。

        删除逻辑解析

        对于替换操作来说,理解起来很简单,S_1的前 i-1个字符到S_2的前j-1个字符的编辑距离是dp[i-1][j-1],再加一次替换操作,即是最后的 dp[i][j] = dp[i-1][j-1] + 1。

        当我们考虑从 S_1中删除一个字符时,我们实际上是在比较 S_1 的前 i-1 个字符与 S_2 的前 j 个字符的编辑距离。这意味着我们从 S_1中删除了第 i 个字符。

        在动态规划表 dp 中,dp[i][j] 表示字符串 S_1的前 i 个字符到字符串 S_2 的前 j 个字符的编辑距离。如果我们想从 S_1 中删除一个字符,那么可以这样理解:

  • 我们从 s1 的前 i-1 个字符到 s2 的前 j 个字符的编辑距离 dp[i-1][j] 开始。
  • 然后加上一次删除操作的成本,即 + 1

因此,动态规划方程中的删除操作可以表示为: dp[i][j]=dp[i-1][j]+1

  1. 状态转移

    • dp[i-1][j] 表示从 S_1 的前 i-1 个字符到 S_2 的前 j 个字符的编辑距离。
    • dp[i][j] 表示从 S_1的前 i 个字符到 S_2 的前 j 个字符的编辑距离。
  2. 删除操作

    • 如果我们从 S_1 中删除第 i 个字符,那么 S_1 的前 i 个字符到 S_2 的前 j 个字符的编辑距离就变成了 S_1 的前 i-1 个字符到 S_2 的前 j 个字符的编辑距离加上一次删除操作的成本。
    • 因此,dp[i][j] = dp[i-1][j] + 1

        删除示例

假设我们有两个字符串 s1 = "kitten"s2 = "sitting",我们来计算 dp[1][1] 的值,即从 s1 的前 1 个字符到 s2 的前 1 个字符的编辑距离。

  1. 初始化

    • s1 的前 1 个字符是 "k"
    • s2 的前 1 个字符是 "s"
  2. 删除操作

    • 如果我们从 s1 中删除 "k",那么 dp[1][1] 应该等于 dp[0][1] + 1
    • dp[0][1] 是从空字符串到 "s" 的编辑距离,即 1。
    • 因此,dp[1][1] = 1 + 1 = 2

        插入逻辑解析

        插入操作意味着在字符串 S_1 中插入一个字符以使其更接近字符串 S_2。当我们考虑在 S_1 中插入一个字符时,我们实际上是在比较 S_1 的前 i 个字符与 S_2 的前 j-1 个字符的编辑距离。这意味着我们在 S_1 的末尾插入了 S_2 的第 j 个字符。

        在动态规划表 dp 中,dp[i][j] 表示字符串 S_1 的前 i 个字符到字符串 S_2 的前 j 个字符的编辑距离。如果我们想在 S_1 中插入一个字符,那么可以这样理解:

  • 我们从 S_1  的前 i 个字符到 S_2  的前 j-1 个字符的编辑距离 dp[i][j-1] 开始。
  • 然后加上一次插入操作的成本,即 + 1

        因此,动态规划方程中的插入操作可以表示为: dp[i][j]=dp[i][j-1]+1

  1. 状态转移

    • dp[i][j-1] 表示从 S_1 的前 i 个字符到 S_2的前 j-1 个字符的编辑距离。
    • dp[i][j] 表示从 S_1 的前 i 个字符到 S_2的前 j 个字符的编辑距离。
  2. 插入操作

    • 如果我们在 S_1 的末尾插入 S_2  的第 j 个字符,那么 S_1  的前 i 个字符到 S_2 的前 j 个字符的编辑距离就变成了 S_1 的前 i 个字符到 S_2  的前 j-1 个字符的编辑距离加上一次插入操作的成本。
    • 因此,dp[i][j] = dp[i][j-1] + 1

        插入示例

        假设我们有两个字符串 s1 = "kitten"s2 = "sitting",我们来计算 dp[1][2] 的值,即从 s1 的前 1 个字符到 s2 的前 2 个字符的编辑距离。

  1. 初始化

    • s1 的前 1 个字符是 "k"
    • s2 的前 2 个字符是 "si"
  2. 插入操作

    • 如果我们在 s1 的末尾插入 "s",那么 dp[1][2] 应该等于 dp[1][1] + 1
    • dp[1][1] 是从 "k" 到 "s" 的编辑距离,假设已经计算过为 1。
    • 因此,dp[1][2] = 1 + 1 = 2

代码实现

public class EditDistance {

    public static void main(String[] args) {
        String str1 = "kitten";
        String str2 = "sitting";

        int distance = calculateEditDistance(str1, str2);
        System.out.printf("The edit distance between '%s' and '%s' is: %d\n", str1, str2, distance);
    }

    /**
     * 计算两个字符串之间的编辑距离。
     *
     * @param s1 第一个字符串
     * @param s2 第二个字符串
     * @return 两个字符串之间的编辑距离
     */
    public static int calculateEditDistance(String s1, String s2) {
        int[][] dp = new int[s1.length() + 1][s2.length() + 1];

        // 初始化第一行和第一列
        for (int i = 0; i <= s1.length(); i++) {
            dp[i][0] = i;
        }
        for (int j = 0; j <= s2.length(); j++) {
            dp[0][j] = j;
        }

        // 动态规划填充dp数组
        for (int i = 1; i <= s1.length(); i++) {
            for (int j = 1; j <= s2.length(); j++) {
                int cost = (s1.charAt(i - 1) == s2.charAt(j - 1)) ? 0 : 1;
                dp[i][j] = Math.min(Math.min(dp[i - 1][j] + 1,      // 删除
                                             dp[i][j - 1] + 1),     // 插入
                                    dp[i - 1][j - 1] + cost);    // 替换
            }
        }

        return dp[s1.length()][s2.length()];
    }
}

注意,从代码中可以看出,编辑距离的时间复杂度和空间复杂度都是O(m \times n)

优劣势

优势

  1. 全面考虑编辑操作

    • 编辑距离考虑了三种基本的编辑操作:插入、删除和替换,能够全面地评估字符串之间的差异。
  2. 计算稳定性

    • 编辑距离的计算基于动态规划方法,保证了计算结果的一致性和准确性。

编辑距离的劣势

  1. 时间复杂度

    • 编辑距离的计算复杂度为 O(m\times n),其中 m 和 n 分别是两个字符串的长度。
    • 对于较长的字符串,计算时间可能会较长,编辑距离的计算可能会消耗大量的时间和计算资源。
  2. 不考虑编辑操作的成本

    • 编辑距离默认每种编辑操作的成本相同,但实际上不同类型的编辑操作可能有不同的成本。
    • 例如,在某些应用场景中,替换操作可能比插入或删除操作成本更高。
  3. 不适用于非字符串数据

    • 编辑距离主要用于字符串数据,对于非字符串数据(如数值型数据或图像数据)可能不适用。
  4. 空间复杂度

    • 动态规划方法需要存储一个 (m+1)\times (n+1)的矩阵,这在处理长字符串时可能导致较高的空间复杂度。

应用场景

  1. 拼写检查

    1. 在拼写检查和自动纠错中,编辑距离可用于自动纠正拼写错误,通过查找编辑距离最小的正确单词来纠正输入的单词。

  2. 自然语言处理

    • 在语音识别中,用于比较语音转写的文本与目标文本之间的相似度。
    • 在机器翻译中,用于评估翻译质量或生成候选翻译。
  3. 生物信息学

    • 在DNA或蛋白质序列比对中,用于比较序列之间的相似性。
    • 在基因组学中,用于识别相似的基因序列。
  4. 数据挖掘

    • 在相似文档或网页的检测中,用于比较文本内容的相似度。
    • 在推荐系统中,用于比较用户的兴趣或行为模式。
  5. 软件工程

    • 在版本控制中,用于比较文件版本之间的差异。
    • 在代码审查工具中,用于识别代码片段之间的相似性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2049926.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

圣鑫堂胀气保健油:专为婴幼儿设计

圣鑫堂胀气保健油是一款专为婴幼儿设计的产品&#xff0c;旨在帮助宝宝缓解胀气不适。胀气是宝宝成长过程中常见的问题&#xff0c;由于婴儿的消化系统尚不成熟&#xff0c;容易出现胀气、腹痛等症状。圣鑫堂麻油通过纯天然的中草药成分&#xff0c;温和有效地帮助宝宝排出肠道…

解决电脑(Win10)内存不足问题:设置虚拟内存

文章目录 1. 虚拟内存1.1 介绍1.2 虚拟内存优点1.3 虚拟内存缺点 2. 为什么要修改虚拟内存&#xff1f;3. win10虚拟内存设置多少合适&#xff1f;4. Win10如何设置虚拟内存? 1. 虚拟内存 1.1 介绍 虚拟内存是一种计算机系统内存管理技术&#xff0c;它使得计算机能够使用比…

为什么精英都是时间控.md

作者&#xff1a;桦泽紫苑 一句话读书感想&#xff1a;高效利用时间&#xff0c;高效工作&#xff0c;幸福生活。 不在时间管理上下功夫&#xff0c;人真的会被工作“忙杀” 1.时间管理术四原则 1.1 以专注力为中心对时间分配 灵活运用大脑的黄金时间&#xff0c;将效率提高…

AI视频创作原理

重磅推荐专栏: 《大模型AIGC》 《课程大纲》 《知识星球》 本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域,包括但不限于ChatGPT和Stable Diffusion等。我们将深入研究大型模型的开发和应用,以及与之相关的人工智能生成内容(AIGC)技术。通过深入的技术解析和实践经…

Paimon实战 -- paimon系统表与审计监控

简介 paimon系统表按照元数据的分类&#xff0c;划分了如下10个系统表&#xff0c;通过系统表可以获取paimon表各维度的元数据和消费组信息。通过收集这些元信息&#xff0c;不仅可以排查问题使用&#xff0c;还可以构建统一的paimon元数据管理和消费组管理平台&#xff0c;比如…

远程调用-OpenFeign(二)

目录 1.OpenFeign最佳实践 1.1Feign继承方式 1.1.1创建一个Module 1.1.2引入依赖 1.1.3编写接口 1.1.4打Jar包 1.1.5服务提供方实现接口 1.1.6服务消费方继承接口 1.1.7测试 1.2Feign抽取方式 1.2.1创建一个Module 1.2.2引入依赖 1.2.3编写API 1.2.4打Jar包 1.2.…

mipi协议:Low Level Protocol(2)

前言&#xff1a; 今天继续给大家分享mipi协议中的Low Level Protocol部分内容翻译&#xff01; Packet Header Error Correction code for D-PHY Physical Layer Option: 数据标识符、字数计数和虚拟通道扩展字段的正确解释对于数据包结构至关重要。6位的数据包头错误校正码&…

日拱一卒(4)——leetcode学习记录:路径总和

一、任务&#xff1a; 给你二叉树的根节点 root 和一个表示目标和的整数 targetSum 。判断该树中是否存在 根节点到叶子节点 的路径&#xff0c;这条路径上所有节点值相加等于目标和 targetSum 。如果存在&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 叶…

Systools Outlook PST Recovery Outlook PST邮箱邮件数据修复工具下载

可正常激活使用&#xff0c;非常强大好用的PST邮箱邮件数据文件修复工具 下载地址(资源制作整理不易&#xff0c;下载使用需付费&#xff0c;不能接受请勿浪费时间下载) 链接&#xff1a;https://pan.baidu.com/s/1bfkVNrgdaVS2MkTnW19Zqw?pwdu2sj 提取码&#xff1a;u2sj

Java流程控制09:练习题:打印三角形

本节视频链接&#xff1a;https://www.bilibili.com/video/BV12J41137hu?p44&vd_sourceb5775c3a4ea16a5306db9c7c1c1486b5https://www.bilibili.com/video/BV12J41137hu?p44&vd_sourceb5775c3a4ea16a5306db9c7c1c1486b5 通过嵌套for循环可以实现打印三角形&#xff…

微信答题小程序产品研发-后端开发

在开发答题小程序的后端服务和数据库设计时&#xff0c;需要考虑API的设计、数据库模型的构建以及数据的安全性和一致性。 这里我采用了云开发&#xff0c;后端语言是Node&#xff0c;数据库是NoSql&#xff0c;然后我简单整理了各个功能模块的后端开发概要和数据库设计。 1. …

志愿服务管理系统--论文pf

TOC springboot360志愿服务管理系统--论文pf 第1章 绪论 1.1选题动因 当前的网络技术&#xff0c;软件技术等都具备成熟的理论基础&#xff0c;市场上也出现各种技术开发的软件&#xff0c;这些软件都被用于各个领域&#xff0c;包括生活和工作的领域。随着电脑和笔记本的广…

免费的抓包软件wireshark以及简单使用

官网下载链接 https://www.wireshark.org/download.html 安装成功后直接打开即可使用 点击‘wan’即可使用 抓包信息可以在底部菜单栏查看 过滤之查看‘tcp’类型的&#xff0c;自行输入过滤

【LiteX】【开发板】【BoChenK7】使用Python开发FPGA【Linux】

文章目录 开发板介绍下载仓库环境安装仿真测试上板测试添加targets 工程构建开启TFTP Server 工程测试Linux启动&#xff08;netboot&#xff09;HDMI测试SD Card网络测试TFTP测试Linux启动&#xff08;sdcardboot&#xff09;LiteX工具烧录BIOS烧录&#xff08;好像有问题&…

使用 Hugging Face 和 Milvus 构建 RAG 系统

Milvus 是一个广受欢迎的开源向量数据库&#xff0c;为人工智能应用提供高性能和可扩展的向量相似性搜索。在本教程中&#xff0c;我们将向您展示如何使用 Hugging Face 和 Milvus 构建 RAG&#xff08;检索增强生成&#xff09;流程。 RAG 系统将检索系统与 LLM 相结合。该系统…

CSP-CCF 202206-1 归一化处理

目录 一、问题描述 二、解答 三、总结 一、问题描述 二、解答 代码&#xff1a; #include<iostream> #include<math.h> using namespace std; int main() {double n;//设置成double有利于后续的计算cin >> n;int a[1001] { 0 };int sum 0;for (int i …

嵌入式Linux应用程序开发-1Linux快速入门

1.1 嵌入式Linux基础 1.1.1 Linux发展概述 Linux是指一套免费使用和自由传播的类UNIX操作系统。 1.1.2 Linux作为嵌入式操作系统的优势 1&#xff09;低成本开发系统 2&#xff09;可应用于多种硬件平台 3&#xff09;可定制的内核 4&#xff09;性能优异 5&#xff09;良好…

Intel ACRN 安装WIN10 VM

上一篇帖子记录了ACRN运行rt linux&#xff0c;这篇帖子记录一下最近倒腾出来的WIN10。目前架构如下 ACRN可以把它理解为一个基于Linux类似软件的Type1 Hypervisor&#xff0c;基于Linux去做而不是baremetal是为了更方便去配置资源。 首先我们得有两台电脑&#xff0c;一台是开…

小米手机安装reex本地局域网环境使用webdav协议访问并观看alist挂载的网盘视频和音频记录

文章目录 说明第一步&#xff1a;下载reex第二步&#xff1a;安装reex问题解决&#xff1a;关闭小米应用安全验证 第三步&#xff1a;打开wifi&#xff0c;连接alist webdav服务 说明 这里提供一种小米手机安装reex并在本地局域网环境使用webdav协议访问并观看alist挂载的网盘…

K8S - Secret 的简介和使用

Secret 的定义 Kubernetes&#xff08;k8s&#xff09;中的 Secret 是一种用于存储敏感信息的 Kubernetes 资源对象&#xff0c;如密码、API 密钥、证书等。Secret 被设计为用于安全地存储和管理敏感数据&#xff0c;并且可以通过 Volume 或环境变量的方式将这些数据提供给 Po…