KMP 字符串匹配详解

news2024/12/15 20:02:18

一、KMP 的作用

KMP 用于解决字符串匹配问题,当出现字符串不匹配时,可以知道一部分之前已经匹配的文本内容,可以利用这些信息避免从头再去做匹配了。

二、题目

链接:28. 找出字符串中第一个匹配项的下标 - 力扣(LeetCode)

描述:给你两个字符串 haystackneedle ,请你在 haystack 字符串中找出 needle 字符串的第一个匹配项的下标(下标从 0 开始)。如果 needle 不是 haystack 的一部分,则返回 -1 。

用例:
输入:haystack = “aabaabaaf”, needle = “aabaaf”
输出:3
解释:“aabaaf” 在下标 3 处匹配。第一个匹配项的下标是 3 ,所以返回 3 。

三、KMP 算法的思路

1、基本术语

先介绍一些词,后面要用:

  • 文本串:上一节题目中的 haystack,比如 “aabaabaaf”
  • 模式串:上一节题目中的 needle,比如 “aabaaf”
  • 前缀:一个字符串中,包含首字母,但不包含尾字母的所有子串
  • 后缀:一个字符串中,包含尾字母,但不包含首字母的所有子串
  • 最长公共前后缀:一个字符串中,最长的相等的前缀和后缀。比如 “aaba” 的最长公共前后缀是 “a”,“aabaa” 的最长公共前后缀是 “aa”,“aabaaf” 不存在最长公共前后缀
  • 前缀表:长度和「模式串」相同,每一位存储「模式串」对应位置及其之前所有字符所组成的字符串中,最长公共前后缀长度

2、求前缀表

原理

前缀表长度和「模式串」相同,每一位存储「模式串」对应位置及其之前所有字符所组成的字符串中,最长公共前后缀长度。比如我们用数组 next 表示前缀表,如果模式串为 “aabaaf”,那么:
next[0] = 0 ← a
next[1] = 1 ← aa
next[2] = 0 ← aab
next[3] = 1 ← aaba
next[4] = 2 ← aabaa
next[5] = 0 ← aabaaf
所以 next = {0, 1, 0, 1, 2, 0}

代码实现

用代码实现上述过程,总体思路是:

  • i 指向模式串后缀末尾,j 指向前缀末尾
  • 先处理前缀末尾不等于后缀末尾的情况(根据 next[j - 1] 调整前缀末尾 j 的位置)
  • 再处理前缀末尾等于后缀末尾的情况(前缀末尾 j 后移)
  • 最后把最长公共前后缀的长度记录在前缀表 next
    代码如下:
void getNext(int* next, string& s) {
    next[0] = 0;  // 只有一个字符时,无公共前后缀
    int j = 0;  // j 是前缀末尾的位置,同时承担着记录最长公共前后缀的职责
    for (int i = 1; i < s.size(); ++i) {  // i 是后缀末尾的位置,从下标 1 的位置开始
        while (j > 0 && s[j] != s[i]) {  // 当此时的前缀末尾字符和后缀末尾字符不相等时
            j = next[j - 1];  // 调整前缀末尾的位置,原理见图 1
        }
        if (s[j] == s[i]) {  // 当此时的前缀末尾字符等于后缀末尾字符时
            ++j;  // 前缀末尾后移,同时由于 j 记录着公共前后缀的长度,所以长度也加 1
        }
        next[i] = j;  // next[i] 记录前 i 个字符构成的字符串的最长公共前后缀长度
    }
}

其中,代码中前缀末尾字符和后缀末尾字符不相等时的处理方法,可以结合图 1 来理解:
请添加图片描述

图1

3、寻找匹配的字符串

在理解了求前缀表的思路后,利用前缀表去寻找匹配字符串的思路就很容易理解了,因为它们俩的思路是一样的:

  • 对模式串用 getNext 生成前缀表 next
  • i 指向文本串 haystack 当前字符位置,用 j 指向模式串 needle 当前字符位置
  • 先处理文本串当前字符与模式串当前字符不相等的情况(根据 next[j - 1]调整 j 的位置)
  • 再处理文本串当前字符与模式串当前字符相等的情况(j 后移)
  • 如果 j 等于模式串长度,说明匹配成功

代码如下:

    int strStr(string haystack, string needle) {
        if (needle.size() > haystack.size())  // 模式串比文本串还长
            return -1;
        if (needle.size() == 0) // 模式串是空的
            return 0;
        int* next = new int[needle.size()];  // 创建动态数组
        getNext(next, needle);  // 根据模式串生成前缀表
        int j = 0;
        for (int i = 0; i < haystack.size(); ++i) {
            while (j > 0 && needle[j] != haystack[i]) {  // 字符不相等
                j = next[j - 1];  // 调整 j 的位置
            }
            if (needle[j] == haystack[i]) { // j 后移
                ++j;
            }
            if (j == needle.size()) {  // j 走到头了,说明匹配成功
                delete [] next; // 退出前释放动态数组
                return i - j + 1;
            }
        }
        delete [] next; // 退出前释放动态数组
        return -1;
    }

其中文本串当前字符与模式串当前字符不相等的情况,可以结合图 2 来理解,和图 1 有许多共同之处:
请添加图片描述

图 2

完整代码:

class Solution {
public:
    void getNext(int* next, string& s) {
        next[0] = 0;  // 只有一个字符时,无公共前后缀
        int j = 0;  // j 是前缀末尾的位置,同时承担着记录最长公共前后缀的职责
        for (int i = 1; i < s.size(); ++i) {  // i 是后缀末尾的位置,从下标 1 的位置开始
            while (j > 0 && s[j] != s[i]) {  // 当此时的前缀末尾字符和后缀末尾字符不相等时
                j = next[j - 1];  // 调整前缀末尾的位置,原理见图 1
            }
            if (s[j] == s[i]) {  // 当此时的前缀末尾字符等于后缀末尾字符时
                ++j;  // 前缀末尾后移,同时由于 j 记录着公共前后缀的长度,所以长度也加 1
            }
            next[i] = j;  // next[i] 记录前 i 个字符构成的字符串的最长公共前后缀长度
        }
    }

    int strStr(string haystack, string needle) {
        if (needle.size() > haystack.size())  // 模式串比文本串还长
            return -1;
        if (needle.size() == 0) // 模式串是空的
            return 0;
        int* next = new int[needle.size()];  // 创建动态数组
        getNext(next, needle);  // 根据模式串生成前缀表
        int j = 0;
        for (int i = 0; i < haystack.size(); ++i) {
            while (j > 0 && needle[j] != haystack[i]) {  // 字符不相等
                j = next[j - 1];  // 调整 j 的位置
            }
            if (needle[j] == haystack[i]) { // j 后移
                ++j;
            }
            if (j == needle.size()) {  // j 走到头了,说明匹配成功
                delete [] next; // 退出前释放动态数组
                return i - j + 1;
            }
        }
        delete [] next; // 退出前释放动态数组
        return -1;
    }
};

使用 vector 替代动态数组:

class Solution {
public:
    vector<int> getNext(string& s) {
	    vector<int> next(s.size());
        next[0] = 0;  // 只有一个字符时,无公共前后缀
        int j = 0;  // j 是前缀末尾的位置,同时承担着记录最长公共前后缀的职责
        for (int i = 1; i < s.size(); ++i) {  // i 是后缀末尾的位置,从下标 1 的位置开始
            while (j > 0 && s[j] != s[i]) {  // 当此时的前缀末尾字符和后缀末尾字符不相等时
                j = next[j - 1];  // 调整前缀末尾的位置,原理见图 1
            }
            if (s[j] == s[i]) {  // 当此时的前缀末尾字符等于后缀末尾字符时
                ++j;  // 前缀末尾后移,同时由于 j 记录着公共前后缀的长度,所以长度也加 1
            }
            next[i] = j;  // next[i] 记录前 i 个字符构成的字符串的最长公共前后缀长度
        }
    }

    int strStr(string haystack, string needle) {
        if (needle.size() > haystack.size())  // 模式串比文本串还长
            return -1;
        if (needle.size() == 0) // 模式串是空的
            return 0;
        vector<int> next = getNext(needle);  // 根据模式串生成前缀表
        int j = 0;
        for (int i = 0; i < haystack.size(); ++i) {
            while (j > 0 && needle[j] != haystack[i]) {  // 字符不相等
                j = next[j - 1];  // 调整 j 的位置
            }
            if (needle[j] == haystack[i]) { // j 后移
                ++j;
            }
            if (j == needle.size()) {  // j 走到头了,说明匹配成功
                return i - j + 1;
            }
        }
        return -1;
    }
};

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2260109.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ElasticSearch01-概述

零、文章目录 ElasticSearch01-概述 1、Elastic Stack &#xff08;1&#xff09;简介 官网地址&#xff1a;https://www.elastic.co/cn/ELK是一个免费开源的日志分析架构技术栈总称&#xff0c;包含三大基础组件&#xff0c;分别是Elasticsearch、Logstash、Kibana。但实际…

12.2【JAVA EXP4]next.js的各种问题,DEBUG,前端补强,前后端交互,springSecurity ,java 配置,h2数据库

在服务器组件中使用了 useState 这样的 React Hook。useState 只能在客户端组件中使用&#xff0c;而不能在服务器组件中使用。Next.js 的新架构&#xff08;App Router&#xff09;中&#xff0c;默认情况下&#xff0c;页面和布局组件是服务器组件&#xff0c;因此不能直接使…

MySQL相关文件

配置文件 — — — — — — /etc/my.cnf datadir/var/lib/mysql //数据目录 socket/var/lib/mysql/mysql.sock //定义套接字文件存储位置&#xff0c;套接字文件&#xff08;IP&#xff1a;port&#xff09;,用于接收客户端连…

数字产业化和产业数字化到底是什么?

“数字产业化”和“产业数字化”在很多官方文件和领导人讲话中都是成对出现的&#xff0c;这两个术语看起来非常相似&#xff0c;但它们作为数字经济的两个重要组成部分&#xff0c;既有联系又有区别。 在谈数字产业化和产业数字化之前&#xff0c;我这里需要先给大家介绍一个概…

3D一览通在线协同设计,助力汽车钣金件设计与制造数字化升级

汽车行业已迎来智能化的汹涌浪潮&#xff0c;在此背景下&#xff0c;零部件制造商唯有积极应对&#xff0c;以智能制造为核心驱动力&#xff0c;方能跟上行业发展步调&#xff0c;在激烈的市场竞争中抢占先机。作为整车制造不可或缺的核心组件之一&#xff0c;汽车钣金件亦需紧…

基于Sharding-jdbc实现水平分库、垂直分库、读写分离

一、实现水平分库 需求说明 水平分库是把同一个表的数据按一定规则拆到不同的数据库中&#xff0c;每个库可以放在不同的服务器上。 接下来咱们继续对快速入门中的例子进行完善。 实现步骤 将原有order_db库拆分为order_db_1、order_db_2 CREATE DATABASE order_db_1 CHAR…

MATLAB中Simulink的信号线

Simulink以模块为最小单位,通过信号线互相连接&#xff0c;用户可通过GUI调配每个模块的参数,且仿真的结果能够以数值和图像等形象化方式具现出来。信号线可以传递一维数据、多维数据、向量数据或矩阵数据,甚至Bus型数据。Simulink使用不同的线形表示传递不同数据类型的信号线,…

【WRF安装】WRF编译错误总结1:HDF5库包安装

目录 1 HDF5库包安装有误&#xff1a;HDF5 not set in environment. Will configure WRF for use without.HDF5的重新编译 错误原因1&#xff1a;提示 overflow 错误1. 检查系统是否缺少依赖库或工具2. 检查和更新编译器版本3. 检查 ./configure 报错信息4. 检查系统环境变量5.…

Flutter 内嵌 unity3d for android

前言&#xff1a; 最近刚整完 unity3d hybridCLR 更新代码和资源&#xff0c;我们 趁热打铁 将 Unity3D 嵌入 Flutter 应用中。实现在 Flutter 使用 Unity3D, 可以做 小游戏 大游戏&#xff1b; 之前都是 内嵌 Webview 来实现的。虽然 CocosCreator 做出来的效果也不错&#xf…

鸿蒙开发:一个轻盈的上拉下拉刷新组件

前言 老早之前开源了一个刷新组件&#xff0c;提供了很多常见的功能&#xff0c;也封装了List&#xff0c;Grid&#xff0c;WaterFlow&#xff0c;虽然功能多&#xff0c;但也冗余比较多&#xff0c;随着时间的前去&#xff0c;暴露的问题就慢慢增多&#xff0c;虽然我也提供了…

Oracle plsqldev1106 安装及TNS配置

Oracle plsqldev1106 安装及TNS配置 下载好安装包&#xff0c;直接双击安装 点击 I Agree 默认是C盘的&#xff0c;我改了D盘&#xff0c;根据自己实际情况修改 这里用默认的for current user 也可以&#xff0c;我选了for all user 点Finish&#xff0c;等待安装完成即可 …

【卷积神经网络】AlexNet实践

构建模型 模版搭建 # 定义一个AlexNet模型类def __init__(self):# 调用父类的构造函数&#xff08;如果继承自nn.Module的话&#xff09;super(AlexNet, self).__init__()# ReLU激活函数self.ReLU nn.ReLU()# 卷积层1&#xff1a;输入1个通道&#xff08;灰度图&#xff09;&a…

Linux驱动开发(13):输入子系统–按键输入实验

计算机的输入设备繁多&#xff0c;有按键、鼠标、键盘、触摸屏、游戏手柄等等&#xff0c;Linux内核为了能够将所有的输入设备进行统一的管理&#xff0c; 设计了输入子系统。为上层应用提供了统一的抽象层&#xff0c;各个输入设备的驱动程序只需上报产生的输入事件即可。 下…

计算机毕设-基于springboot的某学院兼职平台的设计与实现(附源码+lw+ppt+开题报告)

博主介绍&#xff1a;✌多个项目实战经验、多个大型网购商城开发经验、在某机构指导学员上千名、专注于本行业领域✌ 技术范围&#xff1a;Java实战项目、Python实战项目、微信小程序/安卓实战项目、爬虫大数据实战项目、Nodejs实战项目、PHP实战项目、.NET实战项目、Golang实战…

Unity3D仿星露谷物语开发3之动画系统初探

1、目标 我们希望使用已有的资源建一个动画demo&#xff0c;以此熟悉基于已有Animator/Animation资源的使用方法。 以Tree的动画系统为例&#xff0c;资源位于&#xff1a; 2、创建流程 &#xff08;1&#xff09;创建tree空对象 上面两个都是空对象。 &#xff08;2&#…

怎么禁用 vscode 中点击 go 包名时自动打开浏览器跳转到 pkg.go.dev

本文引用怎么禁用 vscode 中点击 go 包名时自动打开浏览器跳转到 pkg.go.dev 在 vscode 设置项中配置 gopls 的 ui.navigation.importShortcut 为 Definition 即可。 "gopls": {"ui.navigation.importShortcut": "Definition" }ui.navigation.i…

Java:183 基于SSM的高校食堂系统

项目介绍 基于SSM的食堂点餐系统 角色:管理员、用户、食堂 前台用户可以实现商品浏览&#xff0c;加入购物车&#xff0c;加入收藏&#xff0c;预定&#xff0c;选座&#xff0c;个人信息管理&#xff0c;收货信息管理&#xff0c;收藏管理&#xff0c;评论功能&#xff0c;…

[COLM 2024] V-STaR: Training Verifiers for Self-Taught Reasoners

本文是对 STaR 的改进方法&#xff0c;COLM 是 Conference On Language Models&#xff0c;大模型领域新出的会议&#xff0c;在国际上很知名&#xff0c;不过目前还没有被列入 ccf list&#xff08;新会议一般不会列入&#xff09;&#xff1b;作者来自高校、微软研究院和 Goo…

端点鉴别、安全电子邮件、TLS

文章目录 端点鉴别鉴别协议ap 1.0——发送者直接发送一个报文表明身份鉴别协议ap 2.0——ap1.0 的基础上&#xff0c;接收者对报文的来源IP地址进行鉴别鉴别协议ap 3.0——使用秘密口令&#xff0c;口令为鉴别者和被鉴别者之间共享的秘密鉴别协议ap 3.1——对秘密口令进行加密&…

电脑文件夹打不开了,能打开但是会闪退,提示“找不到iUtils.dll”是什么原因?

电脑运行时常见问题解析&#xff1a;文件夹打不开、闪退及“找不到iUtils.dll”报错 在使用电脑的过程中&#xff0c;我们可能会遇到文件夹打不开、软件闪退或系统报错等问题&#xff0c;特别是提示“找不到iUtils.dll”的报错&#xff0c;更是让人困惑不已。今天我将为大家详…