【数据结构】字符串匹配|BF算法|KMP算法|next数组的优化

news2024/9/26 3:25:27

字符串匹配算法是在实际工程中经常遇到的问题,也是各大公司笔试面试的常考题目,本文主要介绍BF算法(最好想到的算法,也最好实现)和KMP算法(最经典的)

一、BF算法

BF算法,即暴力(Brute Force)算法,是普通的模式匹配算法,BF算法的思想就是将目标S的第一个字符与模式串T的第一个字符进行匹配,若相等,则继续比较S的第二个字符和T的第二个字符,若不相等,则比较S的第二个字符和T的第一个字符,依次比较下去,直到得出最后的匹配结果。BF算法是一种蛮力法。                                               ---这段话来自百度百科

这段话晦涩难懂,需要例子支持。

下面我们就通过例子来解释这个问题。 l假定我们给出字符串“ababcabccabcacbab”作为主串,然后给出子串:“abcac”现在我们需要查找子串是否在主串中出现,出现返回主串中的第一个匹配的下标,失败返回-1;

1.图解:

2.代码实现: 

思路:

分别用 i 和 j 来遍历 主串 和 子串 ;

当主串和子串字符相同 i++ ,j++ ;

不同时 i = i - j +1 (i从下一个i开始继续遍历) j = 0(子串回到开头);

直到 j >= lenSub (子串遍历完了) 返回 i - j (主串中开始匹配的其实位置)

在Java中str == null和str.length == 0的区别:

str == null表示 str 没有指向任何对象,就是没有对应堆中对象

str.length() == 0表示 str 指向一个字符串对象,但是这个字符串长度为0

//str代表主串 sub代表子串
    public static int BF(String str, String sub) {
        if (str == null || sub == null) {
            return -1;
        }
        int lenStr = str.length();
        int lenSub = sub.length();
        if (lenStr == 0 || lenSub == 0) {
            return -1;
        }
        int i = 0;//遍历主串
        int j = 0;//遍历子串

        while (i < lenStr && j < lenSub) {
            if (str.charAt(i) == sub.charAt(j)) {
                i++;
                j++;
            } else {
                i = i - j + 1;
                j = 0;
            }
        }
        //子串遍历完了
        if (j >= lenSub) {
            return i - j;
        }
        return -1;
    }

二、KMP算法

KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt提出的,因此人们称它为克努特莫里斯一普拉特操作(简称KMP算法) 。KMP算法的核心是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是通过一个next( )函数实现,函数本身包含了模式串的局部匹配信息。KMP算法的时间复杂度O(m+n) 

                                                                                                              ---这段话来自百度百科

 1. KMP算法解决的问题

对某些情况下的BF算法进行优化

BF算法每次字符串匹配失败,子串的 j 都会回到子串的第一个字符,但是我们看下面这个图会发现在有些情况下这样的回退是没必要的:

当 i 和 j 都匹配到下标为5的字符时,发现主串和字串的字符不匹配,BF算法在此时就会将i 回退到主串下标1字符b,j回退到子串0下标重新进行匹配,既然是匹配到最后一个字符才失败,那么 i 前面和 j 前面一定有一部分是相同的,这里相同部分就是主串0,1和3,4下标都是ab字符串,我们发现此时 j 回退到2下标c位置重新开始合适,i 直接不回退

区别: KMP 和 BF 唯一不一样的地方在,我主串的 i 并不会回退,并且 j 也不会移动到 0 号位置,而是回退到一个特殊的位置

2.图解演示:


3. 为什么主串 i 不回退? 

在下面这种情况下,在下标2位置匹配失败,i 即使回退到1位置也是没有必要的,因为 i回退到1位置的字符b  和 子串下标0位置的字符a  也不一样


4. j 的怎么进行位置的回退——引出next数组

从上面KMP算法解决的问题可知:

此时匹配失败,我们不回退 i ,因为在这个地方匹配失败,说明 i 的前面和 j 的前面,是有部分是相同的,不然两个下标不可能走到这里来,所以 j 回退到2下标,i 不回退,这就是最好的情况

那么我们怎么知道 j 回退到哪个位置呢?由此引入了next数组

KMP 的精髓就是 next 数组: 这个数组用来保存某个位置匹配失败后,回退的位置

也就是用 next[ i ] = k来表示,不同的 i 来对应一个k值, 这个 k 就是你将来要移动的i要移动的位置

就拿上面的例子来说,j 回退到2下标 那么next数组中 next [ 5 ] = 2


而 K 的值是这样求的(求next数组):

(1) 规则: 在子串中找到匹配成功部分的两个相等的真子串(不包含本身),一个以下标 0 开始,另一个以-1 下标结尾。
(2) 不管什么数据 next[0]= -1;next1]= 0;在这里,我们以下标来开始,而说到的第几个第几个是从 1 开始(也有些地方next[0]= 0;next1]= 1)

同样以上面的子串 abcabc 为例,求他的next数组:

下标0和下标1是固定的,那就不用说

下标2 :j 处于下标2 ,我们就看有没有一个字符串 以下标0(a字符)开始 ,另一个字符串以下标 -1(b字符)结束 的两个相同的字符串 ab这三个字符中肯定没有 所以next [2] = 0

下标3:j 处于下标3 ,我们就看有没有一个字符串 以下标0(a字符)开始 ,另一个字符串以下标 -1(c字符)结束 的两个相同的字符串 abc这三个字符中肯定没有 所以next [3] = 0

下标4:j处于下标4,我们同样看 有没有一个字符串 以下标0(a字符)开始 ,另一个字符串以下标 -1(a字符)结束 的两个相同的字符串 abca这三个字符中是有相同字符串a的 所以next [4] = 1(这里的1代表相同字符串的长度,没有就为0)

下标5 :j处于下标5 abcab 中ab 为相同的(一个a开头 另一个b结尾)字符串 所以next [5] = 2


求next数组的练习: 跟上面的过程一样,如果不懂可以去看 博哥视频讲解的KMP算法 30min的位置

练习 1: 举例对于”ababcabcdabcde”,求其的 next 数组?

答案:                 -10012012001200

练习 2: 再对”abcabcabcabcdabcde”,求其的 next 数组?

答案:         -10001 2345678901230

一般情况答案都是next[0]= 0;next1]= 1,所以我们在此答案基础上全部+1即可

从上面的答案我们可以得出结论:数组在增的时候都是一个一个+1,不可能跳着加


到这里大家对如何求next数组应该问题不大了,接下来的问题就是 :

5.已知next[ i ] = k;怎么求next[i+1]=? 

如果我们能够通过 next [ i ]的值,通过一系列转换得到 next [ i+1]得值,那么我们就能够实现这部分

首先假设: next[ i ] = k 成立 (为了方便数组名命名为p)

那么,就有这个式子成立:p [ 0 ]...p [ k-1 ] = p [ x ] ..p [ i-1 ]

因为 i -1 -k = k -1 那么 x = i - k ,也就是p [ 0 ]...p [ k-1 ] = p [ i - k ] ..p [ i-1 ]

到这一步: 我们再假设如果 p [ k ] = p [ i ] ;在上面得到的式子两边加上这个式子
我们可以得到p [ 0 ]...p [ k ] = p [ i-k ] ..p [ i ] ;那这个就是 next[ i+1]= k+1;

那么: p[ i ] != p[ k ] 呢?

看如下实例:

一次不匹配 ,j 回退到 2下标位置 不一定是你要找的 

继续回退 此时回退到了0下标 (也就是说 k一直回退 去找 p [i] == p [k] ,这样就满足了p [ k ] = p [ i ])


6.KMP算法代码实现

//找到子串在主串当中的下标
    public static int KMP(String str,String sub,int pos) {
        if(str == null||sub == null) return -1;

        int lenStr = str.length();
        int lenSub = sub.length();
        if(lenStr == 0||lenSub == 0) return -1;

        if(pos<0 || pos >= lenStr) return -1;

        int [] next = new int[lenSub];
        getNext(sub,next);

        int i = pos;//从pos位置开始遍历主串
        int j = 0;//遍历子串

        while(i < lenStr && j <lenSub) {
            //这里要考虑到一开始就不匹配,j=-1
            if (j==-1||str.charAt(i) == sub.charAt(j)) {
                i++;
                j++;
            } else {
                //下标不一样,一直回退
                j = next[j];
            }
        }
        if(j==lenSub) {
            return i-j;
        }
        return -1;

    }
    //重点:求子串的next数组
    public static void getNext(String sub,int [] next) {
        next[0] = -1;
        next[1] = 0;
        int i = 2;//i表示所求next数组的下标,是提前走了一步的
        int k = 0;//比较是否相等的前一项的k
        //这里next[i]就是要求的,和我们分析的next[i+1]一样
        // 原来判断的是p[i]==p[k],现在应该判断p[i-1]==p[k]
        while(i < sub.length()) {
            //此处要考虑k回退到了-1位置,next值就为0
            if (k==-1||sub.charAt(i-1) ==sub.charAt(k)) {
                next[i] = k+1;
                k++;
                i++;
            } else {
                //p[i-1]!=p[k],则k继续回退
                k = next[k];
            }
        }
    }

7.next数组的优化

为什么要对next数组进行优化?

有如下串:aaaaaaaab,他的 next 数组是-1,0,1,2,3,4,5,6,7

假设5位置匹配失败,那么就得回退到4位置,4位置和5位置都是a,那么还得回退到3位置,而3位置和4位置都是a,还得继续回退,就这样一直回退到0位置,由此引入了nextval数组进行了优化

next 数组的优化,即如何得到 nextval 数组:

(1)回退到的位置和当前字符一样,就写回退那个位置的nextval值

(2)如果回退到的位置和当前字符不一样,就写当前字符原来的next值

就以上面字符串为例:

0下标:肯定还是为-1

1下标:这个位置回退到0位置,因为这个位置的值和0位置(回退的位置)的值一样,所以这个位置的值就写回退位置的值(即-1)

2-7下标:这些位置回退到前一个位置,值都是一样的,所以都是-1

8下标:  回退到的位置和当前字符不一样,直接写next[ 8 ]的值7即可

则修正后的数组 nextval 是:-1, -1,-1,-1, -1, -1, -1, -1,7。


练习: 模式串 t='abgabbcabcaabdab’,该模式串的 next 数组的值为 ( D )nextva1 数组的值为 (F)

答案:在下面答案的基础上+1即可选择

  这里也不做过多的解释,过程跟上面一样,不懂的可以评论区或者私信问我,或者 看博哥视频讲解的KMP算法 2h的位置


本次内容就到此啦,欢迎评论区或者私信交流,觉得笔者写的还可以,或者自己有些许收获的,麻烦铁汁们动动小手,给俺来个一键三连,万分感谢 !

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1334503.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

轻松管理固定资产,易点易动固定资产管理系统为企业开启新篇章

在现代企业运营中&#xff0c;固定资产管理是一个不可忽视的关键环节。有效地管理和维护固定资产不仅可以提升企业运营效率&#xff0c;还能最大限度地发挥资产的价值。为了满足企业对固定资产管理的需求&#xff0c;我们推出了易点易动固定资产管理系统&#xff0c;一款功能强…

网站使用https认证

随着网络的普及和依赖程度的增加&#xff0c;网站安全性问题也日益凸显。为了确保用户和网站之间的数据传输安全&#xff0c;采用HTTPS认证已经变得至关重要。 1.数据安全是首要任务 在互联网上&#xff0c;信息传输是网站运作的基础。然而&#xff0c;未加密的传输容易受到中…

嵌入式-stm32-用PWM点亮LED实现呼吸灯

一&#xff1a;知识前置 1.1、LED灯怎么才能亮&#xff1f; 答&#xff1a;LED需要低电平才能亮&#xff0c;高电平是灯灭。 1.2、LED灯为什么可以越来越亮&#xff0c;越来越暗&#xff1f; 答&#xff1a;这是用到不同占空比来实现的&#xff0c;控制LED实现呼吸灯&…

千帆起航:探索百度智能云千帆AppBuilder在AI原生应用开发中的革新之路

千帆起航&#xff1a;探索百度千帆AppBuilder在AI原生应用开发中的革新之路 1.揭开帷幕&#xff0c;大模型第二次战役 自从 ChatGPT 横空出世后&#xff0c;一石激起千层浪&#xff0c;人工智能也正在从感知理解走向生成创造&#xff0c;这是一个关键里程碑。生成式大模型完成…

Spring Cloud + Vue前后端分离-第7章 核心业务功能开发

Spring Cloud Vue前后端分离-第7章 核心业务功能开发 7-1 课程管理功能开发 课程管理页面美化 1.课程管理页面美化 demo-course.jpg 复制search.html中的部分代码 course.vue 看效果 测试一下新增修改删除效果 1.课程管理页面美化2 scoped:style下的样式只应用于当前组件…

数字人直播系统源码开发:实现电商必备的一键生成真人直播卖货

随着互联网技术的不断演进和电子商务的蓬勃发展&#xff0c;直播电商成为了一种新兴的销售模式。然而&#xff0c;传统的直播方式存在着一些问题&#xff0c;比如主播的时间和精力有限&#xff0c;无法满足大量商品的销售需求。为了解决这个问题&#xff0c;数字人直播系统应运…

2023RT-Thread开发者大会

参加了一次RT-Thread的开发者大会&#xff0c;相当有意思&#xff0c;虽然一天奔波挺累&#xff0c;但睡了半天之后简单剪了下22号的视频&#xff0c;也就有时间写自己的参会笔记了。 与openEuler社区不同&#xff0c;RT-Thread社区更专注于嵌入式&#xff0c;与硬件厂商结合…

长宁区科协常务副主席张正行一行到访深兰科技

12月22日&#xff0c;上海市长宁区科协常务副主席张正行、学会部部长洪嫣一行到访深兰科技总部&#xff0c;并与深兰科技集团董事长陈海波、深兰科技集团技术副总裁王雷博士等进行了会谈。 座谈中&#xff0c;陈海波详细介绍了深兰科技当前的企业发展及业务现状&#xff0c;并就…

WPS的JS宏实现WORD表格的首行以及整体格式设置

本文实现了在WORD文档中的表格的样式、字体的整体设置&#xff0c;以及首行的样式、字体的翻开设置。 例如一篇WORD文档&#xff0c;包含了200个表格&#xff0c;所有的表格需要设置为相同的样式&#xff1a; 字体 5号&#xff0c;方正仿宋_GB2312&#xff0c;行间距18磅&…

如何快速搭建接口自动化测试框架【附教程+源码】

1、接口测试 接口测试是对系统或组件之间的接口进行测试&#xff0c;主要是校验数据的交换&#xff0c;传递和控制管理过程&#xff0c;以及相互逻辑依赖关系。 接口自动化相对于UI自动化来说&#xff0c;属于更底层的测试&#xff0c;这样带来的好处就是测试收益更大&#xf…

拓扑排序相关leetcode算法题

文章目录 1.课程表2.课程表II3.火星词典 1.课程表 课程表 class Solution {//进行一次拓扑排序即可 public:bool canFinish(int n, vector<vector<int>>& prerequisites) {unordered_map<int,vector<int>> edges;//使用邻接表存图vector<int…

一起玩儿物联网人工智能小车(ESP32)——14. 用ESP32的GPIO控制智能小车运动起来(二)

摘要&#xff1a;本文主要讲解如何使用Mixly实现对单一车轮的运动控制。 下面就该用程序控制我们的小车轮子转起来了。打开Mixly软件&#xff0c;然后单击顶部“文件”菜单中的“新建”功能&#xff0c;我们来开启一个新程序的开发工作。 我们的工作同样是先从最简单的开始&am…

Java内存区域与内存溢出异常

Java与C++之间有一堵由内存分配和垃圾收集技术所围成的高墙,墙外面的人想进去,墙里面的人却想出来。 2.1 概述 对于从事C、C++程序开发的开发人员来说,在内存管理领域,他们即是拥有最高权力的“皇帝”,又是从事最基础工作的劳动人民——即拥有每一个对象的“所有权”,又…

ros2+gazebo+urdf:ros2机器人使用gazebo的urdf文件中的<gazebo>部分官网资料

原文链接SDFormat extensions to URDF (the gazebo tag) — Documentation 注意了ros2的gazebo部分已经跟ros1的gazebo部分不一样了&#xff1a; Toggle navigation SpecificationAPIDocumentationDownload Back Edit Version: 1.6 Table of C…

DRF之初识

目录 一、序列化和反序列化 【1】序列化 【2】反序列化 【3】小结 二、DRF的安装和快速使用 (1) 安装DRF&#xff1a; (2) 配置DRF&#xff1a; (3) 创建序列化器(Serializer)&#xff1a; (4) 创建视图(View)&#xff1a; (5) 配置URL路由&#xff1a; 【补充】下载…

使用Open3D实现3D激光雷达可视化:以自动驾驶的2DKITTI深度框架为例(下篇)

原创 | 文 BFT机器人 【原文链接】使用Open3D实现3D激光雷达可视化&#xff1a;以自动驾驶的2DKITTI深度框架为例&#xff08;上篇&#xff09; 05 Open3D可视化工具 多功能且高效的3D数据处理&#xff1a;Open3D是一个全面的开源库&#xff0c;为3D数据处理提供强大的解决方…

【LeetCode】链表精选12题

目录 快慢指针&#xff1a; 1. 相交链表&#xff08;简单&#xff09; 2. 环形链表&#xff08;简单&#xff09; 3. 快乐数&#xff08;简单&#xff09; 4. 环形链表 II&#xff08;中等&#xff09; 5. 删除链表的倒数第 N 个节点&#xff08;中等&#xff09; 递归迭…

WPF中数据绑定转换器Converter

使用场景&#xff1a;ViewModel中的数据如果跟View中的数据类型不匹配。 下面是以int类型调控是否可见为例子 步骤一&#xff1a;创建转换器类 在xaml中查看Converter的定义可以知道Converter是一个接口类型&#xff0c;因此转换器的类定义需要使用这个接口 internal class Vi…

【UML】第13篇 序列图(2/2)——建模的方法

目录 三、序列图建模 3.1 概述 3.2 建模的步骤 3.3 举例说明步骤 1.确定主要场景和流程 2.确定参与的对象 3.绘制序列图 4.注意事项 3.4 特殊的情况 序列图是我个人认为&#xff0c;UML中最重要的图之一。 而且序列图&#xff0c;对于业务建模&#xff0c;也有非常好…

echarts 柱状图

注意点 1.y轴显示的序号和名称需要在数据中拼接&#xff0c;而不是在y轴data中拼接&#xff0c; 数据过多会导致下拉的时候&#xff0c;触发y轴formatter&#xff0c;更新序号&#xff0c;序号会重新排列&#xff0c;不准确。 2.需用到堆叠效果&#xff0c;三个柱子。如果想…