数据结构:KMP算法的原理图解和代码解析

news2025/1/15 13:06:26

文章目录

  • 应用场景
  • 算法方案
  • 算法原理
  • 完整代码

本篇总结的是关于串中的KMP算法解析

应用场景

现给定两个串,现在要看较短的一个串是不是较长的串的子串,如果是就输出子串后面的内容,如果不是则输出Not Found

能匹配到:

长串:qwertabcde
短串:abcd

则可以在长串中找到短串的内容,则输出abcde

匹配不到:

长串:qwertabcde
短串:afcd

则无法在长串中匹配到短串的内容,则输出Not Found

算法方案

对于如何匹配串的问题,首先是一种暴力的方案,例如让短串的内容不断地和长串进行匹配,如果在短串和长串中对应到了,就两个同时向后移动,如果短串到头,就说明匹配成功了,如果遇到其他字符,就重新进行匹配,这就是暴力求解的方案,但是时间复杂度高,总体来说是一个O(MN)的时间复杂度

这样的时间复杂度对于算法来说是比较高的,于是有三个大佬KnuthMorrisPratt,发明了一个著名的字符串匹配算法,因此这个算法的名字就被命名为KMP算法

算法原理

为了方便叙述,定义str是这里的长串,pattern是要匹配的串

算法原理就是创建一个next数组,里面存储的是pattern中,下标为i的字符前的字符串最长相等前后缀的长度

那什么是最长相等前后缀?用下面的例子来举例:

假设现在patternabcab,那么对于pattern来说,它的前后缀分别有:

前缀:{a,ab,abc,abca,abcab}
后缀:{b,ab,cab,bcab,abcab}

因此对于pattern来说,它的next数组可以这么表示

在这里插入图片描述
pattern的最后一个字符来看,它的前面的字符串是abca,而对于这个串来说的相等的前后缀只有a这一个,因此这里填入的就是a的长度也就是1

但是这个数组有什么用?从下面这个例子来看:

假设现在strabcabeabcabcmnpatternabcabcmn

那么写出patternnext数组:

在这里插入图片描述
下面就开始进行匹配了,当匹配到ec的时候匹配失败了,此时如果是暴力算法的思路来看,需要让patternstr的第二个字符开始对齐,再重新匹配,但是对于KMP算法来说,next数组的作用就出现了

只需要让不匹配的字符下标对应的next下标的值,回溯到pattern下标即可

以上面的例子为例,现在是s[5]p[5]的匹配失败了,那么next[5]对应的数据是2,那么就意味着现在要让s[5]p[2]进行对齐匹配,也就是说,设匹配失败的字符下标为i,那么就要让s[i]p[next[i]]进行匹配

在这里插入图片描述
这样就是一个循环了,进行多次循环即可,这也就是KMP算法的核心所在

next数组的意义:

  1. 下标为i的字符前的字符串最长相等前后缀的长度
  2. 该处字符不匹配时应该回溯到的字符的下标

上面的next数组写法只是手算出来的,在实际算法中需要将next数组用代码实现写出来:

void GetNext(const string& pattern, vector<int>& next)
{
	int i = 0, j = -1;
	next[0] = -1;
	while (i < pattern.size() - 1)
	{
		if (j == -1 || pattern[i] == pattern[j])
		{
			next[++i] = ++j;
		}
		else
		{
			j = next[j];
		}
	}
}

对于上面的代码来进行解析:

  1. 如果两个i和j的对应的字符相等,那么i和j就同步向后移动
  2. 如果不相等,就要进行回退了,回退到它们原来最长公共前后缀的地方,i指向的是后面的最长公共前后缀,j回退到前面的最长公共前后缀,如果这两个前后缀相等,那么这就组成了一个新的最长相等前后缀,就可以进行数据的写入了

关于求出next数组后,利用这个数组求KMP算法的代码:

int KMP(const string& str, const string& pattern, const vector<int>& next)
{
	int i = 0, j = 0;
	while (i < (int)str.size() && j < (int)pattern.size())
	{
		if (j == -1 || str[i] == pattern[j])
		{
			i++, j++;
		}
		else
		{
			j = next[j];
		}
	}

	if (j == pattern.size())
	{
		return i - j;
	}
	else
	{
		return -1;
	}
}

在知道next数组后,解决剩下的问题就很容易了,只需要一一进行比对,如果不满足条件就进行回溯,如果走到头就返回下标,如果不满足条件就返回-1

完整代码

#include <bits/stdc++.h>
using namespace std;

// KMP算法,给定两个字符串,用子串去匹配长字符串,如果匹配成功就输出匹配的字符串和后面的内容
// 如果匹配不成功就输出NOT FOUND

void GetNext(const string& pattern, vector<int>& next)
{
	int i = 0, j = -1;
	next[i] = j;
	while (i < pattern.size() - 1)
	{
		if (j == -1 || pattern[i] == pattern[j])
		{
			next[++i] = ++j;
		}
		else
		{
			j = next[j];
		}
	}
}

int KMP(const string& str, const string& pattern, const vector<int>& next)
{
	int i = 0, j = 0;
	while (i < (int)str.size() && j < (int)pattern.size())
	{
		if (j == -1 || str[i] == pattern[j])
		{
			i++, j++;
		}
		else
		{
			j = next[j];
		}
	}

	if (j == pattern.size())
	{
		return i - j;
	}
	else
	{
		return -1;
	}
}

void PrintString(const string& str, int index)
{
	string res;
	for (int i = index; i < str.size(); i++)
	{
		res += str[i];
	}
	cout << res << endl;
}

int main()
{
	// str是长字符串,pattern是要匹配的子串
	string str, pattern;
	cin >> str >> pattern;

	// KMP算法首先计算出pattern的next数组
	vector<int> next(pattern.size());
	GetNext(pattern, next);

	// 根据str,pattern,next数组进行匹配
	int index = KMP(str, pattern, next);

	// 得出结果
	if (index == -1)
	{
		cout << "NOT FOUND" << endl;
	}
	else
	{
		PrintString(str, index);
	}

	return 0;
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1056427.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于SSM的连锁经营商业管理系统设计与实现

末尾获取源码 开发语言&#xff1a;Java Java开发工具&#xff1a;JDK1.8 后端框架&#xff1a;SSM 前端&#xff1a;采用JSP技术开发 数据库&#xff1a;MySQL5.7和Navicat管理工具结合 服务器&#xff1a;Tomcat8.5 开发软件&#xff1a;IDEA / Eclipse 是否Maven项目&#x…

JavaSE | 初识Java(五) | 方法的使用

方法就是一个代码片段&#xff0c; 类似于 C 语言中的 " 函数 "。 方法可以是我们代码逻辑更清晰&#xff0c;并且可以服用方法使代码更简洁 方法语法格式 // 方法定义 修饰符 返回值类型 方法名称([参数类型 形参 ...]){ 方法体代码; [return 返回值]; } 实例&…

自媒体文章改写工具-自媒体文章改写软件

自媒体时代已然来临&#xff0c;每个人都有机会成为自己的内容创作者&#xff0c;分享自己的观点和故事。在竞争激烈的自媒体领域&#xff0c;如何让自己的文章脱颖而出&#xff0c;吸引更多读者成为了一个重要的问题。 自媒体文章改写是一项旨在提高文章原创性和吸引力的关键任…

Arcgis打开影像分析窗口没反应

Arcgis打开影像分析窗口没反应 问题描述 做NDVI计算的时候&#xff0c;一直点击窗口-影像分析&#xff0c;发现影像分析的小界面一直不跳出来。 原因 后来发现是被内容列表给遮住了&#xff0c;其实是已经出来了的。。 拖动内容列表就能找到。 解决方案 内容列表和影像分…

热点文章采集-热点资讯采集工具免费

在信息时代&#xff0c;掌握热点资讯、了解热门时事、采集热门文章是许多自媒体从业者和信息追踪者的重要任务。然而&#xff0c;这并不是一项容易的任务。信息的海洋庞大而繁杂&#xff0c;要从中捞取有价值的热点和文章需要耗费大量时间和精力。 热点资讯采集&#xff1a;信息…

[Linux 基础] 一篇带你了解linux权限问题

文章目录 1、Linux下的两种用户2、文件类型和访问权限&#xff08;事物属性&#xff09;2.1 Linux下的文件类型2.2 基本权限2.3 文件权限值的表示方法&#xff08;1&#xff09;字符表示方法&#xff08;2&#xff09;8进制数值表示方法 2.4 文件访问权限的相关设置方法(1) chm…

番外4:VMware安装

step4: 安装过程中&#xff0c;有些选项不需要点&#xff08;安装地址建议选C盘或默认&#xff0c;装载在其他盘后续会报错&#xff09;&#xff0c;如&#xff1a; may error&#xff08;本人猜测安装虚拟机完整版需要C盘的一些桥插件支持&#xff09;: step5: 安装虚拟机成功…

爆文采集器-热点爆文章采集工具

当信息在互联网上迅速传播&#xff0c;新闻迅速变化&#xff0c;自媒体创作者和信息追踪者们都希望能够捕捉到瞬息万变的热点话题&#xff0c;以吸引更多的关注和流量。爆文采集器成为了一项关键的工具&#xff0c;有助于他们在信息的海洋中找到并分享最新、最热门的内容。 热点…

MAC手动修复『已损坏』问题 终端运行命令报错处理

安装一些第三方软件会出现已损坏的报错提醒&#xff0c;需要用命令sudo xattr -rd com.apple.quarantine进行修复&#xff0c;但是终端提示命令错误&#xff0c;怎么版 错误有几种&#xff1a; No module named ‘pkg_resources’ 这是mac电脑上python2&#xff0c;python3并…

eBPF 的发展历程及工作原理

目录 eBPF 是什么 掌握 eBPF 是不是得先成为内核开发者&#xff1f; eBPF 的发展历程是什么样的? eBPF 是怎么工作的? eBPF 是万能的吗? 小结 eBPF 是什么 eBPF 是什么呢&#xff1f; 从它的全称“扩展的伯克利数据包过滤器 (Extended Berkeley Packet Filter)” 来看…

2023年(24届)计算机保研推免经历(保研边缘人)| (吉大AI、华师cs、东南、浙软)

前言 写下这篇博客的原因在于自己保研期间刷了很多很多的经验贴&#xff0c;听很多学长学姐讲述了自己的经历&#xff0c;感觉收获颇丰。所以希望能将自己的经历也分享下去&#xff0c;如果以后的学弟学妹能获得一点点帮助&#xff0c;那就再好不过了。 保研基础知识&#xff0…

借助ChatGPT的神奇力量,解锁AI无限可能!

&#x1f680;欢迎来到本文&#x1f680; &#x1f349;个人简介&#xff1a;陈童学哦&#xff0c;目前学习C/C、算法、Python、Java等方向&#xff0c;一个正在慢慢前行的普通人。 &#x1f3c0;系列专栏&#xff1a;陈童学的日记 &#x1f4a1;其他专栏&#xff1a;CSTL&…

1.基本概念 进入Java的世界

1.1 Java的工作方式 1.2 Java的程序结构 类存于源文件里面&#xff0c;方法存于类中&#xff0c;语句&#xff08;statement&#xff09;存于方法中 源文件&#xff08;扩展名为.java&#xff09;带有类的定义。类用来表示程序的一个组件&#xff0c;小程序或许只会有一个类…

win系统玩游戏出现d3dx9_43.dll错误,找不到d3dx9_43.dll的解决方法

d3dx9_43.dll 是 DirectX 中的一部分&#xff0c;对于许多游戏和应用程序的运行至关重要。如果丢失了这个文件&#xff0c;可能会导致游戏无法运行或者系统出现问题。本文将详细介绍 d3dx9_43.dll 丢失的解决方法以及 d3dx9_43.dll 是什么文件和总体属性介绍。 一、d3dx9_43.dl…

Tomcat下载安装配置

天行健&#xff0c;君子以自强不息&#xff1b;地势坤&#xff0c;君子以厚德载物。 每个人都有惰性&#xff0c;但不断学习是好好生活的根本&#xff0c;共勉&#xff01; 文章均为学习整理笔记&#xff0c;分享记录为主&#xff0c;如有错误请指正&#xff0c;共同学习进步。…

5.5线程同步机制类封装及线程池实现

文章目录 5.5线程同步机制类封装及线程池实现线程池线程同步机制类封装线程池实现 5.5线程同步机制类封装及线程池实现 线程池 线程池是由服务器预先创建的一组子线程&#xff0c;线程池中的线程数据应该与CPU数据差不多。线程池中的所有子线程都运行着相同的代码。当有新的任…

探索腾讯企业邮箱替代方案:选择适合你的新邮件服务

腾讯企业邮箱作为一款广受欢迎的企业级电子邮件服务&#xff0c;已经在国内市场占据了相当大的份额。然而&#xff0c;随着全球市场竞争的加剧&#xff0c;腾讯企业邮箱也面临着海外市场的挑战。本文将探讨腾讯企业邮箱出海的劣势&#xff0c;并推荐一些替代品牌&#xff0c;以…

iPhone苹果手机复制了淘宝天猫优惠券领取淘口令打开淘宝APP没有弹窗怎么办?

获得淘宝/天猫优惠券领取的淘口令后&#xff0c;iPhone苹果手机打开淘宝APP无法识别淘口令&#xff0c;没有弹窗显示淘宝/天猫优惠券领取入口。 解决办法&#xff1a;复制淘宝/天猫商品链接&#xff0c;打开手机上安装的「草柴」APP&#xff0c;查询该商品淘宝/天猫内部隐藏优…

Mysql 分布式序列算法

接上文 Mysql分库分表 1.分布式序列简介 在分布式系统下&#xff0c;怎么保证ID的生成满足以上需求&#xff1f; ShardingJDBC支持以上两种算法自动生成ID。这里&#xff0c;使用ShardingJDBC让主键ID以雪花算法进行生成&#xff0c;首先配置数据库&#xff0c;因为默认的注…

FPGA 芯片点亮标准?

芯片设计完成&#xff0c;给到工厂制造&#xff0c;封装后回来&#xff0c;要经过最重要的一个点亮的环节&#xff0c;你知道什么叫做点亮吗&#xff1f; 其实&#xff0c;什么样叫做点亮&#xff0c;每家公司有每家的标准&#xff0c;本着自已不为难自已的原则&#xff0c;一…