概念
KMP(Knuth–Morris–Pratt)算法是一种字符串匹配算法,用于在一个主文本字符串中查找一个模式字符串的出现位置。KMP算法通过利用模式字符串中的重复性,避免无意义的字符比较,从而提高效率。
KMP算法的核心思想是构建一个部分匹配表(Pi表),保存了模式字符串中每个位置的最长公共前后缀的长度。通过Pi表,在匹配过程中,当遇到不匹配的字符时,可以根据Pi表中的信息,跳过一部分不可能匹配的区域,从而减少比较次数。
KMP算法的时间复杂度是O(m + n),其中m为模式字符串的长度,n为主文本字符串的长度。相比于朴素的字符串匹配算法的时间复杂度O(m * n),KMP算法具有较高的效率。
作用:
KMP算法的主要作用是在一个文本串(主串)中查找一个模式串的出现位置。具体来说,KMP算法可以解决以下问题:
-
字符串匹配:给定一个文本串和一个模式串,判断模式串是否在文本串中出现,如果是,返回模式串的起始位置。
-
子串查找:给定一个文本串和一个模式串,找到模式串在文本串中第一次出现的位置。
-
字符串搜索:在一个文本串中查找包含指定关键字的子串。
-
字符串替换:在一个文本串中查找并替换指定的模式串。
-
字符串压缩:将文本串中重复出现的模式串进行压缩,并返回压缩后的结果。
总而言之,KMP算法可以帮助我们高效地处理字符串匹配和搜索问题,减少不必要的比较和回溯操作,提高算法的效率和性能。它在文本处理、搜索引擎、编译器等领域有着广泛的应用。
应用场景
KMP算法在字符串匹配和搜索领域有广泛的应用场景,包括但不限于以下几个方面:
-
文本搜索引擎:KMP算法可以用于实现关键字的搜索和匹配,例如在搜索引擎中根据输入的关键字在文本库中进行快速匹配和搜索。
-
文件编辑器和IDE:KMP算法可以用于文件编辑器和集成开发环境(IDE)中的字符串搜索和替换功能,帮助用户快速定位和修改指定的字符串。
-
字符串查找和过滤:KMP算法可以应用于字符串的快速查找和过滤,比如在大量数据中查找匹配某种模式的字符串,或者过滤掉不符合某种模式的字符串。
-
数据压缩和编码:KMP算法在数据压缩和编码中也有应用,例如在字符串压缩算法中,可以利用KMP算法找到重复的模式串并进行压缩处理。
-
字符串分析和语法分析:KMP算法可以用于字符串分析和语法分析过程中的模式匹配和文本解析,帮助识别和解析特定的语法结构和模式。
总之,KMP算法适用于需要进行高效的字符串匹配和搜索的应用场景,特别是当处理大量文本数据时,能够有效提高算法的效率和性能。
练习题:
28. 找出字符串中第一个匹配项的下标
给你两个字符串 haystack 和 needle ,请你在 haystack 字符串中找出 needle
字符串的第一个匹配项的下标(下标从 0 开始)。如果 needle 不是 haystack 的一部分,则返回 -1 。示例 1:
输入:haystack = “sadbutsad”, needle = “sad” 输出:0 解释:“sad” 在下标 0 和 6 处匹配。
第一个匹配项的下标是 0 ,所以返回 0 。示例 2:
输入:haystack = “leetcode”, needle = “leeto” 输出:-1 解释:“leeto” 没有在
“leetcode” 中出现,所以返回 -1 。提示:
1 <= haystack.length, needle.length <= 104 haystack 和 needle
仅由小写英文字符组成
暴力解法
class Solution {
public:
int strStr(string haystack, string needle) {
int len1=haystack.size();
int len2=needle.size();
int i=0,j=0;
while(i<len1 && j<len2){
if(haystack[i]==needle[j]){
++i,++j;
if(j==len2)
return i-j;
}else{
i=i-j+1;
j=0;
}
}
return -1;
}
};
KMP
class Solution {
public:
int strStr(string s, string p) {
int n = s.size(), m = p.size();
if(m == 0) return 0;
//设置哨兵
s.insert(s.begin(),' ');
p.insert(p.begin(),' ');
vector<int> next(m + 1);
//预处理next数组
for(int i = 2, j = 0; i <= m; i++){
while(j and p[i] != p[j + 1]) j = next[j];
if(p[i] == p[j + 1]) j++;
next[i] = j;
}
//匹配过程
for(int i = 1, j = 0; i <= n; i++){
while(j and s[i] != p[j + 1]) j = next[j];
if(s[i] == p[j + 1]) j++;
if(j == m) return i - m;
}
return -1;
}
};