1 KMP算法简介
KMP算法是一个解决字符串匹配问题的算法,由D.E.Knuth,J.H.Morris和V.R.Pratt提出。当给你一个主串str和一个子串substr,如何确定substr在主串中出现的位置?如果没有学习KMP算法,我们可能会写出这样的代码
int strStr(string str, string substr)
{
if(str.size() < substr.size())
{
return -1;
}
int start1 = 0;//遍历主串
int start2 = 0;//遍历子串
int next = 1;//如果本次匹配失败,主串回退的位置。
while(start1 < str.size())
{
if(str[start1] == substr[start2])
{
start1++;
start2++;
if(start2 == substr.size())
{
//找到了
return start1 - substr.size();
}
}
else
{
//主串回退到next,子串回退到0
start1 = next;
next++;
start2 = 0;
}
}
return -1;
}
我们发现这样写每次匹配失败的时候主串都会回退到next,子串回退到起始位置。而KMP算法的主要思想就是在匹配失败的时候,主串不回退,子串尽可能的少回退。下面我们来学习一下是如何实现的。
2 KMP算法原理
2.1 next数组
首先在学习KMP算法之前,我们需要先引入next数组的概念。假如给定一个字符串s,这个字符串的next数组是一个整形数组,next[i]里保存的是字符串下标[0, i)范围内,找到两个相等的真子串,一个子串从0开始,一个子串以i-1结尾,next[i]保存的就是相等真子串的长度。我们规定next[0] = -1, next[1] = 0;下面我们举个例子求一下next数组。
-
给定string s = “abcabc”,求该子串的next数组。
上面的例子我们是通过肉眼看出来的next数组,那我们如何写代码实现一个求next数组的方法呢?
假设next[i] == k,则有 s[0]s[1]…s[k-1] == s[x]…s[i-1];如果s[k] == s[i],则s[0]…s[k] == s[x]…s[i];则next[i+1] == k+1;如果s[k] != s[i], k要不断回退到next[k],直到回退到-1或s[k] == s[i]为止。下面我们来写代码实现一下
void GetNext(string& s, vector<int>& next)
{
int i = 1;
int k = 0;
while(i < s.size()-1)
{
if(k == -1 || s[k] == s[i])
{
next[i+1] = k+1;
i++;
k++;
}
else
{
k = next[k];
}
}
}
2.2 KMP算法实现strStr
此时我们已经求好next数组,我们让start1不回退,start2每次回退到next[start2];
int strStr(string& str, string& substr)
{
if(str.size() < substr.size())
{
return -1;
}
vector<int> next(substr.size(), 0);
next[0] = -1;
GetNext(substr, next);
int start1 = 0;
int start2 = 0;
while(start1 < str.size())
{
if(str[start1] == substr[start2])
{
start1++;
start2++;
if(start2 == substr.size)
{
return start1 - substr.size();
}
}
else
{
start2 = next[start2];
}
}
return -1;
}