KMP算法是一种高效的字符串匹配算法,其核心思想是利用已经匹配的部分信息,尽可能减少匹配次数。KMP算法通过预处理阶段计算一个最大前后缀长度数组(也称为“部分匹配表”或“失败函数”),用于在匹配失败时确定模式串应该跳转到哪个位置进行下一次匹配。
下面是一个KMP算法的图解示例:
假设模式串为"ABCDAB",文本串为"ABCABCDAB"。
- 预处理阶段:
首先,计算最大前后缀长度数组。对于模式串中的每个位置i,最大前后缀长度[i]表示模式串中从位置0到位置i-1的最大前后缀长度。前缀指除最后一个字符除外,字符串的所有头部字串。后缀指除第一个字符外,字符串的素有尾部子串。
对于模式串"ABCDAB":
- 对于位置0,最大前后缀长度为0(因为没有前后缀)。
- 对于位置1,最大前后缀长度为0(因为前缀为"A",后缀为"A"的长度为1,但是模式串中没有两个连续的"A")。
- 对于位置2,最大前后缀长度为0(因为前缀为"AB",后缀为"AB"的长度为2,但是模式串中没有两个连续的"AB")。
- 对于位置3,最大前后缀长度为0(因为前缀为"ABC",后缀为"ABC"的长度为3,但是模式串中没有两个连续的"ABC")。
- 对于位置4,最大前后缀长度为0(因为前缀为"ABCD",后缀为"ABCD"的长度为4,但是模式串中没有两个连续的"ABCD")。
- 对于位置5,最大前后缀长度为1(因为前缀为"ABCDA",后缀为"BCDA"的长度为4,但是模式串中没有两个连续的"BCDA",所以取前一个最大前后缀长度为1)。
- 对于位置6,最大前后缀长度为2(因为前缀为"ABCDAB",后缀为"BCDAB"的长度为5,但是模式串中没有两个连续的"BCDAB",所以取前一个最大前后缀长度为2)。
因此,最大前后缀长度数组为[0, 0, 0, 0, 0, 1, 2]。
- 匹配阶段:
接下来,开始进行字符串匹配。从模式串的第一个字符开始,依次与文本串中的字符进行匹配。
第一次匹配失败(模式串的第一个字符'A'与文本串的第一个字符'A'不匹配),此时根据最大前后缀长度数组可知,模式串应该跳转到位置1进行下一次匹配。
第二次匹配失败(模式串的第二个字符'B'与文本串的第二个字符'B'不匹配),此时根据最大前后缀长度数组可知,模式串应该跳转到位置2进行下一次匹配。
以此类推,直到匹配成功或模式串中的所有字符都匹配完毕。
kmp算法的代码实现
int kmpsuanfa(char str1[8], char str2[], int sz1, int sz2) {
int count = 0;
int i = 0;
int j = 0;
while (i <= sz1) {
// 如果当前字符匹配成功,将i和j都向后移动一位
if (str2[j] == str1[i])
{
++i;
++j;
}
else
{
// 如果匹配失败,根据KMP算法,将i和j回溯到指定位置
// i退回到之前匹配成功的下一个位置
// j退回到模式串的开头位置
i = i - j + 1;
j = 0;
}
// 当模式串全部匹配完成,即j超过了模式串的长度时,说明匹配成功
// 此时,i和j需要更新,以继续寻找下一个出现位置
if (j > sz2 - 1)
{
i = i - j + 2;
j = 0;
count++; // 匹配次数自增
}
}
return count; // 返回总匹配次数
}
完整测试代码
#include <stdio.h>
// KMP算法,计算模式串在主串中的出现次数
int kmpsuanfa(char str1[8], char str2[], int sz1, int sz2) {
int count = 0;
int i = 0;
int j = 0;
while (i <= sz1) {
// 如果当前字符匹配成功,将i和j都向后移动一位
if (str2[j] == str1[i])
{
++i;
++j;
}
else
{
// 如果匹配失败,根据KMP算法,将i和j回溯到指定位置
// i退回到之前匹配成功的下一个位置
// j退回到模式串的开头位置
i = i - j + 1;
j = 0;
}
// 当模式串全部匹配完成,即j超过了模式串的长度时,说明匹配成功
// 此时,i和j需要更新,以继续寻找下一个出现位置
if (j > sz2 - 1)
{
i = i - j + 2;
j = 0;
count++; // 匹配次数自增
}
}
return count; // 返回总匹配次数
}
int main() {
char str1[8] = { 'a', 'b', 'a', 'b', 'a', 'b', 'a', 'b' };//主串
char str2[] = { 'a', 'b','a' };//模式串
int sz1 = sizeof(str1) / sizeof(str1[0]);//计算str1的长度
int sz2 = sizeof(str2) / sizeof(str2[0]);//计算str2的长度
int sum = kmpsuanfa(str1, str2, sz1, sz2); // 计算str1中有多少个str2字符
printf("主串中有%d个模式串", sum); // 输出匹配的次数
return 0;
}
用str1[8] = { 'a', 'b', 'a', 'b', 'a', 'b', 'a', 'b' };//主串
str2[] = { 'a', 'b','a' };//模式串
测试结果为
求next数组值的代码如下
void getnext(char str1[],int sz1, int next[])
{
int i = 1;
int j = 0;
next[1] = 0;
while (i < sz1)
{
if (j==0 || str1[i] ==str1[j])
{
++i;
++j;
next[i] = j;
}
else
{
j = next[j];
}
}
}
还是需要测试一下的
#include <stdio.h>
void getnext(char str1[],int sz1, int next[])
{
int i = 1;
int j = 0;
next[1] = 0;
while (i < sz1)
{
if (j==0 || str1[i] ==str1[j])
{
++i;
++j;
next[i] = j;
}
else
{
j = next[j];
}
}
}
int main() {
char str1[8] = { 'a', 'b', 'a', 'b', 'a', 'b', 'a', 'b' };//主串
int next[10];
getnext(str1, sz1,next);
printf("\nstr1的next数组为:");
for (int k = 1; k < sz1+1; k++)
printf("%d ", next[k]);
return 0;
}
用str1[8] = { 'a', 'b', 'a', 'b', 'a', 'b', 'a', 'b' }测试的结果为