KMP算法

KMP算法

基本思想

算法由两部分组成

  1. 计算ptr每一位及之前的字符串中,前缀和后缀公共部分的最大长度的next数组
  2. 匹配ptr和str,当ptr失配时,利用next数组,实现ptr的最大后移,从而避免不必要的匹配,减少匹配次数

计算next数组

前缀和后缀公共部分的最大长度

一个字符串ababa,他的前缀是可以是a,ab,aba,abab(不包含最后一位),后缀是a,ba,aba,baba(不包含第一位)
前缀后缀公共部分就是aaba,公共部分最大就是aba,公共部分的最大长度就是3

next数组

next数组是ptr每一位及之前的字符串中,前缀和后缀公共部分的最大长度的集合
比如ptr字符串的长度是11(abxabwabxad),那么next数组就有11个元素

  • next[0]表示ptr前一位a中,前缀和后缀公共部分的最大长度,由于a中没有前缀和后缀,所以next[0]=0
  • next[1]表示ptr前两位ab中,前缀和后缀公共部分的最大长度,ab的前缀是a,后缀是b,没有公共部分,所以next[1]=0
    同理
  • next[2]=0(abx中无公共前后缀)
  • next[3]=1(abxa公共前后缀最长为a,长度为1)
  • next[4]=2(abxab公共前后缀最长为ab,长度为2)
  • next[5]=0(abxabw中无公共前后缀)
  • next[6]=1(abxabwa公共前后缀最长为a,长度为1)
  • next[7]=2(abxabwab公共前后缀最长为ab,长度为2)
  • next[8]=3(abxabwabx公共前后缀最长为abx,长度为3)
  • next[9]=4(abxabwabxa公共前后缀最长为abxa,长度为4)
  • next[10]=0(abxabwabxad中无公共前后缀)

下面用图文来解释,next函数是如何计算next数组的值的

img

上图第一行,左边i值为ptr下标的值,中间是ptr字符串的每一位,右边是对应的next[i]值,从 i = 0 开始,分析每一行的计算过程

  • i = 0
    由于字符串的前一位只有一个字符,是没有前后缀的,所以next[0] = 0,对应代码
k := 0
next[0] = k
  • i = 1
    从上一次循环,可知 k = 0,既不满足代码中 k > 0 && findStr[k] != findStr[i]的判断,也不满足 findStr[k] == findStr[i]的判断,所以最后next[i] = k,也就是next[1] = 0

  • i = 2
    同上,k = 0,next[2] = 0

  • i = 3
    k = 0,满足findStr[k] == findStr[i]的判断,执行k++,这时 k = 1,最后next[i] = k,也就是next[3] = 1

  • i= 4
    k = 1, 满足findStr[k] == findStr[i]的判断,执行k++,这时 k = 2,最后next[i] = k,也就是next[4] = 2

  • i = 5
    k = 2,满足 k > 0 && findStr[k] != findStr[i],执行k = next[k-1],k = next[2-1] = next[1] = 0
    很多人(包括我)都很不理解k = next[k-1]这行代码的意思,这里先不做解释,后边 i = 10 的时候说

  • i = 6...i = 9
    i = 6 到 i = 9 的逻辑和上边相似,就不重复说了,可以参照着图看

  • i = 10,k = 4,满足 k > 0 && findStr[k] != findStr[i],执行k = next[k-1],在这里仔细说下k = next[k-1]的意思

    当 i = 9 执行完后,字符串指针为下图的样子,此时前后缀公共部分的最大字符串为abxa

    img

    再看abxa字符串,abxa字符串的前后缀公共部分的最大字符串为a,所以 i = 9 时,前后缀公共部分可以分解为下图的形式

    img

    所以当 i = 10 时,如果k > 0 && findStr[k] != findStr[i],也就是 k指向的b不等于i指向的d,如图

    img

    那么k指针就会执行``
    k = next[k-1]回到前缀的公共前缀继续比较,也就是

    img

    这样,就保证最效率的匹配

匹配字符串

第一部分利用next函数得到了next数组,下一步执行kmp函数,对ptr和str进行匹配,并当ptr和str失配时,利用next数组,进行最大位移,由于kmp函数和next函数差不多,这里就不详细讲了,直接上图

img
代码如下:

#include<bits/stdc++.h>
using namespace std;
int main()
{
	string s1,s2;//s1主串,s2匹配串
	getline(cin,s1);
	getline(cin,s2);
	int k=0;vector<int>next,pos;
	next.push_back(0);
	for(int i=1;i<s2.size();i++)
	{
		while(k>0&&s2[i]!=s2[k])
			k=next[k-1];
		if(s2[k]==s2[i])
			k++;
		next.push_back(k);	
	}
	k=0;int i=0;
	while(i<=s1.size()-s2.size())
	{
		while(k!=s2.size()&&s1[i+k]==s2[k])
		{
			k++;
		}
		if(k==s2.size())
			pos.push_back(i);
		else{
			k=k-next[k-1];
		}
		k=0;
		i++;
	}
	for(auto it=pos.begin();it!=pos.end();it++)
	{
		cout<<(*it)<<" ";
	}
	// for(int i=0;i<s2.size();i++)
	// 	cout<<next[i]<<" ";
	return 0;
}
作者:xmsi
出处:http://www.cnblogs.com/tldr/
本文版权归作者和博客园共有,欢迎转载,但转载时请保留此段声明。
原文地址:https://www.cnblogs.com/tldr/p/10880711.html