浅谈字符串匹配算法—BF 算法及 KMP 算法

回复 星标
更多

浅谈字符串匹配算法—BF 算法及 KMP 算法

(点击上方公众号,可快速关注)

来源:My_World

链接:http://blog.csdn.net/jiajiayouba/article/details/9178789

字符串匹配,在实际编程中经常遇到。其相应的算法有很多,本文就BF算法和KMP算法,谈一下自己的理解。并结合平时编程,修改了一下,使其更符合我们的使用习惯。(注:标准BF算法和KMP算法,为研究方便,其字符数组[0]存放的都是字符串的长度。本文讲解中,并没有保存字符串长度。后面给出的示例代码中,字符数组中是否保存有字符串长度,都给出了相应的算法代码。)

一、BF 算法 (Brute Force):

BF算法核心思想是:首先S[1]和T[1]比较,若相等,则再比较S[2]和T[2],一直到T[M]为止;若S[1]和T[1]不等,则T向右移动一个字符的位置,再依次进行比较。如果存在k,1≤k≤N,且S[k+1…k+M]=T[1…M],则匹配成功;否则失败。该算法最坏情况下要进行M*(N-M+1)次比较,时间复杂度为O(M*N)。下面结合图片,解释一下:

508957

S代表源字符串,T代表我们要查找的字符串。BF算法可以表述如下:依次遍历字符串S,看是否字符串S中含有字符串T。因此,我们依次比较S[0] 和T[0]、S[1] 和T[1]、S[2] 和T[2]……S[n]和T[n] ,从图中我们可知,S[0]-S[7]和T[0]-T[7]依次相等。当匹配到S[8]和T[8]时,两个字符不等。根据定义,此时S和T都要回溯,T向右移动一个字符的位置,即S回溯到S[1]的位置,T回溯到T[0]的位置,再重新开始比较。此时,S[1]和T[0]、S[2]和T[1]……如果再次发现不匹配字符,则再次回溯,即S回溯到S[2]的位置,T回到T[0]的位置。循环往复,直到到达S或者T字符串的结尾。如果是到达S串的结尾,则表示匹配失败,如果是到达T串的结尾,则表示匹配成功。

BF算法优点:思想简单,直接,无需对字符串S和T进行预处理。缺点:每次字符不匹配时,都要回溯到开始位置,时间开销大。

下面是BF算法的代码实现:bf.c

#include <stdio.h>

#include <stdlib.h>

#include <string.h>

intindex_bf(char*s,char*t,intpos);

intindex_bf_self(char*s,char*t,intindex);

/*

BF算法 示例

*/

intmain()

{

chars[]="6he3wor";//标准BF算法中,s[0]和t[0]存放的为字符串长度。

chart[]="3wor";

intm=index_bf(s,t,2);//标准BF算法

printf("index_bf:%d\n",m);

m=index_bf_self(s,t,2);//修改版BF算法,s和t中,不必再存放字符串长度。

printf("index_bf_self:%d\n",m);

exit(0);

}

/*

字符串S和T中,s[0],t[0]存放必须为字符串长度

例:s[]="7hi baby!" T[]="4baby" index_bf(s,t,1);

pos:在S中要从下标pos处开始查找T

(说明:标准BF算法中,为研究方便,s[0],t[0]中存放的为各自字符串长度。)

*/

intindex_bf(char*s,char*t,intpos)

{

inti,j;

if(pos>=1&&pos<=s[0]-'0')

{

i=pos;

j=1;

while(i<=s[0]-'0'&&j<=t[0]-'0')

{

if(s[i]==t[j])

{

i++;

j++;

}

else

{

j=1;

i=i-j+2;

}

if(j>t[0]-'0')

{

returni-t[0]+'0';

}

}

return-1;

}

else

{

return-1;

}

}

/*

修改版,字符串s和t中,不必再包含字符串长度。

例:s[]="hi baby" t[]="baby" index_bf_self(s,t,0);

index:在s中,从几号下标开始查找

*/

intindex_bf_self(char*s,char*t,intindex)

{

inti=index,j=0;

while(s[i]!='\0')

{

while(*(t+j)!='\0'&& *(s+i+j)!='\0')

{

if(*(t+j)!=*(s+i+j))

break;

j++;

}

if(*(t+j)=='\0')

{

returni;

}

i++;

j=0;

}

return-1;

}

测试结果:

508957

二、KMP 算法:

由BF算法例图中可知,当S[8]和T[8]不匹配时,S和T都需要回溯,时间复杂度高。因此,出现了KMP算法。先看下图:

508957

从图中,我们可以很容易的发现,S不必回溯到S[1]的位置,T也不必回溯到T[0]的位置,因为前面的字符,S和T中都是相等的。如果S不回溯的话,那T该怎么办呢?我们也可以很容易的发现,S中5、6、7号字符和T中0、1、2号字符是相等的。故T直接回溯到T[3]的位置即可。此时我们就省去了很多不必要的回溯和比较。那么这些都是我们从图中直观得出的结论,如果换做其他字符,我们又如何知道T该回溯到几号字符呢?

先看看KMP算法的思想:假设在模式匹配的进程中,执行T[i]和W[j]的匹配检查。若T[i]=W[j],则继续检查T[i+1]和W[j+1]是否匹配。若T[i]W[j],则分成两种情况:若j=1,则模式串右移一位,检查T[i+1]和W[1]是否匹配;若1

508957

图中,首先构造 Next 数组,构造过程见图解(这里讲解的简单了些,本文重点是理清KMP算法思路,故没有赘述,想细究的同学,自己谷歌一下吧)。构造完毕后,当S[8]和T[8]失配时,我们从next 数组可知,T应回溯到T[3]的位置,重新开始比较。样子有点像下面这样:

508957

如果S[8]和T[3]再次失配,则继续回溯,即比较S[8]和T[0]。如果再次失配,T已无回溯元素可言,此时,S向后移动,即开始比较S[9]和T[0]……结束条件就是:到达字符串S或者T的结尾。若是S结尾,则返回-1.若是T结尾,则匹配成功。返回S中T串开始时的下标即可。

下面给出个小例子,仅供大家练习使用:

508957

下面给出KMP算法标准代码(即数组首元素保存的是字符串长度):kmp.c

#include <stdio.h>

#include <stdlib.h>

voidget_next(char*t,int*next);

intindex_kmp(char*s,char*t,intpos);

intmain(intargc,char*argv[])

{

/*

char t[]="6ababcd";

int next[7];

get_next(t,next);

int i;

for(i=0;i<7;i++)

printf("%d,",next[i]);

printf("\n");

*/

chars[]="6helwor";

chart[]="3wor";

intm=index_kmp(s,t,1);

printf("%d\n",m);

exit(0);

}

/*

利用KMP算法,求解字符串t在s中的开始位置。

pos:在字符串S中,从下标pos开始查找是否含有t子串

如果含有,返回t在s中的下标起始位置。否则,返回-1.

注意:s和t中首元素保存的都是字符串的长度。

*/

intindex_kmp(char*s,char*t,intpos)

{

intnext[sizeof(t)];

get_next(t,next);

inti=pos;

intj=1;

while(i<=s[0]-'0'&&j<=t[0]-'0')

{

if(0==j||s[i]==t[j])

{

i++;

j++;

}

else

{

j=next[j];

}

}

if(j>t[0]-'0')

{

returni-t[0]+'0';

}

else

return-1;

}

voidget_next(char*t,int*next)

{

inti=0;

intj=1;

next[1]=0;

while(j<t[0]-'0')

{

if(0==i||t[i]==t[j])

{

i++;

j++;

if(t[i]!=t[j])

next[j]=i;

else

next[j]=next[i];

}

else

{

i=next[i];

}

}

}

测试结果:

508957

修改版KMP算法:(字符数组首元素不再保存字符串长度,更符合实际应用) kmp2.c

#include <stdio.h>

#include <stdlib.h>

#include <string.h>

voidget_next(char*t,int*next);

intindex_kmp(char*s,char*t,intindex);

intmain(void)

{

chars[]="hello world!";

chart[]="world";

/*

int next[strlen(t)];

get_next(t,next);

int i;

for(i=0;i<strlen(t);i++)

{

printf("%d,",next[i]);

}

*/

intm=index_kmp(s,t,0);

printf("index:%d\n",m);

exit(0);

}

/*

在字符串s中,从下标index开始查找是否含有字符串t.如果有,返回t在s中的开始位置;如果没有,返回-1。

(使用KMP算法实现)

注:字符数组s和t中,不再保存字符串长度。

*/

intindex_kmp(char*s,char*t,intindex)

{

intnext[strlen(t)];

get_next(t,next);

inti=index,j=0;

while(s[i]!='\0'&&t[j]!='\0')

{

if(s[i]==t[j])

{

i++;

j++;

continue;

}

else

{

j=next[j];//从模式匹配数组中,获取要回溯到的结点

}

if(0==j)//单独处理第一个字符

{

if(s[i]==t[j])

{

i++;

j++;

}

else

{

i++;

}

}

}

if(t[j]=='\0')//表示字符串t中,所有字符已匹配完毕

{

returni-strlen(t);//因为i以匹配至s中t字符串的结尾。因为要返回的是s中t的开始下标,故i-strlen(t).

}

else

{

return-1;

}

}

/*

KMP算法之next数组代码

next数组定义:当模式匹配串T失配的时候,next数组对应的元素知道应该用T串的哪个元素进行下一轮的匹配。

*/

voidget_next(char*t,int*next)

{

inti=0;//Prefix 前缀

intj=1;//Postfix 后缀

next[0]=0;//自定义的,0和1都从0开始匹配

next[1]=0;

while(t[j]!='\0')

{

if(t[i]==t[j])//若前后字符匹配,则向前推进

{

i++;

j++;

next[j]=i;

continue;

}

else

{

i=next[i];//前后字符不匹配,则回溯。注意,此时是i和j不匹配,因此,根据next数组定义,要回溯到next[i]的值。

}

if(0==i)//当回溯到首字符时,单独进行处理

{

if(t[i]==t[j])

{

next[++j]=++i;

}

else

next[++j]=i;

}

}

}

示例测试结果:

508957

觉得本文有帮助?请分享给更多人

关注「算法爱好者」,修炼编程内功

2017-02-17 22:34:11更新过
此帖已被锁定,无法回复
新窗口打开 关闭