KMP算法详解 --从july那学的

KMP代码：

     int KmpSearch(char* s, char* p)

     {

         int i = ;

         int j = ;

         int sLen = strlen(s);

         int pLen = strlen(p);

         while (i < sLen && j < pLen)

         {

             //①如果j = -1，或者当前字符匹配成功（即S[i] == P[j]），都令i++，j++

             if (j == - || s[i] == p[j])

             {

                 i++;

                 j++;

             }

             else

             {

                 //②如果j != -1，且当前字符匹配失败（即S[i] != P[j]），则令 i 不变，j = next[j]

                 //next[j]即为j所对应的next值

                 j = next[j];

             }

         }

         if (j == pLen)

             return i - j;

         else

             return -;

     }

拿例子来说，当S[10]跟P[6]匹配失败时，KMP不是简单的如朴素匹配那样把模式串右移一位，而是执行第②条指令：“如果j != -1，且当前字符匹配失败（即S[i] != P[j]），则令 i 不变，j = next[j]”，即j 从6变到2（后面我们将求得P[6]，即字符D对应的next 值为2），所以相当于模式串向右移动的位数为j - next[j]位（j - next[j] = 6-2 = 4位）。

向右移动4位后，S[10]跟P[2]继续匹配。为什么要向右移动4位呢，因为移动4位后，模式串中又有个“AB”可以继续跟S[8]S[9]匹配，相当于在模式串中找相同的前缀和后缀，然后根据前缀后缀求出next 数组，最后基于next 数组进行匹配（不关心next 数组怎么求来的，只想看匹配过程是咋样的，可直接跳到下文3.3.4节）。

（1）next数组是针对pattern的，就是模式例如给文本S:BBC_ABCDAB_ABCDABCDABDE P:ABCDABD.

next数组是针对p的，

（2）求next数组，就是求出最长前缀后缀，然后左移一位，第一个为-1.

①寻找前缀后缀最长公共元素长度
- 对于Pj = p0 p1 ...pj-1，寻找模式串Pj中长度最大且相等的前缀和后缀
  - 即寻找满足条件的最大的k，使得p0 p1 ...pk-1 = pj-k pj-k+1...pj-1。也就是说，k是模式串中各个子串的前缀后缀的公共元素的长度，所以求最大的k，就是看某个子串的哪个前缀后缀的公共元素最多。注意：前缀都是从头开始找的，不能是中间。
  - 举个例子，如果给定的模式串为“abaabcaba”，那么它的各个子串的前缀后缀的公共元素的最大长度值如下表格所示：

②求next数组
- 根据第①步骤中求得的各个前缀后缀的公共元素的最大长度求得next 数组，相当于前者右移一位且初值赋为-1，如下表格所示：

③匹配失配，模式串向右移动的位数为：j - next[j]。换言之，当模式串的后缀pj-k pj-k+1...pj-1 跟文本串 si-k si-k+1, ..., si-1失配时，j = next[j]，根据next 数组得到next[j] = k，从而让模式串的前缀p0 p1 ...pk-1继续跟文本串 si-k si-k+1, ..., si-1匹配。
- 注：j 是模式串中失配字符的位置，且 j 从0开始计数。

综上，KMP的next 数组相当于告诉我们：当模式串中的某个字符跟文本串中的某个字符匹配失配时，模式串下一步应该跳到哪个位置。如模式串中在j 处的字符跟文本串在i 处的字符匹配失配时，下一步用next [j] 处的字符继续跟文本串匹配，相当于模式串向右移动 j - next[j] 位。

（3）接下来，咱们来写代码求下next 数组。

基于之前的理解，可知计算next 数组的方法可以采用递推：

1. 如果对于值k，已有p0 p1, ..., pk-1 = pj-k pj-k+1, ..., pj-1，相当于next[j] = k。
- 此意味着什么呢？究其本质，next[j] = k 代表p[j] 之前的模式串子串中，有长度为k 的相同前缀和后缀。有了这个next 数组，在KMP匹配中，当模式串后缀中j 处的字符失配时，模式串向右移动j - next[j] 位。

举个例子，如下图，根据模式串“ABCDABD”的next 数组可知失配位置的字符D对应的next 值为2，代表字符D前有长度为2的相同前缀和后缀（这个相同的前缀后缀即为“AB”），失配后，模式串需要向右移动j - next [j] = 6 - 2 =4位。

向右移动4位后，模式串中的字符C继续跟文本串匹配。

2. 下面的问题是：已知next [0, ..., j]，如何求出next [j + 1]呢？

对于pattern的前j+1个序列字符：

若pattern[k] == pattern[j]，则next[j + 1 ] = next [j] + 1 = k + 1；
若pattern[k
] ≠ pattern[j]，如果此时pattern[ next[k] ] == pattern[j ]，则next[ j + 1 ] =
next[k] + 1，否则继续递归重复此过程。相当于在字符p[j+1]之前不存在长度为k+1的前缀"p0 p1, …, pk-1
pk"跟后缀“pj-k pj-k+1, …, pj-1 pj"相等，那么是否可能存在另一个值t+1 < k+1，使得长度更小的前缀 “p0
p1, …, pt-1 pt” 等于长度更小的后缀 “pj-t pj-t+1,
…, pj-1 pj” 呢？如果存在，那么这个t+1 便是next[ j+1]的值，此相当于利用next 数组进行P串前缀跟P串后缀的匹配。

一般的文章或教材可能就此一笔带过，但大部分的初学者可能还是不能很好的理解上述求解next 数组的原理，故接下来，我再来着重说明下。

如下图所示，假定给定模式串ABCDABCE，且已知next [j] = k（相当于“p0 pk-1” = “pj-k pj-1” =
AB，可以看出k为2），现要求next [j + 1]等于多少？因为pk = pj = C，所以next[j + 1] = next[j] + 1
= k + 1（可以看出next[j + 1] = 3）。代表字符E前的模式串中，有长度k+1 的相同前缀后缀。

（这里是根据P[j]==P[k]==C,得出n[j+1]=n[j]+1=k+1=3,k=2,j从0开始）

但如果pk != pj 呢？
说明“p0 pk-1 pk” ≠ “pj-k pj-1 pj”。换言之，当pk !=
pj后，字符E前有多大长度的相同前缀后缀呢？很明显，因为C不同于D，所以ABC 跟
ABD不相同，即字符E前的模式串没有长度为k+1的相同前缀后缀，也就不能再简单的令：next[j + 1] = next[j] + 1
。所以，咱们只能去寻找长度更短一点的相同前缀后缀。

结合上图来讲，若能在前缀“ p0 pk-1 pk ” 中不断的递归k = next [k]，找到一个字符pk’ 也为D，代表pk’ = pj，且满足p0 pk'-1 pk' = pj-k' pj-1 pj，则最大相同的前缀后缀长度为k' + 1，从而next
[j + 1] = k’ + 1 = next [k' ] + 1。否则前缀中没有D，则代表没有相同的前缀后缀，next [j + 1] = 0。（其实也是KMP开始查找的思想了）

所以，因最终在前缀ABC中没有找到D，故E的next 值为0：

模式串的后缀：ABDE

模式串的前缀：ABC

前缀右移两位： ABC

此外，咱们还可以换个角度思考这个问题：（其实也是KMP开始查找的思想了）

类似KMP的匹配思路，当p0 p1, ..., pj 跟主串s0 s1, ..., si匹配时，如果模式串在j处失配，则j = next [j]，相当于模式串需要向右移动j - next[j] 位。
现在前缀“p0 pk-1 pk” 去跟后缀 “pj-k pj-1 pj”匹配，发现在pk处匹配失败，那么前缀需要向右移动多少位呢？根据已经求得的前缀各个字符的next 值，可得前缀应该向右移动k - next[k]位，相当于k = next[k]。
- 若移动之后，pk' = pj，则代表字符E前存在长度为next[ k' ] + 1的相同前缀后缀；
- 否则继续递归k = next [k]，直到pk’’ 跟pj匹配成功，或者不存在任何k（0 < k < j）满足pk = pj ，且 k = next[k] = -1停止递归。

综上，可以通过递推求得next 数组，代码如下所示：

     void GetNext(char* p,int next[])

     {

         int pLen = strlen(p);

         next[] = -;

         int k = -;

         int j = ;

         while (j < pLen - )

         {

             //p[k]表示前缀，p[j]表示后缀

             if (k == - || p[j] == p[k])

             {

                 ++j;

                 ++k;

                 next[j] = k;

             }

             else

             {

                 k = next[k];

             }

         }

     }

（4）next数组优化

Next 数组的优化

行文至此，咱们全面了解了暴力匹配的思路、KMP算法的原理、流程、流程之间的内在逻辑联系，以及next 数组的简单求解（《最大长度表》整体右移一位，然后初值赋为-1）和代码求解，最后基于《next 数组》的匹配，看似洋洋洒洒，清晰透彻，但以上忽略了一个小问题。

比如，如果用之前的next 数组方法求模式串“abab”的next 数组，可得其next 数组为-1 0 0 1（0 0 1 2整体右移一位，初值赋为-1），当它跟下图中的文本串去匹配的时候，发现b跟c失配，于是模式串右移j - next[j] = 3 - 1 =2位。

右移2位后，b又跟c失配。事实上，因为在上一步的匹配中，已经得知p[3] = b，与s[3] = c失配，而右移两位之后，让p[ next[3] ] = p[1] = b 再跟s[3]匹配时，必然失配。问题出在哪呢？

问题出在不该出现p[j] = p[ next[j] ]。为什么呢？理由是：

当p[j] != s[i] 时，下次匹配必然是p[ next [j]] 跟s[i]匹配，如果p[j] = p[ next[j] ]，必然导致后一步匹配失败，所以不能允许p[j] = p[ next[j ]]。
- 因为p[j]已经跟s[i]失配，然后你还用跟p[j]等同的值p[next[j]]去跟s[i]匹配，很显然，必然失配。

所以，咱们得修改下求next 数组的代码。

     //优化过后的next 数组求法

     void GetNextval(char* p, int next[])

     {

         int pLen = strlen(p);

         next[] = -;

         int k = -;

         int j = ;

         while (j < pLen - )

         {

             //p[k]表示前缀，p[j]表示后缀

             if (k == - || p[j] == p[k])

             {

                 ++j;

                 ++k;

                 //较之前next数组求法，改动在下面4行

                 if (p[j] != p[k])

                     next[j] = k;   //之前只有这一行

                 else

                     //因为不能出现p[j] = p[ next[j ]]，所以当出现时需要继续递归，k = next[k] = next[next[k]]

                     next[j] = next[k];

             }

             else

             {

                 k = next[k];

             }

         }

     }

（5）优化版next如何迅速找到

可能有些读者会问：原始next 数组是前缀后缀最长公共元素长度值右移一位，然后初值赋为-1而得，那么优化后的next 数组如何快速心算出呢？实际上，只要求出了原始next 数组，那么可根据原始next 数组快速求出优化后的next 数组。还是以abab为例，如下表格所示：

（6）KMP算法时间复杂度

咱们先来回顾下KMP匹配算法的流程：

“KMP的算法流程：

假设现在文本串S匹配到 i 位置，模式串P匹配到 j 位置
- 如果j = -1，或者当前字符匹配成功（即S[i] == P[j]），都令i++，j++，继续匹配下一个字符；
- 如果j != -1，且当前字符匹配失败（即S[i] != P[j]），则令 i 不变，j = next[j]。此举意味着失配时，模式串P相对于文本串S向右移动了j - next [j] 位。”

我们发现如果某个字符匹配成功，模式串首字符的位置保持不动，仅仅是i++、j++；如果匹配失配，i 不变（即 i 不回溯），模式串会跳过匹配过的next [j]个字符。整个算法最坏的情况是，当模式串首字符位于i - j的位置时才匹配成功，算法结束。
所以，如果文本串的长度为n，模式串的长度为m，那么匹配过程的时间复杂度为O(n)，算上计算next的O(m)时间，KMP的整体时间复杂度为O(m + n)。

KMP算法详解 --从july那学的的更多相关文章

kmp算法详解
转自:http://blog.csdn.net/ddupd/article/details/19899263 KMP算法详解 KMP算法简介: KMP算法是一种高效的字符串匹配算法,关于字符串匹配最简 ...
[转] KMP算法详解
转载自:http://www.matrix67.com/blog/archives/115 KMP算法详解如果机房马上要关门了,或者你急着要和MM约会,请直接跳到第六个自然段. 我们这里说的K ...
KMP算法详解(转自中学生OI写的。。ORZ！)
KMP算法详解如果机房马上要关门了,或者你急着要和MM约会,请直接跳到第六个自然段. 我们这里说的KMP不是拿来放电影的(虽然我很喜欢这个软件),而是一种算法.KMP算法是拿来处理字符串匹配的.换句 ...
算法进阶面试题01——KMP算法详解、输出含两次原子串的最短串、判断T1是否包含T2子树、Manacher算法详解、使字符串成为最短回文串
1.KMP算法详解与应用子序列:可以连续可以不连续. 子数组/串:要连续暴力方法:逐个位置比对. KMP:让前面的,指导后面. 概念建设: d的最长前缀与最长后缀的匹配长度为3.(前缀不能到最后一 ...
数据结构4.3_字符串模式匹配——KMP算法详解
next数组表示字符串前后缀匹配的最大长度.是KMP算法的精髓所在.可以起到决定模式字符串右移多少长度以达到跳跃式匹配的高效模式. 以下是对next数组的解释: 如何求next数组: 相关链接:按顺序 ...
KMP算法详解&&P3375 【模板】KMP字符串匹配题解
KMP算法详解: KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt(雾)提出的. 对于字符串匹配问题(such as 问你在abababb中有多少个 ...
算法-最通俗易懂的KMP算法详解
有些算法,适合从它产生的动机,如何设计与解决问题这样正向地去介绍.但KMP算法真的不适合这样去学.最好的办法是先搞清楚它所用的数据结构是什么,再搞清楚怎么用,最后为什么的问题就会有恍然大悟的感觉.我试 ...
字符串匹配KMP算法详解
1. 引言以前看过很多次KMP算法,一直觉得很有用,但都没有搞明白,一方面是网上很少有比较详细的通俗易懂的讲解,另一方面也怪自己没有沉下心来研究.最近在leetcode上又遇见字符串匹配的题目,以此 ...
KMP算法详解-彻底清楚了(转载+部分原创)
引言 KMP算法指的是字符串模式匹配算法,问题是:在主串T中找到第一次出现完整子串P时的起始位置.该算法是三位大牛:D.E.Knuth.J.H.Morris和V.R.Pratt同时发现的,以其名字首字 ...

随机推荐

3141: [Hnoi2013]旅行 - BZOJ
Description Input 第一行为两个空格隔开的正整数n, m,表示旅行的城市数与旅行所花的月数.接下来n行,其中第 i行包含两个空格隔开的整数Ai和Bi,Ai表示他第i个去的城市编号.Bi ...
10个CSS简写/优化技巧
CSS简写就是指将多行的CSS属性简写成一行,又称为CSS代码优化或CSS缩写.CSS 简写的最大好处就是能够显著减少CSS文件的大小,优化网站整体性能,更加容易阅读. 下面介绍常见的CSS简写规则 ...
linux命令useradd添加用户详解
1.作用 useradd或adduser命令用来建立用户帐号和创建用户的起始目录,使用权限是超级用户. 2.格式 useradd [-d home] [-s shell] [-c comment] [ ...
【高斯消元】Poj 1222:EXTENDED LIGHTS OUT
Description In an extended version of the game Lights Out, is a puzzle with 5 rows of 6 buttons each ...
SaaS 公司如何应对 On-Call 挑战？
Cloud Insight 集监控.管理.计算.协作.可视化于一身,帮助所有 IT 公司,减少在系统监控上的人力和时间成本投入,让运维工作更加高效.简单.本文系国内 ITOM 行业领军企业 OneAP ...
POJ2528+线段树
见代码. /* 线段树+Lazy 题意:有一面墙,被等分为1QW份,一份的宽度为一个单位宽度. 现在往墙上贴N张海报,每张海报的宽度是任意的,但是必定是单位宽度的整数倍,且<=1QW. 后贴的海 ...
[java线段树]2015上海邀请赛 D Doom
题意:n个数 m个询问每个询问[l, r]的和, 再把[l, r]之间所有的数变为平方(模为9223372034707292160LL) 很明显的线段树看到这个模(LLONG_MAX为922337 ...
SaaS系列介绍之二: SaaS介绍
1 引言横看成岭侧成峰,远近高低各不同. 不识庐山真面目, 只缘身在此山中. ________苏轼, ...
WCF异步
WCF异步与否由客户端来决定服务端接口: // 注意: 使用“重构”菜单上的“重命名”命令,可以同时更改代码和配置文件中的接口名“IService1”. [ServiceContract] ...
IMX515开发备忘
1.多个PAD可以选择为同样的功能引脚 IMX515处理器一个PAD可以作为多种功能引脚,比如EIM_D25可以作为UART3_RXD,定义如下: 图1 而处理还有一个另一个UART3_RXD的PAD ...

KMP算法详解 --从july那学的

Next 数组的优化

KMP算法详解 --从july那学的的更多相关文章

随机推荐

热门专题