关于KMP中求next数组的思考【转】

文章转自 http://www.tuicool.com/articles/yayeIbe。这是我看到关于求next数组，解释最好的一篇文章！！！！！！！

KMP的next数组求法是很不容易搞清楚的一部分，也是最重要的一部分。我这篇文章就以我自己的感悟来慢慢推导一下吧！保证你看完过后是知其然，也知其所以然。

如果你还不知道KMP是什么，请先阅读上面的链接，先搞懂KMP是要干什么。

下面我们就来说说KMP的next数组求法。

KMP的next数组简单来说，假设有两个字符串，一个是待匹配的字符串strText,一个是要查找的关键字strKey。现在我们要在strText中去查找是否包含strKey，用i来表示strText遍历到了哪个字符，用j来表示strKey匹配到了哪个字符。

如果是暴力的查找方法，当strText[i]和strKey[j]匹配失败的时候，i和j都要回退，然后从i-j的下一个字符开始重新匹配。

而KMP就是保证i永远不回退，只回退j来使得匹配效率有所提升。它用的方法就是利用strKey在失配的j为之前的成功匹配的子串的特征来寻找j应该回退的位置。而这个子串的特征就是前后缀的相同程度。

所以next数组其实就是查找strKey中每一位前面的子串的前后缀有多少位匹配，从而决定j失配时应该回退到哪个位置。

我知道上面那段废话很难懂，下面我们看一个彩图：

这个图画的就是strKey这个要查找的关键字字符串。假设我们有一个空的next数组，我们的工作就是要在这个next数组中填值。

下面我们用数学归纳法来解决这个填值的问题。

这里我们借鉴数学归纳法的三个步骤（或者说是动态规划？）：

1、初始状态

2、假设第j位以及第j位之前的我们都填完了

3、推论第j+1位该怎么填

初始状态我们稍后再说，我们这里直接假设第j位以及第j位之前的我们都填完了。也就是说，从上图来看，我们有如下已知条件：

next[j] == k;

next[k] == 绿色色块所在的索引;

next[绿色色块所在的索引] == 黄色色块所在的索引;

这里要做一个说明：图上的色块大小是一样的（没骗我？好吧，请忽略色块大小，色块只是代表数组中的一位）。

我们来看下面一个图，可以得到更多的信息：

1.由"next[j] == k;"这个条件，我们可以得到 A1子串 == A2子串（根据next数组的定义，前后缀那个）。

2.由"next[k] == 绿色色块所在的索引;"这个条件，我们可以得到 B1子串 == B2子串。

3.由"next[绿色色块所在的索引] == 黄色色块所在的索引;"这个条件，我们可以得到C1子串 == C2子串。

4.由1和2(A1 == A2，B1 == B2)可以得到 B1 == B2 == B3 。

5.由2和3(B1 == B2， C1 == C2)可以得到 C1 == C2 == C3 。

6.B2 == B3可以得到 C3 == C4 == C1 == C2

上面这个就是很简单的几何数学，仔细看看都能看懂的。我这里用相同颜色的线段表示完全相同的子数组，方便观察。

接下来，我们开始用上面得到的条件来推导如果第j+1位失配时，我们应该填写next[j+1]为多少？

next[j+1]即是找strKey从0到j这个子串的最大前后缀：

#：(#:在这里是个标记，后面会用)我们已知A1 == A2，那么A1和A2分别往后增加一个字符后是否还相等呢？我们得分情况讨论：

(1)如果str[k] == str[j]，很明显，我们的next[j+1]就直接等于k+1。

用代码来写就是next[++j] = ++k;

(2)如果str[k] != str[j]，那么我们只能从已知的，除了A1，A2之外，最长的B1，B3这个前后缀来做文章了。

那么B1和B3分别往后增加一个字符后是否还相等呢？

由于next[k] == 绿色色块所在的索引，我们先让k = next[k]，把k挪到绿色色块的位置，这样我们就可以递归调用"#："标记处的逻辑了。

由于j+1位之前的next数组我们都是假设已经求出来了的，因此，上面这个递归总会结束，从而得到next[j+1]的值。

我们唯一欠缺的就是初始条件了：

next[0] = -1, k = -1, j = 0

另外有个特殊情况是k为-1时，不能继续递归了，此时next[j+1]应该等于0，即把j回退到首位。

即 next[j+1] = 0; 也可以写成next[++j] = ++k;

public static int[] getNext(String ps)

{

  char[] strKey = ps.toCharArray();

  int[] next = new int[strKey.length];

  // 初始条件

  int j = 0;

  int k = -1;

  next[0] = -1;

  // 根据已知的前j位推测第j+1位

  while (j < strKey.length - 1)

  {

    if (k == -1 || strKey[j] == strKey[k])

    {

      next[++j] = ++k;

    }

    else

    {

      k = next[k];

    }

  }

   return next;

}

现在再看这段代码应该没有任何问题了吧。

优化：

细心的朋友应该发现了，上面有这样一句话：

(1)如果str[k] == str[j]，很明显，我们的next[j+1]就直接等于k+1。用代码来写就是next[++j] = ++k;

可是我们知道，第j+1位是失配了的，如果我们回退j后，发现新的j(也就是此时的++k那位)跟回退之前的j也相等的话，必然也是失配。所以还得继续往前回退。

public static int[] getNext(String ps)

{

  char[] strKey = ps.toCharArray();

  int[] next = new int[strKey.length];

  // 初始条件

  int j = 0;

  int k = -1;

  next[0] = -1;

  // 根据已知的前j位推测第j+1位

  while (j < strKey.length - 1)

  {

    if (k == -1 || strKey[j] == strKey[k])

    {

      // 如果str[j + 1] == str[k + 1]，回退后仍然失配，所以要继续回退

      if (str[j + 1] == str[k + 1])

      {

        k = next[k + 1];

        next[++j] = k;

      }

      else

      {

        k = k + 1;

        next[++j] = k;

      }

    }

    else

    {

      k = next[k];

    }

  }

   return next;

}

好了，自此KMP的next求法全部讲解完毕。欢迎大家指出文章的错误，我好更加完善它。

----------------------------------------------------------------------------------------------------------

下面说说面试的时候，给一个字符串，要你写出它的Next数组，应该怎么写：

①：先对每一位左边的子串求出最大前后缀串的长度，作为初始的Next数组

②：因为第一位失配时需要移动i，因此赋值为-1

③：P[3] == A, Next[3] == 0, P[0] == A; 所以P[3] == P[0], (移动过去后还是失配,需要继续移动),优化Next[3]为Next[0],即-1

④：同理优化Next[10]为Next[0],即-1

⑤：同理优化P[14],P[15],P[16]

关于KMP中求next数组的思考【转】的更多相关文章

KMP算法中求next数组的实质
在串匹配模式中,KMP算法较蛮力法是高效的算法,我觉得其中最重要的一点就是求next数组: 看了很多资料才弄明白求next数组是怎么求的,我发现我的忘性真的比记性大很多,每次看到KMP算法求next数 ...
深入理解kmp中的next数组
next数组 1. 如果对于值k,已有p0 p1, ..., pk-1 = pj-k pj-k+1, ..., pj-1,相当于next[j] = k. 此意味着什么呢?究其本质,next[j] = ...
KMP算法求next数组
next数组的求解方法是:第一位的next值为0,第二位的next值为1.后面求解每一位的next值时,根据前一位进行比较.首先将前一位与其next值对应的内容进行比较,如果相等,则该位的next值就 ...
Seek the Name, Seek the Fame---poj2752（kmp中的Next数组）
题目链接:http://poj.org/problem?id=2752 题意就是求出是已知s串的前缀的长度x,并且要求此前缀也是s串的后缀:求出所有的 x : Next[i]的含义是前i个元素的前缀和 ...
POJ 2752 KMP中next数组的理解
感觉这里讲的挺好的.http://cavenkaka.iteye.com/blog/1569062 就是不断递归next数组.长度不断减小. 题意:给你一个串,如果这个串存在一个长度为n的前缀串,和长 ...
对于kmp求next数组的理解
首先附上代码 1 void GetNext(char* p,int next[]) 2 { 3 int pLen = strlen(p); 4 next[0] = -1; 5 int k = -1; ...
KMP 算法中的 next 数组
KMP 算法中对 next 数组的理解 next 数组的意义此处 next[j] = k:则有 k 前面的浅蓝色区域和 j 前面的浅蓝色区域相同: next[j] 表示当位置 j 的字符串与主串不匹 ...
求一个数组中最小的K个数
方法1:先对数组进行排序,然后遍历前K个数,此时时间复杂度为O(nlgn); 方法2:维护一个容量为K的最大堆(<算法导论>第6章),然后从第K+1个元素开始遍历,和堆中的最大元素比较,如 ...
编写函数求整形数组a中存储的m个不重复的整数的第k大的整数(其中m>=1,1<=k<=m)很简单的一个思路是酱紫的：管他辣么多干啥，上来一把排序然后直接得答案
/** * @author:(LiberHome) * @date:Created in 2019/2/28 20:38 * @description: * @version:$ *//*编写函数求整 ...

随机推荐

UVA 1393 Highways，UVA 12075 Counting Triangles —— （组合数，dp）
先看第一题,有n*m个点,求在这些点中,有多少条直线,经过了至少两点,且不是水平的也不是竖直的. 分析:由于对称性,我们只要求一个方向的线即可.该题分成两个过程,第一个过程是求出n*m的矩形中,dp[ ...
assign修饰对象类型会怎样？
首先我们需要明确,对象的内存一般被分配到堆上,基本数据类型和oc数据类型一般被分配在栈上. 如果用assign修饰对象,当对象释放后(因为不存在强引用,离开作用域对象内存可能被回收),指针的地址还是存 ...
Error creating bean with name 'persistenceExceptionTranslationPostProcessor' defined in class path resource [org/springframework/boot/autoconfigure/dao/PersistenceExceptionTranslationAutoConfiguration
dubbo 包和SpringBoot 冲突,注释就可以正常启动
Go 通道（channel）与协程间通信
协程间通信协程中可以使用共享变量来通信,但是很不提倡这样做,因为这种方式给所有的共享内存的多线程都带来了困难. 在 Go 中有一种特殊的类型,通道(channel),就像一个可以用于发送类型化数据的 ...
Android input输入框移动页面input手机键盘中的“搜索”按键
动页面input手机键盘中的“搜索”按键满足以下几点机即可: input type="search" 放到form标签中使用action属性 <form ac ...
LeetCode 240. 搜索二维矩阵 II（Search a 2D Matrix II）
题目描述编写一个高效的算法来搜索 m x n 矩阵 matrix 中的一个目标值 target.该矩阵具有以下特性: 每行的元素从左到右升序排列. 每列的元素从上到下升序排列. 示例: 现有矩阵 m ...
No suitable constructor was found in NUnit Parameterised tests
No suitable constructor was found in NUnit Parameterised tests Fairly obvious, but can also happen i ...
react-native（ios）简单配置环境（mac）
1.首先全局安装react-native-cli npm install -g react-native-cli 2.安装xcode(appStore) 3.打开xcode,检查一下是否装有某个版本的 ...
[面试] Java高级软件工程师面试考纲(转)
如果要应聘高级开发工程师职务,仅仅懂得Java的基础知识是远远不够的,还必须懂得常用数据结构.算法.网络.操作系统等知识.因此本文不会讲解具体的技术,笔者综合自己应聘各大公司的经历,整理了一份大公司对 ...
002-tomcat目录简介、应用部署【自动部署 ② 控制台部署 ③ 自定义部署】
一.目录及功能主目录下有bin,conf,lib,logs,temp,webapps,work 7个文件夹 1.1.bin目录[重要] bin目录主要是用来存放tomcat的命令,主要有两大类,一类 ...

关于KMP中求next数组的思考【转】

关于KMP中求next数组的思考【转】的更多相关文章

随机推荐

热门专题