图解KMP字符串匹配算法+代码实现

　　kmp算法跟之前讲的bm算法思想有一定的相似性。之前提到过，bm算法中有个好后缀的概念，而在kmp中有个好前缀的概念，什么是好前缀，我们先来看下面这个例子。

　　观察上面这个例子，已经匹配的abcde称为好前缀，a与之后的bcde都不匹配，所以没有必要再比一次，直接滑动到e之后即可。

　　那如果好前缀中有互相匹配的字符呢？

　　观察上面这个例子，这个时候如果我们直接滑到好前缀之后，则会过度滑动，错失匹配子串。那我们如何根据好前缀来进行合理滑动？

　　其实就是看当前的好前缀的前缀和后缀是否有匹配的，找到最长匹配长度，直接滑动。鉴于不止一次找最长匹配长度，我们完全可以先初始化一个数组，保存在当前好前缀情况下，最长匹配长度是多少，这时候我们的next数组就出来了。

　　我们定义一个next数组，表示在当前好前缀下，好前缀的前缀和后缀的最长匹配子串长度，这个最长匹配长度表示这个子串之前已经匹配过匹配了，不需要再次进行匹配，直接从子串的下一个字符开始匹配。

　　我们是否每次算next[i]时都需要每一个字符进行匹配，是否可以根据next[i - 1]进行推导以便减少不必要的比较。
　　带着这个思路我们来看看下面的步骤：
　　假设next[i - 1] = k - 1;
　　如果modelStr[k] = modelStr[i] 则next[i]=k

　　如果modelStr[k] != modelStr[i]，我们是否可以直接认定next[i] = next[i - 1]？

　　通过上面这个例子，我们可以很清晰的看到，next[i]!=next[i-1]，那当modelStr[k]!=modelStr[i]时候，我们已知next[0],next[1]…next[i-1]，如何推倒出next[i]呢？
　　假设modelStr[x…i]是前缀后缀能匹配的最长后缀子串，那么最长匹配前缀子串为modelStr[0…i-x]

　　我们在求这个最长匹配串的时候，他的前面的次长匹配串（不包含当前i的），也就是modelStr[x…i-1]在之前应该是已经求解出来了的，因此我们只需要找到这个某一个已经求解的匹配串，假设前缀子串为modelStr[0…i-x-1],后缀子串为modelStr[x…i-1],且modelStr[i-x] == modelStr[i],这个前缀后缀子串即为次前缀子串，加上当前字符即为最长匹配前缀后缀子串。
代码实现
　　首先在kmp算法中最主要的next数组，这个数组标志着截止到当前下标的最长前缀后缀匹配子串字符个数，kmp算法里面，如果某个前缀是好前缀，即与模式串前缀匹配，我们就可以利用一定的技巧不止向前滑动一个字符，具体看前面的讲解。我们提前不知道哪些是好前缀，并且匹配过程不止一次，因此我们在最开始调用一个初始化方法，初始化next数组。
　　1.如果上一个字符的最长前缀子串的下一个字符==当前字符，上一个字符的最长前缀子串直接加上当前字符即可
　　2.如果不等于，需要找到之前存在的最长前缀子串的下一个字符等于当前子串的，然后设置当前字符子串的最长前缀后缀子串

int[] next ;

    /**

     * 初始化next数组

     * @param modelStr

     */

    public void init(char[] modelStr) {

        //首先计算next数组

        //遍历modelStr，遍历到的字符与之前字符组成一个串

        next = new int[modelStr.length];

        int start = 0;

        while (start < modelStr.length) {

            next[start] = this.recursion(start, modelStr);

            ++ start;

        }

    }

    /**

     *

     * @param i 当前遍历到的字符

     * @return

     */

    private int recursion(int i, char[] modelStr) {

        //next记录的是个数，不是下标

        if (0 == i) {

            return 0;

        }

        int last = next[i -1];

        //没有匹配的,直接判断第一个是否匹配

        if (0 == last) {

            if (modelStr[last] == modelStr[i]) {

                return 1;

            }

            return 0;

        }

        //如果last不为0，有值，可以作为最长匹配的前缀

        if (modelStr[last] == modelStr[i]) {

            return next[i - 1] + 1;

        }

        //当next[i-1]对应的子串的下一个值与modelStr不匹配时，需要找到当前要找的最长匹配子串的次长子串

        //依据就是次长子串对应的子串的下一个字符==modelStr[i];

        int tempIndex = i;

        while (tempIndex > 0) {

            last = next[tempIndex - 1];

            //找到第一个下一个字符是当前字符的匹配子串

            if (modelStr[last] == modelStr[i]) {

                return last + 1;

            }

            -- tempIndex;

        }

        return 0;

    }

　　然后开始利用next数组进行匹配，从第一个字符开始匹配进行匹配，找到第一个不匹配的字符，这时候之前的都是匹配的，接下来先判断是否已经是完全匹配，是直接返回，不是，判断是否第一个就不匹配，是直接往后面匹配。如果有好前缀，这时候就利用到了next数组，通过next数组知道当前可以从哪个开始匹配，之前的都不用进行匹配。

public int kmp(char[] mainStr, char[] modelStr) {

        //开始进行匹配

        int i = 0, j = 0;

        while (i + modelStr.length <= mainStr.length) {

            while (j < modelStr.length) {

                //找到第一个不匹配的位置

                if (modelStr[j] != mainStr[i]) {

                    break;

                }

                ++ i;

                ++ j;

            }

            if (j == modelStr.length) {

                //证明完全匹配

                return i - j;

            }

            //走到这里找到的是第一个不匹配的位置

            if (j == 0) {

                ++ i;

                continue;

            }

            //从好前缀后一个匹配

            j = next[j - 1];

        }

        return -1;

    }

图解KMP字符串匹配算法+代码实现的更多相关文章

BM和KMP字符串匹配算法学习
BM和KMP字符串匹配算法学习分类: 研究与学习字符串匹配BM(Boyer-Moore)算法学习心得 http://www.cnblogs.com/a180285/archive/2011/12/ ...
图解BM（Boyer-Moore）字符串匹配算法+代码实现
简介本篇文章主要分为两个大的部分,第一部分通过图解的方式讲解BM算法,第二部分则代码实现一个简易的BM算法. 基本概念 bm是一个字符串匹配算法,有实验统计,该算法是著名kmp算法性能的3-4倍,其 ...
【KMP】【字符串】KMP字符串匹配算法学习笔记
一.简介 KMP是由Knuth.Morris和Prat发明的字符串匹配算法,它的时间复杂度是均摊$O(n+m)$.其实用Hash也可以做到线性,只不过Hash存在极其微小的难以避免的冲突. ...
KMP字符串匹配算法翔解❤
看了Angel_Kitty学姐的博客,我豁然开朗,写下此文: 那么首先我们知道,kmp算法是一种字符串匹配算法,那么我们来看一个例子. 比方说,现在我有两段像这样子的字符串: 分别是T和P,很明显,P ...
KMP字符串匹配算法理解(转)
一.引言主串(被扫描的串):S='s0s1...sn-1',i 为主串下标指针,指示每回合匹配过程中主串的当前被比较字符: 模式串(需要在主串中寻找的串):P='p0p1...pm-1',j 为模式 ...
每周一算法之六——KMP字符串匹配算法
KMP是一种著名的字符串模式匹配算法,它的名称来自三个发明人的名字.这个算法的一个特点就是,在匹配时,主串的指针不用回溯,整个匹配过程中,只需要对主串扫描一遍就可以了.因此适合对大字符串进行匹配. 搜 ...
子字符串substring 问题 - KMP 字符串匹配算法备忘录
本文为自己对KMP的理解. 对KMP很好的介绍可以参考 http://www.cnblogs.com/yjiyjige/p/3263858.html 本文为对这篇文章的提炼和补充. KMP算法基本思想 ...
KMP字符串匹配算法详解
KMP算法利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的.具体实现就是实现一个next()函数,函数本身包含了模式串的局部匹配信息.时间复杂度O(m+n). Next()函数 ...
[KMP]字符串匹配算法
算法介绍: KMP是一种用来处理字符串匹配问题的算法,给你两个字符串A.B,让你回答B是否为A的子串,或者A中有多少子串等于B. 这题最暴力的做法是:枚举A中与B相等的子串的左端点,再判断是否与B相等 ...

随机推荐

攻防世界 unserialize3
unserialize3 class xctf{ public $flag = '111'; public function __wakeup(){ exit('bad requests'); } } ...
dva+react+antd+webpack 项目开发配置
如何搭建一个dva项目如何搭建一个dva项目后期项目会在github上进行书写,同时也会在segmentfault上进行同步-3Q拜读-
世界各国 MCC 和 MNC 列表
http://www.cnblogs.com/inteliot/archive/2012/08/22/2651666.html常见MCC:代码(MCC) ISO 3166-1 国家202 ...
JS实现列表移动（通过DOM操作select标签）
JS小例题学习内容: 需求总结: 学习内容: 需求用 JavaScript 实现 select 标签的移动实现代码 <!DOCTYPE html PUBLIC "-//W3C/ ...
executeFind()方法和execute()方法区别
返回类型不同:executeFind()方法返回集合,execute()方法返回对象 executeFind @Override public List<TCpContact> getCp ...
递归函数求n!
#include<iostream> using namespace std; int main() { int n; cin>>n; int jieceng(int); co ...
不同标准下的C语言常量范围的默认类型的检测（测试样例为C90与C99）
不同标准下的C语言常量范围的默认类型的检测一.C90与C99标准下的不同常量范围的默认类型 C90标准下对不同常量范围默认类型的检测实现及运行结果: C99标准下对不同范围默认类型的检测实现 ...
如何得到个性化banner
介绍有时候用一些脚本工具,会有一些由其他字符组成的字符.(如下面这个我还在写的) 使用 kali自带了这个工具 -- figlet. figlet AuToIP 就可以得到上面的字符啦! 另外如果想 ...
Struts2-向值栈中存放数据
1.第一种获取值栈对象,调用值栈对象里面的set方法(该方法添加的是一个Map集合) //第一种方式,使用值栈对象获取对象里面的set方法 //1.获取值栈对象 ActionContext cont ...
spring-aop相关概念
如果下面有疑问请看完动态代理技术的分析 Aop术语: Target(目标对象):要被增强的方法的对象 Proxy(代理对象):简单的说就是对目标对象进行增强的代理类 Joinpoint(连接点):可以 ...

图解KMP字符串匹配算法+代码实现

图解KMP字符串匹配算法+代码实现的更多相关文章

随机推荐

热门专题