回顾:4种字符串匹配算法:BS朴素 Rabin-karp(上)

4种字符串匹配算法:有限自动机(中)

1、图解

  KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt同时发现,因此人们称它为克努特——莫里斯——普拉特操作(简称KMP算法)。KMP算法的关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是实现一个next()函数,函数本身包含了模式串的局部匹配信息。我不喜欢叫他“看毛片”算法。但我不得不说,能联想到这个的人,确实很有才。

  原理如果文字理解起来非常复杂,而且有点难懂。因此,画图来讲解是最好的方式啦,下图非常容易理解算法的执行原理。

  我之前也是看了这幅图理解的。所以我觉得把这个图用来讲解最好不过(抱歉,我搬了这图,但是这个图是我至今觉得讲的最好的图,不得不搬),当然我已经全部重新画过。网络上KMP的讲解,讲的好的寥寥无几,发现一些博客,都是转载,或者讲的不够清楚,很难理解。我觉得有必要重新整理整理,自己来梳理一下知识点,为了让自己更理解深刻一些。

  首先模式串逐一对比文本串,如上图,直到遇到相同的元素,如下图:

  模式串,逐一对比,直到发现蓝色框框内的字符不相同,下图。这时候怎么办?

   BS算法,就是把模式串向前移动一位,从头继续比较,所以他的时间复杂度最差才是o(m*n)。而KMP呢,不再从头比较啦,这样大大减少了时间复杂度。我们即将引出next数组概念。

  既然,不保存,那他是怎么跳的呢?

  我们发现,ABCDAB,AB**AB, 这个字符串首尾相同,因此直接跳4格,如下图。

  也就是说,next数组保存的数和跳几格是有关系的呗。那我们怎么来看呢?这个字符串的匹配值有关。我们只要数,字符串首尾有几个是匹配的即可,通过这样来初始化。我们来看一下这个表格。

   A = 0  AB = 0  ABC = 0  ABCD = 0  ABCDA = 1  ABCDAB = 2  ABCDABD = 0

  公式:

移动位数 = 已匹配的字符数 - 表格内的匹配值

  我们继续看,即使跳转了4格,还是有蓝色的部分不匹配,又因为AB = 0 所以移动位数 = 已匹配的字符数(2) - 表格内的匹配值(0) = 2,依次类推,直到匹配到下图,则成功。

  该算法,最重要的是next数组上。理解这个,我们觉得其他就迎刃而解了。

2、代码实现

  主要代码(c++版):

 std::map<int,int> compute_prefix(const std::string &pattern)
{
int i = ;
int p = ;
std::map<int, int> pi;
int length = pattern.length();
pi.insert(std::make_pair(, ));
while (i < length)
{
if (p > && pattern[i] != pattern[p])
{
p = 0;
}
if (pattern[i] == pattern[p])
{
++p;
}
pi.insert(std::make_pair(i + , p));
i++;
}
return pi;
} bool kmp_match(const std::string &text,const std::string &pattern)
{
std::map<int, int> pos;
pos = compute_prefix(pattern);
int q = ;
for (int i = ; i < text.length(); i++)
{
if (q > && text[i] != pattern[q])
{
q = pos.at(q);
}
if (text[i] == pattern[q])
{
q++;
}
if (q == pattern.length())
{
return true;
}
}
}

测试代码:

int main()
{
char a[] = "bbc abcdab abcdabcdabde";
char b[] = "abcdabd"; bool iftrue = kmp_match(a, b);;
if (iftrue == true)
{
std::cout << "找到了" << std::endl;
}
else
{
std::cout << "没有" << std::endl;
}
}

注:你也可以返回文本串的地址下标,稍加改动即可。

 int kmp_match(const std::string &text,const std::string &pattern)
{
std::map<int, int> pos;
pos = compute_prefix(pattern);
int q = ;
for (int i = ; i < text.length(); i++)
{
if (q > && text[i] != pattern[q])
{
q = pos.at(q);
}
if (text[i] == pattern[q])
{
q++;
}
if (q == pattern.length())
{
return (i+)-q+;
}
}
return -;
}

返回数据下标 稍加改动后的代码 点击打开

另外,从代码中可以看出,他的时间复杂度为o(n),预处理时间o(m)

资料:

特别感谢:阮一峰的网络日志

 #include <iostream>
#include <map>
#include <string>
#include <utility>
#include <stdlib.h> std::map<int,int> compute_prefix(const std::string &pattern)
{
int i = ;
int p = ;
std::map<int, int> pi;
int length = pattern.length();
pi.insert(std::make_pair(, ));
while (i < length)
{
if (p > && pattern[i] != pattern[p])
{
p = ;
}
if (pattern[i] == pattern[p])
{
++p;
}
pi.insert(std::make_pair(i + , p));
i++;
}
return pi;
} int kmp_match(const std::string &text,const std::string &pattern)
{
std::map<int, int> pos;
pos = compute_prefix(pattern);
int q = ;
for (int i = ; i < text.length(); i++)
{
if (q > && text[i] != pattern[q])
{
q = pos.at(q);
}
if (text[i] == pattern[q])
{
q++;
}
if (q == pattern.length())
{
return (i+)-q+;
}
}
return -;
} int main()
{
char a[] = "bbc abcdab abcdabcdabde";
char b[] = "abcdabd"; int iftrue = kmp_match(a, b);;
if (iftrue >=)
{
std::cout << "找到了" << " "<< iftrue <<std::endl;
}
else
{
std::cout << "没有" << std::endl;
}
system("pause");
}

完整代码

4种字符串匹配算法:KMP(下)的更多相关文章

  1. 4种字符串匹配算法:BS朴素 Rabin-karp(上)

    字符串的匹配的算法一直都是比较基础的算法,我们本科数据结构就学过了严蔚敏的KMP算法.KMP算法应该是最高效的一种算法,但是确实稍微有点难理解.所以打算,开这个博客,一步步的介绍4种匹配的算法.也是& ...

  2. 字符串匹配算法--KMP字符串搜索(Knuth–Morris–Pratt string-searching)C语言实现与讲解

    一.前言   在计算机科学中,Knuth-Morris-Pratt字符串查找算法(简称为KMP算法)可在一个主文本字符串S内查找一个词W的出现位置.此算法通过运用对这个词在不匹配时本身就包含足够的信息 ...

  3. 字符串匹配算法 - KMP

    前几日在微博上看到一则微博是说面试的时候让面试者写一个很简单的字符串匹配都写不出来,于是我就自己去试了一把.结果写出来的是一个最简单粗暴的算法.这里重新学习了一下几个经典的字符串匹配算法,写篇文章以巩 ...

  4. 字符串匹配算法——KMP算法学习

    KMP算法是用来解决字符串的匹配问题的,即在字符串S中寻找字符串P.形式定义:假设存在长度为n的字符数组S[0...n-1],长度为m的字符数组P[0...m-1],是否存在i,使得SiSi+1... ...

  5. 字符串匹配算法KMP算法

    数据结构中讲到关于字符串匹配算法时,提到朴素匹配算法,和KMP匹配算法. 朴素匹配算法就是简单的一个一个匹配字符,如果遇到不匹配字符那么就在源字符串中迭代下一个位置一个一个的匹配,这样计算起来会有很多 ...

  6. 字符串匹配算法——KMP、BM、Sunday

    KMP算法 KMP算法主要包括两个过程,一个是针对子串生成相应的“索引表”,用来保存部分匹配值,第二个步骤是子串匹配. 部分匹配值是指字符串的“前缀”和“后缀”的最长的共有元素的长度.以“ABCDAB ...

  7. KMP Algorithm 字符串匹配算法KMP小结

    这篇小结主要是参考这篇帖子从头到尾彻底理解KMP,不得不佩服原作者,写的真是太详尽了,让博主产生了一种读学术论文的错觉.后来发现原作者是写书的,不由得更加敬佩了.博主不才,尝试着简化一些原帖子的内容, ...

  8. [Algorithm] 字符串匹配算法——KMP算法

    1 字符串匹配 字符串匹配是计算机的基本任务之一. 字符串匹配是什么?举例来说,有一个字符串"BBC ABCDAB ABCDABCDABDE",我想知道,里面是否包含另一个字符串& ...

  9. 字符串匹配算法——KMP算法

    处理字符串的过程中,难免会遇到字符匹配的问题.常用的字符匹配方法 1. 朴素模式匹配算法(Brute-Force算法) 求子串位置的定位函数Index( S, T, pos). 模式匹配:子串的定位操 ...

随机推荐

  1. Visual Studio 2013 RTM 中文语言包官方下载地址发布

    如果你下载的是英文版,你想安装一个中文的visual studio 2013,那么你大可不必重新下载安装visual studio 2013,因为微软提供了Visual Studio 2013 RTM ...

  2. Android 实现 IOS相机滑动控件

     IOS相比于Android,动画效果是一方面优势,IOS相机切换时滑动的动画很不错,看着是有一个3D的效果,而且变化感觉很自然.Android也可以通过Graphics下面的Camera可以实现3D ...

  3. SQL几个有点偏的语句

    SQL语句是一种集合操作,就是批量操作,它的速度要比其他的语言快,所以在设计的时候很多的逻辑都会放在sql语句或者存储过程中来实现,这个是一种设计思想.但是今天我们来讨论另外一个话题.Sql页提供了丰 ...

  4. iis最大连接数和队列长度

    最近公司项目的服务器出现了性能问题,关于iis负载过大,当客户问到最大连接数相关问题造成很萌的感觉,就查了相关资料: 首先让我们来看看IIS里面的这2个数字:最大并发连接数,队列长度.先说这2个数字在 ...

  5. Java程序实现导出Excel,支持IE低版本

    来博客园两年多了,最近才开通了微博,因为懒所以也一直没有写东西,今天想整理一下自己前段时间遇到的一个导出的问题. 因为项目的需求,要做一部分导出功能.开始的时候用的公司的导出,但是很奇怪有部分模块导出 ...

  6. CSS中:nth-child和JQuery:eq的区别

    $("li:nth-child(n)")选择器与$("li:eq(n)")选择器的不同之处在于:$("li:eq(n)")选择器只匹配一个元 ...

  7. 好用的自适应表格插件-bootstrap table (支持固定表头)

    最近工作中找到了一款十分好用的表格插件,不但支持分页,样式,搜索,事件等等表格插件常有的功能外,最主要的就是他自带的冻结表头功能,让开发制作表格十分容易,不过网上大多都是英文文档,第一次使用会比较麻烦 ...

  8. Bootstrap_排版_表格

    一.基础表格 <table class="table"> <thead> <tr> <th>表格标题</th> < ...

  9. python消息队列snakemq使用总结

    Python 消息队列snakemq总结 最近学习消息总线zeromq,在网上搜了python实现的消息总线模块,意外发现有个消息队列snakemq,于是拿来研究一下,感觉还是很不错的,入手简单使用也 ...

  10. 2016022603 - redis数据类型

    Redis支持5种类型的数据类型 1.字符串:Redis字符串是字节序列.Redis字符串是二进制安全的,这意味着他们有一个已知的长度没有任何特殊字符终止,所以你可以存储任何东西,512兆为上限.[类 ...