字符串匹配的暴力解法

给定字符串s和p,寻找字符串p在字符串s中出现的位置,暴力解法如下所示:

  • 如果当前字符匹配成功,++i;++j,继续匹配下一字符。
  • 如果s[i]s[j]匹配失败,令i-=(j-1),j=0,即i转到上次首次匹配开头字符的下一位置,j从头开始。
int brute_match(string s, string p) {
int slen = s.size();
int plen = p.size();
int i = 0, j = 0;
while (i < slen and j < plen) {
if (s[i] == p[j]) {
++i;
++j;
} else {
i -= (j - 1);
j = 0;
}
}
if (j == plen)
return i - j;
return -1;
}

如果有一种算法能够不让i回退,只需要移动j,那么我们的算法将会大为简化。

kmp算法

在kmp算法中,引入了next数组,表示当前字符之前的子字符串中具有多大长度的相同的前缀后缀,请注意,next字符串的内容是和需要匹配的字符串p相关的

在brute-force算法的基础上改进的kmp算法如下所示:

int kmp_match(string s, string p,const vector<int> &next) {
int slen = s.size();
int plen = p.size();
int i = 0, j = 0;
while (i < slen and j < plen) {
if (j == -1 or s[i] == p[j]) {
++i;
++j;
} else {
j = next[j];
}
}
if (j == plen)
return i - j;
return -1;
}

next数组的求法

首先,我们思考一下如何计算给定字符串的最长相同前缀和后缀的长度。
  1. 设最长相同前缀后缀为str
  2. 设数组len中每一个位置和字符串s一对应,表示字符串截止到当前位置最长相同前缀后缀的长度。
  3. k表示当前位置及之前的字符串的最长相同前缀后缀的长度。s[k]表示原字符串s最长前缀后缀str之后紧跟的那个字符。
  4. 我们从第2个字符开始寻找最长前缀后缀,如果s[i]!=s[k],代表字符i无法进一步与字符j匹配,最长相同前缀后缀不可能在上一次匹配的基础之上进一步增长。如果之前能够匹配的最长相同前缀后缀长度大于0,我们不断尝试在上一次的基础之上降低标准,匹配更小长度的最长前缀后缀。
  5. 关键点在于,如何选择降低标准后的需要匹配的相同前缀后缀?这里我们将k调整为k=len[k-1],原因稍后详述
  6. 若最终经过调整之后,s[i]=s[j],这表示最长相同前缀与后缀能够在长度为k的最长相同前缀后缀的基础之上,再增长一个字符,即len[i]=++k。否则说明当前位置没有相同前缀后缀,记len[i]=0

只有长度大于1的字符串才有最长前缀与后缀,最长前缀不包括最后一个字符,最长后缀不包括第一个字符。

k=len[k-1]原因讲解

假设当前k指向字符串中f对应的位置,在e之前我们匹配到的最长相同前缀后缀为abeab,我们发现ef不能匹配,我们需要降低标准,尝试匹配更短长度的最长前缀后缀,应该匹配多长的呢?

我们发现图中下划线部分的字符串str完全相同,我们要找的长度缩减的最长相同前缀后缀长度不能超过str的长度,而且要保证这一字符串(设为str_new)满足条件:是相同的前缀后缀。即图中最前面和最后面标记的字符串str_new必须完全一样。根据对称性,这等价于在靠后的str中寻找最长前缀后缀。而且因为k比较的时候,k实际指向前面str的末尾下一位置,所以我们有:k=len[k-1]

void calculate_length(string s, vector<int> &len) {
len.resize(s.length());
len[0] = 0;
int k = 0;
for (int i = 1; i < s.length(); ++i) {
while (s[i] != s[k] and k > 0) {
k = len[k - 1];
}
if (s[i] == s[k]) {
len[i] = ++k;
} else {
len[i] = 0;
}
}
}
next数组与最长前缀后缀

next数组,表示当前字符之前的子字符串中具有多大长度的相同的前缀后缀,也就是说next 数组相当于“最大长度值” 整体向右移动一位,然后初始值赋为-1

其示例代码如下所示,因为和求最长前缀后缀的代码类似,故不再追究。

void calculate_next(string s,vector<int>&next){
next.resize(s.length());
int len = s.length();
next[0] = -1;
int k = -1;
int j = 0;
while(j<len-1){
if(k == -1 or s[j] ==s[k]){
++k;
++j;
next[j] = k;
}
else{
k = next[k];
}
}
}

kmp算法理解与记录的更多相关文章

  1. 关于KMP算法理解(快速字符串匹配)

    参考:http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html 2016-08- ...

  2. [转]KMP算法理解及java实现

    这大概是我看的最好懂的KMP算法讲解了,不过我还只弄懂了大概思想,算法实现我到时候用java实现一遍 出处:知乎 https://www.zhihu.com/question/21923021/ans ...

  3. KMP算法理解(转)

    (作者matrix67) KMP算法是拿来处理字符串匹配的.换句话说,给你两个字符串,你需要回答,B串是否是A串的子串(A串是否包含B串).比如,字符串A="I'm matrix67&quo ...

  4. KMP算法理解

    1.KMP算法解决问题:对BF(Brute Force)算法优化,避免对主串进行回溯匹配(匹配不成功主串指针向后移1位,子串指针重置开始位置,两串继续匹配),效率底. 2.KMP算法原则/目的:主串不 ...

  5. 初涉KMP算法

    久仰字符串系列理论 KMP 讲解(引用自bzoj3670动物园) 某天,园长给动物们讲解KMP算法. 园长:“对于一个字符串S,它的长度为L.我们可以在O(L)的时间内,求出一个名为next的数组.有 ...

  6. 不能更通俗了!KMP算法实现解析

    我之前对于KMP算法理解的也不是很到位,如果很长时间不写KMP的话,代码就记不清了,今天刷leetcode的时候突然决定干脆把它彻底总结一下,这样即便以后忘记了也好查看.所以就有了这篇文章. 本文在于 ...

  7. KMP算法 --- 深入理解next数组

    在KMP算法中有个数组,叫做前缀数组,也有的叫next数组. 每一个子串有一个固定的next数组,它记录着字符串匹配过程中失配情况下可以向前多跳几个字符. 当然它描述的也是子串的对称程度,程度越高,值 ...

  8. KMP算法中next函数的理解

    首先要感谢http://blog.csdn.net/v_july_v/article/details/7041827以及http://blog.chinaunix.net/uid-27164517-i ...

  9. KMP算法的理解

    ---恢复内容开始--- 在看数据结构的串的讲解的时候,讲到了KMP算法——一个经典的字符串匹配的算法,具体背景自行百度之,是一个很牛的图灵奖得主和他的学生提出的. 一开始看算法的时候很困惑,但是算法 ...

随机推荐

  1. bat脚本:自动压缩n天前的文件【转载】

    原文如下: bat脚本:自动压缩n天前的文件-中原小伙-ChinaUnix博客http://blog.chinaunix.net/uid-24946452-id-1651762.html     磁盘 ...

  2. JavaBean--删除操作

    删除命令:removeAttribute(Javabean名称) 前面调用用pageContext,request,session,application, 如request.removeAttrib ...

  3. Regionals 2010 :: NEERC Eastern Subregional

    遇到的问题:题目看错...(TAT英语渣渣没办法) 这里具体就讲一些思想和trick ①A题遇到了公式里面的单位问题. ②E题就是变量初始化忘记了 ③J题就是分情况讨论,实际上没有那么难...(题目读 ...

  4. Android MediaScanner 详尽分析

    [Innost]: http://blog.csdn.net/Innost/article/details/6083467 ====================================== ...

  5. jQuery常用及基础知识总结(三)

    1.通过jquery的$()引用元素包括通过id.class.元素名以及元素的层级关系及dom或者xpath条件等方法,且返回的对象为jquery对象(集合对象),不能直接调用dom定义的方法. 2. ...

  6. CentOS6.5 添加epel源

    0.安装yum优先级插件 yum install yum-priorities 1.epel简介: https://fedoraproject.org/wiki/EPEL/zh-cn rpm -Uvh ...

  7. Android Fragment 真正的完全解析(下)---转

    转载请标明出处:http://blog.csdn.net/lmj623565791/article/details/37992017 上篇博客中已经介绍了Fragment产生原因,以及一些基本的用法和 ...

  8. HDU 3201 Build a Fence

    水题 #include<cstdio> #include<cstring> #include<cmath> #include<algorithm> us ...

  9. 基于js脚本的单机黄金点游戏

    题目描述 N个同学(N通常大于10),每人写一个0-100之间的有理数 (不包括0或100),交给裁判,裁判算出所有数字的平均值,然后乘以0.618(所谓黄金分割常数),得到G值.提交的数字最靠近G( ...

  10. python数组查找算法---bisect二分查找插入

    1 实例 这个模块只有几个函数, 一旦决定使用二分搜索时,立马要想到使用这个模块 [python] view plaincopyprint? import bisect L = [1,3,3,6,8, ...