算法简介

模式匹配

给定主串text和模式串pattern,在主串中查找,如果找到了模式串,返回模式串在主串中的起始位置,从1开始计数。

暴力求解求解模式匹配

算法的核心思想是:蛮力法。即使用两个指针ij,其中i指针用来遍历text,j指针用来遍历pattern。当text[i]==text[j]的时候,继续比较;如果不相等,此时应当回退,i指针退到上次比较的位置,而j指针需要退至pattern起始位置,也就是0。从而展开新一轮比较。

使用C语言描述如下:

  1. #include <string>
  2. #include <cstdio>
  3. int IndexViolent(string s, string p)
  4. {
  5. int i = 0, j = 0;
  6. int count = 0;//记录比较的次数
  7. while (i < s.length() && j < p.length())
  8. {
  9. count++;
  10. if (s[i] == p[j])
  11. {
  12. i++;
  13. j++;
  14. }
  15. else
  16. {
  17. // 注意细节
  18. // j指针回到0重新进行匹配,i指针回到上次匹配位置
  19. // 其中模式串[0,j-1]和主串[i-j,i-1]上面的字符是相匹配的
  20. // 此时i指针应当回退到起始比较位置的后一个字符重新开始匹配
  21. i = i - j+1;
  22. j = 0;
  23. }
  24. }
  25. printf("比较的次数为%d\n", count);
  26. if (i < s.length())
  27. return i - p.length()+1;
  28. return 0;
  29. }

kmp模式匹配推导

暴力求解可以解决问题,但是时间平均时间复杂度达到了O(m*n),其中m为模式串的长度,n为主串的长度。当主串是长文本时,算法运行时间比较慢。

回到查找,查找里面的核心操作为比较操作,因此为了降低时间复杂度,必须减少比较的次数。

那么如何减少比较的次数,既然暴力求解算法中每次失配的时候,模式串都是移动一位。那么能不能在失配的时候,模式串向后多移动几位?也就是说假设 text[i]!=pattern[j],下一次直接比较text[i]和pattern[x],其中x>=0。这种情况下将减少比较次数,同时最重要的是i指针没有回退。现在当务之急就是找到x的值。

已知主串s和模式串p,假设:在s[i]和p[j]时发生失配,此时说明模式串p[0~j-1]和s[j-1,i-1]是相匹配的,接下来下一轮模式串的匹配位置记为next[j],其语义为当pattern[j]和主串不匹配的时候,下一轮模式串比较的起始位置为next[j],其中pattern[0,j-1]和text[i-j,i-1]相匹配,且next数组的长度和pattern数组长度相同。next[j]的语义看起来有一定的递归意味,因为当下一轮next[j]位置没有发生匹配时,此时模式串比较的起始位置应当为next[next[j]],依次类推,最差的情况应该是一直推到0,此时回到pattern起始位置比较。但是还有一种可能,那就是s[i]在和p[0]匹配时就失败,此时应当是s[i+1]和p[0]进行比较。

为了将这种特殊的情况包括在next数组的语义中,可以让next[0]=-1,而按照语义next[1]的值为0。

  1. 输入:主串s和模式串p
  2. 输出:匹配起始位置
  3. int index(string s,string p){
  4. int m=s.length();
  5. int n=p.length();
  6. int i=0;
  7. int j=0;
  8. while(j<n && i<m){
  9. if(s[i]==p[j] || j==-1){
  10. // 当前匹配继续向后进行
  11. i++;
  12. j++;
  13. }else{
  14. //不匹配的情况,下一轮模式串从next[j]开始比较
  15. j=next[j];
  16. }
  17. // 还有一种情况,主串在模式串第一位比较时
  18. }
  19. if(j==m){
  20. // 匹配成功
  21. retuen i-j+1;
  22. }else{
  23. return -1;
  24. }
  25. }

接下来的问题便在于构建next数组,还是从next数组的语义出发

next[j]的值的含义:当pattern[j]和主串不匹配的时候,下一轮模式串比较的起始位置为next[j]

经过上述分析,知道next[0]的值为-1,next[1]的值为0

当j>1的时候,假设next[j]=x,x的最大值为x-1。则有p[0,x-1]和p[j-x,j-1],能不能求出next[j+1]的值?

next[j+1]最大值为x+1,此时p[0,x]和p[j-x,j]相匹配,结合上面的p[0,x-1]和p[j-x,j-1]相匹配,此时有p[x]=p[j],反过来也成立。

即:若p[x]=p[j],则有next[j+1]=next[j]+1

但是如果p[x]不等于p[j]呢?此时应当使用循环查看p[j]和p[next[x]]是不是相等,若相等,则next[j+1]=p[next[x]]+1。否则继续向后查看。一直查看到p[0],还不相等,此时说明next[j+1]的值应当为0

接下来使用代码进行描述

为此需要使用两个变量记录:使用变量i来遍历next数组,确定next[i]的值,【为了生成next数组,至少得遍历一遍数组】使用变量j记录next[i-1]的值。

  1. void generateNext(string p){
  2. next[0]=-1;
  3. int i=0;
  4. int j=-1;
  5. while(i<p.length()){
  6. if(j==-1 || p[i]==p[j]){
  7. // j==-1处理p[i]和p[0]都不匹配得情况
  8. i++;
  9. j++;
  10. next[i]=j;
  11. // 上面三行代码实际上用一行代码更好理解
  12. // next[++i]=++j;
  13. }else{
  14. j=next[j];
  15. }
  16. }
  17. }

kmp模式匹配完整代码

  1. #include <iostream>
  2. #include <string>
  3. #include <cstdio>
  4. using namespace std;
  5. const int MAXLENGTH = 100000;
  6. int nextTable[MAXLENGTH];
  7. /**
  8. * @brief
  9. *
  10. * @param pattern
  11. */
  12. void generateNext(string pattern)
  13. {
  14. nextTable[0] = -1;
  15. int j = -1; // j 指针当模式失配的时候,此时应当重新进行匹配,如果使用next数组,重新匹配的位置 pattern[0],又回到起点,而使用 next 数组以后,位置变为 next[j],next[j]最大为j-1
  16. int i=0;// i 指针用来遍历nextTable数组,是只增不减的
  17. /*
  18. a b a b d
  19. -1 0
  20. */
  21. while(i<pattern.length()){
  22. // i的值至少始终比j的值大一
  23. // next[j]的值最大为 j-1
  24. // 这也是为什么i初始值为0而j的初始值为-1
  25. if(j==-1 || pattern[i]==pattern[j]){
  26. // 匹配
  27. i++;
  28. j++;
  29. nextTable[i] = j;
  30. }else{
  31. // 失配的时候
  32. // 此时应当找更短的后缀匹配
  33. // j = nextTable[j];
  34. // 代码优化,如果pattern[nextTable[j]]的位置和pattern[j]相等,此时也没有继续比较的必要
  35. do{
  36. j = nextTable[j];
  37. } while (pattern[j] == pattern[nextTable[j]]);
  38. // 循环结束,此时pattern[j] != pattern[nextTable[j]]
  39. // 开启下一轮匹配
  40. }
  41. }
  42. // print next array
  43. for (int i = 0; i < pattern.length();i++){
  44. printf("%d ", nextTable[i]);
  45. }
  46. printf("\n");
  47. }
  48. /**
  49. * @brief kmp模式匹配
  50. *
  51. * @param text
  52. * @param pattern
  53. * @return int
  54. */
  55. int kmp(string text, string pattern)
  56. {
  57. int n = text.length();
  58. int m = pattern.length();
  59. int i = 0, j = 0;
  60. generateNext(pattern);
  61. while (i < n && j < m)
  62. {
  63. // 匹配的情况,pattern[0]和主串不发生匹配
  64. if (pattern[j] == text[i] || j == -1)
  65. {
  66. i++;
  67. j++;
  68. }
  69. else
  70. {
  71. // 不匹配的情况
  72. j = nextTable[j];
  73. }
  74. }
  75. /*
  76. aba
  77. ba
  78. */
  79. if(j==m){
  80. return i - j + 1;
  81. }else{
  82. return -1;
  83. }
  84. }

测试代码

  1. // main函数测试多组数据
  2. /*
  3. windows下的运行脚本
  4. cd "d:\01.kaoyan\c_language_learning\" ;
  5. if ($?) { g++ kmp2.cpp -o kmp2 } ;
  6. if ($?) { .\kmp2 } ;
  7. // 更改控制台编码格式为utf8编码
  8. chcp 65001
  9. */
  10. int main()
  11. {
  12. int caseNumber;
  13. scanf("%d", &caseNumber);
  14. while (caseNumber--)
  15. {
  16. string text, pattern;
  17. cin >> text >> pattern;
  18. printf("模式匹配的位置为%d\n", kmp(text, pattern));
  19. }
  20. return 0;
  21. }

关于KMP模式匹配的一些思考的更多相关文章

  1. KMP模式匹配_2

    http://blog.csdn.net/lin_bei/article/details/1252686 三. 怎么求串的模式值next[n] 定义: (1)next[0]= -1 意义:任何串的第一 ...

  2. YTU 2297: KMP模式匹配 三(串)

    2297: KMP模式匹配 三(串) 时间限制: 1 Sec  内存限制: 128 MB 提交: 25  解决: 16 [提交][状态][讨论版] [Edit] [TestData] 题目描述 输入一 ...

  3. YTU 2296: KMP模式匹配 二(串)

    2296: KMP模式匹配 二(串) 时间限制: 1 Sec  内存限制: 128 MB 提交: 29  解决: 17 题目描述 输入一个主串和一个子串,用KMP进行匹配,问进行几趟匹配才成功,若没成 ...

  4. YTU 2295: KMP模式匹配 一(串)

    2295: KMP模式匹配 一(串) 时间限制: 1 Sec  内存限制: 128 MB 提交: 32  解决: 22 题目描述 求子串的next值,用next数组存放,全部输出 输入 输入一个字符串 ...

  5. KMP模式匹配 三(弦)

    原文请訪问我的博客:xiaoshig.sinaapp.com KMP模式匹配 三(串) Time Limit:1000MS     Memory Limit:131072KB     64bit IO ...

  6. KMP算法 KMP模式匹配 一(串)

    A - KMP模式匹配 一(串) Crawling in process... Crawling failed Time Limit:1000MS     Memory Limit:131072KB  ...

  7. 2295: KMP模式匹配 一(串)

    2295: KMP模式匹配 一(串) 时间限制: 1 Sec  内存限制: 128 MB提交: 210  解决: 97[提交][状态][讨论版][命题人:外部导入] 题目描述 求子串的next值,用n ...

  8. 字符串的朴素模式和KMP模式匹配

    先复习一下字符串指针: #include <iostream> #include <string.h> using namespace std; int main() { ch ...

  9. KMP模式匹配

    http://www.cnblogs.com/wangguchangqing/archive/2012/09/09/2677701.html nextal[j+1]=next[j]+1 KMP算法的实 ...

  10. KMP模式匹配练习题

    使用KMP算法在文本串S中找模式串P是一种常见的方法.假设S=P={xyxyyxxyx},亦即将S对自己进行匹配,匹配过程中正确的next数组是____. 1.首先求最大相同前缀后缀长度 模式串的各个 ...

随机推荐

  1. 京东ES支持ZSTD压缩算法上线了:高性能,低成本 | 京东云技术团队

    ​ 1 前言 在<ElasticSearch降本增效常见的方法>一文中曾提到过zstd压缩算法[1],一步一个脚印我们终于在京东ES上线支持了zstd:我觉得促使目标完成主要以下几点原因: ...

  2. web开发的模式的介绍与身份认证

    web开发的模式的介绍 1.服务端渲染 2.前端端分离开发的web模式 服务端渲染优点与缺点 优点: 1.前端耗时少.因为服务器端负责动态生成HTML内容,浏览器只需要直接渲染页面即可.尤其是移动端更 ...

  3. ClickHouse(06)ClickHouse建表语句DDL详细解析

    目录 当前服务器上创建表(单节点) 语法形式 使用显式架构 从相同结构的表复制创建 从表函数创建 从选择查询创建 分布式集群创建表 临时表 分区表 创建表语句关键字解析 空值或非空修饰符 默认值表达式 ...

  4. NetCore高级系列文章01---创建项目及配置文件

    .NET Core是适用于 Windows.Linux 和 macOS 的免费.开源托管的计算机软件框架,作为.NET开发人员,全面拥抱.NetCore将成为趋势. 本系列文章将分为两大部分讲解.Ne ...

  5. win10安装wget,从此可以更快的下载文件 and windows10 下 zip命令行参数详解

    1.win10安装wget 1.1安装下载 GNU Wget 1.21.3 for Windows 依次如下: 2.将下载好的wget.exe放到 C:/windows/system32文件夹下 也可 ...

  6. C/C++ 实现常用的线程注入

    各种API远程线程注入的方法,分别是 远程线程注入,普通消息钩子注入,全局消息钩子注入,APC应用层异步注入,ZwCreateThreadEx强力注入,纯汇编实现的线程注入等. 简单编写DLL文件: ...

  7. C++ Boost 函数与回调应用

    #include <iostream> #include <string> #include <boost\bind.hpp> using namespace st ...

  8. 予力八六三软件应用现代化,提升DevSecOps效能,探索交付之路

    本文分享自华为云社区<予力八六三软件应用现代化,提升DevSecOps效能,探索全球交付之路>,作者: HuaweiCloudDeveloper. 来源:<华为云DTSE>期刊 ...

  9. SpringBoot + LiteFlow:轻松应对复杂业务逻辑,简直不要太香!

    LiteFlow简介 LiteFlow是什么? LiteFlow是一款专注于逻辑驱动流程编排的轻量级框架,它以组件化方式快速构建和执行业务流程,有效解耦复杂业务逻辑.通过支持热加载规则配置,开发者能够 ...

  10. 关于19c RU补丁报错问题的分析处理

    本文演示关于19c RU补丁常见报错问题的分析处理: 1.查看补丁应用失败的原因 2.问题解决后可继续应用补丁 3.发现DB的RU补丁未更新 4.opatchauto应用DB补丁报错解决 1.查看补丁 ...