一、串

串是由零个或多个字符串组成的有限序列

（一）、串的定义

定长顺序存储

特点:每个串变量分配一个固定长度的存储区,即定长数组

定义:

#define MAXLEN 255

typedef struct{

    char ch[MAXLEN];

    int length;

}SString;

堆分配存储表示

这里的堆是指c语言中存在一个称之为"堆"的自由存储区，这里的堆是一个链表的结构,和数据结构中的堆是不同的!

特定:存储空间在程序执行过程中动态分配

定义

typedef struct{

    char *ch;

    int length;

}HString;

块链存储表示

特点:使用链表结构,每个节点可以存储4个字符

（二）、最小操作集

串赋值
串比较
求串长
串联结
求子串

二、串的模式匹配

模式匹配:子串的定位操作

（一）、简单的模式匹配算法

定义:暴力匹配算法
功能:在主串s1中查找子串s2,如果找得到就返回位置(下标+1),否则返回-1
思路:以在主串abababc中匹配子串abc为例

设i为当前匹配主串的位置,j为匹配子串的位置
- 匹配s1[i]是否等于s2[j],相等到第二步,不相等则到第三步
- 相等,i++,j++
- 不相等,使i=i-j+1,j==0,倒退重新匹配
- 重复以上操作,直到i==strlen(s1)或j==strlen(s2)

code

#include <stdio.h>

#include <stdlib.h>

#include <iostream>

#include <algorithm>

#include <cstring>

using namespace std;

int cmp(string s1,string s2){  //s1主串,s1子串

    int ans,i=0,j=0,len1=s1.length(),len2=s2.length();

    while(i<len1&&j<len2){  //注意len与下标差1

        //cout << "i:" << i << " j:" << j << endl;

        if(s1[i]==s2[j]){

            i++,j++;

        }else{

            i=i-j+1;  //上一个匹配初始位的下一个pos

            j=0;

        }

    }

    ans=j==len2?i-j:-1;

    return ans+1;  //注意pos是下标位置,下标->位置

}

int main(){

    string s1,s2;

    cin >> s1 >> s2;

    int pos = cmp(s1,s2);

    printf("pos:%d\n",pos);

}

时间复杂度:O(m*n)(设strlen(s1)=n,strlen(s2)=m)
主要存在的问题:
- 显然s1至少要匹配n-m+1次
- 我们可以想办法通过空间换时间的方式减少s2的匹配次数(即想办法膜除第三步中回退的过程)

（二）、KMP算法

解决暴力匹配过程中回退的问题

具体操作

列出最长相等前后缀长度

以待匹配字符串ababa为例

序号子字符串前缀后缀最长相等前后缀长度

1 a 0

2 ab b a 0

3 aba a,ab ba,a 1

4 abab a,ab,aba bab,ab,b 2

5 ababa a,ab,aba,abab baba,aba,ba,a 3
构建部分匹配值表(Partial Match)

编号 1 2 3 4 5

s a b a b a

pm(上表最后一列) 0 0 1 2 3
使用(为了方便理解算法,我们这里用1作为下标起点)

操作:
- 匹配s1[i]是否等于s2[j]
- 相等,i++,j++
- 不相等,j=j-(j-1-pm[j-1]),即使子串回退
  
  回退的距离move=已匹配的字符数-对应的部分匹配值=j-1-pm[j-1]
- 重复以上操作,直到i>=strlen(s1)或j>=strlen(s2)
如:

s1:abacdababa

s2:ababa
- 当i=4,j=4,显然s1[i]!=s2[j]
- j=4-(4-1-pm[4-1])=2,i不需要回退
优化pm表
- 存在问题:
  - pm[5]对应第6个字符匹配失败,显然是用不到的
  优化:将pm表整体右移一格构成一张新表称为next,表示子串下一个应该匹配的位置,使next[1]=-1
  
  编号 1 2 3 4 5
  
  s a b a b a
  
  next -1 0 0 1 2
  
  此时:
  
  move=j-1-next[j]
  
  j=j-move=j-(j-1-next[j])=next[j]+1
  
  注:关于这里使用-1,王道给出的解释是"因为若是第一个元素匹配失败,则需要将子串向右移动一位,而不需要计算子串移动的位数",简单来说就是此时只要将主串左移,不需要move.(我靠,NewBee,写到这里突然悟了!!小黄鸭原理可以的.)
- 继续改进:显然,我们可以之际在next[j]上加1出
  
  编号 1 2 3 4 5
  
  s a b a b a
  
  next 0 1 1 2 3
  
  注:(这里再备注一下next下标的意义)
  - next[i]=0,表示没有一个前缀可以匹配,主要作为标识符使用
  - next[i]=j],j表示有i个前缀可以匹配
  此时:
  
  move=next[j]
  
  j=next[j]

序号	子字符串	前缀	后缀	最长相等前后缀长度
1	a			0
2	ab	b	a	0
3	aba	a,ab	ba,a	1
4	abab	a,ab,aba	bab,ab,b	2
5	ababa	a,ab,aba,abab	baba,aba,ba,a	3

编号	1	2	3	4	5
s	a	b	a	b	a
pm(上表最后一列)	0	0	1	2	3

编号	1	2	3	4	5
s	a	b	a	b	a
next	-1	0	0	1	2

编号	1	2	3	4	5
s	a	b	a	b	a
next	0	1	1	2	3

推理next数组的一般公式

next函数的一般公式(设首位下标为1):
- next[j]=0,j=1(即第一位不匹配时需要移动)
- next[j]=max{k|1<k<j且$`P_1...P_{k-1}`=`P_{j-k+1}...P_{j-1}`$}
- 1,其它
尝试通过已知next[j]推导next[j+1]:

令k=next[j],s2为子串
- k=0,则next[j+1]=next[j]+1
- s2[j]=s2[k],则next[j+1]=next[j]+1
- s2[j]!=s2[k],则k=next[k],继续循环匹配

编写代码

#include <bits/stdc++.h>

using namespace std;

const int N=1e5+10;

string s1,s2;

int nextValue[N];

void getNext(string s,int *nextValue){

    int now=1,k=0,len=s.length();

    nextValue[0]=-1;  //设定nextValue[0]=-1,作为一个特殊的标识符表示第一个值没有匹配到

    while(now<len){

        if(k==-1){  //递归出口

            nextValue[++now]=++k;

            continue;

        }

        if(s[now]==s[k]){  //递归体

            nextValue[++now]=++k;

        }else{

            k=nextValue[k];

        }

    }

}

//找得到返回第一次出现的pos,否则返回-1

int kmpCmp(string s1,string s2){

    int i=0,j=0,ans=-1;

    int len1=s1.length(),len2=s2.length();

    while(i<len1&&j<len2){

        if(j==-1||s1[i]==s2[j]){

            i++;

            j++;

        }else{

            j=nextValue[j];

        }

    }

    if(j==len2){

        ans=i-len2+1;

    }

    return ans;

}

int main()

{

    cin >> s1;

    cin >> s2;

    getNext(s2,nextValue);

    cout << kmpCmp(s1,s2);

    return 0;

}

注:感觉在局部有点问题,没有找到好的测试样例

优化

问题产生:显然当s1[i]!=s2[j]时,我们会置换j=next[j].而当s1[i]!=s2[j],j=next[j]时,显然s1[i]!=s2[next[j]],这是一次失效的匹配
解决:当我们在创建next数组时,我们可以先判断,再通过next[j]=[next[j]]来消除这一情况(记住,这一过程是近似递归的!)

代码

#include <bits/stdc++.h>

using namespace std;

const int N=1e5+10;

string s1,s2;

int nextValue[N];

void getNext(string s,int *nextValue){

    int now=1,k=0,len=s.length();

    nextValue[0]=-1;  //设定nextValue[0]=-1,作为一个特殊的标识符表示第一个值没有匹配到

    while(now<len){

        if(k==-1){  //递归出口

            nextValue[++now]=++k;

            continue;

        }

        if(s[now]==s[k]){  //递归体

            nextValue[++now]=++k;

        }else{

            k=nextValue[k];

        }

    }

}

//找得到返回第一次出现的pos,否则返回-1

int kmpCmp(string s1,string s2){

    int i=0,j=0,ans=-1;

    int len1=s1.length(),len2=s2.length();

    while(j<len2){

        if(j==-1||s1[i]==s2[j]){

            i++;

            j++;

        }else{

            if(s1[j]!=s1[nextValue[j]]){

                j=nextValue[j];

            }else{

                j=nextValue[nextValue[j]];

            }

        }

    }

    if(j==len2){

        ans=i-len2+1;

    }

    return ans;

}

int main()

{

    cin >> s1;

    cin >> s2;

    getNext(s2,nextValue);

    cout << kmpCmp(s1,s2);

    return 0;

}

串和KMP算法的更多相关文章

hdu 3336:Count the string（数据结构，串，KMP算法）
Count the string Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) ...
数据结构与算法JavaScript (五) 串(经典KMP算法)
KMP算法和BM算法 KMP是前缀匹配和BM后缀匹配的经典算法,看得出来前缀匹配和后缀匹配的区别就仅仅在于比较的顺序不同前缀匹配是指:模式串和母串的比较从左到右,模式串的移动也是从左到右后缀匹配 ...
第4章学习小结_串(BF&KMP算法)、数组（三元组）
这一章学习之后,我想对串这个部分写一下我的总结体会. 串也有顺序和链式两种存储结构,但大多采用顺序存储结构比较方便.字符串定义可以用字符数组比如:char c[10];也可以用C++中定义一个字符串s ...
第十一章串 (c3)KMP算法：理解next[]表
第十一章串 (c2)KMP算法：查询表
第十一章串 (c1)KMP算法：从记忆力到预知力
数据结构与算法5—KMP算法
串的模式匹配算法子串(模式串)的定位操作通常称为串的模式匹配. 这是串的一种重要操作,很多软件,若有“编辑”菜单项的话, 则其中必有“查找”子菜单项. 串的顺序存储实现 #include<s ...
《数据结构》之串的模式匹配算法——KMP算法
//串的模式匹配算法 //KMP算法,时间复杂度为O(n+m) #include <iostream> #include <string> #include <cstri ...
数据结构- 串的模式匹配算法：BF和 KMP算法
数据结构- 串的模式匹配算法:BF和 KMP算法 Brute-Force算法的思想 1．BF(Brute-Force)算法 Brute-Force算法的基本思想是: 1) 从目标串s 的第一个字 ...

随机推荐

mybatis中的#和$的使用规范
MyBatis 中 #{} 和 ${} 的区别 1.在MyBatis 的映射配置文件中,动态传递参数有两种方式: (1)#{} 占位符 (2)${} 拼接符 2.#{} 和 ${} 的区别 (1) 1 ...
Solution -「CERC 2016」「洛谷 P3684」机棚障碍
$\mathcal{Description}$ Link. 给一个 $n\times n$ 的网格图,每个点是空格或障碍.$q$ 次询问,每次给定两个坐标 \((r_1,c_1), ...
Spring Boot自动配置SpringMVC(二)
Spring Boot自动配置SpringMVC(一) - 池塘里洗澡的鸭子 - 博客园 (cnblogs.com)讲述了关于DispatcherServlet注册到诸如tomcat容器中的自动配置过 ...
netty系列之:Bootstrap,ServerBootstrap和netty中的实现
目录简介 Bootstrap和ServerBootstrap的联系 AbstractBootstrap Bootstrap和ServerBootstrap 总结简介虽然netty很强大,但是使用 ...
你所不知道的 C# 10新特性
我们很高兴地宣布 C# 10 作为 .NET 6 和 Visual Studio 2022 的一部分已经发布了.在这篇文章中,我们将介绍 C# 10 的许多新功能,这些功能使您的代码更漂亮.更具表现力 ...
在 WPF 客户端实现 AOP 和接口缓存
随着业务越来越复杂,最近决定把一些频繁查询但是数据不会怎么变更的接口做一下缓存,这种功能一般用 AOP 就能实现了,找了一下客户端又没现成的直接可以用,嗐,就只能自己开发了. 代理模式和AOP 理解代 ...
C# 模式匹配完全指南
前言自从 2017 年 C# 7.0 版本开始引入声明模式和常数模式匹配开始,到 2022 年的 C# 11 为止,最后一个板块列表模式和切片模式匹配也已经补齐,当初计划的模式匹配内容已经基本全部完 ...
计算机系统4-> 计组与体系结构1 | 基础概念介绍
在大二上学期学习数字逻辑的过程中,我对计算机如何运作产生了兴趣,因此开了这个系列来记录自己在这方面的学习过程,此前三篇分别是: 计算机系统->Hello World的一生 | 程序如何运行,从大 ...
Chapter04 运算符（Operator）
Chapter04 运算符目录 Chapter04 运算符 4.1 算数运算符 4.2 关系运算符 4.3 逻辑运算符 4.4 赋值运算符 4.5 三元运算符 4.6 运算符的优先级 4.7 标识符 ...
矩池云 | Tony老师解读Kaggle Twitter情感分析案例
今天Tony老师给大家带来的案例是Kaggle上的Twitter的情感分析竞赛.在这个案例中,将使用预训练的模型BERT来完成对整个竞赛的数据分析. 导入需要的库 import numpy as np ...

串和KMP算法

一、串

（一）、串的定义

定长顺序存储

堆分配存储表示

块链存储表示

（二）、最小操作集

二、串的模式匹配

（一）、简单的模式匹配算法

（二）、KMP算法

相关概念

具体操作

编写代码

优化

串和KMP算法的更多相关文章

随机推荐

热门专题