Algorithm

Task

给定一个文本串 \(S\) 和一个模式串 \(T\),求 \(T\) 在 \(S\) 中出现的所有位置。

Limitations

要求时空复杂度均为线性。

Solution

回头重新学一遍看毛片 KMP 算法。

设 \(X\) 是一个字符串,则以下表述中,\(X_u\) 代表 \(X\) 的第 \(u\) 个字符,\(X_{u \sim v}\) 代表 \(X\) 的从 \(u\) 起到 \(v\) 结束的字串。

首先定义一个字符串的公共前后缀为这个字符串的一个 \(border\),最长公共前后缀称为最长 \(border\)。特别的,不认为字符串本身是自身的 \(border\)。

性质:字符串 \(S\) 的 \(border\) 的 \(border\) 一定是 \(S\) 的 \(border\),正确性显然。因此不断地跳最长 \(border\) 可以遍历字符串的所有 \(border\)

例如,对于字符串 \(abaab\) 来说,其唯一的 \(border\) 是 \(ab\)。

暴力匹配两个字符串,时间复杂度为 \(O(|S||T|)\),考虑优化这个算法。

假设当前匹配时 \(S\) 扫描到了第 \(i\) 位, \(T\) 扫描到了第 \(j\) 位,且 \(S\) 从 \(i\) 向前 \(j\) 位组成的字符串与 \(T\) 的前 \(j\) 位相同,而 \(S_{i + 1} \neq T_{j+1}\),我们称为发生了失配。

考虑失配时,指针 \(i\) 不变,只有将指针 \(j\) 前移,才可能令下一位成功匹配。由于 \(i\) 不变,所以下一个可能发生匹配的字符串一定是 \(T_{1 \sim j}\) 的某个前缀 \(T_{1 \sim k}\) 满足

\[T_{1 \sim k} = S_{i - k + 1 \sim i}
\]

其中由于 \(T_{1 \sim k}\) 是 \(T_{1 \sim j}\) 的字串,一定有 \(k < j\)。由于 \(S_{1 \sim i}\) 的后 \(j\) 位与 \(T\) 的前 \(j\) 位匹配,又有 \(k < j\),因此 \(T_{1 \sim j}\) 的后 \(k\) 位一定与 \(S_{1 \sim i}\) 的后 \(k\) 位即 \(S_{i - k + 1 \sim i}\) 匹配。得出

\[T_{j - k + 1 \sim j} = S_{i - k + 1 \sim i}
\]

上面两个式子等量代换得到

\[T_{1 \sim k} = T_{j - k + 1 \sim j}
\]

由 \(border\) 的定义,我们发现 \(T_{1 \sim k}\) 一定是 \(T_{1 \sim j}\) 的 \(border\)。根据 \(border\) 的性质,我们只需要不断的跳 \(T_{1 \sim j}\) 的最长 \(border\) 即可找到一个最长的可以与 \(S_{1 \sim i}\) 的后几位匹配的字串。因此问题转化为了如何求一个字符串 \(T\) 的所有前缀的最长 \(border\)。

显然 \(border_1 = 0\)。从第 \(2\) 位开始,我们发现问题等价于用 \(T\)(模式串) 的一个前缀去匹配 \(T_{1 \sim i}\) (文本串)的一个后缀,求这个后缀最长是多少,而这个问题的解决方法与上面那个问题的方法 完 全 一 致,都是不断跳 \(border\) 即可。在 \(i\) 与 \(j\) 成功匹配时,记录 \(border_i = j\)。而在这个问题中,由于 \(j\) 恒小于 \(i\),正向扫描 \(i\) 时,所用到的 \(border\) 值都已经被计算出,因此可以得出正确的结果。

考虑时间复杂度:一个显然的事实是每次跳 \(border\) 模式串指针 \(j\) 都会至少减少 \(1\),而当且仅当第 \(S_{i+1}\) 与第 \(T_{j+1}\) 匹配时,\(j\) 才会自增,因此 \(j\) 仅增加了 \(O(|S|)\),因此 \(j\) 只可能减少 \(O(|S|)\) 次,所以跳 \(border\) 的总次数不超过 \(O(|S|)\),而扫描整个文本串需要 \(O(|S|)\) 的时间,因此总时间复杂度 \(O(|S|)\)。

Example

P3375 【模板】KMP字符串匹配

Description

给定一个文本串 \(S\) 和一个模式串 \(T\),求 \(T\) 在 \(S\) 中出现的所有位置,同时要求输出 \(T\) 的每个前缀的 \(border\) 长度。

Limitations

字符串长度不超过 \(10^6\)

Solution

板板题

Code

#include <cstdio>
#include <cstring> const int maxn = 1000006; char S[maxn], T[maxn];
int nxt[maxn]; void KMP(char *A, char *B, int x, int y, const bool pt); int main() {
freopen("1.in", "r", stdin);
scanf("%s\n%s", S + 1, T + 1);
int x = strlen(S + 1), y = strlen(T + 1);
KMP(T, T, y, y, false); KMP(S, T, x, y, true);
for (int i = 1; i <= y; ++i) {
qw(nxt[i], i == y ? '\n' : ' ', true);
}
return 0;
} void KMP(char *A, char *B, int x, int y, const bool pt) {
for (int j = 0, i = pt ? 1 : 2; i <= x; ++i) {
while (j && (B[j+1] != A[i])) j = nxt[j];
if (B[j+1] == A[i]) ++j;
if (!pt) nxt[i] = j;
if (j == y) {
qw(i - y + 1, '\n', true);
}
}
}

【字符串】KMP的更多相关文章

  1. hdu 5510 Bazinga(字符串kmp)

    Bazinga Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/65536 K (Java/Others)Total Sub ...

  2. hdu1686字符串kmp

    The French author Georges Perec (1936–1982) once wrote a book, La disparition, without the letter 'e ...

  3. 模板—字符串—KMP(单模式串,单文本串)

    模板—字符串—KMP(单模式串,单文本串) Code: #include <cstdio> #include <cstring> #include <algorithm& ...

  4. 字符串 --- KMP Eentend-Kmp 自动机 trie图 trie树 后缀树 后缀数组

    涉及到字符串的问题,无外乎这样一些算法和数据结构:自动机 KMP算法 Extend-KMP 后缀树 后缀数组 trie树 trie图及其应用.当然这些都是比较高级的数据结构和算法,而这里面最常用和最熟 ...

  5. 【poj 3080】Blue Jeans(字符串--KMP+暴力枚举+剪枝)

    题意:求n个串的字典序最小的最长公共子串. 解法:枚举第一个串的子串,与剩下的n-1个串KMP匹配,判断是否有这样的公共子串.从大长度开始枚举,找到了就break挺快的.而且KMP的作用就是匹配子串, ...

  6. 数据结构(复习)---------字符串-----KMP算法(转载)

    字符串匹配是计算机的基本任务之一. 举例来说,有一个字符串"BBC ABCDAB ABCDABCDABDE",我想知道,里面是否包含另一个字符串"ABCDABD" ...

  7. 字符串(KMP):BZOJ 3670 [Noi2014]动物园

    3670: [Noi2014]动物园 Time Limit: 10 Sec  Memory Limit: 512 MBSubmit: 1521  Solved: 813[Submit][Status] ...

  8. HDU 4668 Finding string (解析字符串 + KMP)

    转载请注明出处,谢谢http://blog.csdn.net/ACM_cxlove?viewmode=contents    by---cxlove 题意:给出一个压缩后的串,以及一个模式串,问模式串 ...

  9. 流动python - 字符串KMP匹配

    首先我们看一下简单的字符串匹配. 你可以把文本字符串s固定,模式字符串p从s对齐的左边缘,作为承担部分完全一致,匹配成功,失败将是模式字符串p整体向右1地点,继续检查对齐部分,重复. #朴素匹配 de ...

  10. 查找子字符串----KMP算法深入剖析

    假设主串:a b a b c a b c a c b a b      子串:a b c a c 1.一般匹配算法 逐个字符的比较,匹配过程如下: 第一趟匹配 a b a b c a b c a c ...

随机推荐

  1. Laravel关联模型中has和with区别

    本篇文章给大家带来的内容是关于Laravel关联模型中has和with区别(详细介绍),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 首先看代码: 1 2 3 4 5 6 $user ...

  2. Java for循环每次都通过list.size()和 string.length()获取大小是否消耗性能?

    前言 有人说在for循环之前用一个局部变量先获取到list.size().str.length(),然后在for循环的判断条件里通过这个局部变量替换list.size().str.length()会节 ...

  3. windows远程桌面无法拷贝文件的问题与解决方法

    在开发完往windows服务器上部署系统或者给系统打补丁的时候,都会需要远程桌面的双向拷贝文件功能. 但是有些时候却会发现没有办法拷贝文件,原因主要有两个. 01 远程桌面的剪贴板设置 一个是在远程桌 ...

  4. 折腾linux随笔 之 关闭Budgie默认自动隐藏应用的菜单栏 与 Gnome系桌面应用菜单无内容解决

    关闭Budgie默认自动隐藏应用菜单栏 首选项 -> 设置 -> 通用辅助功能 -> 打开 始终显示通用辅助菜单 后的开关 -> 注销桌面重新登录. done. 解决Gnome ...

  5. struts2拦截器的实现机制

    前言 最近老大让每周写一篇技术性的博客,想想也没啥写,就想着随便拿个以前的项目去研究研究五大框架的底层代码.本人水平有限,有不对的地方还望大家勿喷,指正! 开始之前先了解下strtus2的工作流程: ...

  6. 关于NB-IoT,没有比这篇更通俗易懂的啦!

    来源:内容来自「鲜枣课堂」,谢谢. 大家好,我是小枣君. 今天,我是来“吹NB”的.嗯,标题已经剧透了,这个NB,就是NB-IoT. 在过去的一年多,NB-IoT真的可以说是大红大紫.在通信圈里,除了 ...

  7. WPF MainWindow的TopMost,Resizemode

    Topmost -[true,false] The default is false, but if set to true, your Window will stay on top of othe ...

  8. 如何在git中上传图片

    首先在git仓库上创建一个文件夹,之后点击 Upload files 上传本地的图片 上传完之后复制存放图片的git网址 之后在新建一个.md的子文件 新建完成之后在该md文件中写入如下代码: ![任 ...

  9. 对于js中事件冒泡的理解分析

    一. 事件 事件的三个阶段:事件捕获 -> 事件目标 -> 事件冒泡 捕获阶段:先由文档的根节点document往事件触发对象,从外向内捕获事件对象: 目标阶段:到达目标事件位置(事发地) ...

  10. Invalid attempt to spread non-iterable instance

    问题在于对数据的操作,或数据类型,或数据名称