[IR] String Matching
BWT
KMP
Boyer-Moore
BWT
[IR] BWT+MTF+AC 中已经介绍了BWT (Burrows–Wheeler_transform)数据转换算法,
这种变换方式不仅方便压缩,同时对pattern search也带来了意想不到的好处。
事实上,BWT形式的数据,可以仅还原局部数据,而非必须还原完整的文件。
Left
Symbol | #Less Than |
A | 0 |
B | 3 |
N | 4 |
[ | 6 |
] | 7 |
Right
Position | Symbol | #Matching(idx) | |
B | +->:[ | 0 | |
N | +->:A | 0 | |
N | +->:A | 1 | |
[ | E | 0 | |
A | +->:B | 0 | |
A | +->:N | 1 | |
] | :A | 0 | |
A | +->:N | 2 |
图示化以上搜索过程(其中一步Postion:5):
匹配的过程,实际就是搜索范围逐渐缩小的过程,如下:
若能持续搜索到Pattern最后一个字符,则说明该字符串(pattern)在文本中。
时间复杂度就是O(len(pattern))。
Knuth-Morris-Pratt (KMP)
因为brute Force太蠢,所以有了该算法。
• Brute force pattern matching runs in time O(mn) in the worst case.
• But most searches of ordinary text take O(m+n), which is very quick.
那么,剩下的唯一问题就是,如何构造《部分匹配表》(Partial Match Table)
P[j]: The largest prefix of P[0 .. j-1] that is a suffix of P[1 .. j-1].
"部分匹配值"就是"前缀"和"后缀"的最长的共有元素的长度。以"ABACAB"为例,
[0] ABACAB- P[0 .. -1]的前缀和P[1 .. -1]的后缀为“非法”,共有元素的长度为-1;
[1] ABACAB- P[0 .. 0]的前缀和P[1 .. 0]的后缀为空,共有元素的长度为0;
[2] ABACAB- P[0 .. 1]的前缀为{A},P[1 .. 1]的后缀为空,共有元素的长度为0;
[3] ABACAB- P[0 .. 2]的前缀为{A, AB},P[1 .. 2]的后缀为{A},共有元素的长度为1;
[4] ABACAB- P[0 .. 3]的前缀为{A, AB, ABA},P[1 .. 3]的后缀为{AC, C},共有元素的长度为0;
[5] ABACAB- P[0 .. 4]的前缀为{A, AB, ABA, ABAC},P[1 .. 4]的后缀为{ACA, CA, A},共有元素的长度为1;
但,也有缺陷:
KMP doesn’t work so well as the size of the alphabet increases
– more chance of a mismatch (more possible mismatches)
– mismatches tend to occur early in the pattern, but KMP is faster when the mismatches occur later
Boyer-Moore Algorithm
算是一种改进形式,跟重视后缀;头部对齐,从尾部比较。
Most text processors use BM for “find” (&“replace”) due to its good performance for general text documents.
Ref: 字符串匹配的Boyer-Moore算法
Link: http://www.cs.utexas.edu/users/moore/publications/fstrpos.pdf
特点:《好字符规则》和《坏字符规则》,以最大移动值为准。
一个简单的示例:
Step 1
首先,"字符串"与"搜索词"头部对齐,从尾部开始比较。
这是一个很聪明的想法,因为如果尾部字符不匹配,那么只要一次比较,就可以知道前7个字符(整体上)肯定不是要找的结果。
我们看到,"S"与"E"不匹配。这时,"S"就被称为"坏字符"(bad character),即不匹配的字符。
我们还发现,"S"不包含在搜索词"EXAMPLE"之中,这意味着可以把搜索词直接移到"S"的后一位。如下:
Step 2
依然从尾部开始比较,发现"P"与"E"不匹配,所以"P"是"坏字符"。
但是,"P"包含在搜索词"EXAMPLE"之中。所以,将搜索词后移两位,两个"P"对齐。(利用了pattern内部的信息)
这个两位是怎么来的呢?
Ans:《坏字符规则》
后移位数 = 坏字符的位置 - 搜索词中的上一次出现位置
OK,根据这个规则,再重新审视Step1 and Step2。
Step 1: 后移位数=6-(-1)=7 // -1:在pattern中未发现坏字符
Step 2: 后移位数=6-4=2 // 4:在pattern中idx=4发现坏字符
However,这样是不够的,在某种情况下还不能达到更优的移动策略。
继续我们的示例:
Step 1
依然从尾部开始比较,"E"与"E"匹配;接下来,匹配了更多。
比较前面一位,"MPLE"与"MPLE"匹配。我们把这种情况称为"好后缀"(good suffix),即所有尾部匹配的字符串。
注意,"MPLE"、"PLE"、"LE"、"E"都是好后缀。
但接下来,继续比较前一位,发现"I"与"A"不匹配。所以,"I"是"坏字符"。
根据"坏字符规则",此时搜索词应该后移 2 - (-1)= 3 位。如下:
但,看上去这个move不是很聪明的样子,显然可以一次性移动更多步。
初步看上去,并没有利用到Pattern中两次出现的E。
如何利用?
Ans:《好后缀规则》
后移位数 = 好后缀的位置 - Pattern中的上一次出现位置
OK,根据这个规则,再重新审视Step1。
Step 1: 后移位数=6-=6 // 0:"好后缀"(MPLE、PLE、LE、E)之中[Ref:KMP"部分匹配表"],只有"E"在"EXAMPLE"出现在头部,idx=0
- "好后缀"的位置以最后一个字符为准。假定"ABCDEF"的"EF"是好后缀,则它的位置以"F"为准,即5(从0开始计算)。
- 如果"好后缀"在搜索词中只出现一次,则它的上一次出现位置为 -1。也就是pattern靠前的位置没有再出现了呢。
- 如果"好后缀"有多个,
- 最长的那个"好后缀",位置灵活;考前位置出现的话,优先选!否则,查看其他“好后缀”。
- 其他"好后缀",上一次出现位置必须在头部。
比如,假定"BABCDAB"的"好后缀"是"DAB"、"AB"、"B",这时"好后缀"的上一次出现位置是什么?
BABCDAB
BABCDAB
BABCDAB <----
回答是,此时采用的好后缀是"B",它的上一次出现位置是头部,即第0位。
这个规则也可以这样表达:如果最长的那个"好后缀"只出现一次,则可以把搜索词改写成如下形式进行位置计算"(DA)BABCDAB",即虚拟加入最前面的"DA"。
更巧妙的是,这两个规则的移动位数,只与搜索词有关,与原字符串无关。因此,可以预先计算生成《坏字符规则表》和《好后缀规则表》。使用时,只要查表比较一下就可以了。
那么,如何事前制表?
Ref: http://www.cs.utexas.edu/users/moore/publications/fstrpos.pdf
[IR] String Matching的更多相关文章
- Binary String Matching
问题 B: Binary String Matching 时间限制: 3 Sec 内存限制: 128 MB提交: 4 解决: 2[提交][状态][讨论版] 题目描述 Given two strin ...
- NYOJ之Binary String Matching
Binary String Matching 时间限制:3000 ms | 内存限制:65535 KB 难度:3 描述 Given two strings A and B, whose a ...
- ACM Binary String Matching
Binary String Matching 时间限制:3000 ms | 内存限制:65535 KB 难度:3 描述 Given two strings A and B, whose alp ...
- 南阳OJ----Binary String Matching
Binary String Matching 时间限制:3000 ms | 内存限制:65535 KB 难度:3 描述 Given two strings A and B, whose alp ...
- Binary String Matching(kmp+str)
Binary String Matching 时间限制:3000 ms | 内存限制:65535 KB 难度:3 描述 Given two strings A and B, whose alp ...
- Aho - Corasick string matching algorithm
Aho - Corasick string matching algorithm 俗称:多模式匹配算法,它是对 Knuth - Morris - pratt algorithm (单模式匹配算法) 形 ...
- [POJ] String Matching
String Matching Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 4074 Accepted: 2077 D ...
- String Matching Content Length
hihocoder #1059 :String Matching Content Length 时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述 We define the ...
- NYOJ 5 Binary String Matching
Binary String Matching 时间限制:3000 ms | 内存限制:65535 KB 难度:3 描述 Given two strings A and B, whose alp ...
随机推荐
- 【BFS + Hash】拼图——携程2017春招编程题2
写在前面 前天参加了携程的网测--还是感觉自己太!渣!了! _(:з」∠)_ 时光匆匆啊,已经到了开始思考人生的时候了(算了不矫情了)--总之写个博客来督促一下自己.之前太懒了,很多时候都是输在 ...
- c标签和foreach循环不能加载
需要同时导入2个包: jstl.jar和standard.jar(大多数时候只会注意到jstl包,而忽视了standard包) 代码: c标签的写法 <%@ taglib prefix=&quo ...
- [转]Installing Memcached on Windows
Installing Memcached on Windows 原文链接https://commaster.net/content/installing-memcached-windows Sub ...
- 【正常向】CODEVS上分黄金
白银上分黄金失败=.= 在之前有很认真的写了一波排序,所以排序并不是很怂,还是那个理,现阶段学习的都是比较简单的排序,都是所谓的冒泡排序啊,桶排序这类,至于插排和选择排序,再往后又是什么快拍就很尬了. ...
- uoj#179 线性规划
这是一道模板题. 本题中你需要求解一个标准型线性规划: 有nn个实数变量x1,x2,⋯,xnx1,x2,⋯,xn和mm条约束,其中第ii条约束形如∑nj=1aijxj≤bi∑j=1naijxj≤bi. ...
- linux内核Makefile整体分析
转自:http://www.cnblogs.com/amanlikethis/p/3675486.html <请阅读原文> 一.概述 1.本文的意义 众多的资料(<嵌入式Linux应 ...
- 《分布式Java应用之基础与实践》读书笔记四
Java代码作为一门跨操作系统的语言,最终是运行在JVM中的,所以对于JVM的理解就变得非常重要了.整体上,我们可以从三个方面来深入理解JVM. Java代码的执行 内存管理 线程资源同步和交互机制 ...
- ESXi5.0误删除虚拟机还有办法恢复吗?答案是可以!
[数据恢复故障描述]故障的虚拟化系统是 ESXi5.0,连接了多个LUN,其中一个1T的LUN上跑有7 台虚拟机,均为Windows Server 2003,管理员因为其它原因误删除了一台虚拟机,此台 ...
- glassfish PWC6351: In TLD scanning 系统找不到指定的文件问题解决
[2017-04-25T21:26:09.391+0800] [glassfish 4.1] [WARNING] [] [org.apache.jasper.runtime.TldScanner] [ ...
- [笔记]我的Linux入门之路 - 05.Eclipse的Python开发环境搭建与Numpy、Scipy库安装
一.Python环境 直接终端查询下python安装没:python --version Python 2.7.12 Ubuntu竟然已经装了Python2.7,那就好说了.不然自己装和装jdk差不多 ...