【模式匹配】更快的Boyer
1. 引言
前一篇中介绍了字符串KMP算法,其利用失配时已匹配的字符信息,以确定下一次匹配时模式串的起始位置。本文所要介绍的Boyer-Moore算法是一种比KMP更快的字符串匹配算法,它到底是怎么快的呢?且听下面分解。
不同于KMP在匹配过程中从左至右与主串字符做比较,Boyer-Moore算法是从模式串的尾字符开始从右至左做比较。下面讨论的一些递推式都与BM算法的这个特性有关。
思想
首先,我们一般化匹配失败的情况,设主串y、模式串x的失配位置为i+j
与i
,且主串、模式串的长度各为n与m,如下图:
已匹配上的字符结构:
y[i+j+1…j+m−1]=x[i+1…m−1]
失配后下一次匹配时,模式串应如何对齐于主串呢?从上图中看出,我们可以利用两方面的信息:
- 已经匹配上的字符结构,
- 主串失配位置的字符
前一篇中的KMP算法只利用第一条信息,而Boyer-Moore算法则是将这两方面的信息都利用到了,故模式串的移动更为高效。同时,根据这两方面信息(已匹配信息与失配信息),Boyer-Moore算法引申出来两条移动规则:好后缀移动(good-suffix shift)与坏字符移动(bad-character shift)。
实例
Moore教授在这里给出BM算法一个实例,比如主串=HERE IS A SIMPLE EXAMPLE
,模式串=EXAMPLE
。第一次匹配如下图:
在第一次匹配中,模式串在尾字符发生失配,而主串的失配字符为S
,且S
不属于模式串的字符;因此下一次匹配时模式串指针应向右移动7
位(坏字符移动)。第二次匹配如下图:
第二次匹配也是在模式串尾字符发生失配,但不同的是主串的失配字符为P
属于模式串的字符;因此下一次匹配时模式串的P
(从右开始第一次出现)应对齐于主串的失配字符P
(坏字符移动)。第三次匹配如下图:
在第三次匹配中,模式串的后缀MPLE
完全匹配上主串,主串的失配字符为I
,不属于模式串的字符;那么下一次匹配是模式串指针应怎么移动呢(是坏字符移动,还是好后缀移动?)?BM算法采取的办法:移动步数=max{坏字符移动步数, 好后缀移动步数}。(具体移动步数的计算会在下面给出),这里是按好后缀移动;第四次匹配如下图:
第四次匹配的情况与第二次类似,应按坏字符移动,第五次匹配(模式串与主串完全匹配)如下图:
2. BM算法详述
好后缀移动
因已匹配上的字符结构正好为模式串的后缀,故名之为好后缀
。好后缀移动一般分为两种情况:
- 移动后,模式串有子串能完全匹配上好后缀;
- 移动后,模式串只有能部分匹配上好后缀的子串
我们用数组bmGs[i]
表示模式串的失配位置为i
时好后缀移动的步数。第一类情况如下图:
第二类情况如下图:
接下来的问题是应如何计算bmGs[i]
呢?我们引入suff
函数,其定义如下:
suff[i]=max{k: x[i−k+1…i]=x[m−k…m−1},1≤i<m
表示了模式串中末字符为x[i]
的子串能匹配模式串后缀的最大长度。其中,suff[i]=m
。
对于第一类情况,令
i+1=m-suff[a]
,则x[i+1..m-1]=x[m-suff[a]..m-1]
;根据suff
函数的定义,有x[m-suff[a]..m-1]=x[a-suff[a]-1..a]
;则x[i+1..m-1]=x[a-suff[a]-1..a]
,即可得到bmGs[i]=bmGs[m-suff[a]-1]=m-1-a
。对于第二类情况,由字符的部分匹配可得
x[0..m-1-bmGs[i]]=x[bmGs[i]..m-1]
,即suff[m-1-bmGs[i]]=m-bmGs[i]
。令m-bmGs[i]=a
,有suff[a-1]=a
。因为是部分匹配,故bmGs[i] = m-a > i+1
,则i < m-a-1
。综上,当i < m-a-1
且suff[a-1]=a
时,bmGs[i]=m-a
。有可能上述两种情况都没能被匹配上,则
bmGs[i]=m
。
综合上述三类情况,bmGs
数组计算的实现代码(参看[2]):
void preBmGs(char *x, int m, int bmGs[]) {
int i, j, suff[XSIZE];
suffixes(x, m, suff);
// case 3, default value
for (i = 0; i < m; ++i)
bmGs[i] = m;
j = 0;
// case 2
for (i = m - 1; i >= 0; --i)
if (suff[i] == i + 1)
for (; j < m - 1 - i; ++j)
if (bmGs[j] == m)
bmGs[j] = m - 1 - i;
// case 1
for (i = 0; i <= m - 2; ++i)
bmGs[m - 1 - suff[i]] = m - 1 - i;
}
坏字符移动
坏字符移动是根据主串失配位置的字符y[i+j]
而进行的移动。同样地,我们用数组bmBc[c]
表示主串失配位置字符为c
时坏字符移动的步数。坏字符移动一般分为两种情况:
模式串
x[0..i-1]
有字符y[i+j]
且第一次出现,如下图:整个模式串都不包含该字符串,如下图:
据此,可以将bmBc[c]
定义如下:
bmBc[c]=min{i:1≤i<m and x[m−1−i]=c}
表示距模式串末字符最近的c
字符;若c
字符未出现在模式串中,则bmBc[c]=m
。C实现代码:
void preBmBc(char *x, int m, int bmBc[]) {
int i;
for (i = 0; i < ASIZE; ++i)
bmBc[i] = m;
for (i = 0; i < m - 1; ++i)
bmBc[x[i]] = m - i - 1;
}
suff函数计算
bmGs[i]
的计算依赖于suff
函数;如何更为高效的计算suff
函数成为了接下来需要考虑的问题。符号标记的定义如下:
i
表示当前位置;f
记录上一轮匹配的起始位置;g
记录上一轮匹配的失配位置。
这里所说的匹配
指的是与模式串后缀的匹配。同样地,一般化匹配过程,如下图:
当g < i < f
则必有x[i]=x[m-1-(f-i)]=x[m-1-f+i]
;
- 若
suff[m-1-f+i] < i-g
,则suff[i]=suff[m-1-f+i]
; - 否则,
suff[i]
与suff[m-1-f+i]
没有关系,要根据定义进行计算。
C实现代码:
void suffixes(char *x, int m, int *suff) {
int f, g, i;
suff[m - 1] = m;
g = m - 1;
for (i = m - 2; i >= 0; --i) {
if (i > g && suff[i + m - 1 - f] < i - g)
suff[i] = suff[i + m - 1 - f];
else {
if (i < g)
g = i;
f = i;
while (g >= 0 && x[g] == x[g + m - 1 - f])
--g;
suff[i] = f - g;
}
}
}
复杂度分析
3. 参考资料
[1] Moore, Boyer-Moore algorithm example.
[2] Thierry Lecroq, Boyer-Moore algorithm.
[3] sealyao, Boyer-Moore算法学习.
【模式匹配】更快的Boyer的更多相关文章
- 【模式匹配】更快的Boyer-Moore算法
1. 引言 前一篇中介绍了字符串KMP算法,其利用失配时已匹配的字符信息,以确定下一次匹配时模式串的起始位置.本文所要介绍的Boyer-Moore算法是一种比KMP更快的字符串匹配算法,它到底是怎么快 ...
- 精通Web Analytics 2.0 (9) 第七章:失败更快:爆发测试与实验的能量
精通Web Analytics 2.0 : 用户中心科学与在线统计艺术 第七章:失败更快:爆发测试与实验的能量 欢迎来到实验和测试这个棒极了的世界! 如果Web拥有一个超越所有其他渠道的巨大优势,它就 ...
- 假如 UNION ALL 里面的子句 有 JOIN ,那个执行更快呢
比如: select id, name from table1 where name = 'x' union all select id, name from table2 where name = ...
- 【译】更快的方式实现PHP数组去重
原文:Faster Alternative to PHP’s Array Unique Function 概述 使用PHP的array_unique()函数允许你传递一个数组,然后移除重复的值,返回一 ...
- ubuntu 12.04 LTS 如何使用更快的更新源
装好ubuntu系统后的第一见事就是替换自带的更新源,原因是系统自带的源有些在中国访问不了,可以访问的速度又特别慢.幸好国内的一些公司和大学提供了速度不错的更新源.下面介绍如何使用更快的更新源 方法/ ...
- php提供更快的文件下载
在微博上偶然看到一篇介绍php更快下载文件的方法,其实就是利用web服务器的xsendfile特性,鸟哥的博客中只说了apache的实现方式,我找到了介绍nginx实现方式的文章,整理一下! let' ...
- CSS 和 JS 动画哪个更快
基于Javascript的动画暗中同CSS过渡效果一样,甚至更加快,这怎么可能呢?而Adobe和Google持续发布的富媒体移动网站的性能可媲美本地应用,这又怎么可能呢? 本文逐一遍览了基于Javas ...
- 为什么get比post更快
引言 get和post在面试过程中一般都会问到,一般的区别: 1.post更安全(不会作为url的一部分,不会被缓存.保存在服务器日志.以及浏览器浏览记录中) 2.post发送的数据量更大(get有u ...
- CSS VS JS动画,哪个更快[译]
英文原文:https://davidwalsh.name/css-js-animation 原作者Julian Shapiro是Velocity.js的作者,Velocity.js是一个高效易用的js ...
随机推荐
- 重构改善既有代码设计--重构手法12:Extract Class (提炼类)
某个类做了应该由2个类做的事.建立一个新类,将相关的字段和函数从旧类搬移到新类. 动机:一个类应该是一个清楚地抽象,处理一些明确的责任.但是在实际工作中,类会不断成长扩展.你会在这儿加入一些功能,在哪 ...
- Java 里快如闪电的线程间通讯
这个故事源自一个很简单的想法:创建一个对开发人员友好的.简单轻量的线程间通讯框架,完全不用锁.同步器.信号量.等待和通知,在Java里开发一个轻量.无锁的线程内通讯框架:并且也没有队列.消息.事件或任 ...
- LintCode 391: Count Of Airplanes
LintCode 391: Count Of Airplanes 题目描述 给出飞机的起飞和降落时间的列表,用 interval 序列表示. 请计算出天上同时最多有多少架飞机? 样例 对于每架飞机的起 ...
- [转]FILE的用法
#include <stdio.h> int main() { char c; ; FILE *file; file = fopen("test.txt", " ...
- [洛谷P1029]最大公约数与最小公倍数问题 题解(辗转相除法求GCD)
[洛谷P1029]最大公约数与最小公倍数问题 Description 输入二个正整数x0,y0(2<=x0<100000,2<=y0<=1000000),求出满足下列条件的P, ...
- 在Unity中实现屏幕空间阴影(1)
接着上篇文章,我们实现了SSR效果. 其中的在屏幕空间进行光线追踪的方法是通用的.借此我们再实现一种屏幕空间的效果,即屏幕空间阴影. 文中的图片来自Catlike coding http://catl ...
- low逼三人组、nb二人组、归并、希尔排序----小结
- vps建站教程 CentOS6如何安装配置FTP服务器
通过之前的几篇文章,我们都知道了如何配置PHP环境,也知道如何保护我们的vps以及如何绑定多个域名建设多个网站.有时候我们为了让我们的朋友也能用我们的vps建站又不想给他们太多权限,有时候我们想要当个 ...
- 01布尔模型&倒排索引
原文链接: http://www.cnblogs.com/jacklu/p/8379726.html 博士一年级选了这门课 SEEM 5680 Text Mining Models and Appli ...
- Linux 查看网卡流量【转】
我的系统式RHEL5. 在linux下,查看网卡流量的方法有很多.下面先记录几个,和他们的大概用法.已被以后之需. 一:iptraf 一个很不错的工具.RHEL5 iso自带有,我 ...