Boyer–Moore (BM)字符串搜索算法

在计算机科学里，Boyer-Moore字符串搜索算法是一种非常高效的字符串搜索算法。它由Bob Boyer和J Strother Moore设计于1977年。此算法仅对搜索目标字符串（关键字）进行预处理，而非被搜索的字符串。虽然Boyer-Moore算法的执行时间同样线性依赖于被搜索字符串的大小，但是通常仅为其它算法的一小部分：它不需要对被搜索的字符串中的字符进行逐一比较，而会跳过其中某些部分。通常搜索关键字越长，算法速度越快。它的效率来自于这样的事实：对于每一次失败的匹配尝试，算法都能够使用这些信息来排除尽可能多的无法匹配的位置。

假设被检索文字列是“1234567890”，检索文字列是“MOORE”。简单的比较需要执行十次才得到结论不匹配。

被检索文字列：1234567890

  第一次比较：M....         （M和1比较，不匹配）

  第二次比较： M....        （M和2比较，不匹配）

  第三次比较：  M....       （M和3比较，不匹配）

        ...

  第十次比较：         M....(M和0比较，不匹配）

※未参与比较的文字用【.】占位。

BM算法只需要2次比较。

被检索文字列：1234567890

  第一次比较：....E        （E和5比较，不匹配，并且5不是MOORE中任何文字）

  第二次比较：     ....E   （E和0比较，不匹配，并且0不是MOORE中任何文字）

第一次从检索文字的末尾开始，因为如果被检索文字的第5文字位置不是E，则无论前4个文字是什么，都绝不可能匹配了。这一点比较容易理解。
那么，为什么不用E和6比较呢？

这是BM算法又一处精妙之处。在E和5进行比较的时候不仅知道他们不相等，而且还知道了5不和检索文字MOORE中的任何一个文字相等，这使得下面这些比较都可以省略掉。

被检索文字列：....5......

不需要的比较： ...R.       （E和5比较时也同时发现5不等于R，于是这个比较是不必要的）

不需要的比较：  ..O..      （E和5比较时也同时发现5不等于O，于是这个比较是不必要的）

不需要的比较：   .O...     （E和5比较时也同时发现5不等于O，于是这个比较是不必要的）

不需要的比较：    M....    （E和5比较时也同时发现5不等于M，于是这个比较是不必要的）

发明者论文：
http://www.cs.utexas.edu/users/moore/publications/fstrpos.pdf
http://www.cs.utexas.edu/~moore/best-ideas/string-searching/fstrpos-example.html

BM算法是跳跃着前进的。

第三步：BM过程展示

BM算法实施方法是从后向前进行匹配。我们先来见证一下这种方法的威力。

此处采用作者论文中的例子：

从模式串最后一个字符开始匹配，发现F和T不匹配，除此之外，F在模式串AT-THAT中根本就不存在，这个意味着匹配的可能性为0.我们可以直接跳过前7个字符。

我们只是添加了一个判断，效率瞬间提高很多。这个和BF、KMP有什么不同呢？这两种算法，目标串的指针i总是以一步一步的前进，而BM则并没有采用这种方式，它可以一下子增加7（本例），这就是跳跃式思维的表现形式，这个更接近人的思维方式。（下面会有更深入层次的分析前缀匹配和后缀的匹配差异）

BM算法采用了两种启发性的规则：坏字符规则和好后缀规则，决定跳跃的距离。

1) 坏字符规则（Bad Character）

在BM算法从后向前扫描的过程中，若已经有m个字符匹配成功，第m+1个字符X（从后向前）匹配失败，则按下面两种情况讨论：

a)如果字符x在模式P中没有出现，直接全部跳过该区域。

b)如果字符x在模式P中出现，则以该字符进行对齐。

我们其实已经见识过a)这个规则，就是上面的例子。

2）好后缀规则（Good Suffix）

在BM算法从后向前扫描的过程中，若已经有m个字符匹配成功，第m+1个字符X（从后向前）匹配失败，则按下面两种情况讨论：

a) 如果已经匹配的m个字符，在模式串其他位置也出现过记为m’，则将m’和这m个字符对齐。

b) 如果a)中所说情况没有出现，此时需要检查模式串P，若P存在最长前缀s 同时也是P的后缀，则将s和P对应的后缀对齐。

上述两个好后缀规则中取最小的一个移动。

其实，在好后缀规则中，如果第一条成立其实就不用检查第二条，因为第二条如果存在，移动距离肯定比第一条大。但是如果第一条不成立，意味着移动距离是模式串P的长度，此时需要检查第二条，如果第二条成立，则安全移动的距离便变小了。

http://wlh0706-163-com.iteye.com/blog/1847214

http://dsqiu.iteye.com/blog/1700312

http://wlh0706-163-com.iteye.com/blog/1847214

http://blog.csdn.net/left_la/article/details/8881311

Boyer–Moore (BM)字符串搜索算法的更多相关文章

BF + KMP + BM 字符串搜索算法
BF #include <stdio.h> #include <string.h> int simplicity(char *s, char *t, int pos); int ...
grep之字符串搜索算法Boyer-Moore由浅入深（比KMP快3-5倍）
这篇长文历时近两天终于完成了,前两天帮网站翻译一篇文章“为什么GNU grep如此之快?”,里面提及到grep速度快的一个重要原因是使用了Boyer-Moore算法作为字符串搜索算法,兴趣之下就想了解 ...
grep之字符串搜索算法Boyer-Moore由浅入深（比KMP快3-5倍）（转）
这篇长文历时近两天终于完成了,前两天帮网站翻译一篇文章“为什么GNU grep如此之快?”,里面提及到grep速度快的一个重要原因是使用了Boyer-Moore算法作为字符串搜索算法,兴趣之下就想了解 ...
从入门到精通之Boyer-Moore字符串搜索算法详解
本文讲述的是Boyer-Moore算法,Boyer-Moore算法作为字符串搜索算法,兴趣之下就想了解这个算法,发现这个算法一开始还挺难理解的,也许是我理解能力不是很好吧,花了小半天才看懂,看懂了过后 ...
字符串搜索算法Boyer-Moore
整理日: 2015年2月16日 1. 主要特征假设文本串text长度为n,模式串pattern长度为m,BM算法的主要特征为: 从右往左进行比较匹配(一般的字符串搜索算法如KMP都是从从左往右进行匹 ...
Boyer Moore算法（字符串匹配）
上一篇文章,我介绍了KMP算法. 但是,它并不是效率最高的算法,实际采用并不多.各种文本编辑器的"查找"功能(Ctrl+F),大多采用Boyer-Moore算法. Boyer-Mo ...
Leetcode OJ : Implement strStr() [ Boyer–Moore string search algorithm ] python solution
class Solution { public: int strStr(char *haystack, char *needle) { , skip[]; char *str = haystack, ...
字符串核对之Boyer-Moore算法
算法说明: 在计算机科学里,Boyer-Moore字符串搜索算法是一种非常高效的字符串搜索算法.它由Bob Boyer和J Strother Moore设计于1977年.此算法仅对搜索目标字符串(关键 ...
Boyer-Moore 字符串匹配算法
字符串匹配问题的形式定义: 文本(Text)是一个长度为 n 的数组 T[1..n]: 模式(Pattern)是一个长度为 m 且 m≤n 的数组 P[1..m]: T 和 P 中的元素都属于有限的字 ...

随机推荐

JavaScript之insertBefore()和自定义insertAfter()的用法。
在JS图片库的第五版开发完后http://www.cnblogs.com/GreenLeaves/p/5691797.html#js_Five_Version我们发现一个问题,就是假设在图片列表之后还 ...
用VIM删除空行
从网上找了一个 :g/^s*$/d 开始用的挺好,后来遇到一种空格开头的空行,就不好用了. MSDN上说正则匹配空行用/^\s*$/,就试着把上面的命令改为: :g/^\s*$/d 就可以了. 用的操 ...
UUID 生成（源代码编译）
根据定义,UUID(Universally Unique IDentifier,也称GUID)在时间和空间都是唯一的.为保证空间的唯一性,每个UUID使用了一个48位的值来记录,一般是计算机的网卡地址 ...
SQL 处理空值
问题: 在数据库中经常会有为null和''的值的列,在查询的时候,我们需要将它们转化成有效的值. 解决方案: 在emp表中的comm注释有的为null有的为'',在查询的时候我们希望没有注释的显示为 ...
IOS 特定于设备的开发：使用加速能力“向上定位”
iPhone提供了3个机载的传感器,用于沿着iPhone的3根相互垂直的轴(左/右(x轴).上/下(y轴)和前/后(z轴))度量加速能力.这些值指示作用于iPhone的力,它们来自重力和用户移动.可以 ...
C#对象赋值出现的诡异问题，或许你也遇到过，有待你的解决
前言:今天在代码中,又出现了这个问题,就是对象赋值给一个新的对象时,然后更改新对象中的属性,就会把老对象的值也更改,以前也遇到这个问题,只是没有深究,今天刚好又遇到了此问题,我决定写下来,和大家一起分 ...
转: Nodejs 发送HTTP POST请求实例
项目里面需要用到使用NodeJs来转发HTTP POST请求,把过程记录一下: exports.sendEmail = function (req, res) { res.send(200, req. ...
php基础知识总结
PHP 代表 PHP: Hypertext Preprocessor PHP 文件可包含文本.HTML.JavaScript代码和 PHP 代码 PHP 代码在服务器上执行,结果以纯 HTML 形式返 ...
Bluetooth 2.1+EDR是什么
目前应用最为广泛的是 Bluetooth 2.0+EDR标准,该标准在2004年已经推出,支持Bluetooth 2.0+EDR标准的产品也于2006年大量出现.虽然Bluetooth 2.0+EDR ...
SSD的优势
谈过SSD的发展历史后,现在我们来讲解下SSD相比传统HDD(机械硬盘)的优势. 相信很多读者只要有听说过SSD,必定都会听到对SSD优点的一个字总结:快! 但这一个字要如何去理解呢?很多人可能还不太 ...

Boyer–Moore (BM)字符串搜索算法

Boyer–Moore (BM)字符串搜索算法的更多相关文章

随机推荐

热门专题