字符串匹配的Boyer-Moore算法详解加 C# 实现

上一篇文章，我介绍了KMP算法。

　　但是，它并不是效率最高的算法，实际采用并不多。各种文本编辑器的"查找"功能（Ctrl+F），大多采用Boyer-Moore算法。

　　Boyer-Moore算法不仅效率高，而且构思巧妙，容易理解。1977年，德克萨斯大学的Robert S. Boyer教授和J Strother Moore教授发明了这种算法。

　　下面，我根据Moore教授自己的例子来解释这种算法。

　　假定字符串为"HERE IS A SIMPLE EXAMPLE"，搜索词为"EXAMPLE"。

　　首先，"字符串"与"搜索词"头部对齐，从尾部开始比较。

　　这是一个很聪明的想法，因为如果尾部字符不匹配，那么只要一次比较，就可以知道前7个字符（整体上）肯定不是要找的结果。

　　我们看到，"S"与"E"不匹配。这时，"S"就被称为"坏字符"（bad character），即不匹配的字符。我们还发现，"S"不包含在搜索词"EXAMPLE"之中，这意味着可以把搜索词直接移到"S"的后一位。

　　依然从尾部开始比较，发现"P"与"E"不匹配，所以"P"是"坏字符"。但是，"P"包含在搜索词"EXAMPLE"之中。所以，将搜索词后移两位，两个"P"对齐。

　　我们由此总结出"坏字符规则"：

　　后移位数 = 坏字符的位置 - 搜索词中的上一次出现位置

　　如果"坏字符"不包含在搜索词之中，则上一次出现位置为 -1。

　　以"P"为例，它作为"坏字符"，出现在搜索词的第6位（从0开始编号），在搜索词中的上一次出现位置为4，所以后移 6 - 4 = 2位。再以前面第二步的"S"为例，它出现在第6位，上一次出现位置是 -1（即未出现），则整个搜索词后移 6 - (-1) = 7位。

　　依然从尾部开始比较，"E"与"E"匹配。

　　比较前面一位，"LE"与"LE"匹配。

　　比较前面一位，"PLE"与"PLE"匹配。

　　比较前面一位，"MPLE"与"MPLE"匹配。我们把这种情况称为"好后缀"（good suffix），即所有尾部匹配的字符串。注意，"MPLE"、"PLE"、"LE"、"E"都是好后缀。

　　比较前一位，发现"I"与"A"不匹配。所以，"I"是"坏字符"。

　　10.

　　根据"坏字符规则"，此时搜索词应该后移 2 - （-1）= 3 位。问题是，此时有没有更好的移法？

　　11.

　　我们知道，此时存在"好后缀"。所以，可以采用"好后缀规则"：

　　后移位数 = 好后缀的位置 - 搜索词中的上一次出现位置

　　举例来说，如果字符串"ABCDAB"的后一个"AB"是"好后缀"。那么它的位置是5（从0开始计算，取最后的"B"的值），在"搜索词中的上一次出现位置"是1（第一个"B"的位置），所以后移 5 - 1 = 4位，前一个"AB"移到后一个"AB"的位置。

　　再举一个例子，如果字符串"ABCDEF"的"EF"是好后缀，则"EF"的位置是5 ，上一次出现的位置是 -1（即未出现），所以后移 5 - (-1) = 6位，即整个字符串移到"F"的后一位。

　　这个规则有三个注意点：

　　（1）"好后缀"的位置以最后一个字符为准。假定"ABCDEF"的"EF"是好后缀，则它的位置以"F"为准，即5（从0开始计算）。

　　（2）如果"好后缀"在搜索词中只出现一次，则它的上一次出现位置为 -1。比如，"EF"在"ABCDEF"之中只出现一次，则它的上一次出现位置为-1（即未出现）。

　　（3）如果"好后缀"有多个，则除了最长的那个"好后缀"，其他"好后缀"的上一次出现位置必须在头部。比如，假定"BABCDAB"的"好后缀"是"DAB"、"AB"、"B"，请问这时"好后缀"的上一次出现位置是什么？回答是，此时采用的好后缀是"B"，它的上一次出现位置是头部，即第0位。这个规则也可以这样表达：如果最长的那个"好后缀"只出现一次，则可以把搜索词改写成如下形式进行位置计算"(DA)BABCDAB"，即虚拟加入最前面的"DA"。

　　回到上文的这个例子。此时，所有的"好后缀"（MPLE、PLE、LE、E）之中，只有"E"在"EXAMPLE"还出现在头部，所以后移 6 - 0 = 6位。

　　12.

　　可以看到，"坏字符规则"只能移3位，"好后缀规则"可以移6位。所以，Boyer-Moore算法的基本思想是，每次后移这两个规则之中的较大值。

　　更巧妙的是，这两个规则的移动位数，只与搜索词有关，与原字符串无关。因此，可以预先计算生成《坏字符规则表》和《好后缀规则表》。使用时，只要查表比较一下就可以了。

　　13.

　　继续从尾部开始比较，"P"与"E"不匹配，因此"P"是"坏字符"。根据"坏字符规则"，后移 6 - 4 = 2位。

　　14.

　　从尾部开始逐位比较，发现全部匹配，于是搜索结束。如果还要继续查找（即找出全部匹配），则根据"好后缀规则"，后移 6 - 0 = 6位，即头部的"E"移到尾部的"E"的位置。

声明：BM算法的详解文章来阮一峰的博客，我这里没有侵权的意思，只是用来学习，望作者谅解！
原文地址：
http://www.ruanyifeng.com/blog/2013/05/boyer-moore_string_search_algorithm.html

下面是我用C#实现的上述算法：

         public static int Arithmetic_BM(string operateStr, string findStr)

         {

             //i：匹配开始的索引，j：operateStr字符串的索引迭代，k：findStr字符串索引迭代

             int i = , j = findStr.Length - , k = j;

             int n, m = ; //n:坏字符规则计算出的移动位数，m:好后缀计算出的移动位数

             while (k >=  && j < operateStr.Length)

             {

                 if (k == ) //全部匹配，return

                 {

                     return i;

                     break;

                 }

                 if (operateStr[j] == findStr[k]) //匹配，next

                 {

                     j--;

                     k--;

                 }

                 else

                 {

                     //当k<要匹配的字符串长度时，说明已经有匹配的字符了，即有“好后缀”

                     if (k < findStr.Length - )

                     {

                         //采用"好后缀规则"，先找出“全好后缀”有没有在前面存在

                         var goodSuffix = findStr.Substring(k + ); //分割出全好后缀

                         var tempStr = findStr.Substring(, k + ); //去掉好缀后的字符串

                         //最全好后缀在剩下的字符串中出现

                         if (tempStr.Contains(goodSuffix))

                         {

                             var lastGoodSuffix = char.Parse(goodSuffix.Substring(goodSuffix.Length - )); //好后缀的最后一个字符

                             //找出 该字符的出现位置

                             IList<int> indexs = new List<int>();

                             for (int x = ; x < tempStr.Length; x++)

                             {

                                 if (lastGoodSuffix == tempStr[x])

                                 {

                                     indexs.Add(x);

                                 }

                             }

                             //找出 好后缀在搜索词中的上一次出现位置

                             var result = -;

                             for (int x = indexs.Count - ; x >= ; x--)

                             {

                                 if (indexs[x] >= goodSuffix.Length &&

                                     tempStr.Substring(indexs[x] - goodSuffix.Length + , goodSuffix.Length) == goodSuffix)

                                 {

                                     result = indexs[x];

                                     break;

                                 }

                             }

                             //好后缀规则结果

                             m = findStr.Length -  - result;

                         }

                         //最长好后缀没有没出现，但是好后缀最后一个字符，出现在头部

                         //后移位数 = 好后缀的位置 - (0)搜索词中的上一次出现位置

                         else if (findStr.Substring(, ) == findStr.Substring(findStr.Length - ))

                         {

                             m = findStr.Length - ;

                         }

                         else //好后缀只出现一次  (后移位数 = 好后缀的位置 - (-1)搜索词中的上一次出现位置)

                         {

                             m = findStr.Length;

                         }

                     }

                     //坏字符规则：后移位数 = 坏字符的位置 - 搜索词中的上一次出现位置

                     n = (j - i) - findStr.LastIndexOf(operateStr[j]);

                     //比较坏字符规则和好后缀规则移动的位数，得出最终移动位数

                     if (n > m)

                     {

                         i += n;

                         j = i + findStr.Length - ;

                     }

                     else

                     {

                         i += m;

                         j = i + findStr.Length - ;

                     }

                     k = findStr.Length - ;

                     m = ; //清零

                 }

             }

             return -;

         }

分享给大家，这是我自己写的不排除有问题，如有更好的实现，请提出。

字符串匹配的Boyer-Moore算法详解加 C# 实现的更多相关文章

KMP算法详解&&P3375 【模板】KMP字符串匹配题解
KMP算法详解: KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt(雾)提出的. 对于字符串匹配问题(such as 问你在abababb中有多少个 ...
BM算法　　Boyer-Moore高质量实现代码详解与算法详解
Boyer-Moore高质量实现代码详解与算法详解鉴于我见到对算法本身分析非常透彻的文章以及实现的非常精巧的文章,所以就转载了,本文的贡献在于将两者结合起来,方便大家了解代码实现! 算法详解转自:h ...
kmp算法详解
转自:http://blog.csdn.net/ddupd/article/details/19899263 KMP算法详解 KMP算法简介: KMP算法是一种高效的字符串匹配算法,关于字符串匹配最简 ...
[转] KMP算法详解
转载自:http://www.matrix67.com/blog/archives/115 KMP算法详解如果机房马上要关门了,或者你急着要和MM约会,请直接跳到第六个自然段. 我们这里说的K ...
KMP算法详解(转自中学生OI写的。。ORZ！)
KMP算法详解如果机房马上要关门了,或者你急着要和MM约会,请直接跳到第六个自然段. 我们这里说的KMP不是拿来放电影的(虽然我很喜欢这个软件),而是一种算法.KMP算法是拿来处理字符串匹配的.换句 ...
数据结构4.3_字符串模式匹配——KMP算法详解
next数组表示字符串前后缀匹配的最大长度.是KMP算法的精髓所在.可以起到决定模式字符串右移多少长度以达到跳跃式匹配的高效模式. 以下是对next数组的解释: 如何求next数组: 相关链接:按顺序 ...
【转】AC算法详解
原文转自:http://blog.csdn.net/joylnwang/article/details/6793192 AC算法是Alfred V.Aho(<编译原理>(龙书)的作者),和 ...
安全体系（三）——SHA1算法详解
本文主要讲述使用SHA1算法计算信息摘要的过程. 安全体系(零)—— 加解密算法.消息摘要.消息认证技术.数字签名与公钥证书安全体系(一)—— DES算法详解安全体系(二)——RSA算法详解为保 ...
算法进阶面试题01——KMP算法详解、输出含两次原子串的最短串、判断T1是否包含T2子树、Manacher算法详解、使字符串成为最短回文串
1.KMP算法详解与应用子序列:可以连续可以不连续. 子数组/串:要连续暴力方法:逐个位置比对. KMP:让前面的,指导后面. 概念建设: d的最长前缀与最长后缀的匹配长度为3.(前缀不能到最后一 ...

随机推荐

[转]Linux查看物理CPU个数、核数、逻辑CPU个数
From : http://www.cnblogs.com/emanlee/p/3587571.html # 总核数 = 物理CPU个数 X 每颗物理CPU的核数 # 总逻辑CPU数 = 物理CPU个 ...
C语言文件操作8--fputs()和fgets()
//fputs()和fgets() #define _CRT_SECURE_NO_WARNINGS #include<stdio.h> #include<stdlib.h> # ...
搭建Apache+MySQL+PHP环境
1.1 搭建Apache+MySQL+PHP环境 1.1.1 关于安装前的准备配置好yum源(/etc/yum.repos.d/)目录下,不会就去寻求运维支持. httpd-2.2.29.tar.g ...
SQL Server 维护计划实现数据库备份（Step by Step）
转自:http://www.cnblogs.com/gaizai/archive/2011/11/18/2254445.html 一.前言 SQL Server 备份和还原全攻略,里面包括了通过SSM ...
KnockOutJS步步深入
由于项目原因,目前需要用到KnockOutJS,找到了一个锻炼Knockout的绝好的网址:http://learn.knockoutjs.com/ 一步一步的按照教程来,可以把KO掌握的八九不离十.
Android完美禁用Home键
重写Activity的onAttachedToWindow 方法 @Override public void onAttachedToWindow() { System.out.println(&qu ...
微软office web apps 服务器搭建之在线文档预览（一）
office web apps安装系统要求为Windows Server 2012, 注意:转换文档需要两台服务器,一台为转换server,另外一台为域控server.(至于为什么要两台,这个请自行 ...
按照需要分别率长宽比导出图片（python 3）
效率提升的问题之前朋友需要把大量的图片用分辨率进行区分查找,他说都是打开图片,然后用尺子在屏幕上量......我也是瀑布汗....花的点时间帮他写的小软件,解决这个蛋疼的问题解决方案本想用批处理 ...
$().each() 与 $.each()解析
在jquery 中我们可以选择$().each() 与 $.each() 进行迭代对象和数组 $(items).each(function(){ //item }) , 而后者则 $.each(ite ...
[USACO2005][poj2229]Sumsets（递推）
http://poj.org/problem?id=2229 分析: 显然的递推若n为奇数,那么肯定是在n-1的基础上前面每个数+1,即f[n]=f[n-1] 若n为偶数当第一位数字是1的时候,等 ...

字符串匹配的Boyer-Moore算法 详解 加 C# 实现

字符串匹配的Boyer-Moore算法 详解 加 C# 实现的更多相关文章

随机推荐

热门专题

字符串匹配的Boyer-Moore算法详解加 C# 实现

字符串匹配的Boyer-Moore算法详解加 C# 实现的更多相关文章