字符串搜索算法Boyer-Moore

整理日: 2015年2月16日

1. 主要特征

假设文本串text长度为n，模式串pattern长度为m，BM算法的主要特征为：

从右往左进行比较匹配（一般的字符串搜索算法如KMP都是从从左往右进行匹配）；
算法分为两个阶段：预处理阶段和搜索阶段；
预处理阶段时间和空间复杂度都是是O(m+sigma)，sigma是字符集大小，一般为256；
搜索阶段时间复杂度是O(mn)；
当模式串是非周期性的，在最坏的情况下算法需要进行3n次字符比较操作；
算法在最好的情况下达到O(n / m)，比如在文本串bn中搜索模式串am-1b ，只需要n/m次比较。

2. 算法基本思想

常规的匹配算法移动模式串的时候是从左到右，而进行比较的时候也是从左到右的，基本框架是：

while(j <= strlen(text) - strlen(pattern)){

    for (i = 0; i < strlen(pattern) && pattern[i] == text[i + j]; ++i);

    if (i == strlen(pattern)) {

        Match;

        break;

    }

    else

        ++j;

}

而BM算法在移动模式串的时候是从左到右，而进行比较的时候是从右到左的，基本框架是：

while(j <= strlen(text) - strlen(pattern)){

    for (i = strlen(pattern); i >= 0 && pattern[i] == text[i + j]; --i);

    if (i < 0)) {

        Match;

        break;

    }

    else

        j += BM();

}

3. 实例：算法整合

#include <stdio.h>

#include <string.h>

#define MAX_CHAR 256

#define SIZE 256

#define MAX(x, y) (x) > (y) ? (x) : (y)

void BoyerMoore(char *pattern, int m, char *text, int n);

int main()

{

    char text[256], pattern[256];

    while(1)

    {

        scanf("%s%s", text, pattern);

        if(text == 0 || pattern == 0) break;

        BoyerMoore(pattern, strlen(pattern), text, strlen(text));

        printf("\n");

    }

    return 0;

}

void print(int *array, int n, char *arrayName)

{

    int i;

    printf("%s: ", arrayName);

    for(i = 0; i < n; i++)

    {

        printf("%d ", array[i]);

    }

    printf("\n");

}

void PreBmBc(char *pattern, int m, int bmBc[])

{

    int i;

    for(i = 0; i < MAX_CHAR; i++)

    {

        bmBc[i] = m;

    }

    for(i = 0; i < m - 1; i++)

    {

        bmBc[pattern[i]] = m - 1 - i;

    }

/*  printf("bmBc[]: ");

    for(i = 0; i < m; i++)

    {

        printf("%d ", bmBc[pattern[i]]);

    }

    printf("\n"); */

}

void suffix_old(char *pattern, int m, int suff[])

{

    int i, j;

    suff[m - 1] = m;

    for(i = m - 2; i >= 0; i--)

    {

        j = i;

        while(j >= 0 && pattern[j] == pattern[m - 1 - i + j]) j--;

        suff[i] = i - j;

    }

}

void suffix(char *pattern, int m, int suff[]) {

   int f, g, i;

   suff[m - 1] = m;

   g = m - 1;

   for (i = m - 2; i >= 0; --i) {

      if (i > g && suff[i + m - 1 - f] < i - g)

         suff[i] = suff[i + m - 1 - f];

      else {

         if (i < g)

            g = i;

         f = i;

         while (g >= 0 && pattern[g] == pattern[g + m - 1 - f])

            --g;

         suff[i] = f - g;

      }

   }

//   print(suff, m, "suff[]");

}

void PreBmGs(char *pattern, int m, int bmGs[])

{

    int i, j;

    int suff[SIZE];

    // 计算后缀数组

    suffix(pattern, m, suff);

    // 先全部赋值为m，包含Case3

    for(i = 0; i < m; i++)

    {

        bmGs[i] = m;

    }

    // Case2

    j = 0;

    for(i = m - 1; i >= 0; i--)

    {

        if(suff[i] == i + 1)

        {

            for(; j < m - 1 - i; j++)

            {

                if(bmGs[j] == m)

                    bmGs[j] = m - 1 - i;

            }

        }

    }

    // Case1

    for(i = 0; i <= m - 2; i++)

    {

        bmGs[m - 1 - suff[i]] = m - 1 - i;

    }

//  print(bmGs, m, "bmGs[]");

}

void BoyerMoore(char *pattern, int m, char *text, int n)

{

    int i, j, bmBc[MAX_CHAR], bmGs[SIZE];

    // Preprocessing

    PreBmBc(pattern, m, bmBc);

    PreBmGs(pattern, m, bmGs);

    // Searching

    j = 0;

    while(j <= n - m)

    {

        for(i = m - 1; i >= 0 && pattern[i] == text[i + j]; i--);

        if(i < 0)

        {

            printf("Find it, the position is %d\n", j);

            j += bmGs[0];

            return;

        }

        else

        {

            j += MAX(bmBc[text[i + j]] - m + 1 + i, bmGs[i]);

        }

    }

    printf("No find.\n");

}

字符串搜索算法Boyer-Moore的更多相关文章

Boyer–Moore (BM)字符串搜索算法
在计算机科学里,Boyer-Moore字符串搜索算法是一种非常高效的字符串搜索算法.它由Bob Boyer和J Strother Moore设计于1977年.此算法仅对搜索目标字符串(关键字)进行预处 ...
grep之字符串搜索算法Boyer-Moore由浅入深（比KMP快3-5倍）
这篇长文历时近两天终于完成了,前两天帮网站翻译一篇文章“为什么GNU grep如此之快?”,里面提及到grep速度快的一个重要原因是使用了Boyer-Moore算法作为字符串搜索算法,兴趣之下就想了解 ...
grep之字符串搜索算法Boyer-Moore由浅入深（比KMP快3-5倍）（转）
这篇长文历时近两天终于完成了,前两天帮网站翻译一篇文章“为什么GNU grep如此之快?”,里面提及到grep速度快的一个重要原因是使用了Boyer-Moore算法作为字符串搜索算法,兴趣之下就想了解 ...
从入门到精通之Boyer-Moore字符串搜索算法详解
本文讲述的是Boyer-Moore算法,Boyer-Moore算法作为字符串搜索算法,兴趣之下就想了解这个算法,发现这个算法一开始还挺难理解的,也许是我理解能力不是很好吧,花了小半天才看懂,看懂了过后 ...
Boyer Moore算法（字符串匹配）
上一篇文章,我介绍了KMP算法. 但是,它并不是效率最高的算法,实际采用并不多.各种文本编辑器的"查找"功能(Ctrl+F),大多采用Boyer-Moore算法. Boyer-Mo ...
Leetcode OJ : Implement strStr() [ Boyer–Moore string search algorithm ] python solution
class Solution { public: int strStr(char *haystack, char *needle) { , skip[]; char *str = haystack, ...
BF + KMP + BM 字符串搜索算法
BF #include <stdio.h> #include <string.h> int simplicity(char *s, char *t, int pos); int ...
Google Interview University - 坚持完成这套学习手册，你就可以去 Google 面试了
作者:Glowin链接:https://zhuanlan.zhihu.com/p/22881223来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 原文地址:Google ...
字符串核对之Boyer-Moore算法
算法说明: 在计算机科学里,Boyer-Moore字符串搜索算法是一种非常高效的字符串搜索算法.它由Bob Boyer和J Strother Moore设计于1977年.此算法仅对搜索目标字符串(关键 ...

随机推荐

Hadoop 2.4.0新特性介绍
在2014年4月7日,Apache公布了Hadoop 2.4.0 .相比于hadoop 2.3.0,这个版本号有了一定的改进,突出的变化能够总结为下列几点(官方文档说明): 1 支持HDFS訪问控制列 ...
Android中应用程序如何获得系统签名权限
有些库的使用条件比较苛刻,要求同一签名的程序才可以获得访问权.此时即便是在AndroidManifest.xml中添加了相应的permission,依旧会得到没有xx访问权限的问题.比如android ...
gson使用详解
昨天读一篇文章,看到gson这个词,一开始还以为作者写错了,问了度娘之后才发现是我才疏学浅,于是大概了解了一下gson用法,总体来说还是很简单的. Gson.jar下载 JavaBean转json / ...
android获取其他应用权限（修改状态）
这两天老大发话说要我研究一下安卓安全软件的功能,先抽取了一个小模块,研究权限管理一开始就去packagemanager 去看发现有几个方法: 就先去看了一下IPackagemanager 里面的方法 ...
Java SE (2)之 Graphics 画图工具
Graphics 绘图类: 提供两个方法.Paint (绘图,被系统自动调用) repaint(重绘) Paint 调用原理(1.窗口最大化,再最小化窗口的大小发生变化 Repaint函数被调 ...
C#DbHelperOleDb,Access数据库帮助类 (转载)
主要功能如下数据访问抽象基础类主要是访问Access数据库主要实现如下功能 .数据访问基础类(基于OleDb)Access数据库, .得到最大值:是否存在:是否存在(基于OleDbParameter ...
.NET3.5中的高性能 Socket API
转载:http://www.cnblogs.com/TianFang/archive/2007/11/09/954730.html 在 .NET Framework 2.0 版本中,System.Ne ...
Android 设计随便说说
我曾经搞过应用程序的设计,当时只是读了半本宝典<重构...>,现在看来就这半本九阴真经,收益甚多啊 .再加上这现年工作上的印证,基本上可以拿出喷一下了.当然现在看来当年的项目设计真是很烂了 ...
oracle 权限管理
系统权限系统权限需要授予者有进行系统级活动的能力,如连接数据库,更改用户会话.建立表或建立用户等等.你可以在数据字典视图SYSTEM_PRIVILEGE_MAP上获得完整的系统权限.对象权限和系统权 ...
C#世界中的委托
委托是C#最重要的特性之一,C#后面的所有特性基本都是建立在委托的基础上的. 1.C#委托是什么? 可以把C#的委托理解为函数的一个包装,它使得C#中的函数可以作为参数来被传递.如果你学过C++,可以 ...

字符串搜索算法Boyer-Moore

1. 主要特征

2. 算法基本思想

3. 实例：算法整合

字符串搜索算法Boyer-Moore的更多相关文章

随机推荐

热门专题