【算法】BM算法

一. 字符串比较的分析

如果要判定长度为$n$两个字符串相等，比较中要进行$n$比较，但是如果要判定两个字符串不相等，只需要找出一个不相等的位置，因此可以得到如下结论：

结论1：判定字符串相等和判定字符串不相等的代价不同，判定不相等的代价更小

在KMP算法中，每发生一次失配时，算法总是尝试根据已经获得的匹配成功的信息来确定一个新的对齐位置，也即KMP算法是在尝试判断两个字符串相等，根据结论1，这种做法的代价要大于判定字符串不相等的代价。因此BM算法是尝试判定两个字符串不相等。

如果局部匹配成功，对于文本串$P$和局部的模式串$partT$，我们有如下结论：

结论2：

\[(P = partT)\Longrightarrow (\forall p\in P,\forall t\in partT \Longrightarrow p = t )
\]

因此文本串$P$和局部的模式串$partT$对应位置字符相等是匹配成功的一个必要条件，根据这个必要条件我们可以得到BM算法的朴素思想。

二.BM算法的思想

以下面插图为例：

文本串$T$和模式串$P_1$进行匹配时，文本串中的字符X和模式串中的字符Y失配，此时需要重新选定匹配位置。观察模式串发现，在字符Y的前面，存在一个字符X，此时可以将绿色的X和红色的X对齐，然后再从头开始对比。

当模式串为$P_2$时，失配之后发现在字符Y的前面没有字符X，这说明了无论这部分进行怎样的局部匹配，最终都不可能匹配成功。因此可以直接跨过文本串字符X以前的位置。

为了在一次失配出现时能够排除更多的对齐位置，我们考虑不同失配位置的信息量的大小。从下面的插图可以得到结论：

结论3：失配的位置越靠后，能够排除的对齐位置越多

因此BM算法不同于KMP算法，它的每次比对是逆向进行的。

图片来源

三.算法实现

只要我们记录下每个字符在模式串中的位置，当匹配失败时，找到一个新的位置进行比对即可，为此我们构造一个bc[ ]数组。

考虑两种边界情况：

模式串中的字符Y前面不存在字符X；
模式串中最右边的字符X在Y的后面；

第一种情况我们只需要令$bc['X'] = -1$即可，也就是使用通配哨兵。

第二种情况如果不特殊处理，会使模式串往回移动，出现该种情况使，我们只需要令模式串前进一个单位即可。

算法分为两个部分：构造bc[ ]数组和串匹配。

//构造bc[]

int *buildBc(const string &s){

    int *bc = new int [256];//一定要分配空间！！！

    for(int i = 0; i < 256; ++i)bc[i] = -1;

    for(int i = 0; i < s.size(); ++i)bc[s[i]] = i;

    return bc;

}

//串匹配

int bc(const string &s1, const string &s2){

    int *bc = buildBc(s2);

    int n = s1.size(), m = s2.size();

    int i = 0, j = 0;

    while(i + m < n){

        for(j = m - 1; j >= 0; --j){

            if(s1[i + j] != s2[j])break;

        }

        if(j < 0)break;

        int d = max(1, j - bc[s1[i + j]]);

        i += d;

    }

    return i;

}

【算法】BM算法的更多相关文章

Berlekamp_Massey 算法 (BM算法) 学习笔记
原文链接www.cnblogs.com/zhouzhendong/p/Berlekamp-Massey.html 前言 BM算法用于求解常系数线性递推式. 它可以在 $O(n^2)$ 的时间复杂度内解 ...
BM算法　　Boyer-Moore高质量实现代码详解与算法详解
Boyer-Moore高质量实现代码详解与算法详解鉴于我见到对算法本身分析非常透彻的文章以及实现的非常精巧的文章,所以就转载了,本文的贡献在于将两者结合起来,方便大家了解代码实现! 算法详解转自:h ...
hrbustoj 1551:基础数据结构——字符串2 病毒II（字符串匹配，BM算法练习）
基础数据结构——字符串2 病毒IITime Limit: 1000 MS Memory Limit: 10240 KTotal Submit: 284(138 users) Total Accepte ...
BM算法详解
http://www-igm.univ-mlv.fr/~lecroq/string/node14.html http://www.cs.utexas.edu/users/moore/publicati ...
Boyer-Moore(BM)算法，文本查找，字符串匹配问题
KMP算法的时间复杂度是O(m + n),而Boyer-Moore算法的时间复杂度是O(n/m).文本查找中“ctrl + f”一般就是采用的BM算法. Boyer-Moore算法的关键点: 从右遍历 ...
BM算法
BM算法用来求解一个数列的递推式. 即给定$\{x_i\}$求解一个$\{a_i\}$,满足$|a|=m,x_n=\sum_{i=1}^ma_i*x_{n-i}$. 考虑增量法构造. 假 ...
数据结构 BM算法
BM算法是比KMP算法更快的字符串模式匹配算法.BM算法最好情况下的时间复杂度是O(n),KMP算法最好情况下的时间复杂度是O(n+m),两者最坏情况下的时间复杂度均是O(m*n).其中,n指目标串长 ...
BM算法--串匹配
BM(Boyer-Moore)算法,后缀匹配,是指模式串的比较从右到左,模式串的移动也是从左到右的匹配过程,一般情况比KMP算法要快.时间复杂度O(m/n) C++描述(教师版) int BM(cha ...
BoyerMoore(BM)算法--C#
因项目需要使用字符串查询算法,在网上搜搜了半天,没有找到C#版的. 索性根据BM机制,用C#实现了一遍.现在贴出了,以备忘记. /// <summary> /// BM算法 /// < ...

随机推荐

[STM32F103]外部中断
① 初始化IO口为输入. GPIO_Init(); ② 开启IO口复用时钟. RCC_APB2PeriphClockCmd(RCC_APB2Periph_AFIO,ENABLE); ③ 设置IO口与中 ...
Magic xpa 3.x很容易将数据导出到Excel中
Magic xpa 3.x很方便的将表中数据导出到Excel文件中,还可以自动将表中数据生成各种图表. 通过使用自带的打印数据内部事即可实现. 1.首先将打印数据任务属性设置为“是”. 2.可使用主程 ...
hive 一次更新多个分区的数据
类似订单数据之类的表,因为有状态要更新,比如订单状态,物流状态之类的, 这样就需要同步很久之前的数据,目前我的订单表是更新前面100天的数据. hive中操作是先删除前面100个分区的数据,然后重新动 ...
实时监听input输入内容的N种方法
现在有一个需求,需要我们实时监听input输入框中的内容,从而带来更好的用户体验,而不是等我们全部输入完毕才告诉我们格式不对首先我们创建一个input输入框 <form name='loginF ...
Python for循环之图像练习
矩形 # 控制行 for i in range(1,5): # 控制列 for j in range(1,8): # 用end在末尾传入空格串,这样print函数就不会自动换行了 print('*', ...
Java 高级框架——Mybatis（一）
一, SQl复习 a,数据库SQL命令创建数据库并指定编码 Create database 数据库名 default character set utf8 create database ssm d ...
Postman 设置全局变量和环境变量设置（之图形界面设置变量）
在Postman中有两种方法添加变量:1.图形界面操作添加 2.执行代码添加 1.图形界面操作添加,点击右上角齿轮按钮手动添加所需测试环境: 2.点击右上角的小眼睛可以编辑.添加“全局变量”和 ...
java面向对象的思想（java三大特性）
用通俗易懂的语言来理解java面向对象的思想大家都知道,java是面向对象的编程,掌握面向对象的编程思想是掌握java编程语言的核心,但是很多人在面向对象方面都存在或多或少的误区,有的是刚学完C语言 ...
N个工作日后的日期
这里对特殊日期采用了模拟的方式,在实际开发中当然这些数据是从数据库中读取,调用方法时只需传入开始时间(一般当前) 和N(代表N个工作日) /// <summary> /// 获取时间 / ...
Spring3.2.0 之后各个版本完整包下载地址
留作工作学习使用现在Spring官网已经很难找到完整包的下载地址,都已经迁移到Maven上,这给不能用Maven或者不愿用Maven的各位带来了不小的麻烦. 经过挖掘,找到了下载3.2之后各个版本完 ...