Aho-Corasick自动机

在模式匹配问题中，如果模板有很多个,KMP算法就不太适合了。因为每次查找一个模板。都要遍历整个文本串。可不可以只遍历一次文本串呢？可以，方法是把所有模板组成一个大的状态转移图（称为$Aho-Corasick$自动机，简称$AC$自动机），而不是每个模板各建一个状态转移图。注意到KMP的状态转移图是线性的字符串加上失配边组成的，不难想到AC自动机是Trie加上失配边组成的。

下图是$\{he,she,his,hers \}$的Trie。

下图是对应的Aho-Corasick自动机。

如果已经构造好AC自动机，匹配算法几乎和KMP是一样的，代码如下：

//在T中找模板

void find(const char* T)

{

        int n = strlen(T);

    int j = ;                //当前结点编号，初始为根节点

    for (int i = ; i < n; i++)   //文本串当前指针

    {

        int c = idx(T[i]);

        while (j && !ch[j][c])  j = f[j];    //顺着失配边走，直到可以匹配

        j = ch[j][c];

        if (val[j])  print(j);

        else  if (last[j])  print(last[j]);   //找到了

    }

}

其中print函数为：

//递归打印以结点j结尾的所有字符串

void print(int j)

{

    if (j)

    {

        printf("%d: %d\n",j, val[j]);

        print(last[j]);

    }

}

代码中出现了一个陌生的数组last，下面解释以下。和Trie一样，我们认为所有val[j]>0的结点都是单词结点，反之亦然。但和Trie不同的是，同一个结点可能对应多个字符串的结尾，如图所示：

结点B不仅意味着找到串101，还意味着找到串01。换句话说，当找到一个模板后，应该顺着失配指针往回走，，看看有没有其它串。当然，失配指针不一定指向一个单词结点（比如，两个串是101和010，那么上图的结点A不是单词结点），为了提高效率，这里增设一个指针last[j]，表示结点j沿着失配指针往回走时，遇到的下一个单词结点编号。这个last[j]在正规文献中叫后缀链接(suffix link)。

计算失配函数的方式和KMP很接近，只是把线性递归改成了按照BFS顺序递推，代码如下：

//计算fail函数

void getFail()

{

    queue<int>q;

    f[] = ;

    //初始化队列

    for (int c = ; c < sigma_size; c++)

    {

        int u = ch[][c];

        if (u)

        {

            f[u] = ;

            q.push(u);

            last[u] = ;

        }

    }

    //按BFS序计算fail

    while (!q.empty())

    {

        int r = q.front(); q.pop();

        for (int c = ; c < sigma_size; c++)

        {

            int u = ch[r][c];

            if (!u)  continue;

            q.push(u);

            int v = f[r];

            while (v && !ch[v][c])  v = f[v];

            f[u] = ch[v][c];

            last[u] = (val[f[u]] ? f[u] : last[f[u]]);

        }

    }

}

由于失配工程比较复杂，要反复沿着失配边走，在实践中常常会把上述AC自动机改造一下，把所有不存在的边补上，即把计算失配函数中的语句"if(!u) continue;"改成：if(!u){ ch[r][c] = ch[f[r]][c]; continue;}

这样，就完全不需要失配函数了，而是对所有的转移一视同仁也就是说，find函数中的语句"while(j && !ch[j][c]) j=f[j];"; 可以直接完全删除。

Aho-Corasick自动机的更多相关文章

多模字符串匹配算法-Aho–Corasick
背景在做实际工作中,最简单也最常用的一种自然语言处理方法就是关键词匹配,例如我们要对n条文本进行过滤,那本身是一个过滤词表的,通常进行过滤的代码如下 for (String document : d ...
Aho - Corasick string matching algorithm
Aho - Corasick string matching algorithm 俗称:多模式匹配算法,它是对 Knuth - Morris - pratt algorithm (单模式匹配算法) 形 ...
中文分词系列（二）基于双数组Tire树的AC自动机
秉着能偷懒就偷懒的精神,关于AC自动机本来不想看的,但是HanLp的源码中用户自定义词典的识别是用的AC自动机实现的.唉-没办法,还是看看吧 AC自动机理论 Aho Corasick自动机,简称AC自 ...
HanLP自然语言处理包介绍
支持中文分词(N-最短路分词.CRF分词.索引分词.用户自定义词典.词性标注),命名实体识别(中国人名.音译人名.日本人名.地名.实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换, ...
敏感词过滤的算法原理之 Aho-Corasick 算法
参考文档 http://www.hankcs.com/program/algorithm/implementation-and-analysis-of-aho-corasick-algorithm-i ...
HanLP自然语言处理包开源（包含源码）
支持中文分词(N-最短路分词.CRF分词.索引分词.用户自定义词典.词性标注),命名实体识别(中国人名.音译人名.日本人名.地名.实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换, ...
Python分词工具——pyhanlp
本文为本人学习pyhanlp的笔记,大多知识点来源于GitHubhttps://github.com/hankcs/HanLP/blob/master/README.md,文中的demo代码来源于该G ...
AC 自动机
AC自动机(Aho-Corasick Automata)是经典的多模式匹配算法.从前我学过这个算法,但理解的不深刻,现在已经十分不明了了.现在发觉自己对大部分算法的掌握都有问题,决定重写一系列博客把学 ...
算法 - DNA搜索 - Ako Corasick
场景:从很长的字符串(输入字符串.DNA)中搜索大量固定字符串(字典.基因) 题目:Determining DNA Health | HackerRank 算法:Aho–Corasick algori ...
Aho-Corasick算法、多模正则匹配、Snort入门学习
希望解决的问题 . 在一些高流量.高IO的WAF中,是如何对规则库(POST.GET)中的字符串进行多正则匹配的,是单条轮询执行,还是多模式并发执行 . Snort是怎么组织.匹配高达上千条的正则规则 ...

随机推荐

Gym - 100851A Adjustment Office（O（1）求行列和）
Adjustment Office Gym - 100851A 2 3 4 3 4 5 4 5 6 n<=10^6,q&l ...
洛谷P4213 【模板】杜教筛（Sum）（杜教筛，莫比乌斯反演）
传送门坑着,联赛活着回来再填(死了就不填了) // luogu-judger-enable-o2 //minamoto #include<iostream> #include<cs ...
【ZJOI2007】捉迷藏小小的总结
2019-01-09 22:56:33 终于终于把这道题目做掉了... 做了两个晚上..不知道为什么自己如此之笨.. 在洛谷上断断续续一共交了24次,感觉自己都要被封号了. 昨天花半个晚上从零开始研究 ...
nginx反向代理解决跨域问题，使本地调试更方便
我们可能都会遇到一个这样的问题,线上环境是https://...,本地启动了项目,域名是localhost:8000等,本地想要访问线上的接口,直接在本地调试,却提示跨域,这个时候我们可以配置ngin ...
Centos下安装pip失败或新装
Centos安装pip失败: [root@localhost /]# yum -y install pip已加载插件:fastestmirrorRepodata is over 2 weeks old ...
CC06:像素翻转
题目有一副由NxN矩阵表示的图像,这里每个像素用一个int表示,请编写一个算法,在不占用额外内存空间的情况下(即不使用缓存矩阵),将图像顺时针旋转90度. 给定一个NxN的矩阵,和矩阵的阶数N,请返 ...
A Simple Math Problem （矩阵快速幂）
Lele now is thinking about a simple function f(x). If x < 10 f(x) = x. If x >= 10 f(x) = a0 ...
hdu5726-GCD-ST表+二分
先用st表处理出所有l-r的GCD值,然后二分求得这些值一共出现了多少次. #include<bits/stdc++.h> #define inf 0x3f3f3f3f ; using n ...
openstack安装newton版本neutron服务部署（四）
一.管理节点部署服务: 1.安装neutron: [root@linux-node1 ~]# yum install openstack-neutron openstack-neutron-ml2 o ...
Kaggle八门神器（一）：竞赛神器之XGBoost介绍
Xgboost为一个十分有效的机器学习模型,在各种竞赛中均可以看到它的身影,同时Xgboost在工业届也有着广泛的应用,本文以Titanic数据集为研究对象,简单地探究Xgboost模型建模过程,同时 ...

Aho-Corasick自动机

Aho-Corasick自动机的更多相关文章

随机推荐

热门专题