基础:AC自动机是建立在 trie 树和 kmp 基础之上的,为什么这么说,因为AC自动机是基于字典树的数据结构之上的,其次它是一个自动机,用到了 kmp 的失配数组的思想。

应用:在模式匹配的问题中,如果模板有很多个,可以用AC自动机来求解。

结构:字典树结构:

Fail数组(失配数组):如果现在已经匹配到一个结点,如果匹配失败,则将指正转移到 Fail 指针指向的地方,这样就不用回溯而直接匹配下去了。(举个例子:如abcebcd,我们找到c发现下一个要找的不是e,就跳到bcd中的c处,看看此处的下一个字符(d)是不是应该找的那一个)。由此可见, Fail 数组可用一个 BFS 求得。

上上图的 Fail 数组指向图:

ashe为例:其匹配过程如下:

说了这么多,下面直接上模板:

建树:

const int maxn =  2e6+10;
int tree[maxn][26]; //字典树
int point[maxn]; //记录该单词出现次数
int Fail[maxn]; //失败时的回溯指针
int tot = 0; //结点个数
void insert(char *s) //同字典树;建树
{
int root = 0;
int len=strlen(s);
for(int i=0;i<len;i++){
int id = s[i] - 'a';
if(!tree[root][id])
tree[root][id] = ++tot;
root = tree[root][id];
}
point[root]++; //当前节点单词数+1
}

求 Fail 数组( BFS ):

void getFail()						//求Fail(失配)数组
{
Fail[0]=0;
queue <int>q;
for(int i=0;i<26;i++) //将第二层所有出现了的字母扔进队列
{
if(tree[0][i]){
Fail[tree[0][i]] = 0; //第一层结点肯定全都指向根节点
q.push(tree[0][i]);
}
} // fail[now] -> 当前节点now的失败指针指向的地方
// tire[now][i] -> 下一个字母为i+'a'的节点的下标为tire[now][i] while(!q.empty())
{
int now = q.front();
q.pop();
for(int i=0;i<26;i++) //查询26个字母
{
if(tree[now][i]){ //如果有这个子节点为字母i+'a',则 //让这个节点的失败指针指向(((他父亲节点)的失败指针所指向的那个节点)的下一个节点)
//有点绕,为了方便理解特意加了括号 Fail[tree[now][i]] = tree[Fail[now]][i];
q.push(tree[now][i]);
}
else //否则就让当前节点的这个子节点指向当前节点Fail指针的这个子节点
tree[now][i] = tree[Fail[now]][i];
}
}
}

查询:

int query(char *s)
{
int root = 0,ans = 0;
ine len=strlen(s);
for(int i=0;i<len;i++) //遍历文本串
{
int id=s[i]-'a';
root = tree[root][id]; //从s[i]点开始寻找
for(int j=now;j && point[j]!=-1;j=Fail[j]){
//一直向下寻找,直到匹配失败(失败指针指向根或者当前节点已找过).
ans += point[j];
point[j] = -1; //将遍历国后的节点标记,防止重复计算
}
}
return ans;
}

模板AC代码:

#include<bits/stdc++.h>

using namespace std;
const int maxn=2e6+10;
typedef long long ll;
int tree[maxn][27];
int point[maxn],tot=0,Fail[maxn];
char s[10004][55];
char str[1000005];
void insert(char *s)
{
int len=strlen(s);
int root=0;
for(int i=0;i<len;++i)
{
int id=s[i]-'a';
if(!tree[root][id])
tree[root][id] = ++tot;
root=tree[root][id];
}
point[root]++;
}
void getFail()
{
Fail[0]=0;
queue<int> q;
for(int i=0;i<26;++i)
{
if(tree[0][i]){
Fail[tree[0][i]]=0;
q.push(tree[0][i]);
}
}
while(!q.empty())
{
int now=q.front();
q.pop();
for(int i=0;i<26;++i)
{
if(tree[now][i]){
Fail[tree[now][i]]=tree[Fail[now]][i];
q.push(tree[now][i]);
}
else
tree[now][i]=tree[Fail[now]][i];
}
}
}
ll query(char *s)
{
int root=0,res=0;
int len=strlen(s);
for(int i=0;i<len;++i)
{
int id=s[i]-'a';
root=tree[root][id];
for(int j=root; j && point[j]!=-1;j=Fail[j]){
res+=point[j];
point[j]=-1;
}
}
return res;
}
void init()
{
for(int i=0;i<=tot;++i)
{
point[i]=0;
Fail[i]=0;
for(int j=0;j<26;++j){
tree[i][j]=0;
}
}
tot=0;
} int main()
{
//ios::sync_with_stdio(false); int T;
scanf("%d",&T);
memset(point,0,sizeof(point));
while(T--)
{
int n;
cin>>n;
for(int i=0;i<n;++i){
scanf("%s",&s[i]);
insert(s[i]);
}
getFail();
scanf("%s",&str);
int res=query(str);
printf("%d\n",res);
init();
} system("pause");
return 0;
}

Aho-Corasick (AC) 自动机的更多相关文章

  1. AC 自动机

    AC自动机(Aho-Corasick Automata)是经典的多模式匹配算法.从前我学过这个算法,但理解的不深刻,现在已经十分不明了了.现在发觉自己对大部分算法的掌握都有问题,决定重写一系列博客把学 ...

  2. 中文分词系列(二) 基于双数组Tire树的AC自动机

    秉着能偷懒就偷懒的精神,关于AC自动机本来不想看的,但是HanLp的源码中用户自定义词典的识别是用的AC自动机实现的.唉-没办法,还是看看吧 AC自动机理论 Aho Corasick自动机,简称AC自 ...

  3. 多模字符串匹配算法-Aho–Corasick

    背景 在做实际工作中,最简单也最常用的一种自然语言处理方法就是关键词匹配,例如我们要对n条文本进行过滤,那本身是一个过滤词表的,通常进行过滤的代码如下 for (String document : d ...

  4. HDU 2222 Keywords Search(AC自动机模版题)

    Keywords Search Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 131072/131072 K (Java/Others ...

  5. HDU 3065 病毒侵袭持续中(AC自动机)

    这题数据太水,一开始没有加上Get的方法也能AC..话说AC自动机中一定要注意加上Get的方法!(不然,同一个后缀的其他单词就没被算上了.) 代码如下: #include <stdio.h> ...

  6. HDU 2222 Keywords Search(AC自动机入门)

    题意:给出若干个单词和一段文本,问有多少个单词出现在其中.如果两个单词是相同的,得算两个单词的贡献. 分析:直接就是AC自动机的模板了. 具体见代码: #include <stdio.h> ...

  7. UVA - 11468 (AC自动机+动态规划)

    建立AC自动机,把AC自动机当做一张图,在上面跑L个节点就行了. 参考了刘汝佳的代码,发现可能有一个潜在的Bug--如果模式串中出现了没有指定的字符,AC自动机可能会建立出错. 提供一组关于这个BUG ...

  8. hdu4787 AC自动机加分块

    这题说的是 有n次操作 +w 表示读入一个字符串,?p 询问这个字符串的子串在那些模板串中有多少个, http://blog.csdn.net/qq574857122/article/details/ ...

  9. BZOJ 1444 [Jsoi2009]有趣的游戏 (AC自动机 + 概率DP + Gauss)

    1444: [Jsoi2009]有趣的游戏 Time Limit: 10 Sec  Memory Limit: 64 MBSubmit: 1382  Solved: 498[Submit][Statu ...

  10. [意识流]简单易懂的AC自动机

    为了一言不合就徒手敲AC自动机,决定看一下原理 于是花了一张图, 参考HDU2222的样例 于是看懂这张图的你很快就敲出了如下代码并且AC了 #include<bits/stdc++.h> ...

随机推荐

  1. Nginx做缓存

    查看服务 netstat -lntp|grep 80 Nginx作为缓存WEB服务 通常情况下缓存是用来减少后端压力, 将压力尽可能的往前推, 减少后端压力,提高网站并发延时 Nginx代理缓存原理 ...

  2. 5.Python语句

    .button, #logout { color: #333; background-color: #fff; border-color: #ccc; } span#login_widget > ...

  3. Blockchain资源

    程序源码: https://github.com/HuangFJ/pyeth https://www.jianshu.com/p/b72b4eb259b8

  4. markdown区块

    Markdown 区块 Markdown 区块引用是在段落开头使用 > 符号 ,然后后面紧跟一个空格符号: > 区块引用 > 菜鸟教程 > 学的不仅是技术更是梦想 显示结果如下 ...

  5. RTT学习之启动流程

    总结RT-Thread的启动流程. 非运行时与运行时的image文件分别是什么样的,请画下来.是谁将 RW 段中的  RW-data(初始化的全局变量)搬运到 RAM 中? MDK环境下各种数据段存储 ...

  6. 创业学习---《预判项目的长期壁垒》--B-3.预判模块---HHR计划---以太一堂

    一,<开始学习> 1,投资人经常会问CEO:你的项目的长期壁垒是什么?你是怎么思考的? 2,三个预热思考题: (1)突然有一天,大公司要抄你,你会怎么办?  答:用增长技术来和他竞争. ( ...

  7. 吴裕雄 Bootstrap 前端框架开发——Bootstrap 网格系统实例:手机、平板电脑、台式电脑

    <!DOCTYPE html> <html> <head> <title>Bootstrap 实例 - 手机.平板电脑.台式电脑</title&g ...

  8. Embedded Packet Capture (EPC)

    Embedded Packet Capture (EPC)是一个很好的抓包工具,在排障的时候,需要在线抓包的情况下,是一个非常好的选择. EPC在IOS和IOS-XE都是支持,不过,不同平台下有版本的 ...

  9. js脚本中执行java后台代码

    使用场景:关闭页面弹窗时执行sql语句. 其实js里执行sql语句有多种方式. 方式一:直接在js代码里调用sql语句,原则上不能使用,因为这将sql直接暴露在客户端,安全性极差. 方式二:在js里运 ...

  10. 比较器Comparable Comparator

    一. Comparable Comparable 是排序接口,若一个类实现了 Comparable 接口,就意味着该类支持排序.实现了Comparable 接口的类的对象的列表或者数组可以通过 Col ...