在学习AC自动机之前,你需要两个前置知识:Trie树KMP


首先我们需要明白,AC自动机是干什么的(用来自动AC的)

大家都知道KMP算法是求单字符串对单字符串的匹配问题的,那么多字符在单字符上匹配该怎么办?

我们举个栗子

——求 aabb 在 aabababbbabbabbababb 中出现了多少次?这个很明显KMP即可

——求 ab aab abbb abab bab 分别在 abbabbabababababba 中出现了多少次?嗯……对每个串分别跑一次KMP?这样如果串非常多的话,复杂度可想而知


那这个时候我们应该怎么办呢?当然是用AC自动机了

所以AC自动机是啥啊?

AC自动机:Aho-Corasick automation,该算法在1975年产生于贝尔实验室,是著名的多模匹配算法。——某度百科

算了,这东西看不看都一样,我们来正式讲解一下AC自动机


AC自动机需要预先知道所有西药匹配的串,例如:her she shr

然后我们对它们构建一棵Trie树

红色的是结束节点,然后我们在这棵Trie树上构建Fail指针,所谓Fail指针,就和KMP中的Next数组类似,我们先把构建好Fail指针的图放上来

这图画的真TM丑……Graphviz这东西我还不太会用……

然后虚线箭头就是Fail指针(说是指针,拿数组存着也行),至于那些奇奇怪怪的颜色……不要在意这些细节

我们先不管Fail指针怎么建出来的,我们先看看这玩意干啥,每次沿着Trie树匹配,如果失配后,直接跳转到失配指针,然后继续匹配

比如现在在节点6,若要继续匹配'r',则沿着Fail指针跳跃,到节点2,然后既可以匹配'r'到3号节点

所以说,Fail指针其实就是KMP的Next数组,它的意义就是找到一个最长的等于其后缀的串


话说回来,Fail指针应该如何构建?从dalao的博客里得知:Fail指针是沿着其父亲的Fail指针,一路向上,直到找到拥有当前这个字母的子节点的节点的那个子节点

哇……感觉好复杂,我也是这么想的。不过,画个图一看,好像还真是这样,值得一提的是,第二层的所有节点的Fail指针都需要指向Trie树的根节点

建Fail指针算一个BFS的过程,因为每次要用到父亲节点的Fail指针,然后每次建Fail指针的时候都需要不断跳跳跳?当然不用,那我们该怎么办?

扔段代码看一下吧

void make_fail(){
static int h[N+10];
int head=1,tail=0;
for (int i=0;i<26;i++) if (trie[root][i]) h[++tail]=trie[root][i];
//预处理第二层的Fail指针
for (;head<=tail;head++){
int Now=h[head];
for (int i=0;i<26;i++){
if (trie[Now][i]){
int son=trie[Now][i];
fail[son]=trie[fail[Now]][i];
//子节点的Fail指针指向当前节点的Fail指针指向的节点的相同子节点
h[++tail]=son;
}else trie[Now][i]=trie[fail[Now]][i];
//不存在这个子节点的话,则将该节点实体化,方便之后的寻找(也就是不用跳跳跳了)
}
}
}

这个实际意义上来讲已经不是Trie树了,这应该是个Trie图,但如果碰到字符集大小非常巨大的时候,显然不能建Trie图,所以我们还是要暴力跳跳跳,然后也放段代码

void make_fail(){
static int h[N+10];
int head=1,tail=1; h[1]=root;
for (;head<=tail;head++){
int Now=h[head];
for (map<node,int>::iterator it=trie[Now].begin();it!=trie[Now].end();it++){
int p=fail[Now];
while (p&&trie[p].find(it->Fi)==trie[p].end()) p=fail[p];
//暴力跳跳跳
fail[it->Se]=p?trie[p].find(it->Fi)->Se:root;
h[++tail]=it->Se;
}
}
}

然后由于字符集很大,所以我们就用map来存储,然后我的map写法可能比较清奇,凑合着看吧……


然后Fail指针建完了,我们就可以直接匹配了~

贴个板子题好了

P3796 【模板】AC自动机(加强版)

/*program from Wolfycz*/
#include<cmath>
#include<cstdio>
#include<cstring>
#include<iostream>
#include<algorithm>
#define inf 0x7f7f7f7f
using namespace std;
typedef long long ll;
typedef unsigned int ui;
typedef unsigned long long ull;
inline char gc(){
static char buf[1000000],*p1=buf,*p2=buf;
return p1==p2&&(p2=(p1=buf)+fread(buf,1,1000000,stdin),p1==p2)?EOF:*p1++;
}
inline int frd(){
int x=0,f=1;char ch=gc();
for (;ch<'0'||ch>'9';ch=gc()) if (ch=='-') f=-1;
for (;ch>='0'&&ch<='9';ch=gc()) x=(x<<1)+(x<<3)+ch-'0';
return x*f;
}
inline int read(){
int x=0,f=1;char ch=getchar();
for (;ch<'0'||ch>'9';ch=getchar()) if (ch=='-') f=-1;
for (;ch>='0'&&ch<='9';ch=getchar()) x=(x<<1)+(x<<3)+ch-'0';
return x*f;
}
inline void print(int x){
if (x<0) putchar('-'),x=-x;
if (x>9) print(x/10);
putchar(x%10+'0');
}
const int N=1e6,M=1.5e4;
char str[200][100];
struct S1{
int trie[M+10][26],fail[M+10],End[M+10];
int root,tot;
void init(){
root=tot=0;
memset(End,0,sizeof(End));
memset(trie,0,sizeof(trie));
memset(fail,0,sizeof(fail));
}
void insert(int ID){
int len=strlen(str[ID]),p=root;
for (int i=0;i<len;i++){
if (!trie[p][str[ID][i]-'a']) trie[p][str[ID][i]-'a']=++tot;
p=trie[p][str[ID][i]-'a'];
}
End[p]=ID;
}
void make_fail(){
static int h[M+10];
int head=1,tail=0;
for (int i=0;i<26;i++) if (trie[root][i]) h[++tail]=trie[root][i];
for (;head<=tail;head++){
int Now=h[head];
for (int i=0;i<26;i++){
if (trie[Now][i]){
int son=trie[Now][i];
fail[son]=trie[fail[Now]][i];
h[++tail]=son;
}else trie[Now][i]=trie[fail[Now]][i];
}
}
}
void check(char *s,int n){
static int Ans[200];
memset(Ans,0,sizeof(Ans));
int len=strlen(s),p=root,Max=0;
for (int i=0;i<len;i++){
p=trie[p][s[i]-'a'];
for (int x=p;x;x=fail[x]) Ans[End[x]]++;
}
for (int i=1;i<=n;i++) Max=max(Max,Ans[i]);
printf("%d\n",Max);
for (int i=1;i<=n;i++) if (Max==Ans[i]) printf("%s\n",str[i]);
}
}AC;//Aho-Corasick automaton
char T[N+10];
int main(){
while (true){
AC.init();
int n=read();
if (!n) break;
for (int i=1;i<=n;i++){
scanf("%s",str[i]);
AC.insert(i);
}
AC.make_fail();
scanf("%s",T);
AC.check(T,n);
}
return 0;
}

浅谈算法——AC自动机的更多相关文章

  1. 从Trie谈到AC自动机

    ZJOI的SAM让我深受打击,WJZ大神怒D陈老师之T3是SAM裸题orz...我还怎么混?暂且写篇`从Trie谈到AC自动机`骗骗经验. Trie Trie是一种好玩的数据结构.它的每个结点存的是字 ...

  2. 浅谈算法和数据结构: 七 二叉查找树 八 平衡查找树之2-3树 九 平衡查找树之红黑树 十 平衡查找树之B树

    http://www.cnblogs.com/yangecnu/p/Introduce-Binary-Search-Tree.html 前文介绍了符号表的两种实现,无序链表和有序数组,无序链表在插入的 ...

  3. 浅谈算法和数据结构: 十 平衡查找树之B树

    前面讲解了平衡查找树中的2-3树以及其实现红黑树.2-3树种,一个节点最多有2个key,而红黑树则使用染色的方式来标识这两个key. 维基百科对B树的定义为“在计算机科学中,B树(B-tree)是一种 ...

  4. 转 浅谈算法和数据结构: 十 平衡查找树之B树

    前面讲解了平衡查找树中的2-3树以及其实现红黑树.2-3树种,一个节点最多有2个key,而红黑树则使用染色的方式来标识这两个key. 维基百科对B树的定义为"在计算机科学中,B树(B-tre ...

  5. 浅谈算法——KMP

    KMP是啥?KMP当然是KMPlayer的简称啦 KMP算法是用来解决字符串匹配的一种算法,由D.E.Knuth.J.H.Morris和V.R.Pratt同时发现,然后它可以用来干啥呢?我们上个例题: ...

  6. 浅谈算法——线段树之Lazy标记

    一.前言 前面我们已经知道线段树能够进行单点修改和区间查询操作(基本线段树).那么如果需要修改的是一个区间该怎么办呢?如果是暴力修改到叶子节点,复杂度即为\(O(nlog n)\),显然是十分不优秀的 ...

  7. 浅谈算法——Manacher

    字符串算法在各大高级比赛中均有用到,所以,学习好字符串算法对我们而言十分重要.那么,今天我们就给大家介绍一个快速求回文串的算法,Manacher算法,我们也习惯性叫它马拉车算法. 一.引入 首先我们要 ...

  8. 浅谈算法——FWT(快速沃尔什变换)

    其实FWT我啥都不会,反正就是记一波结论,记住就好-- 具体证明的话,推荐博客:FWT快速沃尔什变换学习笔记 现有一些卷积,形如 \(C_k=\sum\limits_{i\lor j=k}A_i*B_ ...

  9. 浅谈算法——splay

    BST(二叉查找树)是个有意思的东西,种类巨TM多,然后我们今天不讲其他的,我们今天就讲splay 首先,如果你不知道Splay是啥,你也得知道BST是啥 如上图就是一棵优美的BST,它对于每个点保证 ...

随机推荐

  1. H5与native有啥区别?

    app测试,H5与native有啥区别? native是使用原生系统内核的,相当于直接在系统上操作.是我们传统意义上的软件,更加稳定. 但是H5的APP先得调用系统的浏览器内核,相当于是在网页中进行操 ...

  2. LoadRunner中两种录制模式的区别

    决定我们成为什么样人的,不是我们的能力,而是我们的选择. ——<哈利-波特与密室> 一.先看看两种模式的设置和录制脚本的区别 设置HTML录制模式: 设置URL录制模式: HTML脚本: ...

  3. 精选Java面试题

    什么是隐式类型转换?什么是显示类型转换? 当将占位数少的类型赋值给占位数多的类型时,Java自动使用隐式类型转换(如int型转为long型).当把在级别高的变量的值赋给级别底变量时,必须使用显示类型转 ...

  4. {{badmatch, {error, eexist}}

    今天在编译cowboy工程在resolve release build时提示编译错误:{{badmatch, {error, eexist}} 后经调查可能是因为rebar的bug导致的,可是删除_b ...

  5. 卸载asterisk 会装就要会卸载 你会吗? [跟我一起学](转安静的发狂者)

      1 针对用编译的方式安装时的卸载 第一步 :先停止你的asterisk >asterisk -rx ‘stop now’然后要验证一下是否真的被停了. >ps aux|grep “as ...

  6. 多线程之:正确使用 Volatile 变量

    转载:http://www.ibm.com/developerworks/cn/java/j-jtp06197.html Java™ 语言包含两种内在的同步机制:同步块(或方法)和 volatile ...

  7. Persistent connections CONN_MAX_AGE django

    Persistent connections¶ Persistent connections avoid the overhead of re-establishing a connection to ...

  8. view-source协议

    转自;https://blog.csdn.net/yuwq123/article/details/79481829

  9. stdout引发的curl 302跳转 crash

    重现步骤: 0.开发环境:Windows 7 SP1 64bit, VS2008 SP1 1.进程中修改了stdout这个句柄的值:调用了prinft和cout都会修改stdout,TRACE不会修改 ...

  10. 3.15-3.21 hive项目实战

    一.创建表并导入日志数据,引出问题 ##建表 hive (default)> create table IF NOT EXISTS default.bf_log_src( > remote ...