简单版\(AC\)自动机

学之前听别人说起一直以为很难,今天学了简单版的\(AC\)自动机,感觉海星,只要理解了\(KMP\)一切都好说。

前置知识:\(KMP\)(有链接)

前置知识:\(Trie\)树

字典树(\(Trie\)树)比较简单,就是把许多个单词通过树连接起来。每个点记录一下儿子个数以及是否是单词结尾即可。每次加入一个单词时,从第一个字母开始搜索,如果当前字母存在,就从该字母的儿子里找下一个字母,否则就新建一个节点,直到把这个单词全部加入进去,然后在最后的字符上标记一下表示以这个字母结尾的单词多了一个。

那么\(AC\)自动机实际上就是将两者合并了起来,在字典树上进行\(KMP\)。

先说一下\(AC\)自动机是干什么的。一个常见的例子就是给出n个单词,再给出一段包含m个字符的文章,让你找出有多少个单词在文章里出现过。要搞懂AC自动机,先得有模式树(字典树)\(Trie\)和\(KMP\)模式匹配算法的基础知识。\(KMP\)算法是单模式串的字符匹配算法,\(AC\)自动机是多模式串的字符匹配算法。

说白了就是给你一堆字符串,然后再给你一个字符串,问最后这个字符串中出现了多少个前面给出的字符串。

首先我们要有一个字典树。对于给出的那一堆字符串,我们要一个一个加到树里。代码如下:

struct AC{//字典树
int end,vis[26],fail;//vis表示儿子的编号
}AC[1000006];
int cnt;
void Build(string s){//要加入的单词
int l=s.length(),now=0;//now是当前节点
for(int i=0;i<l;++i){
if(AC[now].vis[s[i]-'a']==0) AC[now].vis[s[i]-'a']=++cnt;
//如果这个字母没有,就新建一个
now=AC[now].vis[s[i]-'a'];//如果有或者已经建好,就往下跳
}
AC[now].end++;//在最后一个字母处标记有几个单词以它结尾
}

有了字典树,考虑怎样在树上进行\(KMP\)

在\(KMP\)里面的\(next\)指针在这里改成\(fail\),其实都一样。

每个节点\(t\)有\(fail\)指针,其所指向的节点和\(t\)节点的字符是一样的。因为如果\(t\)匹配成功,而\(t\)的儿子匹配失败,那么需要从\(t\)的\(fail\)指针的儿子节点开始匹配。

\(fail\)指针用\(BFS\)来求。

首先,根节点的\(fail\)指针显然指向他自己,即\(0\)。而他的儿子,也就是深度为一的节点的指针也是指向他的。那么考虑剩下的节点\(t\)。它的父亲节点的\(fail\)指针已经知道,那么这个指针指向的节点假如是\(u\)的话,如果\(u\)有一个和\(t\)一样的节点,那么\(t\)的\(fail\)指针就应该指向它,如果没有,就要从\(father->fail->fail\)里找,直到找到相同的节点或者到根节点。也就是说要顺着之前的失配指针走一遍,有点麻烦。

考虑如果当前节点没有某个字母,那么我们可以将该节点指向这个字母的指针,指到他的失配指针指向的节点的这个字母上。

if(AC[u].vis[i]==0)
AC[u].vis[i]=AC[AC[u].fail].vis[i];

这样就不用沿着失配指针走一遍了。代码如下:

void Get_fail(){
queue<int>Q;//队列,bfs
for(int i=0;i<26;++i)//处理深度为二的点
if(AC[0].vis[i]) AC[AC[0].vis[i]].fail=0,Q.push(AC[0].vis[i]);
while(!Q.empty()){
int u=Q.front();
for(int i=0;i<26;++i)
if(AC[u].vis[i]) AC[AC[u].vis[i]].fail=AC[AC[u].fail].vis[i],Q.push(AC[u].vis[i]);
//如果有这个点,就直接更新指针并压入队列
else AC[u].vis[i]=AC[AC[u].fail].vis[i];//没有就按上述方法处理
Q.pop();
}
}

最后就是统计了。

对于每个字母,如果他是几个单词的结尾,那么久加上他的以及他的所有失配指针的答案,因为他可以,他的失配指针同样可以。

代码:

int AC_query(string s){
int l=s.length(),now=0,ans=0;
for(int i=0;i<l;++i){
now=AC[now].vis[s[i]-'a'];
for(int t=now;t&&AC[t].end!=-1;t=AC[t].fail)//沿着失配指针跳
ans+=AC[t].end,AC[t].end=-1;//统计答案,标记-1为了防止重复统计
}
return ans;
}

\(Code\)

#include<iostream>
#include<cstring>
#include<cstdio>
#include<queue>
using namespace std;
struct AC{
int end,vis[26],fail;
}AC[1000006];
int cnt;
void Build(string s){
int l=s.length(),now=0;
for(int i=0;i<l;++i){
if(AC[now].vis[s[i]-'a']==0) AC[now].vis[s[i]-'a']=++cnt;
now=AC[now].vis[s[i]-'a'];
}
AC[now].end++;
}
void Get_fail(){
queue<int>Q;
for(int i=0;i<26;++i)
if(AC[0].vis[i]) AC[AC[0].vis[i]].fail=0,Q.push(AC[0].vis[i]);
while(!Q.empty()){
int u=Q.front();
for(int i=0;i<26;++i)
if(AC[u].vis[i]) AC[AC[u].vis[i]].fail=AC[AC[u].fail].vis[i],Q.push(AC[u].vis[i]);
else AC[u].vis[i]=AC[AC[u].fail].vis[i];
Q.pop();
}
}
int AC_query(string s){
int l=s.length(),now=0,ans=0;
for(int i=0;i<l;++i){
now=AC[now].vis[s[i]-'a'];
for(int t=now;t&&AC[t].end!=-1;t=AC[t].fail)
ans+=AC[t].end,AC[t].end=-1;
}
return ans;
}
int main(){
int n;
string s;
cin>>n;
for(int i=1;i<=n;++i) cin>>s,Build(s);
AC[0].fail=0;
Get_fail();
cin>>s;
cout<<AC_query(s);
return 0;
}

简单版AC自动机的更多相关文章

  1. 简易版AC自动机

    为什么说是简易版? 因为复杂度大概是\(O(M*\overline N)\),而似乎还有另一种大概是\(O(M+\sum N)\)的. 不过据说比赛不会卡前一种做法,因为模式串一般不会很长. 那么步入 ...

  2. java版AC自动机

    class Trie { int [][]Next=new int[500005][128]; int []fail=new int[500005]; int []end=new int[500005 ...

  3. 模板】AC自动机(简单版)

    模板]AC自动机(简单版) https://www.luogu.org/problemnew/show/P3808 这是一道简单的AC自动机模板题. 用于检测正确性以及算法常数. 为了防止卡OJ,在保 ...

  4. 【模版】AC自动机(简单版)

    题目背景 这是一道简单的AC自动机模版题. 用于检测正确性以及算法常数. 为了防止卡OJ,在保证正确的基础上只有两组数据,请不要恶意提交. 题目描述 给定n个模式串和1个文本串,求有多少个模式串在文本 ...

  5. 洛谷P3808 【模板】AC自动机(简单版)

    题目背景 这是一道简单的AC自动机模板题. 用于检测正确性以及算法常数. 为了防止卡OJ,在保证正确的基础上只有两组数据,请不要恶意提交. 管理员提示:本题数据内有重复的单词,且重复单词应该计算多次, ...

  6. 【模板】AC自动机(简单版)

    我:“woc...AC自动机?” 我:“可以自动AC???” 然鹅... 大佬:“傻...” 我:“(⊙_⊙)?” 大佬:“缺...” 我:“......” (大佬...卒 | 逃...) emm.. ...

  7. 【刷题】洛谷 P3808 【模板】AC自动机(简单版)

    题目背景 这是一道简单的AC自动机模板题. 用于检测正确性以及算法常数. 为了防止卡OJ,在保证正确的基础上只有两组数据,请不要恶意提交. 管理员提示:本题数据内有重复的单词,且重复单词应该计算多次, ...

  8. P3808 【模板】AC自动机(简单版)

    题目背景 这是一道简单的AC自动机模板题. 用于检测正确性以及算法常数. 为了防止卡OJ,在保证正确的基础上只有两组数据,请不要恶意提交. 管理员提示:本题数据内有重复的单词,且重复单词应该计算多次, ...

  9. luogu P3808 【模板】AC自动机(简单版)

    题目背景 这是一道简单的AC自动机模板题. 用于检测正确性以及算法常数. 为了防止卡OJ,在保证正确的基础上只有两组数据,请不要恶意提交. 管理员提示:本题数据内有重复的单词,且重复单词应该计算多次, ...

随机推荐

  1. telnet命令详解

    基础命令学习目录 原文链接:https://www.cnblogs.com/PatrickLiu/p/8556762.html telnet命令用于登录远程主机,对远程主机进行管理.telnet因为采 ...

  2. 第一次作业——MathExam285

    MathExam285 一.预估与实际 PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟) Planning 计划 • Estimate ...

  3. 虚拟机环境下DPDK运行时的一些错误解决

    在绑定网卡到DPDK模块时 报错 :is active. Not modifying Routing table indicates that interface 0000:02:01.0 is ac ...

  4. 福州大学软工1816 K 班助教总结

    春节时期总有各种诱惑因素(例如路人超能第二季),拖到现在才发布十分抱歉orz. 一.感谢 首先对柯老师和软工助教指导团队这一学期以来的支持和指导表示感谢.第一次做助教,有时候会提出一些不大成熟的想法, ...

  5. unique STL讲解和模板

    unique()是C++标准库函数里面的函数,其功能是去除相邻的重复元素(只保留一个),所以使用前需要对数组进行排序. 代码: #include<bits/stdc++.h> using ...

  6. 单调队列(数列中长度不超过k的子序列和的最值)

    ★实验任务 小 F 很爱打怪,今天因为系统 bug,他提前得知了 n 只怪的出现顺序以及击 倒每只怪得到的成就值 ai.设第一只怪出现的时间为第 1 秒,这个游戏每过 1 秒 钟出现一只新怪且没被击倒 ...

  7. Windows下编译TensorFlow1.3 C++ library及创建一个简单的TensorFlow C++程序

    由于最近比较忙,一直到假期才有空,因此将自己学到的知识进行分享.如果有不对的地方,请指出,谢谢!目前深度学习越来越火,学习.使用tensorflow的相关工作者也越来越多.最近在研究tensorflo ...

  8. Mysql分库分表方案,如何分,怎样分?

    https://www.cnblogs.com/phpper/p/6937896.html 为什么要分表和分区? 日常开发中我们经常会遇到大表的情况,所谓的大表是指存储了百万级乃至千万级条记录的表.这 ...

  9. DataTable List 相互转换

    This uses the FastMember's meta-programming API for maximum performance. If you want to restrict it ...

  10. SQL利用Case When Then多条件

    CASE    WHEN 条件1 THEN 结果1    WHEN 条件2 THEN 结果2    WHEN 条件3 THEN 结果3    WHEN 条件4 THEN 结果4.........    ...