为什么说是简易版?

因为复杂度大概是\(O(M*\overline N)\),而似乎还有另一种大概是\(O(M+\sum N)\)的。

不过据说比赛不会卡前一种做法,因为模式串一般不会很长。


那么步入正题。

对于\(trie\)树和\(KMP\)的预备知识就不多赘述了。

  • 下个定义

对于\(trie\)树的每个节点维护一个\(fail\)指针。

我们当然可以感性把\(fail\)指针和\(KMP\)的失配函数连接起来,并认为它在 某节点在与文本串匹配失败后 指示应该跳到哪继续匹配 的东西。

对它的稍准确定义是:节点\(i\)的\(fail\)即为 \(i\)所在链\(L_1\) 在\(trie\)树 的 以二重子节点为头的 最长的 为其(\(L_1\))后缀的链\(L_2\) 的尾节点位置。

解释一下,我们找到这样一条链\(L_2\),满足它为\(L_1\)的后缀(比如对\(L_1\)为abcd,bcd,cd,d都是),并且要求\(L_2\)的头节点为\(trie\)种深度为2的节点。此时,\(fail\)指向\(L_2\)的尾巴节点。

特别的:

  1. 当不存在这样的链时,\(fail\)指向根节点
  2. 对于节点\(i\)不存在的儿子\(j\),我们将它的位置信息等价于节点\(i\)的\(fail\)指针。(这与匹配有关)
  • 下面说说两个操作

    1.构建\(fail\)指针

    我们尽可能的用之前的状态求解当前的状态,而\(bfs\)是一种层次遍历,我们使用\(bfs\)

    当求解节点\(i\)的儿子\(j\)的\(fail\)指针:

    若儿子\(j\)存在,把\(i\)的\(fail\)指针所指向位置 的儿子\(j'\)(即\(j\)和\(j'\)为同一个字符)的位置信息 作为\(j\)的\(fail\)指针指向(当然,可能\(i\)的\(fail\)指针根本不存在这样一个儿子,但是并没有影响)

    否则,直接把儿子的位置信息指向\(i\)的\(fail\)的儿子\(j'\)的位置信息。

参考代码:

void ac_build_fail()
{
for(int i=0;i<26;i++)
if(t[0].son[i])
q.push(t[0].son[i]);
while(!q.empty())
{
int now=q.front();
q.pop();
for(int i=0;i<26;i++)
if(t[now].son[i])
{
t[t[now].son[i]].fail=t[t[now].fail].son[i];
q.push(t[now].son[i]);
}
else
t[now].son[i]=t[t[now].fail].son[i];
}
}

2.进行匹配。

当匹配到文本串的位置\(i\)时,假使我们已经在前边找到了它在\(trie\)树的最深合法匹配,我们遍历由这个点引发的\(fail\)指针组成的一条链,直到找到根节点,当遇到单词末尾时,执行相应的操作。

然后我们向下寻找\(i+1\)是否存在,如果不存在,用被\(fail\)指针等效了的节点位置信息跳转。

参考代码:

void match()
{
int len=strlen(message),now=0;
for(int i=0;i<len;i++)
{
now=t[now].son[message[i]-'a'];
for(int j=now;j;j=t[j].fail)
//some operations
}
}

模板题:洛谷P3796 【模板】AC自动机(加强版)

题目描述

有\(N\)个由小写字母组成的模式串以及一个文本串\(T\)。每个模式串可能会在文本串中出现多次。你需要找出哪些模式串在文本串\(T\)中出现的次数最多。

输入输出格式

输入格式:

输入含多组数据。

每组数据的第一行为一个正整数\(N\),表示共有\(N\)个模式串,\(1≤N≤150\) 。

接下去\(N\)行,每行一个长度小于等于\(70\)的模式串。下一行是一个长度小于等于\(10^6\)的文本串\(T\) 。

输入结束标志为\(N=0\) 。

输出格式:

对于每组数据,第一行输出模式串最多出现的次数,接下去若干行每行输出一个出现次数最多的模式串,按输入顺序排列。

参考代码:

#include <cstdio>
#include <cstring>
#include <vector>
#include <queue>
using namespace std;
const int N=1000010;
const int M=151;
char message[N],word[M][N];
int ans[M];
int n,cnt=0;
struct node
{
int fail,cnt;
int son[26];
}t[12000]; void add(int k)
{
scanf("%s",word[k]);
int now=0,len=strlen(word[k]);
for(int i=0;i<len;i++)
{
int word0=word[k][i]-'a';
if(!t[now].son[word0])
t[now].son[word0]=++cnt;
now=t[now].son[word0];
}
t[now].cnt=k;
} queue <int > q;
void ac_build_fail()
{
for(int i=0;i<26;i++)
if(t[0].son[i])
q.push(t[0].son[i]);
while(!q.empty())
{
int now=q.front();
q.pop();
for(int i=0;i<26;i++)
if(t[now].son[i])
{
t[t[now].son[i]].fail=t[t[now].fail].son[i];
q.push(t[now].son[i]);
}
else
t[now].son[i]=t[t[now].fail].son[i];
}
} void match()
{
int len=strlen(message),now=0;
for(int i=0;i<len;i++)
{
now=t[now].son[message[i]-'a'];
for(int j=now;j;j=t[j].fail)
ans[t[j].cnt]++;
}
} int main()
{
scanf("%d",&n);
while(n)
{
cnt=0;
memset(t,0,sizeof(t));
memset(ans,0,sizeof(ans));
for(int i=1;i<=n;i++) add(i);
ac_build_fail();
t[0].fail=0;
scanf("%s",message);
match();
int m_max=0;
for(int i=1;i<=n;i++)
m_max=max(m_max,ans[i]);
printf("%d\n",m_max);
for(int i=1;i<=n;i++)
if(ans[i]==m_max)
printf("%s\n",word[i]);
scanf("%d",&n);
}
return 0;
}

2018.5.22

简易版AC自动机的更多相关文章

  1. 简单版AC自动机

    简单版\(AC\)自动机 学之前听别人说起一直以为很难,今天学了简单版的\(AC\)自动机,感觉海星,只要理解了\(KMP\)一切都好说. 前置知识:\(KMP\)(有链接) 前置知识:\(Trie\ ...

  2. java版AC自动机

    class Trie { int [][]Next=new int[500005][128]; int []fail=new int[500005]; int []end=new int[500005 ...

  3. 多模字符串匹配算法之AC自动机—原理与实现

    简介: 本文是博主自身对AC自动机的原理的一些理解和看法,主要以举例的方式讲解,同时又配以相应的图片.代码实现部分也予以明确的注释,希望给大家不一样的感受.AC自动机主要用于多模式字符串的匹配,本质上 ...

  4. hdu 1277 AC自动机入门(指针版和数组版)

    题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1277 推荐一篇博客(看思路就可以,实现用的是java): https://www.cnblogs.co ...

  5. 模板】AC自动机(简单版)

    模板]AC自动机(简单版) https://www.luogu.org/problemnew/show/P3808 这是一道简单的AC自动机模板题. 用于检测正确性以及算法常数. 为了防止卡OJ,在保 ...

  6. luogu3808 luogu3796 AC自动机(简单版) AC自动机(加强版)

    纪念一下我一晚上写了八遍AC自动机 这是加强版的: #include <iostream> #include <cstring> #include <cstdio> ...

  7. 【模版】AC自动机(简单版)

    题目背景 这是一道简单的AC自动机模版题. 用于检测正确性以及算法常数. 为了防止卡OJ,在保证正确的基础上只有两组数据,请不要恶意提交. 题目描述 给定n个模式串和1个文本串,求有多少个模式串在文本 ...

  8. 洛谷P3808 【模板】AC自动机(简单版)

    题目背景 这是一道简单的AC自动机模板题. 用于检测正确性以及算法常数. 为了防止卡OJ,在保证正确的基础上只有两组数据,请不要恶意提交. 管理员提示:本题数据内有重复的单词,且重复单词应该计算多次, ...

  9. 【模板】AC自动机(简单版)

    我:“woc...AC自动机?” 我:“可以自动AC???” 然鹅... 大佬:“傻...” 我:“(⊙_⊙)?” 大佬:“缺...” 我:“......” (大佬...卒 | 逃...) emm.. ...

随机推荐

  1. Random快速产生相同随机数的原因及解决方案

    老生常谈,还是那三句话: 学历代表你的过去,能力代表你的现在,学习代表你的将来 十年河东,十年河西,莫欺少年穷 学无止境,精益求精 问题描述:很多时候我们可能需要在极短的时间内生成大量的随机数,但是你 ...

  2. EZ 2018 07 06 NOIP模拟赛

    又是慈溪那边给的题目,这次终于没有像上次那样尴尬了, T1拿到了较高的暴力分,T2没写炸,然后T3写了一个优雅的暴力就203pts,Rank3了. 听说其它学校的分数普遍100+,那我们学校还不是强到 ...

  3. 个人博客week7

    IBM大型机之父佛瑞德·布鲁克斯(Frederick P. Brooks, Jr.)在1986年发表的一篇关于软件工程的经典论文,便以<没有银弹:软件工程的本质性与附属性工作>(No Si ...

  4. <<梦断代码>>阅读笔记三

    看完了这最后三分之一的<梦断代码>,意味着这本软件行业的著作已经被我粗略地过了一遍. 在这最后三分之一的内容中,我深入了解了在大型软件项目的运作过程中存在的困难和艰辛.一个大型软件项目的成 ...

  5. Leetcode——53.最大子序和

    @author: ZZQ @software: PyCharm @file: leetcode53_最大子序和.py @time: 2018/11/26 12:39 要求:给定一个整数数组 nums ...

  6. shell脚本--数值比较

    用于数值比较的无非大于.小于.等于.大于等于.小于等于这几个. 比较格式: [ 数值1 比较符 数值2 ]   注意左边的括号与数值1之间有一个空格,同样,数值2和右边的括号之间也有空格. 数值比较运 ...

  7. Resolved validation conflict with readonly

    /** * Bug绕过去方案WorkAround * Bug描述: * JQuery的Validation的和form的input元素设为readonly,一对不可调和的矛盾: * 一个设置为requ ...

  8. Java的JDK下StringBuffer与StringBuilder的区别

    下载JDK的源码,咱自己分析下: 用Beyond Compare打开看一下吧 1.他俩的历史问题: StringBuffer:* Copyright (c) 2003, 2008, Oracle an ...

  9. ECSHOP后台登陆后一段时间不操作就超时的解决方法

    ECSHOP后台登陆后一段时间不操作就超时的解决方法 ECSHOP教程/ ecshop教程网(www.ecshop119.com) 2012-05-27   客户生意比较好,因此比较忙,常常不在电脑前 ...

  10. yum install 报错[Errno 14] curl#37 - Couldn't open file /mnt/repodata/repomd.xml

    1.然后按照网上的一些修改,先是执行: yum cleam all 然后 yum makecache,问题还是没解决,继续报错. 其实这两条命令就是清空缓存,然后再重新缓存的意思,有时候可能有效. 2 ...