AC自动机详解 (P3808 模板)
AC自动机笔记
0.0 前言
哇,好久之前就看了 KMP 和 Trie 树,但是似乎一直没看懂 AC自动机??
今天灵光一闪,加上之前看到一些博客和视频,瞬间秒懂啊... 其实这个玩意还是蛮好理解的...
在这里先给一个样例,之后也都好举例子.
模式串:
5
FG
HE
HERS
HIS
SHE
匹配串:HISHERS
1.1 深度理解 KMP
KMP 算法的精华部分即其处理的 Next 数组.
Next 数组所存的数值即代表j之前的字符串中有最大长度为k 的相同前后缀.
记录这个有什么用呢?
对于ABCDABC这个串,如果我们匹配ABCDABTBCDABC这个长串,当匹配到第7个字符T的时候就不匹配了,我们就不用直接移到B开始再比一次,而是直接移到第5位来比较,岂不美哉?
Next 数组存的是最长的相同的串长度,再从第一个开始匹配明显是不需要的,我的最长公共前后缀的位置即为第一个可能匹配成功的位置.
所以其正确性很明显,而 KMP 其中的失配匹配思想 (姑且让我这么说说罢) 是 AC自动机中很重要的一环.
1.2 利用 Trie 树
关于AC自动机中的 Trie 树,其实其最大做用就是用来存储给出的字典.
Trie 树在处理很多查找问题时都会有不错的效用.01 Trie 树也是处理异或问题的一大利器.
利用 Trie 树,我们对上文中的例子就可以构建出一张图:
(先不要管点上的数字,度娘的图...虚线后面会用到)
2.0 Trie 树上的 KMP
以上二者即为 AC自动机 的前置技能.
我们需要建立一棵 Trie 树,用于存储其给出的字典.
同时我们需要利用 KMP 其中的失配匹配思想,用以优化时间复杂度.
2.1 Fail 指针
概念
AC 自动机中的 Fail 指针,其实就相当于 KMP 中的 Next 数组.
我们先看看 Fail 是怎么跳的.
然后再一次搬出上文那张图:
此时我们便可以对图中的虚线作出解释了.
每个点所对应虚线指向的地方,即为这个点的 Fail 指针.
Fail 指针指向的地方是与 从Trie 树起点到这个点 公共前后缀最长的地方.
同时要求这个前后缀不能与其等长(否则不就是自己么?).
比如说 90 这个节点, 从起点到这个点所形成的串即为 S H.
然后我们找到另外一个与其公共前后缀最长的点,就是 74 了.
此时它们的公共前后缀即为 H.
又如 S H E 和 H E 这两个位置.
匹配过程
然后此时我们看一下怎么匹配所给出的匹配串.
H I S H E R S
先匹配 H 然后走进 74 这个节点.
继续匹配 I 然后走进 80 这个节点.
继续匹配 S 然后发现这里有一个单词,于是统计答案.
统计到 S 后,我们下一个看往的方向即为它的 Fail -- 85.
因为它们有公共前后缀 S.
然后发现 85 的后一个正好即为 H,然后我们与之匹配.
再匹配 90和91. 然后我在 91 统计答案.
因为后面已经无路可走,于是我们跳到 91 的 Fail,即为 76.
它们有公共前后缀 H E.
然后我们继续跑到 86 ,此时需要被匹配的串已经走完了,我们整个过程结束.
2.2 Fail 的寻找
可以看出,当我们 Fail 找完之后,整个 AC 自动机的工作其实已经完成了一大半.那么我们如何处理出 Fail 指针呢?
我们用广搜实现.
首先对于根节点的子节点,因为只有一个字母,所以不可能有其余的子串与其有公共前后缀,所以直接会根节点.
然后对于接下来的 Fail ,我们把它直接赋为它爸爸的Fail 子节点中与其字母相等的子节点. 上一小段代码:
for(int i=0;i<26;i++)
if(ch[u][i])
{
f[ch[u][i]]=ch[f[u]][i];
q.push(ch[u][i]);
}
2.3 Code
/*
Problem : AC自动机
Time : Day -94
*/
#include<bits/stdc++.h>
#define maxn 1000008
using namespace std;
struct AC_machine
{
int ch[maxn][26];
int num[maxn],f[maxn];
// f即为fail指针.
int tot;
void insert(string s)
{
int u=0,len=s.length();
for(int i=0;i<len;i++)
{
if(!ch[u][s[i]-'a'])
ch[u][s[i]-'a']=++tot;
u=ch[u][s[i]-'a'];
}
num[u]++;
} //往Trie树里插入元素.
void build()
{
queue<int> q;
for(int i=0;i<26;i++)
{
if(ch[0][i])
f[ch[0][i]]=0,
//第一层与其他单词不可能有公共前后缀,fail直接为根.
q.push(ch[0][i]);
}
while(q.empty()!=1)
{
int u=q.front(); q.pop();
for(int i=0;i<26;i++)
if(ch[u][i])
{
f[ch[u][i]]=ch[f[u]][i];
q.push(ch[u][i]);
//画图理解贼容易.
}
else ch[u][i]=ch[f[u]][i];
//这一步直接省略了查询时的比较.
}
} //构建Fail指针.
int query(string s)
{
int u=0,len=s.length(),ans = 0;
for(int i=0;i<len;i++)
{
u=ch[u][s[i]-'a'];
for(int j=u;j&&num[j]!=-1;j=f[j])
//就用这个循环实现跳的过程.
ans+=num[j],num[j]=-1;
//因为直接已经在每个单词的最后面打了标记,所以直接加上即可.
}
return ans;
}
}AC;
int n;string s;
int main()
{
cin>>n;
for(int i=1;i<=n;i++)
{
cin>>s;
AC.insert(s);
}
AC.build();
cin>>s;
cout<<AC.query(s)<<endl;
}
几个常用的优化
1.类路径压缩(构建 Fail 时优化)
详见以下代码:
if(ch[u][i])
{
f[ch[u][i]]=ch[f[u]][i];
q.push(ch[u][i]);
}
else ch[u][i]=ch[f[u]][i];
此步操作使得在比较时省去了 While 循环.
如果没有匹配,直接进入 Fail 的匹配之中.
(参考刘汝佳《算法竞赛入门经典训练指南》P216).
2.后缀链接
这里我们需要多加一个 last 数组.
同样见代码:
- 构建 Fail 部分
if(ch[u][i])
{
f[ch[u][i]]=ch[f[u]][i];
q.push(ch[u][i]);
last[u]=num[f[u]]?f[u]:last[f[p]]
}
else ch[u][i]=ch[f[u]][i];
- 匹配查询过程
for(int i=0;i<len;i++)
{
u=ch[u][s[i]-'a'];
for(int j=u;j&&num[j]!=-1;j=last[j])
ans+=num[j],num[j]=-1;
}
此处我们的 last 大概可以理解为一个 超级 Fail.
因为我们只有到根节点时才会重新匹配一个字母
所以我们此时直接记录一个last ,直接结束当前匹配过程.
直接省去原 Fail 指针到可以匹配的节点之间的距离.
同时结合上文类路径压缩,在匹配时可以完全不使用原 Fail.
3.树形DP优化
此处树形DP优化的是查询部分.
首先我们可以发现, Fail 指针是绝对满足树形结构的.
显而易见,每个点的 Fail 都仅指向一个一个节点.
然后具体做的过程我似乎还没学懂...
不过也可以理解为构建一个 超级 Fail,优化的部分与 2 差不多.
小结
AC自动机算法的精华在于Fail 所体现的失配匹配思想.
在 KMP 中也都有体现,在不同的题目中,也应巧妙运用这一性质.
参考(讲的都比我好QwQ):
AC自动机详解 (P3808 模板)的更多相关文章
- [转] AC自动机详解
转载自:http://hi.baidu.com/nialv7/item/ce1ce015d44a6ba7feded52d AC自动机详解 AC自动机是用来处理多串匹配问题的,即给你很多串,再给你一篇文 ...
- Aho-Corasick 多模式匹配算法、AC自动机详解
Aho-Corasick算法是多模式匹配中的经典算法,目前在实际应用中较多. Aho-Corasick算法对应的数据结构是Aho-Corasick自动机,简称AC自动机. 搞编程的一般都应该知道自动机 ...
- AC自动机详解(附加可持久化AC自动机)
AC自动机 AC自动机,说白了就是在trie树上跑kmp(其实个人感觉比kmp容易理解).是一种多匹配串,单个主串的匹配.概括来说,就是将多个匹配串构造一个trie树,对于每个trie树的节点构造nx ...
- AC自动机详解
概述 AC自动机全称Aho-Corasick automaton,该算法在1975年产生于贝尔实验室,是著名的多模匹配算法. 考虑这样一个场景,给出L个模式字符串(加总长度为N),以及长度为M大文本, ...
- Angular6 学习笔记——组件详解之模板语法
angular6.x系列的学习笔记记录,仍在不断完善中,学习地址: https://www.angular.cn/guide/template-syntax http://www.ngfans.net ...
- 【转】AC算法详解
原文转自:http://blog.csdn.net/joylnwang/article/details/6793192 AC算法是Alfred V.Aho(<编译原理>(龙书)的作者),和 ...
- 算法笔记--sg函数详解及其模板
算法笔记 参考资料:https://wenku.baidu.com/view/25540742a8956bec0975e3a8.html sg函数大神详解:http://blog.csdn.net/l ...
- tp6源码解析-第二天,ThinkPHP6编译模板流程详解,ThinkPHP6模板源码详解
TP6源码解析,ThinkPHP6模板编译流程详解 前言:刚开始写博客.如果觉得本篇文章对您有所帮助.点个赞再走也不迟 模板编译流程,大概是: 先获取到View类实例(依赖注入也好,通过助手函数也好) ...
- HDOJ-2222(AC自动机+求有多少个模板串出现在文本串中)
Keywords Search HDOJ-2222 本文是AC自动机的模板题,主要是利用自动机求有多少个模板出现在文本串中 由于有多组输入,所以每组开始的时候需要正确的初始化,为了不出错 由于题目的要 ...
随机推荐
- 无旋Treap【模板】P3369
题目 详情见链接. 代码 #include<cstdio> #include<iostream> #define outd(x) printf("%d\n" ...
- xml文件读取
xml文件如下: <annotation> <folder>bnrc</folder> <filename>jena_000000_000019_lef ...
- appium---AndroidSdk安装
AndroidSDK指的是Android专属的软件开发工具包,被软件开发工程师用于为特定的软件包.软件框架.硬件平台.操作系统等建立应用软件的开发工具的集合.Android又是采用java语言进行开发 ...
- DROP GROUP - 删除一个用户组
SYNOPSIS DROP GROUP name DESCRIPTION 描述 DROP GROUP 从数据库中删除指定的组.组中的用户不被删除. 组中的用户不被删除. PARAMETERS 参数 n ...
- SQLServer死锁
死锁的四个必要条件:互斥条件(Mutual exclusion):资源不能被共享,只能由一个进程使用.请求与保持条件(Hold and wait):已经得到资源的进程可以再次申请新的资源.非剥夺条件( ...
- 传输途径 ath9k层到硬件层
这里只写了ath9k层到虚拟硬件层的一些东西,mac层的没有整理. 传输途径主要从ath9k_tx() --->ath_tx_start() --->ath_tx_send_normal( ...
- css实现页面文字不换行、自动换行、强制换行
强制不换行 div{ white-space:nowrap; } 自动换行 div{ word-wrap: break-word; word-break: normal; } 强制英文单词断行 div ...
- Newtonsoft.Json初探
1.序列化 VehicleModelSearchingModel model = new VehicleModelSearchingModel() { brandId = , modelIds=&qu ...
- SCOPE_IDENTITY和@@IDENTITY[转]
本文转自:http://www.cnblogs.com/daydayupanan/archive/2008/09/04/1283648.html SCOPE_IDENTITY和@@IDENTITY的作 ...
- Bootstrap历练实例:语境色彩的面板
带语境色彩的面板 使用语境状态类 panel-primary.panel-success.panel-info.panel-warning.panel-danger,来设置带语境色彩的面板,实例如下: ...