◇学时·10 & 模板·3◇ AC自动机

跟着高中上课……讲AC自动机的扩展运用。然而连KMP、trie字典树都不怎么会用的我一脸懵逼<(_ _)>

花一上午自学了一下AC自动机 QwQ


◦ Trie树

字典树的一种(听说还有其他字典树,不清楚)。每个节点代表一个字母,根节点相当于超级源点,根节点不表示字母。Trie树最大的特点是从根节点出发,沿着树边向下走,走过的节点会形成一个字符串。而一些节点是某一个单词的结尾,对于这种节点,我们一般会给它做一个标记(ovr)。

▪ 构建Trie树(Build)

根据Trie树的特点,最初的树是一个空集,只包含根节点。当我们要向树中插入一个单词str时,从根节点出发,如果根节点有表示str[0]的儿子,则移步到该儿子;否则新建立一个表示str[0]的儿子,再移步。以此类推,当我们要插入str[k]时,我们应该在第(k+1)层的某一个节点now(根节点为第一层),如果节点now有表示str[k]的儿子,则移步,否则先创建表示str[k]的儿子,再移步。直到将整个单词遍历完才结束。假设我们结束时的节点在now,那么ovr可以做两种基本的标记:① 该节点是多少个单词的结尾;② 该节点是哪一个单词的结尾……当然如果题目有一些奇怪的要求的话可以用ovr存储一些奇怪的东西,甚至多定义几个ovr也可以。

void Build(string str,int id){
int len=str.length(),now=0; //当前节点是now,trie[0]是根节点
for(int i=0;i<len;i++){
if(!trie[now].son[str[i]-'a'])
trie[now].son[str[i]-'a']=++cnt; //cnt类似于指针,用于新建节点,(cnt+1)指向最近的一个空节点
now=trie[now].son[str[i]-'a']; //移步
}
trie[now].ovr=id; //做标记,这里是存储的trie[now]是哪一个单词的结尾
}

▪ 与AC自动机的关系

AC自动机是建立在Trie树上的,只是围绕KMP的fail函数增添了一些边。


◦ KMP

一种字符串匹配算法,在朴素的字符串匹配算法的基础上进行了可观的优化。若要在字符串A里查找字符串B,则称A为“主串”,B为“模式串”,当我们尝试一次匹配时发现匹配失败,则称为“失配”。

匹配时有两个指针,i表示从主串的第i个位置开始,j表示模式串匹配到了第j个位置。当朴素算法在主串第i个位置失配时,j会回到0,而i就+1,即从主串下一个位置继续从模式串的第一个位置开始匹配,这样会造成一种浪费——下一次匹配并没有利用到之前失配的匹配的已经匹配好的信息。

而KMP算法对其进行了优化。

▪ KMP算法的原理

KMP算法认为“不需要将模式串一个位置一个位置地向右滑动”,例如:

当模式串"abca"在主串"abcd"失配后,我们没有必要将i++,因为主串的下一个位置不是'a',逐步滑动不一定会匹配。而KMP算法就会在发现失配后,直接将主串向右移动到可能匹配的最远位置!

当模式串的某一个前缀是模式串的真子串时,我们在失配后可以直接将模式串移动到该位置。

(不知道怎么解释了,看上面的3张图片吧)

▪ Fail函数

为了实现主串失配时指针不回溯,只调整模式串指针j,使模式串向右尽可能远地滑动,定义失配函数Fail(j),表示当模式串中第j个字符与主串中Si失配时,在模式串中可能和主串中Si匹配的字符的位置。

转移式则是:fail[i]=①-1(i=0);②max{ k|0<k<j, 且p0 …pk-1=pj-k+1 …pj-1 };③0(其他情况)。


◦ AC自动机

▪ 插入单词和Trie树是一样的( ̄▽ ̄)"

▪ 节点的结束单词统计也和Trie树是一样的

▪ 获取Fail函数

这里是用BFS获取的。当单词在字典树的第二层就失配即在第一个字符就失配时,fail一定是0。也就是说第二层节点的fail都指向根节点。我们将第一层的所有节点都push进队列里,然后如果节点u本来有"a"+i儿子v,则将v的fail指向u的fail的"a"+i儿子,否则直接将v指向u的fail的"a"+i儿子。

void GetFail(){
queue< int > que;
for(int i=0;i<26;i++) //遍历第二层
if(trie[0].son[i])
trie[trie[0].son[i]].fail=0,
que.push(trie[0].son[i]);
while(!que.empty()){
int u=que.front();que.pop();
for(int i=0;i<26;i++) //找儿子节点
if(trie[u].son[i]){ //有表示"a"+i的儿子
trie[trie[u].son[i]].fail=trie[trie[u].fail].son[i];
//指向父亲的fail的"a"+i儿子
que.push(trie[u].son[i]);
}
else
trie[u].son[i]=trie[trie[u].fail].son[i];
//直接将儿子指向父亲fail的"a"+i儿子
}
}

▪ 主串上的递推

设now是当前所处的节点。从根节点开始则now的初始值为0。从头到尾枚举主串字符str[i],先将now赋值为now的str[i]儿子。再沿着now的fail指针一直回溯到根节点,可以实现遍历str[0~i]的每一个后缀。对于str的每一个前缀都求出全部后缀,就相当于求出了str的全部子串。

根据题目要求统计答案。

void ACQuery(string str){
int len=str.length();
int now=0;
for(int i=0;i<len;i++){
now=trie[now].son[str[i]-'a']; //移动now
for(int j=now;j;j=trie[j].fail) //按fail指针回溯
ans[trie[j].ovr].num++; //统计答案
}
}

The End

Thanks for reading!

- Lucky_Glass

(Tab:如果我有没讲清楚的地方可以直接在邮箱lucky_glass@foxmail.com email我,在周末我会尽量解答并完善博客~)

【学时总结&模板时间】◆学时·10 & 模板·3◆ AC自动机的更多相关文章

  1. 【洛谷3796】【模板】AC自动机(加强版)

    点此看题面 大致题意: 一道模板题,给你\(N\)个模式串和一个文本串,要你求出在文本串中出现次数最多的若干个模式串并输出它们. \(AC\)自动机 都说了是\(AC\)自动机的模板题,做法肯定是\( ...

  2. luoguP3796[模板]AC自动机(加强版)

    传送门 ac自动机模板,可能我写的ac自动机是有点问题的,所以跑的有些慢 暴力跳fail统计 代码: #include<cstdio> #include<iostream> # ...

  3. HDU-2222 Keywords Search(AC自动机--模板题)

    题目大意:统计一共出现了多少次模板串. 题目分析:AC自动机的模板题.不过这题有坑,相同的模板串不能只算一次. 代码如下: # include<iostream> # include< ...

  4. HDU:2222-Keywords Search(AC自动机模板,匹配模拟)

    Keywords Search Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Others) P ...

  5. ;~ 小部分AutoHotkey源代码片段测试模板2019年10月9日.ahk

    ;~ 小部分AutoHotkey源代码片段测试模板2019年10月9日.ahk ;~ 此脚本用于测试执行一行或多行AHK脚本源代码的效果;~ 此脚本最后修改于2019年9月22日20时03分;~ 把此 ...

  6. php实现下载模板与上传模板解析

    <? //下载模板的请求 if(isset($_GET['action']) && $_GET['action'] =='down_group_excel'){ $code = ...

  7. Django 模板 语法 变量 过滤器 模板继承 组件 自定义标签和过滤器 静态文件相关

    本节目录 一 语法 二 变量 三 过滤器 四 标签Tags 五 模板继承 六 组件 七 自定义标签和过滤器 八 静态文件相关 一 语法   模板渲染的官方文档 关于模板渲染你只需要记两种特殊符号(语法 ...

  8. (9)模板层 - templates(模板语言、语法、取值、过滤器、变量的使用)

    django的模板语言:DTL 模板语言的变量传入 这个是标签 {{ 变量名 }} {{ 变量名 }}   #模板语言的替换可以在模板中的任意位置生效 PS:通过 . 可以做深度查询 模板语言的过滤器 ...

  9. 聊聊C++模板函数与非模板函数的重载

    前言 函数重载在C++中是一个很重要的特性.之所以有了它才有了操作符重载.iostream.函数子.函数适配器.智能指针等非常有用的东西. 平常在实际的应用中多半要么是模板函数与模板函数重载,或者是非 ...

随机推荐

  1. C#学习笔记4

    1.C#只支持单一继承,若想要实现多重继承的效果.有2种方式: 第一种为传递继承,A为基类,B继承A,C继承B,通过传递来增迭要包含的元素,但这种继承的设计,在业务上具有明显的从属关系. 第二种为聚合 ...

  2. ES6新增的math,Number方法

    ES6新增的math,Number方法,下面总结了一些我觉得有用的 Nunber.isInteger()判断是否为整数,需要注意的是1,和1.0都会被认为是整数 console.log(Number. ...

  3. Android存储扩展学习-----应用的清除数据和清除缓存

    前几天和朋友聊到了APP清除数据这块,聊到了清除数据都会清掉哪些数据,我们每个人的手机在”设置–>应用管理”里面,选择任意一个App,都会看到两个按钮,一个是清除缓存,另一个是清除数据,那么当我 ...

  4. Linux c获取时间

    linux c获得时间和设置时间 #include<time.h> //C语言的头文件 #include<stdio.h> //C语言的I/O void main() { ti ...

  5. Win7 自带FTP将文件复制到FTP服务器时发生错误。

    错误截图: 错误信息: 将文件复制到FTP服务器时发生错误.请检查是否有权限将文件放到该服务器上. 详细信息: 200 Type set to I. 200 PORT commad successfu ...

  6. 织梦CMS调用文章列表时,怎么显示短时间格式

    问题描述:织梦在上传文章的时候,默认的上传文章的时间格式都是年.月.日.小时.分钟.秒的格式,怎么才能实现仅显示年.月.日的格式呢? 解决方法: [field:pubdate function=&qu ...

  7. apache-实战(二)

    Apache 虚拟主机 --用apache或nginx就可以做 一台服务器跑多台web服务 VPS virtual private server 虚拟专用服务器 --使用虚拟化技术来做 云服务器 虚拟 ...

  8. OOA-OOD—OOP

    关于面向对象(OO)程序设计的思想,现在把它记下来. ----OOA Object-Oriented Analysis(面向对象分析方法)是确定需求或者业务的角度,按照面向对象的思想来分析业务.例如: ...

  9. Docker入门系列之三:如何将dockerfile制作好的镜像发布到Docker hub上

    这个系列的前两篇文章,我们已经把我们的应用成功地在Docker里通过nginx运行了起来,并且用dockerfile里制作好了一个镜像. Docker入门系列之一:在一个Docker容器里运行指定的w ...

  10. python接口测试-项目实践(三)数据的处理示例

    三 数据处理 枚举值的转换.如接口返回1-5,需转成对应的中文. typecap = findinfo_from_api(result, 'TypeCap') dictcap = {': '微盘'} ...