Aho-Corasick automaton(AC自动机)解析及其在算法竞赛中的典型应用举例
摘要:
本文主要讲述了AC自动机的基本思想和实现原理,如何构造AC自动机,着重讲解AC自动机在算法竞赛中的一些典型应用。
- 什么是AC自动机?
- 如何构造一个AC自动机?
- AC自动机在算法竞赛中的典型应用有哪些?
- 例题解析
什么是AC自动机?
什么是AC自动机,不是自动AC的机器(想的美),而是一种多模匹配算法,英文名称Aho-Corasick automaton(前面的一串据说是一位科学家的名字),于1975年诞生于贝尔实验室。
回忆之前的KMP算法解决的一类问题是给出一个模板和一个文本串,问这一个模板在该文本串中的存在情况(包括是否存在、存在几次、哪些位置等等)。现在如果是多个模板呢?可能你会想到一个一个拿出来用KMP算法进行匹配,但是如果文本串很长,模板又很多的话,KMP算法就不适合了(不满足于能解决问题,而追求又快又好的解决问题是算法研究的源动力)。而AC自动机正是为了解决这类问题而生的。
基本思想
不得不重提的是KMP算法之所以能够在高效的处理单模匹配问题,主要得益于next数组的建立,能够使匹配的状态在线性的字符串上进行转移,使得失配后副串能够尽可能的“滑的远一些“。而AC自动机也有类似功能的工具那就是fail指针。
应该能想到的是单模匹配的KMP算法的状态转移图是线性的字符串加上失配边组成的,那么多模匹配的AC自动机算法的状态转移图是字典树加上失配边组成的。
为了说明实际问题,直接看一个例子如下:
问题很明确,我们需要只遍历一遍文本串就找出所有单词表中存在的单词(只遍历一遍的想法和KMP算法有异曲同工之妙)。
我们先根据字符集合{she,he,say,shr,her}建立字典树如上图所示,然后我们拿着yasherhs去匹配,发现前两个字符无法匹配,跳过,第三个字符开始,she可以匹配,记录下来,继续往后走发现没有匹配了,结果就是该文本串只存在一个单词,很明显,答案是错的,因为存在she、he、her三个单词。
可以发现的是使用文本串在字典树上进行匹配的时候,找到了一个单词结点后还应该看看有没有以该单词结点的后缀为前缀的其他单词,比如she的后缀he是单词he和her的前缀。因此就需要一个fail指针在发现失配的时候指向其他存在e的结点,来“安排”之后应该怎么办。
总的来说,AC自动机中fail指针和KMP中next数组的作用是一致的,就是要想在只遍历一遍文本串的前提下,找到全部匹配模板,就必须安排好匹配过程中失配后怎么办。具体如何安排就是怎么在字典树上加失配边的问题了(也即如何构造一个AC自动机)。
如何构造一个AC自动机?
字典树之前已经学过了(需要回顾的请点这里),关键是怎么加失配边。规则如下:
- 根结点的fail指针为空(或者它自己);
- 直接和根结点相连的结点,如果这些结点失配,就只能重新开始匹配,故它们的fail指针指向根结点;
- 其他结点,设当前结点为father,其孩子结点为child。要寻找child的fail指针,需要看father的fail指针指向的结点,假设是tmp,要看tmp的孩子中有没有和child所代表的字符相同的,有则child的fail指针指向tmp的这个孩子结点,没有则继续沿着tmp的fail指针往上走,如果找到相同,就指向,如果一直找到了根结点的fail也就是空的时候,child的fail指针就指向root,表示重新从根结点开始匹配。
其中考察father的fail指针指向的结点 有没有和child相同的结点,包括继续往上,就保证了前缀是相同的,比如刚才寻找右侧h的孩子结点e的fail指针时,找到右侧h的fail指针指向左侧的h结点,他的孩子中有e,就将右侧h的孩子e的fail指针指向它就保证了前缀h是相同的。
这样,就用fail指针来安排好每次失配后应该跳到哪里,而fail指针跳到哪里,说明从根结点到这个结点之前的字符串已经匹配过了,从而避免了重复匹配,也就完美的解决了只遍历一次文本串就找出所有单词的问题。
具体编程实现在字典树上添加失配边有两种方法,一种是链表法,一种是转移矩阵法。
链表法
有了上面fail指针的计算规则,利用队列BFS顺序递推可以写出如下代码:
const int maxw = ; //最大单词数
const int maxwl = ; //最大单词长度
const int maxl = ; //最大文本长度
const int sigm_size = ; //字符集大小 struct Node {
int sum;//>0表示以该结点为前缀的单词个数,=0表示不是单词结点,=-1表示已经经过计数
Node* chld[sigm_size];
Node* fail;
Node() {
sum = ;
memset(chld, , sizeof(chld));
fail = ;
}
};
struct ac_automaton {
Node* root;
void init() {
root = new Node;
}
int idx(char c) {
return c - 'a';
}
void insert(char *s) {
Node* u = root;
for(int i = ; i < s[i]; i++) {
int c = idx(s[i]);
if(u->chld[c] == NULL)
u->chld[c] = new Node; u = u->chld[c];
}
u->sum++;//以该串为前缀的单词个数++
}
void getfail() {
queue<Node*> q;
q.push(root);//根结点的fail指针为空
while(!q.empty()) {
Node* u = q.front();
q.pop();
for(int i = ; i < sigm_size; i++) { //寻找当前结点的所有非空子结点的fail指针
if(u->chld[i] != NULL) {
if(u == root)//根结点
u->chld[i]->fail = root;
else { //非根节点
Node* tmp = u->fail; //找到它父亲的fail指针指向的结点
while(tmp != NULL) { //向上只有根结点的fail指针是空,所以只要不是根结点就循环
if(tmp->chld[i] != NULL) { //直到发现存在一个结点的子结点与其相同
u->chld[i]->fail = tmp->chld[i];//就将它的fail指针指向该子结点然后结束循环
break;
}
tmp = tmp->fail;//否则一直往上找
}
if(tmp == NULL) //如果寻找到根结点还没有找到,就指向根结点,让主串从根结点重新开始匹配
u->chld[i]->fail = root;
}
q.push(u->chld[i]); //子结点入队
}
}
}
}
int query(char *t) { int cnt = ;//文本中存在单词的个数
Node* u = root;
for(int i = ; t[i]; i++) {//yasherhs
int c = idx(t[i]);
while(u != root && u->chld[c] == NULL)//不是根结点而且不匹配,顺着fail指针走,直到可以匹配或者走到根结点
u = u->fail; u = u->chld[c]; //经过上面的循环,u要么是匹配结点要么是根结点,继续往下走
if(u == NULL) //如果结点为空,下一个字符重新从根结点开始
u = root; Node* tmp = u;
while(tmp != root) { //只要没有返回到根结点,就证明在字典树上还存在找到单词的可能
if(tmp->sum > ) {
cnt += tmp->sum;//单词计数器加上以当前结点为前缀的单词数
tmp->sum = -; //表示该单词结点已经计过数,防止重复计数
}
else //该单词结点已经匹配过了直接退出,因为后面的状态转移是确定的并且是走过的
break;
tmp = tmp->fail; //往其他子树上找
}
}
return cnt;
}
};
上面的代码中在调用getfail方法之后就构造好了一个AC自动机,具体查询的时候就需要在字典树的状态转移图上进行匹配了。
具体的匹配过程可分为两种情况:
1.当前字符匹配,就沿着它的状态转移图往上找,找到单词结点就统计,直到返回到根结点,说明不存在其他单词。
2.当前字符不匹配,就沿着它的fail指针往上走,直到找到匹配再进入while循环统计单词,或者一直到不到匹配直接跳过。
如此两种情况交替,直到将文本串遍历完,也就完成了统计。
用上图中的例子来说,统计yasherhs中几个单词表中的单词。
当i=0,1时,由于Trie中没有对应的路径,故直接跳过;i=2,3,4时,指针u指向右下节点e。因为节点e的sum为1,所以cnt += sum,并将节点e的sum值置为-1,表示该单词已经出现过,避免重复计数,然后tmp指向e节点的失败指针所指向的节点左下e,发现是单词结点cnt += sum,最后tmp指向root,退出while循环,这个过程中cnt增加了2,表示找到了2个单词she和he。
当i=5时,u上次指向的是右下e,r不匹配,u指向u的fail指针指向的结点左下e,发现匹配r,u指向左下r,进入下面的while循环,因为左下r的sum为1,所以cnt += sum,表示发现了单词her;
最后当i=6,7时,找不到任何匹配,查询过程结束(强烈建议手动模拟一下)。
链表法可以将原理实现直观的转化成代码,不过更常见的是实现起来较为简洁也更为巧妙的转移矩阵法。
转移矩阵法
有了转移矩阵建立字典树的基础,然后在字典树上加失配边,代码如下:
struct ac_automaton {
int ch[maxnode][sigm_size];//一个结点对应一个字符集
int fail[maxnode]; //每个结点的fail指针
int val[maxnode]; //每个结点的权值
int sz; void init() {
sz = ;
newnode(); //创建一个根结点
}
int newnode() {
memset(ch[sz], -, sizeof(ch[sz]));
val[sz] = ;
return sz++;
}
int idx(char c) {
return c - 'a';
}
void insert(char *s) {
int u = ;
for(int i = ; s[i]; i++) {
int c = idx(s[i]);
if(ch[u][c] == -)
ch[u][c] = newnode(); u = ch[u][c];
}
val[u]++;
}
void getfail() {
queue<int> q;
fail[] = ; //根结点的fail指针指向它自己也就是空
for(int i = ; i < sigm_size; i++) {
int u = ch[][i];
if(u == -){ //根结点编号为i的结点不存在时
ch[][i] = ; //把不存在的边补上,将其标记为0
}
else { //存在时
fail[u] = ; //失配指针指向根结点并入队
q.push(u);
}
}
while(!q.empty()) {
int u =q.front();
q.pop();
for(int i = ; i < sigm_size; i++) { //寻找当前结点u的孩子结点的fail指针
int tmp = ch[u][i];
if(tmp == -)
ch[u][i] = ch[fail[u]][i]; //把不存在的边补上,当前结点u不存在编号为i的孩子时,
//让它指向当前结点u的fail指针指向的结点对应编号为i的孩子中存的结点编号
else {
//当前孩子结点的fail指针指向 当前结点u的fail指针指向的结点对应的孩子的编号
fail[tmp] = ch[fail[u]][i];
q.push(tmp);
}
}
}
}
int query(char *t) {
int u = , cnt = ;
for(int i = ; t[i]; i++) {
int c = idx(t[i]);
u = ch[u][c]; //由于之前把边补齐了,所以可以直接往下走,有匹配直接就是结点,没有匹配直接是根结点 int tmp = u;
while(tmp != ) { //只要不是根结点,就证明有存在继续找到单词的可能
cnt += val[tmp];
val[tmp] = ; tmp = fail[tmp];
}
}
return cnt;
}
};
之所以说实现起来较为简单,是因为使用了二维数组,不用指针指来指去;而说更为巧妙是因为当一个结点u不存在哪个编号为i的结点时 就填充为u的fail指针指向的结点对应编号为i的结点编号,如此一来查询的时候就可以直接往下走,而不是需要进入一个循环找到匹配或者根结点再继续。
这个是根据ACM大佬bin神的AC自动机小结中学来的,仔细体会有种DP的思想在里面。
AC自动机在算法竞赛中的典型应用有哪些?
基本的问题是给出单词表,给一段文本串,问单词表中的单词存在于文本串中的情况。
1、存在的单词个数 HDU 2222 Keywords Search
2、输出存在的单词的编号 HDU 2896 病毒入侵
3、输出存在单词及其个数 HDU 3065 病毒持续入侵中
4、单词重叠和不重叠的个数 ZOJ 3288 Searching the String
5、在二维矩阵中查找小的二维矩阵 UVa 11019 矩阵适配器
复杂的问题有和DP结合起来的,有和大数结合起来的,有和最短路结合起来的
1、修改最少次数使得文本串中不包含任何一个模板 HDU 2457 DNA repair
2、给定n个文本串,m个病毒串,文本串重叠部分可以合并,但合并后不能含有病毒串,问所有文本串合并后最短多长 HDU 3247 Resource Archiver
3、AC自动机+DP+高精度 POJ 1625 Censored!
例题解析
HDU 2222 Keywords Search AC自动机入门题,给出单词表和一个文本串,问文本串中有多少个单词表中的单词。首先根据单词表构建字典树,每个单词结点的末尾++,构造AC自动机,匹配文本串统计即可,注意不要忘了将统计过的单词标记一下。
为了体会AC自动机的基本思想最好两种构建方法都试一下。参考代码如下:
链表法:
#include <cstdio>
#include <queue>
#include <cstring>
using namespace std; const int maxw = ; //最大单词数
const int maxwl = ; //最大单词长度
const int maxl = ; //最大文本长度
const int sigm_size = ; //字符集大小 struct Node {
int sum;//>0表示以该结点为前缀的单词个数,=0表示不是单词结点,=-1表示已经经过计数
Node* chld[sigm_size];
Node* fail;
Node() {
sum = ;
memset(chld, , sizeof(chld));
fail = ;
}
};
struct ac_automaton {
Node* root;
void init() {
root = new Node;
}
int idx(char c) {
return c - 'a';
}
void insert(char *s) {
Node* u = root;
for(int i = ; i < s[i]; i++) {
int c = idx(s[i]);
if(u->chld[c] == NULL)
u->chld[c] = new Node; u = u->chld[c];
}
u->sum++;//以该串为前缀的单词个数++
}
void getfail() {
queue<Node*> q;
q.push(root);//根结点的fail指针为空
while(!q.empty()) {
Node* u = q.front();
q.pop();
for(int i = ; i < sigm_size; i++) { //寻找当前结点的所有非空子结点的fail指针
if(u->chld[i] != NULL) {
if(u == root)//根结点
u->chld[i]->fail = root;
else { //非根节点
Node* tmp = u->fail; //找到它父亲的fail指针指向的结点
while(tmp != NULL) { //向上只有根结点的fail指针是空,所以只要不是根结点就循环
if(tmp->chld[i] != NULL) { //直到发现存在一个结点的子结点与其相同
u->chld[i]->fail = tmp->chld[i];//就将它的fail指针指向该子结点然后结束循环
break;
}
tmp = tmp->fail;//否则一直往上找
}
if(tmp == NULL) //如果寻找到根结点还没有找到,就指向根结点,让主串从根结点重新开始匹配
u->chld[i]->fail = root;
}
q.push(u->chld[i]); //子结点入队
}
}
}
}
int query(char *t) {
int cnt = ;//文本中存在单词的个数
Node* u = root;
for(int i = ; t[i]; i++) {//yasherhs
int c = idx(t[i]);
while(u != root && u->chld[c] == NULL)//不是根结点而且不匹配,顺着fail指针走,直到可以匹配或者走到根结点
u = u->fail; u = u->chld[c]; //经过上面的循环,u要么是匹配结点要么是根结点,继续往下走
if(u == NULL) //如果结点为空,下一个字符重新从根结点开始
u = root; Node* tmp = u;
while(tmp != root) { //只要没有返回到根结点,就证明在字典树上还存在找到单词的可能
if(tmp->sum > ) {
cnt += tmp->sum;//单词计数器加上以当前结点为前缀的单词数
tmp->sum = -; //表示该单词结点已经计过数,防止重复计数
}
else //该单词结点已经匹配过了直接退出,因为后面的状态转移是确定的并且是走过的
break;
tmp = tmp->fail; //往其他子树上找
}
}
return cnt;
}
}; ac_automaton ac;
char txt[maxl];
int main()
{
int T,n;
char word[maxwl];
scanf("%d", &T);
while(T--) {
ac.init();
scanf("%d", &n);
for(int i = ; i < n; i++) {
scanf("%s", word);
ac.insert(word);
}
ac.getfail(); scanf("%s", txt);
printf("%d\n", ac.query(txt));
}
return ;
}
转移矩阵法:
#include <cstdio>
#include <cstring>
#include <queue>
using namespace std; const int maxwl = ;
const int maxw = ;
const int maxl = ;
const int sigm_size = ;
const int maxnode = maxw * maxwl; struct ac_automaton {
int ch[maxnode][sigm_size];//一个结点对应一个字符集
int fail[maxnode]; //每个结点的fail指针
int val[maxnode]; //每个结点的权值
int root, sz; void init() {
sz = ;
root = newnode(); //创建一个根结点
}
int newnode() {
memset(ch[sz], -, sizeof(ch[sz]));
val[sz] = ;
return sz++;
}
int idx(char c) {
return c - 'a';
}
void insert(char *s) {
int u = root;
for(int i = ; s[i]; i++) {
int c = idx(s[i]);
if(ch[u][c] == -)
ch[u][c] = newnode(); u = ch[u][c];
}
val[u]++;
}
void getfail() {
queue<int> q;
fail[root] = root; //根结点的fail指针指向它自己也就是空
for(int i = ; i < sigm_size; i++) {
int u = ch[root][i];
if(u == -){ //根结点编号为i的结点不存在时
ch[root][i] = root; //把不存在的边补上,将其标记为0
}
else { //存在时
fail[u] = root; //失配指针指向根结点并入队
q.push(u);
}
}
while(!q.empty()) {
int u =q.front();
q.pop();
for(int i = ; i < sigm_size; i++) { //寻找当前结点u的孩子结点的fail指针
int tmp = ch[u][i];
if(tmp == -)
ch[u][i] = ch[fail[u]][i]; //把不存在的边补上,当前结点u不存在编号为i的孩子时,
//让它指向当前结点u的fail指针指向的结点对应编号为i的孩子中存的结点编号
else {
//当前孩子结点的fail指针指向 当前结点u的fail指针指向的结点对应的孩子的编号
fail[tmp] = ch[fail[u]][i];
q.push(tmp);
}
}
}
}
int query(char *t) {
int u = root, cnt = ;
for(int i = ; t[i]; i++) {
int c = idx(t[i]);
u = ch[u][c]; //由于之前把边补齐了,所以可以直接往下走,有匹配直接就是结点,没有匹配直接是根结点 int tmp = u;
while(tmp != ) { //只要不是根结点,就证明有存在继续找到单词的可能
cnt += val[tmp];
val[tmp] = ; tmp = fail[tmp];
}
}
return cnt;
}
}; ac_automaton ac;
char txt[maxl];
int main()
{
int n, m;
char word[maxwl];
scanf("%d", &n);
while(n--) {
scanf("%d", &m);
ac.init();
for(int i = ; i < m; i++) {
scanf("%s", word);
ac.insert(word);
}
ac.getfail(); scanf("%s", txt);
printf("%d\n", ac.query(txt));
}
return ;
}
HDU 2896 病毒侵袭 给出病毒和多个文本串,输出每个文本串中存在病毒的编号。
想到怎么记录编号和注意输出格式就没什么大问题。需要知道的是ASCII可见字符是32到126,共95个可见字符。参考代码如下(链表法,请使用C++提交,G++结果MLE,可能G++和C++的内存分配机制不同):
#include <cstdio>
#include <cstring>
#include <queue>
#include <vector>
#include <algorithm>
using namespace std; const int maxwl = ;
const int maxl = ;
const int sigm_size = - ; struct Node {
int num;
Node* fail;
Node* chld[sigm_size];
Node() {
num = ;
fail = ;
memset(chld, , sizeof(chld));
}
};
struct ac_automaton {
Node* root;
void init() {
root = new Node;
}
int idx(char c) {
return c - ;
}
void insert(char *s, int v) {
Node* u = root;
for(int i = ; s[i]; i++) {
int c = idx(s[i]);
if(u->chld[c] == NULL)
u->chld[c] = new Node; u = u->chld[c];
}
u->num = v;
}
void getfail() {
queue<Node*> q;
q.push(root);
while(!q.empty()) {
Node* u = q.front();
q.pop();
for(int i = ; i < sigm_size; i++) {
if(u->chld[i] != NULL) {
if(u == root)
u->chld[i]->fail = root;
else {
Node* tmp = u->fail;
while(tmp != NULL) {
if(tmp->chld[i] != NULL) {
u->chld[i]->fail = tmp->chld[i];
break;
}
tmp = tmp->fail;
}
if(tmp == NULL)
u->chld[i]->fail = root;
}
q.push(u->chld[i]);
}
}
}
}
void query(char *t, vector<int> &p) {
Node* u = root;
for(int i = ; t[i]; i++) {
int c = idx(t[i]);
while(u != root && u->chld[c] == NULL)
u = u->fail; u = u->chld[c];
if(u == NULL)
u = root; Node* tmp = u;
while(tmp != root) {
if(tmp->num > )
p.push_back(tmp->num);//记录存在的病毒编号 tmp = tmp->fail;
}
}
}
}ac; int main()
{
int n, m;
char word[maxwl], txt[maxl];
while(scanf("%d", &n) != EOF) {
ac.init();
for(int i = ; i < n; i++) {
scanf("%s", word);
ac.insert(word, i+);
}
ac.getfail(); scanf("%d", &m);
int tot = ;
for(int i = ; i < m; i++) {
scanf("%s", txt);
vector<int> p;
ac.query(txt, p);
if(!p.empty()) {
sort(p.begin(), p.end());
printf("web %d:",i+);
for(int i = ; i < p.size(); i++)
printf(" %d", p[i]);
puts("");
tot++;
}
}
printf("total: %d\n", tot);
}
return ;
}
HDU 3065 病毒侵袭持续中 给出病毒和文本串,输出每个病毒及其存在的次数。
和上一题很像,注意使用链表法写的时候多样例要释放内存,否则可能会超内存,但是转移矩阵就不会,因此优先选择转移矩阵实现。链表法参考如下(如何递归释放内存):
#include <cstdio>
#include <cstring>
#include <queue>
using namespace std; const int maxw = ;
const int maxwl = ;
const int maxl = ;
const int sigm_size = -; char words[maxw][maxwl];
char txt[maxl]; struct Node {
int flag;
Node* fail;
Node* chld[sigm_size];
Node() {
flag = ;
fail = ;
memset(chld, , sizeof(chld));
}
};
struct ac_automaton {
Node* root;
int num[maxw];
void init() {
root = new Node;
}
int idx(char c) {
return c - ;
}
void insert(char *s, int v) {
Node* u = root;
for(int i = ; s[i]; i++) {
int c = idx(s[i]);
if(u->chld[c] == NULL)
u->chld[c] = new Node;
u = u->chld[c];
}
u->flag = v;
}
void getfail() {
queue<Node*> q;
q.push(root);
while(!q.empty()) {
Node* u = q.front();
q.pop();
for(int i = ; i < sigm_size; i++) {
if(u->chld[i] != NULL) {
if(u == root)
u->chld[i]->fail = root;
else {
Node* tmp = u->fail;
while(tmp != NULL) {
if(tmp->chld[i] != NULL) {
u->chld[i]->fail = tmp->chld[i];
break;
}
tmp = tmp->fail;
}
if(tmp == NULL)
u->chld[i]->fail = root;
}
q.push(u->chld[i]);
}
}
}
}
void query(char *t, int n) {
Node* u = root;
memset(num, , sizeof(num));
for(int i = ; t[i]; i++) {
int c = idx(t[i]);
while(u != root && u->chld[c] == NULL)
u = u->fail; u = u->chld[c];
if(u == NULL)
u = root; Node* tmp = u;
while(tmp != root) {
if(tmp->flag > )
num[tmp->flag]++; tmp = tmp->fail;
}
}
for(int i = ; i <= n; i++) {
if(num[i] > )
printf("%s: %d\n", words[i], num[i]);
}
}
void freenode(Node* u) {
if(u == NULL)
return;
for(int i = ; i < sigm_size; i++)
freenode(u->chld[i]);
delete u;
}
}ac; int main()
{
int n;
char word[maxwl];
while(scanf("%d", &n) != EOF) {
ac.init();
for(int i = ; i <= n; i++) {
scanf("%s", words[i]);
ac.insert(words[i], i);
}
ac.getfail(); scanf("%s", txt);
ac.query(txt, n);
ac.freenode(ac.root);//多样例测试时别忘记释放内存
}
return ;
}
ZOJ 3228 Searching the String 先给出文本串,再给出多个单词,但询问方式不同,0表示可以重叠存在的次数,1表示不可重叠存在的次数。
重叠的询问好求,一遍AC自动机解决,关键是不可重叠次数。设想,如果我们能够记录一个单词上一次在文本串中的匹配位置,那么当前单词结点的末尾在文本串中的位置 - 当前单词结点在文本串中上一次匹配的位置 大于等于以当前字符结尾的单词结点的长度时,表示不重叠。可以使用一个二维数组记录每个单词两种询问的答案,最后查询输出。参考代码如下:
#include <cstdio>
#include <queue>
#include <cstring>
using namespace std; const int sigm_size = ; //字符集的大小
const int maxl = ; //文本串的长度
const int maxw = ; //单词个数
const int maxwl = ; //单词长度
const int maxnode = maxw * maxwl * ; //字典树结点数 = 单词数乘以单词长度乘以10 char txt[maxl];
int node[maxl]; //记录每个单词在字典树中单词结点的编号
int op[maxl]; //每个单词的查询方式 struct ac_automaton {
int ch[maxnode][sigm_size], fail[maxnode];
int pos[maxnode]; //记录以当前字符结尾的单词的长度
int L, root;
void init() {
L = ;
root = newnode();
}
int newnode() {
memset(ch[L], -, sizeof(ch[L]));
pos[L++] = ; //以当前字符结尾的单词长度为0
return L-;
}
int idx(char c) {
return c - 'a';
}
void insert(char *s, int v) {
int now = root;
for(int i = ; s[i]; i++) {
int c = idx(s[i]);
if(ch[now][c] == -)
ch[now][c] = newnode();
now = ch[now][c];
pos[now] = i+;//以当前字符结尾的单词的长度
}
node[v] = now;//编号为v的模式串在字典树中的序号
}
void getfail() {
queue<int> q;
fail[root] = root;
for(int i = ; i < sigm_size; i++) {
if(ch[root][i] == -)
ch[root][i] = root;
else {
fail[ch[root][i]] = root;
q.push(ch[root][i]);
}
}
while(!q.empty()) {
int now = q.front();
q.pop();
for(int i = ; i < sigm_size; i++) {
if(ch[now][i] == -)
ch[now][i] = ch[fail[now]][i];
else {
fail[ch[now][i]] = ch[fail[now]][i];
q.push(ch[now][i]);
}
}
}
}
int ans[maxnode][]; //标号为i的单词的重叠和不重叠的个数
int last[maxnode]; //记录当前单词结点在文本串中的上一个匹配位置
void query(char *t) {
memset(last, -, sizeof(last));
memset(ans, , sizeof(ans));
int now = root;
for(int i = ; t[i]; i++) {
int c = idx(t[i]);
now = ch[now][c];
int tmp = now;
while(tmp != root) {
ans[tmp][] ++;
/*
当前字符的位置 - 当前单词结点在文本串中上一次匹配的位置
大于等于以当前字符结尾的单词结点的长度时,表示不重叠
*/
if(i - last[tmp] >= pos[tmp]) {
ans[tmp][] ++;
last[tmp] = i;//记录当前单词结点在文本串中的位置
}
tmp = fail[tmp];
}
}
}
}ac; int main()
{
int n, kase = ;
char word[maxwl];
while(scanf("%s", txt) != EOF) {
scanf("%d", &n);
ac.init();
for(int i = ; i < n; i++) {
scanf("%d%s", &op[i], word);
ac.insert(word, i);
}
ac.getfail();
ac.query(txt); printf("Case %d\n", kase++);
for(int i = ; i < n; i++) {
printf("%d\n", ac.ans[node[i]][op[i]]);
}
puts("");
}
return ;
}
UVA 11019 Matrix Matcher AC自动机应用的二维推广。给出一个大的二维字符矩阵T,一个小的二维矩阵P,问P在T中存在的次数。
思路很简单,使用一个二维矩阵cnt,如果cnt[r][c]表示T中以(r,c)为左上角、与P等大的矩形有多少个完整的行和P对应位置的行完全相同。当P的第j行出现在T的第r行、起始列号为i时,意味着cnt[r-j+1][i-y+2]++,其中具体加几和存储的起始位置有关,按照自己的规则即可。所有匹配结束后,那些cnt[r][c] == x(P的行数)的点就是一个二维匹配点。
另外需要注意的是P中可能存在重复,存在重复的模板会导致字典树中结点编号覆盖,所以使用一个vector数组保存所有的编号。参考代码如下:
#include <vector>
#include <cstdio>
#include <queue>
#include <cstring>
using namespace std; const int maxn = ;
const int maxw = ;
const int maxwl = ;
const int maxnode = maxw * maxwl;
const int sigm_size = ; struct ac_automaton {
int cnt[maxn][maxn];
int ch[maxnode][sigm_size];
int fail[maxnode];
vector<int> val[maxnode];
int sz, root; void init() {
sz = ;
root = newnode();
memset(cnt, , sizeof(cnt));
}
int newnode() {
memset(ch[sz], -, sizeof(ch[sz]));
val[sz].clear();
return sz++;
}
int idx(char c) {
return c - 'a';
}
void insert(char *s, int v) {
int u = root;
for(int i = ; s[i]; i++) {
int c = idx(s[i]);
if(ch[u][c] == -)
ch[u][c] = newnode(); u = ch[u][c];
}
val[u].push_back(v);//以该结点为末尾的p的行编号
}
void getfail() {
queue<int> q;
fail[root] = root;
for(int i = ; i < sigm_size; i++) {
if(ch[root][i] == -)
ch[root][i] = root;
else {
fail[ch[root][i]] = root;
q.push(ch[root][i]);
}
}
while(!q.empty()) {
int u = q.front();
q.pop();
for(int i = ; i < sigm_size; i++) {
if(ch[u][i] == -)
ch[u][i] = ch[fail[u]][i];
else {
fail[ch[u][i]] = ch[fail[u]][i];
q.push(ch[u][i]);
}
}
}
}
void query(char *t, int r, int y) {
int u = root;
for(int i = ; t[i]; i++) {
int c = idx(t[i]);
u = ch[u][c];//走到u结点 for(int k = ; k < val[u].size(); k ++){//遍历以该结点为结尾的p的每一个行编号
int j = val[u][k];
//如果当前行T的第r行 - P的第j行 + 1 > 0,也就是在左上(1,1)到右下(n,m)这个区域内
if(r-j+>) cnt[r-j+][i-y+]++;
//其中+1或者+2是数据存储问题引起,二维数组从第1行第0列开始
}
}
}
int count(int n, int m, int x) {
int ans = ;
for(int i = ; i <= n ; i++) {
for(int j = ; j <= m; j++) {
if(cnt[i][j] == x)
ans ++;
}
}
return ans;
}
}ac; char t[maxn][maxn], p[maxn/][maxn/];
int n, m, x, y; int main()
{
int T;
scanf("%d", &T);
while(T--) {
scanf("%d%d", &n, &m);
for(int i = ; i <= n; i++) {
scanf("%s", t[i]);
}
ac.init();
scanf("%d%d", &x, &y);
for(int i = ; i <= x; i++) {
scanf("%s", p[i]);
ac.insert(p[i], i);
}
ac.getfail();
for(int i = ; i <= n; i++)
ac.query(t[i], i, y);
printf("%d\n", ac.count(n,m,x));
}
return ;
}
POJ 3691 DNA repair 给出单词表和一个文本串,问最少修改几个字符使得该文本串不包含所有的单词。
先根据单词表构建一个AC自动机,具体匹配的时候我们可以定义一个状态dp[i][j]表示长度为i、以字典树中j号结点结尾的字符串不包含所有单词所需的最少修改次数。很容易递推发现,dp[i+1][u]也就是长度为1+1、以当前结点结尾的字符串的最小修改次数等于 u的所有孩子结点ch[j][k]是否和当前s[i]相等的最小值。参考代码如下:
#include <cstdio>
#include <queue>
#include <algorithm>
#include <cstring>
using namespace std; const int inf = 0x3f3f3f3f;
const int maxw = ;
const int maxwl = ;
const int maxl = ;
const int maxnode = maxw * maxwl;
const int sigm_size = ; struct ac_automaton {
int ch[maxnode][sigm_size];
int fail[maxnode];
bool val[maxnode];
int root, sz; void init() {
sz = ;
root = newnode();
}
int newnode() {
memset(ch[sz], -, sizeof(ch[sz]));
val[sz] = false;
return sz++;
}
int idx(char c) {
if(c == 'A')
return ;
if(c == 'C')
return ;
if(c == 'G')
return ;
if(c == 'T')
return ;
}
void insert(char *s) {
int u = root;
for(int i = ; s[i]; i++) {
int c = idx(s[i]);
if(ch[u][c] == -)
ch[u][c] = newnode();
u = ch[u][c];
}
val[u] = true;
}
void getfail() {
queue<int> q;
fail[root] = root;
for(int i = ; i < sigm_size; i++) {
if(ch[root][i] == -)
ch[root][i] = root;
else {
fail[ch[root][i]] = root;
q.push(ch[root][i]);
}
}
while(!q.empty()) {
int u = q.front();
q.pop();
if(val[fail[u]]) val[u] = true; for(int i = ; i < sigm_size; i++) {
if(ch[u][i] == -)
ch[u][i] = ch[fail[u]][i];
else {
fail[ch[u][i]] = ch[fail[u]][i];
q.push(ch[u][i]);
}
}
}
} int dp[maxnode][maxnode];
//定义状态dp[i][j]表示长度为i、以字典树上结点编号为j的字符结尾的字符串 所需的最小修改次数
int solve(char *s) {
int len = strlen(s);
for(int i = ; i <= len; i ++) {//初始化大小为len * sz大小的空间
for(int j = ; j < sz; j++) {
dp[i][j] = inf;
}
}
dp[][root] = ;//初始化长度为0,以根结点结尾的字符串 所需最小修改次数为 0
for(int i = ; i <= len; i++) {
for(int j = ; j < sz; j++) {
//之前一次拓展没有更新表示该长度以j结尾的字符串存在病毒结点,故直接跳过
if(dp[i][j] >= inf) continue; for(int k = ; k < ; k++) {
int u = ch[j][k];
if(val[u]) continue;//当前结点j的孩子中有的是病毒结点直接跳过
int tmp;
if(k == idx(s[i]))
tmp = dp[i][j];
else
tmp = dp[i][j] + ;
//更新长度加一、以孩子结点u结尾的的状态
dp[i+][u] = min(dp[i+][u], tmp);
} }
}
int ans = inf;
for(int i = ; i < sz; i++)
ans = min(dp[len][i], ans);
if(ans == inf)
return -;
return ans;
}
}ac; int main()
{
int n, kase = ;
char word[maxwl], txt[maxl];
while(scanf("%d", &n) == && n) {
ac.init();
for(int i = ; i < n; i++) {
scanf("%s", word);
ac.insert(word);
}
ac.getfail(); scanf("%s", txt);
printf("Case %d: %d\n",kase++, ac.solve(txt));
}
return ;
}
还有其他综合型的题目,有兴趣的同学自行尝试(很刺激,一题坑一天的都是少的那种)。
至此,AC自动机解析及其在竞赛中的典型应用就总结完了,算法很精妙,关键是体会算法的基本思想,加上一些具体的应用实践,才能掌握牢固。AC自动机有很多变形,要想学好,用好,还需掌握其他知识,比如矩阵加速,高精度,状压DP(省略很多我还不知道的算法)。算法学习并非易事,要坚持思考,实践,总结才行。(原创不易,转载请注明出处哦)
Aho-Corasick automaton(AC自动机)解析及其在算法竞赛中的典型应用举例的更多相关文章
- Trie(字典树)解析及其在编程竞赛中的典型应用举例
摘要: 本文主要讲解了Trie的基本思想和原理,实现了几种常见的Trie构造方法,着重讲解Trie在编程竞赛中的一些典型应用. 什么是Trie? 如何构建一个Trie? Trie在编程竞赛中的典型应用 ...
- (AC自动机)C - 病毒侵袭持续中
题目链接:https://cn.vjudge.net/contest/280743#problem/C 题目大意:中文题 具体思路:首先取ascii码0-130是肯定不行的了,会超时.然后就开始简化, ...
- (转)两种高效过滤敏感词算法--DFA算法和AC自动机算法
原文:https://blog.csdn.net/u013421629/article/details/83178970 一道bat面试题:快速替换10亿条标题中的5万个敏感词,有哪些解决思路? 有十 ...
- POJ 2778 DNA Sequence —— (AC自动机+矩阵快速幂)
距离上次做AC自动机有很久了=.=,以前这题的思路死活看不懂,现在还是觉得很好理解的. 思路参见:http://blog.csdn.net/morgan_xww/article/details/783 ...
- 【字符串算法】AC自动机
国庆后面两天划水,甚至想接着发出咕咕咕的叫声.咳咳咳,这些都不重要!最近学习了一下AC自动机,发现其实远没有想象中的那么难. AC自动机的来历 我知道,很多人在第一次看到这个东西的时侯是非常兴奋的.( ...
- AC自动机---病毒侵袭持续中
HDU 3065 题目网址: http://acm.hust.edu.cn/vjudge/contest/view.action?cid=110773#problem/C Description 小t ...
- 洛谷P2444 病毒【AC自动机】
题目描述 二进制病毒审查委员会最近发现了如下的规律:某些确定的二进制串是病毒的代码.如果某段代码中不存在任何一段病毒代码,那么我们就称这段代码是安全的.现在委员会已经找出了所有的病毒代码段,试问,是否 ...
- HDU - 6208 The Dominator of Strings HDU - 6208 AC自动机 || 后缀自动机
https://vjudge.net/problem/HDU-6208 首先可以知道最长那个串肯定是答案 然后,相当于用n - 1个模式串去匹配这个主串,看看有多少个能匹配. 普通kmp的话,每次都要 ...
- [洛谷3808]【模板】AC自动机(简单版)
题目大意: 给定$n$个模式串$p(\sum|p_i|\le10^6)$和一个$t(|t|\le10^6)$,求在$t$中被匹配的$p$的个数. 思路: AC自动机模板题,注意$t$中一个字符可能对应 ...
随机推荐
- c++沉思录 学习笔记 第六章 句柄(引用计数指针雏形?)
一个简单的point坐标类 class Point {public: Point():xval(0),yval(0){} Point(int x,int y):xval(x),yval(y){} in ...
- 201771010142 张燕《面向对象程序设计(java)》第三周学习总结
实验三 Java基本程序设计(2) 实验时间 2018-9-13 1.实验目的与要求 (1)进一步掌握Eclipse集成开发环境下java程序开发基本步骤: (2)熟悉PTA平台线上测试环境: (3) ...
- urlrewrite的rule怎么写
一.正则表达式教程 常用正则如下: . 换行符以外的所有字符 \w 匹配字母或数字或下划线或汉字 \s 匹配任意的空白符 \d ...
- 基于OpenCV的图书扫描识别程序开发
1.AndroidStudio环境配置 https://www.cnblogs.com/little-monkey/p/7162340.html
- ABP框架系列之五十二:(Validating-Data-Transfer-Objects-验证数据传输对象)
Introduction to validation Inputs of an application should be validated first. This input can be sen ...
- MVC Log4Net 配置
1.引用log4net.dll 2.在项目根目录下增加log4.config文件 <?xml version="1.0"?> <configuration> ...
- ESP32 windows开发环境的搭建(官方方法)
首先保证电脑中的已经下载了git客户端,没有的自行去https://git-scm.com/下载 STEP1: 获得编译工具链 Windows没有内置的“make”环境,所以安装工具链你将需要一个兼容 ...
- STL中的容器作为返回值
分别以函数返回值方式和参数传引用方式测试了vector.map两种容器,代码如下: // testContainer.cpp : Defines the entry point for the con ...
- 856. Score of Parentheses
Given a balanced parentheses string S, compute the score of the string based on the following rule: ...
- https网页加载http资源导致的页面报错及解决方案
https是当下的网站的主流趋势,甚至像苹果这样的大公司,则完全要求用户必须使用https地址. 然而对于以前http链接来说,我们往往就存在一个兼容性问题,因为你不可能一下就全部切换过去,应该在很长 ...