比较好的 AC自动机算法详解..

【转】http://www.cppblog.com/mythit/archive/2009/04/21/80633.html

个人总结:【图是盗用的..】

ac自动机是用来求出:给出n个单词,和一篇文章arr[],问arr中出现了多少个单词..

第一步:根据给出的n个单词构造一棵字典树

第二步:根据字典树完成失配指针

第三步:枚举文章中的每个字符,并根据拥有了失配指针的字典树 查找 出现的单词个数

以单词:say she shr he her 文章:yasherhs 举例:

第一步:根据给出的n个单词构造一棵字典树

  1. const int kind = ;
  2. struct node{
  3. node *fail; //失败指针
  4. node *next[kind]; //Tire每个节点的个子节点(最多个字母)
  5. int count; //是否为该单词的最后一个节点
  6. node(){ //构造函数初始化
  7. fail=NULL;
  8. count=;
  9. memset(next,NULL,sizeof(next));
  10. }
  11. }*q[]; //队列,方便用于bfs构造失败指针
  12. char keyword[]; //输入的单词
  13. char str[]; //模式串
  14. int head,tail; //队列的头尾指针

结构体

  1. void insert(char *str,node *root){
  2. node *p=root;
  3. int i=,index;
  4. while(str[i]){
  5. index=str[i]-'a';
  6. if(p->next[index]==NULL) p->next[index]=new node();
  7. p=p->next[index];
  8. i++;
  9. }
  10. p->count++; //在单词的最后一个节点count+1,代表一个单词
  11. }

构造字典树

第二步:根据字典树完成失配指针

<结果是 (she)每一个字符(s,h,e)都会指向自己上一个字符(root,s,h)的失配指针(root,root,root->h)后的和当前字符匹配((如果没有则指向root)root, root->h, root->h->e)的字符>

即结果是保证树中的节点(node)会指向拥有相同字符串(parents->..->node = root->..->node',parents表示某个祖先节点,node'表示相同字符节点)的枝桠(没有则指向root)

  1. void build_ac_automation(node *root){
  2. int i;
  3. root->fail=NULL;
  4. q[head++]=root;
  5. while(head!=tail){
  6. node *temp=q[tail++];
  7. node *p=NULL;
  8. for(i=;i<;i++){
  9. if(temp->next[i]!=NULL){
  10. if(temp==root) temp->next[i]->fail=root;
  11. else{
  12. p=temp->fail;
  13. while(p!=NULL){
  14. if(p->next[i]!=NULL){
  15. temp->next[i]->fail=p->next[i];
  16. break;
  17. }
  18. p=p->fail;
  19. }
  20. if(p==NULL) temp->next[i]->fail=root;
  21. }
  22. q[head++]=temp->next[i];
  23. }
  24. }
  25. }
  26. }

完成失配指针

第三步:枚举文章中的每个字符,并根据拥有了失配指针的字典树 查找 出现的单词个数 <cnt += node.cnt>

  1. int query(node *root){
  2. int i=,cnt=,index,len=strlen(str);
  3. node *p=root;
  4. while(str[i]){
  5. index=str[i]-'a';
  6. while(p->next[index]==NULL && p!=root) p=p->fail;
  7. p=p->next[index];
  8. p=(p==NULL)?root:p;
  9. node *temp=p;
  10. while(temp!=root && temp->count!=-){
  11. cnt+=temp->count;
  12. temp->count=-;
  13. temp=temp->fail;
  14. }
  15. i++;
  16. }
  17. return cnt;
  18. }

查找

查找方法是如果上一个字符的下一个字符和当前字符匹配,则加上node.cnt,并不断按照失配指针查找出现的单词,不断加上node.cnt

失配,则根据失配指针去找可能匹配的出现的单词,找到则加上node.cnt

AC自动机---个人总结的更多相关文章

  1. 基于trie树做一个ac自动机

    基于trie树做一个ac自动机 #!/usr/bin/python # -*- coding: utf-8 -*- class Node: def __init__(self): self.value ...

  2. AC自动机-算法详解

    What's Aho-Corasick automaton? 一种多模式串匹配算法,该算法在1975年产生于贝尔实验室,是著名的多模式匹配算法之一. 简单的说,KMP用来在一篇文章中匹配一个模式串:但 ...

  3. python爬虫学习(11) —— 也写个AC自动机

    0. 写在前面 本文记录了一个AC自动机的诞生! 之前看过有人用C++写过AC自动机,也有用C#写的,还有一个用nodejs写的.. C# 逆袭--自制日刷千题的AC自动机攻克HDU OJ HDU 自 ...

  4. BZOJ 2434: [Noi2011]阿狸的打字机 [AC自动机 Fail树 树状数组 DFS序]

    2434: [Noi2011]阿狸的打字机 Time Limit: 10 Sec  Memory Limit: 256 MBSubmit: 2545  Solved: 1419[Submit][Sta ...

  5. BZOJ 3172: [Tjoi2013]单词 [AC自动机 Fail树]

    3172: [Tjoi2013]单词 Time Limit: 10 Sec  Memory Limit: 512 MBSubmit: 3198  Solved: 1532[Submit][Status ...

  6. BZOJ 1212: [HNOI2004]L语言 [AC自动机 DP]

    1212: [HNOI2004]L语言 Time Limit: 10 Sec  Memory Limit: 162 MBSubmit: 1367  Solved: 598[Submit][Status ...

  7. [AC自动机]【学习笔记】

    Keywords Search Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Others)To ...

  8. AC自动机 HDU 3065

    大概就是裸的AC自动机了 #include<stdio.h> #include<algorithm> #include<string.h> #include< ...

  9. AC自动机 HDU 2896

    n个字串 m个母串 字串在母串中出现几次 #include<stdio.h> #include<algorithm> #include<string.h> #inc ...

  10. 【BZOJ-3881】Divljak AC自动机fail树 + 树链剖分+ 树状数组 + DFS序

    3881: [Coci2015]Divljak Time Limit: 20 Sec  Memory Limit: 768 MBSubmit: 508  Solved: 158[Submit][Sta ...

随机推荐

  1. js显示时间

    function nowTime(){ var data= new Date(); var y=data.getFullYear(); var m=parseInt(data.getMonth())+ ...

  2. Spring Mobile是如何判断访问设备的类型的

    Spring最近换域名了,去转转,发现了一个有意思的项目:spring mobile. http://projects.spring.io/spring-mobile/ 这个项目有很多实用的功能,如识 ...

  3. Ubuntu 14.04LTS Gnome GUI初体验及163更新源配制

    Ubuntu 14.04 LTS于前天(2014.4.17)公布, 我今天将我的系统升级到最新, 体验了下最新的UI系统. 我选择了Ubuntu Gnome 的GUI界面.我曾经的系统是12.04lt ...

  4. 【书评】RHCSA/RHCE Red Hat Linux 认证学习指南(第6版)EX200 & EX300

    这次参加 CSDN 举办的读书活动,正赶上项目忙,看得也是断断续续,拖了2周了,才能来写这个书评. ========== 书评的分割线 ========== 首先,我会肯定的告诉你,不论你是一名专业的 ...

  5. HOOK自绘原理 good

    做“HOOK文件打开/保存对话框”的过程中,我首先研究了界面库的相关知识.界面库一般都是由C/C++这种中低级语言编码,这是因为在Windows下的界面库实现技术大都以直接操作控制Windows的消息 ...

  6. 自绘ListBox的两种效果

    本文利用Listbox自绘实现了两种特殊效果(见图),左边的风格是自己突然灵感触发想到的,右边的风格来自"C++ Builder 研究"的一个帖子,老妖用BCB实现了,这里则用Delphi实现它. 演 ...

  7. 【Java数据结构】Java数据结构之链表反转

    我们都知道用C可以很简单的实现单链表反转,今天来学习下,在Java中如何实现链表反转. 思路很简单,定义一个类,这个类分成2块,一块是表示自身的标志,另外一个存储指向下一个元素的引用.通过互换相邻两个 ...

  8. 基于JVM规范的并发编程解决方案

    在并发的世界里,选择合适的状态处理方法将对并发性和正确性起到决定性的影响.这方面可选的方法有:共享可变性.隔离可变性以及完全不可变性. 对于并发问题来说最好的解决方法是从根本上消灭它而不是花很多时间解 ...

  9. NYOJ 1066 CO-PRIME(数论)

    CO-PRIME 时间限制:1000 ms  |  内存限制:65535 KB 难度:3 描写叙述 This problem is so easy! Can you solve it? You are ...

  10. VC/MFC ListCtrl 控件功能使用汇总(转)

    以下未经说明,listctrl默认view 风格为report 相关类及处理函数 MFC:CListCtrl类 SDK:以 “ListView_”开头的一些宏.如 ListView_InsertCol ...