经典算法题每日演练——第八题 AC自动机

原文:经典算法题每日演练——第八题 AC自动机

上一篇我们说了单模式匹配算法KMP，现在我们有需求了，我要检查一篇文章中是否有某些敏感词，这其实就是多模式匹配的问题。

当然你也可以用KMP算法求出，那么它的时间复杂度为O(c*(m+n))，c：为模式串的个数。m：为模式串的长度,n:为正文的长度，那

么这个复杂度就不再是线性了，我们学算法就是希望能把要解决的问题优化到极致，这不，AC自动机就派上用场了。

其实AC自动机就是Trie树的一个活用，活用点就是灌输了kmp的思想，从而再次把时间复杂度优化到线性的O(N)，刚好我前面的文

章已经说过了Trie树和KMP，这里还是默认大家都懂。

一：构建AC自动机

同样我也用网上的经典例子，现有say she shr he her 这样5个模式串，主串为yasherhs，我要做的就是哪些模式串在主串中出现过？

1: 构建trie树

如果看过我前面的文章，构建trie树还是很容易的。

2：失败指针

构建失败指针是AC自动机的核心所在，玩转了它也就玩转了AC自动机，失败指针非常类似于KMP中的next数组，也就是说，

当我的主串在trie树中进行匹配的时候，如果当前节点不能再继续进行匹配，那么我们就会走到当前节点的failNode节点继续进行

匹配，构建failnode节点也是很流程化的。

①：root节点的子节点的failnode都是指向root。

②：当走到在“she”中的”h“节点时，我们给它的failnode设置什么呢？此时就要走该节点（h)的父节点(s)的失败指针，一直回溯直

到找到某个节点的孩子节点也是当初节点同样的字符(h)，没有找到的话，其失败指针就指向root。

比如：h节点的父节点为s，s的failnode节点为root，走到root后继续寻找子节点为h的节点，恰好我们找到了，（假如还是没

有找到，则继续走该节点的failnode，嘿嘿，是不是很像一种回溯查找），此时就将 ”she"中的“h”节点的fainode"指向

"her"中的“h”节点，好，原理其实就是这样。（看看你的想法是不是跟图一样）

针对图中红线的”h，e“这两个节点，我们想起了什么呢？对”her“中的”e“来说，e到root距离的n个字符恰好与”she“中的e向上的n

个字符相等，我也非常类似于kmp中next函数，当字符失配时，next数组中记录着下一次匹配时模式串的起始位置。

 #region Trie树节点

         /// <summary>

         /// Trie树节点

         /// </summary>

         public class TrieNode

         {

             /// <summary>

             /// 26个字符，也就是26叉树

             /// </summary>

             public TrieNode[] childNodes;

             /// <summary>

             /// 词频统计

             /// </summary>

             public int freq;

             /// <summary>

             /// 记录该节点的字符

             /// </summary>

             public char nodeChar;

             /// <summary>

             /// 失败指针

             /// </summary>

             public TrieNode faliNode;

             /// <summary>

             /// 插入记录时的编号id

             /// </summary>

             public HashSet<int> hashSet = new HashSet<int>();

             /// <summary>

             /// 初始化

             /// </summary>

             public TrieNode()

             {

                 childNodes = new TrieNode[];

                 freq = ;

             }

         }

         #endregion

刚才我也说到了parent和current两个节点，在给trie中的节点赋failnode的时候，如果采用深度优先的话还是很麻烦的，因为我要实时

记录当前节点的父节点，相信写过树的朋友都清楚，除了深搜，我们还有广搜。

  /// <summary>

         /// 构建失败指针(这里我们采用BFS的做法)

         /// </summary>

         /// <param name="root"></param>

         public void BuildFailNodeBFS(ref TrieNode root)

         {

             //根节点入队

             queue.Enqueue(root);

             while (queue.Count != )

             {

                 //出队

                 var temp = queue.Dequeue();

                 //失败节点

                 TrieNode failNode = null;

                 //26叉树

                 for (int i = ; i < ; i++)

                 {

                     //代码技巧：用BFS方式，从当前节点找其孩子节点，此时孩子节点

                     //         的父亲正是当前节点，（避免了parent节点的存在）

                     if (temp.childNodes[i] == null)

                         continue;

                     //如果当前是根节点，则根节点的失败指针指向root

                     if (temp == root)

                     {

                         temp.childNodes[i].faliNode = root;

                     }

                     else

                     {

                         //获取出队节点的失败指针

                         failNode = temp.faliNode;

                         //沿着它父节点的失败指针走，一直要找到一个节点，直到它的儿子也包含该节点。

                         while (failNode != null)

                         {

                             //如果不为空，则在父亲失败节点中往子节点中深入。

                             if (failNode.childNodes[i] != null)

                             {

                                 temp.childNodes[i].faliNode = failNode.childNodes[i];

                                 break;

                             }

                             //如果无法深入子节点，则退回到父亲失败节点并向root节点往根部延伸，直到null

                             //（一个回溯再深入的过程，非常有意思）

                             failNode = failNode.faliNode;

                         }

                         //等于null的话，指向root节点

                         if (failNode == null)

                             temp.childNodes[i].faliNode = root;

                     }

                     queue.Enqueue(temp.childNodes[i]);

                 }

             }

         }

3：模式匹配

所有字符在匹配完后都必须要走failnode节点来结束自己的旅途,相当于一个回旋，这样做的目的防止包含节点被忽略掉。

比如：我匹配到了"she"，必然会匹配到该字符串的后缀”he"，要想在程序中匹配到，则必须节点要走失败指针来结束自己的旅途。

从上图中我们可以清楚的看到“she”的匹配到字符"e"后，从failnode指针撤退，在撤退途中将其后缀字符“e”收入囊肿，这也就是

为什么像kmp中的next函数。

         /// <summary>

         /// 根据指定的主串，检索是否存在模式串

         /// </summary>

         /// <param name="root"></param>

         /// <param name="s"></param>

         /// <returns></returns>

         public void SearchAC(ref TrieNode root, string s, ref HashSet<int> hashSet)

         {

             int freq = ;

             TrieNode head = root;

             foreach (var c in s)

             {

                 //计算位置

                 int index = c - 'a';

                 //如果当前匹配的字符在trie树中无子节点并且不是root，则要走失败指针

                 //回溯的去找它的当前节点的子节点

                 while ((head.childNodes[index] == null) && (head != root))

                     head = head.faliNode;

                 //获取该叉树

                 head = head.childNodes[index];

                 //如果为空，直接给root,表示该字符已经走完毕了

                 if (head == null)

                     head = root;

                 var temp = head;

                 //在trie树中匹配到了字符，标记当前节点为已访问，并继续寻找该节点的失败节点。

                 //直到root结束，相当于走了一个回旋。(注意：最后我们会出现一个freq=-1的失败指针链)

                 while (temp != root && temp.freq != -)

                 {

                     freq += temp.freq;

                     //将找到的id追加到集合中

                     foreach (var item in temp.hashSet)

                         hashSet.Add(item);

                     temp.freq = -;

                     temp = temp.faliNode;

                 }

             }

         }

好了，到现在为止，我想大家也比较清楚了，最后上一个总的运行代码：

 using System;

 using System.Collections.Generic;

 using System.Linq;

 using System.Text;

 using System.Diagnostics;

 using System.Threading;

 using System.IO;

 namespace ConsoleApplication2

 {

     public class Program

     {

         public static void Main()

         {

             Trie trie = new Trie();

             trie.AddTrieNode("say", );

             trie.AddTrieNode("she", );

             trie.AddTrieNode("shr", );

             trie.AddTrieNode("her", );

             trie.AddTrieNode("he", );

             trie.BuildFailNodeBFS();

             string s = "yasherhs";

             var hashSet = trie.SearchAC(s);

             Console.WriteLine("在主串{0}中存在模式串的编号为:{1}", s, string.Join(",", hashSet));

             Console.Read();

         }

     }

     public class Trie

     {

         public TrieNode trieNode = new TrieNode();

         /// <summary>

         /// 用光搜的方法来构建失败指针

         /// </summary>

         public Queue<TrieNode> queue = new Queue<TrieNode>();

         #region Trie树节点

         /// <summary>

         /// Trie树节点

         /// </summary>

         public class TrieNode

         {

             /// <summary>

             /// 26个字符，也就是26叉树

             /// </summary>

             public TrieNode[] childNodes;

             /// <summary>

             /// 词频统计

             /// </summary>

             public int freq;

             /// <summary>

             /// 记录该节点的字符

             /// </summary>

             public char nodeChar;

             /// <summary>

             /// 失败指针

             /// </summary>

             public TrieNode faliNode;

             /// <summary>

             /// 插入记录时的编号id

             /// </summary>

             public HashSet<int> hashSet = new HashSet<int>();

             /// <summary>

             /// 初始化

             /// </summary>

             public TrieNode()

             {

                 childNodes = new TrieNode[];

                 freq = ;

             }

         }

         #endregion

         #region 插入操作

         /// <summary>

         /// 插入操作

         /// </summary>

         /// <param name="word"></param>

         /// <param name="id"></param>

         public void AddTrieNode(string word, int id)

         {

             AddTrieNode(ref trieNode, word, id);

         }

         /// <summary>

         /// 插入操作

         /// </summary>

         /// <param name="root"></param>

         /// <param name="s"></param>

         public void AddTrieNode(ref TrieNode root, string word, int id)

         {

             if (word.Length == )

                 return;

             //求字符地址，方便将该字符放入到26叉树中的哪一叉中

             int k = word[] - 'a';

             //如果该叉树为空，则初始化

             if (root.childNodes[k] == null)

             {

                 root.childNodes[k] = new TrieNode();

                 //记录下字符

                 root.childNodes[k].nodeChar = word[];

             }

             var nextWord = word.Substring();

             //说明是最后一个字符，统计该词出现的次数

             if (nextWord.Length == )

             {

                 root.childNodes[k].freq++;

                 root.childNodes[k].hashSet.Add(id);

             }

             AddTrieNode(ref root.childNodes[k], nextWord, id);

         }

         #endregion

         #region 构建失败指针

         /// <summary>

         /// 构建失败指针(这里我们采用BFS的做法)

         /// </summary>

         public void BuildFailNodeBFS()

         {

             BuildFailNodeBFS(ref trieNode);

         }

         /// <summary>

         /// 构建失败指针(这里我们采用BFS的做法)

         /// </summary>

         /// <param name="root"></param>

         public void BuildFailNodeBFS(ref TrieNode root)

         {

             //根节点入队

             queue.Enqueue(root);

             while (queue.Count != )

             {

                 //出队

                 var temp = queue.Dequeue();

                 //失败节点

                 TrieNode failNode = null;

                 //26叉树

                 for (int i = ; i < ; i++)

                 {

                     //代码技巧：用BFS方式，从当前节点找其孩子节点，此时孩子节点

                     //         的父亲正是当前节点，（避免了parent节点的存在）

                     if (temp.childNodes[i] == null)

                         continue;

                     //如果当前是根节点，则根节点的失败指针指向root

                     if (temp == root)

                     {

                         temp.childNodes[i].faliNode = root;

                     }

                     else

                     {

                         //获取出队节点的失败指针

                         failNode = temp.faliNode;

                         //沿着它父节点的失败指针走，一直要找到一个节点，直到它的儿子也包含该节点。

                         while (failNode != null)

                         {

                             //如果不为空，则在父亲失败节点中往子节点中深入。

                             if (failNode.childNodes[i] != null)

                             {

                                 temp.childNodes[i].faliNode = failNode.childNodes[i];

                                 break;

                             }

                             //如果无法深入子节点，则退回到父亲失败节点并向root节点往根部延伸，直到null

                             //（一个回溯再深入的过程，非常有意思）

                             failNode = failNode.faliNode;

                         }

                         //等于null的话，指向root节点

                         if (failNode == null)

                             temp.childNodes[i].faliNode = root;

                     }

                     queue.Enqueue(temp.childNodes[i]);

                 }

             }

         }

         #endregion

         #region 检索操作

         /// <summary>

         /// 根据指定的主串，检索是否存在模式串

         /// </summary>

         /// <param name="s"></param>

         /// <returns></returns>

         public HashSet<int> SearchAC(string s)

         {

             HashSet<int> hash = new HashSet<int>();

             SearchAC(ref trieNode, s, ref hash);

             return hash;

         }

         /// <summary>

         /// 根据指定的主串，检索是否存在模式串

         /// </summary>

         /// <param name="root"></param>

         /// <param name="s"></param>

         /// <returns></returns>

         public void SearchAC(ref TrieNode root, string s, ref HashSet<int> hashSet)

         {

             int freq = ;

             TrieNode head = root;

             foreach (var c in s)

             {

                 //计算位置

                 int index = c - 'a';

                 //如果当前匹配的字符在trie树中无子节点并且不是root，则要走失败指针

                 //回溯的去找它的当前节点的子节点

                 while ((head.childNodes[index] == null) && (head != root))

                     head = head.faliNode;

                 //获取该叉树

                 head = head.childNodes[index];

                 //如果为空，直接给root,表示该字符已经走完毕了

                 if (head == null)

                     head = root;

                 var temp = head;

                 //在trie树中匹配到了字符，标记当前节点为已访问，并继续寻找该节点的失败节点。

                 //直到root结束，相当于走了一个回旋。(注意：最后我们会出现一个freq=-1的失败指针链)

                 while (temp != root && temp.freq != -)

                 {

                     freq += temp.freq;

                     //将找到的id追加到集合中

                     foreach (var item in temp.hashSet)

                         hashSet.Add(item);

                     temp.freq = -;

                     temp = temp.faliNode;

                 }

             }

         }

         #endregion

     }

 }

经典算法题每日演练——第八题 AC自动机的更多相关文章

经典算法题每日演练——第十七题 Dijkstra算法
原文:经典算法题每日演练--第十七题 Dijkstra算法或许在生活中,经常会碰到针对某一个问题,在众多的限制条件下,如何去寻找一个最优解?可能大家想到了很多诸如“线性规划”,“动态规划” 这些经典 ...
经典算法题每日演练——第十一题 Bitmap算法
原文:经典算法题每日演练--第十一题 Bitmap算法在所有具有性能优化的数据结构中,我想大家使用最多的就是hash表,是的,在具有定位查找上具有O(1)的常量时间,多么的简洁优美, 但是在特定的场 ...
经典算法题每日演练——第六题协同推荐SlopeOne 算法
原文:经典算法题每日演练--第六题协同推荐SlopeOne 算法相信大家对如下的Category都很熟悉,很多网站都有类似如下的功能,“商品推荐”,"猜你喜欢“,在实体店中我们有导购来为 ...
经典算法题每日演练——第七题 KMP算法
原文:经典算法题每日演练--第七题 KMP算法在大学的时候,应该在数据结构里面都看过kmp算法吧,不知道有多少老师对该算法是一笔带过的,至少我们以前是的, 确实kmp算法还是有点饶人的,如果说红黑树 ...
经典算法题每日演练——第十一题 Bitmap算法（转）
http://www.cnblogs.com/huangxincheng/archive/2012/12/06/2804756.html 在所有具有性能优化的数据结构中,我想大家使用最多的就是hash ...
经典算法题每日演练——第十六题 Kruskal算法
原文:经典算法题每日演练--第十六题 Kruskal算法这篇我们看看第二种生成树的Kruskal算法,这个算法的魅力在于我们可以打一下算法和数据结构的组合拳,很有意思的. 一:思想若存在M={0, ...
经典算法题每日演练——第十四题 Prim算法
原文:经典算法题每日演练--第十四题 Prim算法图论在数据结构中是非常有趣而复杂的,作为web码农的我,在实际开发中一直没有找到它的使用场景,不像树那样的频繁使用,不过还是准备仔细的把图论全部过 ...
笔试算法题（45）：简介 - AC自动机（Aho-Corasick Automation）
议题:AC自动机(Aho-Corasick Automation) 分析: 此算法在1975年产生于贝尔实验室,是著名的多模式匹配算法之一:一个常见的例子就是给定N个单词,给定包含M个字符的文章,要求 ...
codeforces水题100道第八题 Codeforces Round #274 (Div. 2) A. Expression (math)
题目链接:http://www.codeforces.com/problemset/problem/479/A题意:给你三个数a,b,c,使用+,*,()使得表达式的值最大.C++代码: #inclu ...

随机推荐

DirectShow基础编程最简单transform filter 编写步骤
目标编写一个transform filter,功能是对图像进行翻转. 一.选择基类从CBaseFilter派生出三个用于编写transform filter的类,各自是:CTransformFilt ...
paip.提高工作效率--数据绑定到table原则和过程Angular js jquery实现
paip.提高工作效率--数据绑定到table原理和流程Angular js jquery实现 html #--keyword 1 #---原理和流程 1 #----jq实现的代码 1 #----- ...
玩转Web之Json（二）----jquery easy ui + Ajax +Json+SQL实现前后台数据交互
最近在学Json,在网上也找过一些资料,觉得有点乱,在这里,我以easy ui的登录界面为例来说一下怎样用Json实现前后台的数据交互使用Json,首先需要导入一些jar包,这些资源可以在网上下载到 ...
Android UI - 实现广告Banner旋转木马效果
Android UI - 实现广告Banner旋转木马效果前言本篇博客要分享的一个效果是实现广告Banner轮播效果,这个效果也比較常见,一些视频类应用就常常有,就拿360影视大全来举例吧: 用红 ...
SDUT oj 3005 打怪升级(内存搜索)
当比赛一直纠缠骑2如何做一个非常大的数量,数组不开啊...后来他们发现自己很傻啊,该数不超过最大10什么,这个上限就是力量100什么.. .. 其它的就是记忆化搜索啊,还有就是加一点力量的瓶子当时就要 ...
java中float/double浮点数的计算失精度问题(转)
如果我们编译运行下面这个程序会看到什么? public class Test { public static void main(String args[]) { ...
spring整合redis客户端及缓存接口设计（转）
一.写在前面缓存作为系统性能优化的一大杀手锏,几乎在每个系统或多或少的用到缓存.有的使用本地内存作为缓存,有的使用本地硬盘作为缓存,有的使用缓存服务器.但是无论使用哪种缓存,接口中的方法都是差不多. ...
二元最近的共同祖先问题（O(n) time 而且，只有一次遍历，O(1) Space （它不考虑函数调用栈空间））
问题: 找到两个节点的二叉树的最近的共同祖先. 首先可以参考这个博客http://blog.csdn.net/cxllyg/article/details/7635992 ,写的比較具体,包含了节点包 ...
Jeditable 点击编辑文字插件
Jeditable - jQuery就地编辑插件使用 jeditable是一个jquery插件,它的优点是可以就地编辑,并且提交到服务器处理,是一个不可多得的就地编辑插件.(注: 就地编辑,也有称 ...
WebStorm的compass配置
在webstorm中配置compass WebStorm是功能强大的前端开发专用IDE,拥有即时编辑(chrome).自动完成.debugger.Emmet.HTML5 支持.JSLint.Less. ...

经典算法题每日演练——第八题 AC自动机

经典算法题每日演练——第八题 AC自动机的更多相关文章

随机推荐

热门专题