多模匹配算法之Aho-Corasick】的更多相关文章

背景 在做实际工作中,最简单也最常用的一种自然语言处理方法就是关键词匹配,例如我们要对n条文本进行过滤,那本身是一个过滤词表的,通常进行过滤的代码如下 for (String document : documents) { for (String filterWord : filterWords) { if (document.contains(filterWord)) { //process ... } } } 如果文本的数量是n,过滤词的数量是k,那么复杂度为O(nk):如果关键词的数量较多…
Aho - Corasick string matching algorithm 俗称:多模式匹配算法,它是对 Knuth - Morris - pratt algorithm (单模式匹配算法) 形成多模式匹配算法的一种改进,如果我们用单模式匹配算法实现多模式匹配算法,假如模式串有 M 个 , 则需要重复调用 M 次单模式匹配算法 : 举个很简单的例子,假如我现在有一本特殊的字典,字典中的词汇就是所有的模式串,然后给你一篇文章(全英文),让你查一下这篇文章中有多少个词汇在字典中可以查得到:(为…
这个是好几年前写的了.都统一放到cnblogs上面. --------------------------------Node ---------------------------------- package com; import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map; /** * @desc ac节点 * @date 2012-08-04 * */pu…
参考链接:http://www.cnblogs.com/zzqcn/p/3525636.html 感谢原文作者. 花了两天半时间实现并测试了算法. 按照上文的思路实现了一遍,可能是原文中有些地方描述的不是特别清楚,导致一开始测试的时候发现了各种匹配遗漏的情况,后经过自己各种努力终于解决了各种遗漏. 同时在实现过程中也遇到了各种小问题,最后都解决了,总结起来主要有四个大坑,自己实现的时候需要注意,四个坑都在代码的注释里面了. 这里的实现虽然不会有遗漏的情况,但会有同一模式串在相同的偏移多次被命中的…
除剔除那些含有敏感词的文本,由于有大量的敏感词,所以通过简单的正则表达式和字符串查找的方式效率太低,每次都有遍历一次字符串.而AC算法的核心思想就是避免不必要的回溯使搜索一直沿着向前的方向,最大可能的减小了时间复杂度,时间复杂度O(N),N为所有的字符串的长度,而且关键字的字数和长度无关. 基本思路 该算法核心:字典树的构建及搜索路径的确定 算法动画示例:确实很给力 1. 字典树的构造 就是把你要匹配的敏感词,用树结构来进行表示,树边就是单词中的字符,如下图所示,在单词的最后位置添加连接节点也就…
希望解决的问题 . 在一些高流量.高IO的WAF中,是如何对规则库(POST.GET)中的字符串进行多正则匹配的,是单条轮询执行,还是多模式并发执行 . Snort是怎么组织.匹配高达上千条的正则规则库的,怎样保证效率和准确性的平衡 . 状态机.Aho-Corasick算法的核心思想 . 怎么进行多模正则匹配的编程实现 相关学习资料 http://zh.wikipedia.org/wiki/%E7%A1%AE%E5%AE%9A%E6%9C%89%E9%99%90%E7%8A%B6%E6%80%8…
建议:学习ac算法最好的途径是看论文pdf_Efficient_String_Matching_An_Aid_to_Biblio 一.一般的搜索算法 keyword: { he, she, his, her }text: "ushers" 总结:如上图所示,一般的搜索过程需要每个关键字依次搜索,这是时间复杂度最高的算法.当然,可以把每个关键字搜索过程优化为 KMP 或者 BM 算法,但仍然需要每个关键字都搜索一遍.KMP.BM是单模匹配算法,使用多模匹配算法 AC 即可优雅解决此问题.…
场景:从很长的字符串(输入字符串.DNA)中搜索大量固定字符串(字典.基因) 题目:Determining DNA Health | HackerRank 算法:Aho–Corasick algorithm - Wikipedia 实现:zjffun/ahocorasick.js: Just a JS implementation of Aho–Corasick algorithm.…
1. 多模匹配 AC自动机(Aho-Corasick Automaton)是多模匹配算法的一种.所谓多模匹配,是指在字符串匹配中,模式串有多个.前面所介绍的KMP.BM为单模匹配,即模式串只有一个.假设主串\(T[1 \cdots m]\),模式串有k个\(\mathbb{P} = \{ P_1, \cdots, P_k\}\),且模式串集合的总长度为\(n\).如果采用KMP来匹配多模式串,则算法复杂度为: \[ O(|P_1|+m+\cdots + |P_k|+m)=O(n+km) \] 而…
2018-03-15 10:25:02 在计算机科学中,Aho–Corasick算法是由Alfred V. Aho和Margaret J.Corasick 发明的字符串搜索算法,用于在输入的一串字符串中匹配有限组“字典”中的子串.它与普通字符串匹配的不同点在于同时与所有字典串进行匹配.算法均摊情况下具有近似于线性的时间复杂度,约为字符串的长度加所有匹配的数量. AC自动机主要依靠构造一个有限状态机(类似于在一个trie树中添加失配指针)来实现.这些额外的失配指针允许在查找字符串失败时进行回退(例…