=============:短链接设计思路:核心:将长字符转为短字符串并建立映射关系,存储redis中.1.使用crc32转换为Long 2.hashids将long encode为最短字符串.作为短连接后缀, ==========关键字过滤设计思路:1.将关键字列表中每个关键字字符转换为字典树,利用ac自动机算法匹配.--备注:KMP算法:查找模式串中最长相同的前缀和后缀的最长长度.即next[j]的值,失配索引j-next[j]=移动位数.字典树:将目标串按字符串起来,相同前缀则共享前缀,不…
题目链接 难得出一个AC自动机,我还没做到这个题呢...这题思路不难想,小小的状压出一维来,不过,D和R,让我wa死了,AC自动机,还得刷啊... #include<iostream> #include<cstring> #include<cstdio> #include<cmath> #include<algorithm> using namespace std; #define MOD 1000000007 ][][][]; ][]; ];…
Keywords Search Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 131072/131072 K (Java/Others) Total Submission(s): 57353    Accepted Submission(s): 18820 Problem Description In the modern time, Search engine came into the life of everybody li…
题目链接 先整理一发ac自动机模板.. #include <iostream> #include <vector> #include <cstdio> #include <cstring> #include <algorithm> #include <complex> #include <cmath> #include <map> #include <set> #include <string…
题目链接 手写一下AC自动机(我可没说我之前不是手写的) Trie上dp,每个点的贡献加上所有是他后缀的串的贡献,也就是这个点到根的fail链的和. #include <cstdio> #include <queue> #include <cstring> #include <algorithm> using namespace std; const int MAXK = 1010; const int MAXN = 1010; struct ACA{ in…
题目链接 AC自动机 解题思路 AC自动机模板题. 刚学AC自动机,写一篇博客增强理解. AC自动机最关键的一点在于,\(fail\)失配指针的构造. \(fail\)指针指向的地方,是匹配出现错误后进行重新匹配的位置,这说明,从根开始到\(fail\)指针指向的地方这一块字符串,正是我们刚刚失配之前配上的那一块字符串(子串),且为最长子串.这一点和KMP算法相同. AC代码 #include<stdio.h> #include<string.h> int ac[100010][2…
题目描述 Farmer John has purchased a subscription to Good Hooveskeeping magazine for his cows, so they have plenty of material to read while waiting around in the barn during milking sessions. Unfortunately, the latest issue contains a rather inappropria…
原文:https://blog.csdn.net/u013421629/article/details/83178970 一道bat面试题:快速替换10亿条标题中的5万个敏感词,有哪些解决思路? 有十亿个标题,存在一个文件中,一行一个标题.有5万个敏感词,存在另一个文件.写一个程序过滤掉所有标题中的所有敏感词,保存到另一个文件中. 1.DFA过滤敏感词算法 在实现文字过滤的算法中,DFA是比较好的实现算法.DFA即Deterministic Finite Automaton,也就是确定有穷自动机…
[Markdown阅读][1] 今天上班的时候收到一个需要短链接的需求,之前的做法都是使用了新浪的短链接API(https://api.weibo.com/2/short_url/shorten.json).但一是外网访问,二可能是新浪有所限制(毕竟是免费的),性能肯定不是太好.于是就想能不能自己实现一个,这样内网访问肯定快不少. 下班在班车上想了下,初步有些思路,记录一下,有什么说错的,欢迎指正.关于短链接的问题,我首先想到是两个问题: 1. 持久化的问题,是否有必要保证短链接永久有效? 2.…
AC自动机相关: $fail$树: $fail$树上以最长$border$关系形成父子关系,我们定一个节点对应的串为根到该节点的路径. 对于任意一个非根节点$x$,定$y = fa_{x}$,那$y$对应的串就是$x$对应的串的最长$border$,也就是说如果母串能走到$x$,那母串中一定存在一个子串对应了$y$,而且是当前母串匹配到当前位置的一个后缀. 求每个模式串在母串中出现的次数: 这应该算是AC自动机最基本的问题. 把母串在自动机上跑一遍,显然所有被访问过的节点都是母串的子串,但以当前…
前言 做过杭电.浙大或是北大等ACM题库的人一定对“刷题”不陌生,以杭电OJ为例:首先打开首页(http://acm.hdu.edu.cn/),然后登陆,接着找到“Online Exercise”下的“Problem Archive”,然后从众多题目中选择一个进行读题.构思.编程.然后提交.最后查看题解状态,如果AC了表示这一题被攻克了,否则就要重做了~一般情况下,“刷题”要求精神高度集中且经验丰富,否则很难成功AC,有时候甚至做一题要浪费半天的时间!(有时网速卡了,比抢火车票还要急!) 楼主在…
AC自动机 转载自:小白 还可参考:飘过的小牛 1.KMP算法: a. 传统字符串的匹配和KMP: 对于字符串S = ”abcabcabdabba”,T = ”abcabd”,如果用T去匹配S下划线部分是当前已经匹配好的前缀,当c和d不匹配时: S:abcabcabdabba            T:abcabd 传统的算法是将T串向后移动一个单位,然后重新匹配.如果利用KMP算法则直接将T向后移动3位,即: S:abcabcabdabba            T:       abcabd…
如今,Web服务高速发展的时代,各式各类的门户网站,如新浪http://www.sina.com.腾讯http://www.qq.com,这些网站大家都很容易记住,因为这种名称都是有规则和含义的.如果给你一个http://14.215.177.38,你肯定记不住这个网站是什么,可是我告诉你它就是百度首页. 所以,我们在开发一个网站系统的时候,还是要对链接进行优化的,而我理解的优化类型有伪静态与短连接. 其实,如果你数据结构学的不错,这个对你来说很容易理解,毕竟它就是一种地址映射的关系. 常识告诉…
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2222 思路分析:该问题为多模式匹配问题,使用AC自动机解决:需要注意的问题是如何统计该待查询的字符串包含的关键字: 假设待查找的字符串为str[0..n],则str[i…j]可能为某一个关键字:假设当前正在匹配字符str[k],则以str[i..k]为关键字的所有可能 可能的关键字的最后一个字符为str[k],使用fail指针进行跳转并判断以str[k]结尾的该结点是否为关键字最后一个结点,重复进行…
前几天无聊,忽然想写点有趣的代码,关于网络方面的,刚开始就想写一个能从oj上自动拉个比赛的软件,后来查资料时看到了神奇的AC自动机,于是自己也去实现了遍. 一天狂A 500多道...就当自娱自乐了.在这里提醒大家,AC需谨慎,我跑程序的时候已经将程序放慢了许多,也实时监控hdu(oj大部分题是从hdu拉的)是否卡住,但即使这样,还是伤到了学长的oj... 自动AC原理比较简单,大概就是几个步骤: 1. 从oj 获取某题的关键字(用于搜索,找出题解,关键字可以自己决定采用什么) 2. 百度搜索关键…
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1277 推荐一篇博客(看思路就可以,实现用的是java): https://www.cnblogs.com/nullzx/p/7499397.html 这是一道模板题,拿来练手,之前看了一篇博客,有点错误,但是hdu上面居然过了,最主要的是我在hdu上面三道AC自动机模板题都是这个错的代码,居然都过了,害的我纠结了一晚上,原来是数据太水了. 主要还是看上面的博客,写了点注释,不一定对,以后好拿来复习.…
题目链接:https://www.lydsy.com/JudgeOnline/problem.php?id=1559 分析: 这个题意真的是很**啊!!!直接说每一个字符串至少出现一次不就好了吗......一开始理解错了ORZ 观察发现这个东西是字符串相关,并且有多个模板串,所有串的长度短并且串的数量不多,最多10个,因此大概可以想到一个AC自动机上面的状压. 首先把被包含的单词去掉,它们对决策不影响,这样在写方程的时候就可以不考虑last了. 令f(i,l,s)表示当位于AC自动机的状态i时,…
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2222 一个常见的例子就是给出n个单词,再给出一段包含m个字符的文章,让你找出有多少个单词在文章里出现过: 本题就是最基础的模板:在此之前需要理解kmp和字典树(trie); Trie树有3个基本性质: (1) 根节点不包含字符,除根节点外每一个节点都只包含一个字符: (2) 从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串: (3) 每个节点的所有子节点包含的字符都不相同. 1.…
What-The-Fatherland is a strange country! All phone numbers there are strings consisting of lowercase English letters. What is double strange that a phone number can be associated with several bears! In that country there is a rock band called CF con…
一.短链接是什么 url=HPqdQ5VR3vA39x7ZWoWyNzwWnsDhTbh66BTpdzsJLroBDzFRm4JV-G818Zc027uZrwe7zxtxnD4H2FUahftpUK">短链接.通俗来说.就是将长的URL网址,通过程序计算等方式.转换为简短的网址字符串. 它的原理也很easy,就是採用 Domain Redirect(域名重定向) ,将一个域名自己主动跳转到另一个域名. 依据wikipedia描写叙述,短链接的方案最早在2000年诞生. 在2009年11月,…
原文出处:http://my.oschina.net/amince/blog/196426 原 荐 AC(Aho—Corasiek) 多模式匹配算法 摘要 如何在一篇文章中,搜索多个关键字,如何快速查找各关键字.本篇文章会介绍一种在一串字符串中匹配多个子串(不限于字符串)的多模式算法.下面会用到 KMP模式匹配算法 及 有限状态自动机(FSA) 匹配算法原理,建议先去了解下,对于阅读本篇文章有帮助. 多模式匹配算法 AC算法 Aho Corasiek 正则表达式 AC多模式匹配算法 目录[-]…
本文的主要宗旨是总结自己看了大佬们对AC自动机和trie 图 的一些理解与看法.(前沿:本人水平有限,总结有误,希望大佬们可以指出) KMP分割线------------------------------------------------------------------------------------------------------------------------------------- 引入:https://www.cnblogs.com/zhangtianq/p/583…
Trie树: 把若干个单词按前缀合并就得到一棵树,这棵树称为Trie树.Trie树是有根树,每条边表示一个字符,每个节点表示一个从根到当前节点的唯一路径上的字符依次连接得到的字符串.由于空串是任何串的前缀,因此根就表示“空串”这个串.如何区分单词节点和非单词节点呢?插入单词的时候对每个节点mark一下即可. KMP算法思想: 能匹配就匹配,不能匹配就进行尽量小的平移来达到匹配. 有限自动机: 自动机是一个处理信息的机器,它的核心是状态和状态转移(和dp一样??),通过设计不同的状态和状态转移函数…
What's Aho-Corasick automaton? 一种多模式串匹配算法,该算法在1975年产生于贝尔实验室,是著名的多模式匹配算法之一. 简单的说,KMP用来在一篇文章中匹配一个模式串:但如果有多个模式串,需要在一篇文章中把出现过的模式串都匹配出来,就需要Aho-Corasick automaton算法了. My Understanding About Aho-Corasick automaton   我的理解:Aho-Corasick automaton = Trie + KMP…
Keywords Search Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Others)Total Submission(s): 58007 Accepted Submission(s): 19043 Problem Description In the modern time, Search engine came into the life of everybody like Goog…
AC自动机简介:KMP是用于解决单模式串匹配问题, AC自动机用于解决多模式串匹配问题. 精华:设这个节点上的字母为C,沿着他父亲的失败指针走,直到走到一个节点,他的儿子中也有字母为C的节点.然后把当前节点的失败指针指向那个字目也为C的儿子.如果一直走到了root都没找到,那就把失败指针指向root. 如果用KMP来解决多模式串匹配问题,则复杂度为O(n + k * m), 而AC自动机的负责度为O(n + m + z), z为模式串出现的次数. 学习链接: http://hi.baidu.co…
题目链接 题意: 给n串有疾病的DNA序列,现有一串DNA序列,问最少修改几个DNA,能使新的DNA序列不含有疾病的DNA序列. 思路: 构建AC自动机,设定end结点,dp[i][j]表示长度i的前缀串走到自动机的j点最少需要修改几个DNA.状态转移方程.那么只要转移到下一个的DNA不是end结点就能转移,如果下一个DNA不和原序列不一样就+1. #include <bits/stdc++.h> const int N = 50 + 5; const int M = 1000 + 5; co…
有了KMP和Trie的基础,就可以学习神奇的AC自动机了.AC自动机其实就是在Trie树上实现KMP,可以完成多模式串的匹配.           AC自动机 其实 就是创建了一个状态的转移图,思想很重要.           推荐的学习链接: http://acm.uestc.edu.cn/bbs/read.php?tid=4294 http://blog.csdn.net/niushuai666/article/details/7002823 http://hi.baidu.com/nial…
专题链接 第一题--hdu2222 Keywords Search ac自动机的模板题,入门题.  题解 第二题--hdu2896 病毒侵袭   一类病毒的入门题,类似模板  题解 第三题--hdu3065 病毒侵袭持续中   上一篇的姊妹篇,套模板.题解 第四题--zoj3430 Detect the Virus 需要解码,然后再普通自动机.题解 第五题--poj1625Censored! 大数dp+自动机,有空还需整理一下大数的写法.题解 第六题--poj2778DNA Sequence 矩…
链接:http://acm.hdu.edu.cn/showproblem.php?pid=5384 题意:给n个母串,给m个匹配串,求每个母串依次和匹配串匹配,能得到的数目和. 分析:之前并不知道AC自动机是用来求什么的,但翻模板的时候看见邝斌的字符串模板里有AC自动机一项,就看了一下,然后发现和题目要解决的问题一模一样.就开始改模板.结果没想到就是个裸的AC自动机,以为会TLE,10^10呢,迟迟不敢交,又被坑了. 目前对原理还一无所知. #include <stdio.h> #includ…