hdu 2222 Keywords Search - Aho-Corasick自动机
Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Others)
Total Submission(s): 51758 Accepted Submission(s):
16671
everybody like Google, Baidu, etc.
Wiskey also wants to bring this feature to
his image retrieval system.
Every image have a long description, when users
type some keywords to find the image, the system will match the keywords with
description of image and show the image which the most keywords be
matched.
To simplify the problem, giving you a description of image, and some
keywords, you should tell me how many keywords will be match.
cases will follow by.
Each case will contain two integers N means the number
of keywords and N keywords follow. (N <= 10000)
Each keyword will only
contains characters 'a'-'z', and the length will be not longer than 50.
The
last line is the description, and the length will be not longer than
1000000.
description.
she
he
say
shr
her
yasherhs
aa
bb
aa
aabbcc
2.多组数据,第一个输入的数是数据组数(这个问题应该不大)
3.如果用数组的话不要一次性用memset把整个数组都赋值,这样的话是十分浪费时间的
接着附上用指针写的AC自动机(虽说我用数组写了一个,调试了2天都没有调出来,果断重写)
Code
/*
* acm.hdu.edu.cn
* Problem#2222
* Accepted
* Time:296ms
* Memory:58152k
*/
#include<iostream>
#include<cstdio>
#include<queue>
#include<cstring>
using namespace std;
#define SEG_SIZE 26
typedef class TrieNode{
public:
TrieNode* next[SEG_SIZE];
TrieNode* fail; //失配指针
TrieNode* last; //后缀链接
int value;
TrieNode():fail(NULL),last(NULL),value(){
memset(next, , sizeof(next));
}
}TrieNode;
typedef class Trie {
public:
TrieNode* root;
Trie(){
root = new TrieNode();
}
static int cti(char ch){ //将字符转换成Trie树中next数组的下标
return ch - 'a';
}
void insert(string s){
TrieNode *p = root;
for(int i = ;i < s.length();i++){
int c = cti(s[i]);
if(p->next[c] == NULL){
TrieNode *newNode = new TrieNode();
p->next[c] = newNode; //链接结点
}
p = p->next[c];
}
p->value++; //用结点的特殊值来存储有多少个单词是在这结尾
}
}Trie;
typedef class AhoMachine{
public:
Trie trie;
int count;
AhoMachine(){
trie = Trie();
count = ;
}
void getFail(){
queue<TrieNode*> que; //以bfs序构造状态转移图
trie.root->fail = trie.root;
for(int i = ;i < SEG_SIZE;i++){
TrieNode* pNode = trie.root->next[i];
if(pNode != NULL){
que.push(pNode);
pNode->fail = trie.root; //根节点的直接子节点的失配指针都是指向根节点
}
}
while(!que.empty()){
TrieNode* p = que.front();
que.pop();
for(int i = ;i < SEG_SIZE;i++){
TrieNode* pNode = p->next[i];
if(pNode == NULL) continue;
que.push(pNode);
TrieNode* pFail = p->fail;
//直到匹配,或者已经指向了根节点
while(pFail != trie.root && pFail->next[i] == NULL) pFail = pFail->fail;
pNode->fail = pFail->next[i];
if(pNode->fail == NULL) pNode->fail = trie.root;
//后缀链接的链接,指向失配后的结点或失配后的结点的后缀链接
pNode->last = (pNode->fail->value != )?(pNode->fail):(pNode->fail->last);
}
}
}
//当匹配完,或者是在一条链的中途仍然可能存在有匹配的结点
void rfind(TrieNode *p){
if(p != NULL){
count += p->value;
rfind(p->last);
p->value = ;
}
}
void find(string s){
TrieNode *pNode = trie.root;
for(int i = ;i < s.length();i++){
int c = Trie::cti(s[i]);
while(pNode != trie.root && pNode->next[c] == NULL) pNode = pNode->fail;
pNode = pNode->next[c];
if(pNode == NULL) pNode = trie.root;
if(pNode->value != ) rfind(pNode); //判断有没有可能匹配完其它的模板
else if(pNode->last != NULL) rfind(pNode->last);
}
}
}AC;
AC *ac;
int cases;
string buf;
int n;
int main(){
ios::sync_with_stdio(false); //取消同步,加快cin读取字符串的速度
cin>>cases;
while(cases--){
ac = new AC();
cin>>n;
for(int i = ;i < n;i++){
cin>>buf;
ac->trie.insert(buf);
}
cin>>buf;
ac->getFail();
ac->find(buf);
cout<<ac->count<<endl;
delete ac;
}
return ;
}
[后记]
#include<iostream>
#include<fstream>
#include<cstdio>
#include<cstdlib>
#include<ctime>
#include<sstream>
using namespace std;
ofstream fout("ks.in");
//测试数据最少组数
#define CASE_LOW 3
//测试数据最大生成组数(CASE_LOW + CASE_LIMIT - 1)
#define CASE_LIMIT 10
//关键字最小生成组数
#define KEYWORD_LOW 3
#define KEYWORD_LIMIT 10
#define KEYWORD_MAX_LEN 5
//生成文章的次数
#define STR_TIMES 10
#define SUBSTR_LEN 5
string buf[KEYWORD_LIMIT + KEYWORD_LOW];
string str;
int _count;
string operator +(string str, char c){
stringstream ss;
ss<<str<<c;
return ss.str();
}
int main(){ srand((unsigned)time(NULL)); int cases = rand()%CASE_LIMIT + CASE_LOW;
fout<<cases<<endl; for(int i = ;i < cases;i++){ _count = rand()%KEYWORD_LIMIT + KEYWORD_LOW;
fout<<_count<<endl;
for(int j = ; j <= _count;j++){
int len = rand()%KEYWORD_MAX_LEN + ;
buf[j] = "";
for(int k = ; k <= len;k++){
buf[j] = buf[j] + (char)(rand()% + 'a');
}
fout<<buf[j]<<endl;
} int times = rand()%STR_TIMES + ;
str = "";
for(int j = ;j <= times;j++){ int v = rand()%;
if(v == ){
str += buf[rand()%_count + ];
}else{
int len = rand()%SUBSTR_LEN + ;
for(int i = ;i <= len;i++){
str = str + (char)(rand()% + 'a');
}
} } fout<<str<<endl; } fout.close();
return ;
}
md_ks.cpp
hdu 2222 Keywords Search - Aho-Corasick自动机的更多相关文章
- HDU 2222 Keywords Search(AC自动机模版题)
Keywords Search Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Others ...
- HDU 2222 Keywords Search(AC自动机模板题)
http://acm.hdu.edu.cn/showproblem.php?pid=2222 题意:给出多个单词,最后再给出一个模式串,求在该模式串中包含了多少个单词. 思路: AC自动机的模板题. ...
- HDU 2222 Keywords Search 【AC自动机】
题目链接:[http://acm.hdu.edu.cn/showproblem.php?pid=2222] 题意:给出很多小字符串,然后给出一个文本串,问文本串中包含多少个小字符串.也就是说如果文本串 ...
- HDU 2222 Keywords Search (AC自动机)
题意:给你一些模式串,再给你一串匹配串,问你在匹配串中出现了多少种模式串,模式串可以相同 AC自动机:trie树上进行KMP.首先模式串建立trie树,再求得失配指针(类似next数组),其作用就是在 ...
- HDU 2222 Keywords Search(AC自动机入门)
题意:给出若干个单词和一段文本,问有多少个单词出现在其中.如果两个单词是相同的,得算两个单词的贡献. 分析:直接就是AC自动机的模板了. 具体见代码: #include <stdio.h> ...
- HDU 2222 Keywords Search(AC自动机)题解
题意:给你几个keywords,再给你一段文章,问你keywords出现了几次. 思路:这里就要用到多模匹配算法AC自动机了,AC自动机需要KMP和字典树的知识,匹配时是在字典树上,失配我们就要用到类 ...
- HDU 2222 Keywords Search 【AC自动机模板】
询问有多少个模式串出现在了文本串里面.将模式串插入Trie树中,然后跑一边AC自动机统计一下就哦了. 献上一份模板. #include <cstdio> #include <cstr ...
- hdu 2222 Keywords Search(AC自动机)
/* 啥也不说了,直接套模板... */ 1 #include<iostream> #include<map> #include<string> #include& ...
- HDU 2222 Keywords Search(查询关键字)
HDU 2222 Keywords Search(查询关键字) Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/131072 K ...
- hdu 2222 Keywords Search
链接:http://acm.hdu.edu.cn/showproblem.php?pid=2222 思路:裸AC自动机,直接贴代码做模板 #include<stdio.h> #includ ...
随机推荐
- Java中子类是否可以继承父类的static变量和方法而呈现多态特性
静态方法 通常,在一个类中定义一个方法为static,那就是说,无需本类的对象即可调用此方法,关于static方法,声明为static的方法有以下几条限制: 它们仅能调用其他的static 方法. 它 ...
- 洛谷P1084 疫情控制 [noip2012] 贪心+树论+二分答案 (还有个小bugQAQ
正解:贪心+倍增+二分答案 解题报告: 正好想做noip的题目然后又想落实学长之前讲的题?于是就找上了这题 其实之前做过,70,然后实在细节太多太复杂就不了了之,现在再看一遍感觉又一脸懵了... 从标 ...
- 洛谷P4344 脑洞治疗仪 [SHOI2015] 线段树+二分答案/分块
!!!一道巨恶心的数据结构题,做完当场爆炸:) 首先,如果你用位运算的时候不小心<<打成>>了,你就可以像我一样陷入疯狂的死循环改半个小时 然后,如果你改出来之后忘记把陷入死循 ...
- 【Pyton】【小甲鱼】异常处理:你不可能总是对的
Exception 1.assertionerror举例 >>> my_list=['小甲鱼是帅哥'] >>> assert len(my_list)>0 & ...
- python基础班-淘宝-目录.txt
卷 TOSHIBA EXT 的文件夹 PATH 列表卷序列号为 AE86-8E8DF:.│ python基础班-淘宝-目录.txt│ ├─1-1 Linux基础│ ├─01-课程简介│ │ 01-课程 ...
- mount –o remount,rw /
mount –o remount,rw / 重新挂载为已经挂载了的文件系统(以读写权限挂载),需要注意的是,挂载点必须是一个已经存在的目录,这个目录可以不为空.一般用于此目录下的文件为ro权限,需要临 ...
- 飞跃平野(sdut1124)
http://acm.sdut.edu.cn/sdutoj/problem.php?action=showproblem&problemid=1124 飞跃原野 Time Limit: 500 ...
- ev3_basic——HITCON CTF 2018
[MISC] EN-US This challenge provides a jpg file and a pklg file. The jpg is shown a part of string o ...
- python 皮尔森相关系数
皮尔森理解 皮尔森相关系数(Pearson correlation coefficient)也称皮尔森积矩相关系数(Pearson product-moment correlation coeffic ...
- 7.7 Models -- Working with Records
Modifying Attributes 1. 一旦一条record被加载,你可以开始改变它的属性.在Ember.js对象中属性的行为就像正常的属性.作出改变就像设置你想要改变的属性一样简单: var ...