poj_3987 Trie图

题目大意

有N个病毒，病毒由A-Z字母构成，N个病毒各不相同。给出一段程序P，由A-Z字母构成，若病毒在在程序P或者P的逆转字符串P'中存在，则该程序P被该病毒感染。求出程序P被多少种病毒感染。

题目分析

典型的多模式串的字符串匹配问题，考虑使用Trie图。将M个待查的字符串作为模式串插入Trie图中，然后设置前缀指针，构造DFA。
判断程序P字符串翻转之后，是否含有某个模式串，一种方法是将P翻转，然后在DFA上查找；另一种是在构造DFA的时候，将模式串翻转，然后插入Trie图中，在匹配母串的时候就不需要将母串翻转了。
使用第二种方法需要注意的是，可能有两个模式串互为翻转。在Trie图的node节点中维护信息 pattern_index,若某节点为某个模式串的终止节点，则pattern_index为该模式串的序号（从1开始），若节点不是某个模式串的终止节点，则pattern_index = 0. 考虑两个模式串互为翻转（而且最多有两个模式串互为翻转）的情况，可以将pattern_index的高16bit作为pattern1的index，低16bit作为pattern2的index。

实现的时候，出现了几次超时。主要是重复访问了前缀指针节点。通过如下方法剪枝:

在trie图中遇到一个危险节点N（不一定为终止节点），此时母串遍历到当前位置P，可以确定在P之前，肯定出现了模式串
    在N第一次被访问的时候，可以通过前缀指针找到N之前的所有模式串(需要不断的找prev，直到node到达根节点，比如 ABCDE中有模式串 BCDE, CDE, DE，需要不断的找前缀指针直到root，来防止遗漏某个模式串）

遇到危险节点N，向前找前缀指针的时候，碰到某个之前被访问过的节点A，即可返回.这是因为:
    若A为危险节点，则它肯定在第一次被访问的时候就进行和N相同的处理（向前找模式串）
    若A不是危险节点，在第一次被访问的时候，通过A的前缀指针，前缀指针的前缀指针....能到达的模式串都被找到了。因此之后再次碰到A，直接返回即可。

实现(c++)

#define _CRT_SECURE_NO_WARNINGS

#include<stdio.h>

#include<string.h>

#include<queue>

#include<algorithm>

using namespace std;

#define LETTERS 26

#define MAX_NODES 500000

#define MAX_VIRUS_LEN 1004

#define MAX_PROGRAM_LEN 5100005

#define MAX_VIRUS_NUM 255

char gProgram[MAX_PROGRAM_LEN];

bool gVirusVisited[MAX_VIRUS_NUM];

int gVirusFindNum;

int gVirusNum;

struct Node{

	Node* childs[LETTERS];

	Node* prev;

	bool danger_node;

	int pattern_index;

	bool visited;			//判断节点是否被访问过

	//在trie图中遇到一个危险节点N（不一定为终止节点），此时母串遍历到当前位置P，可以确定在P之前，肯定出现了模式串

	//在N第一次被访问的时候，可以通过前缀指针找到N之前的所有模式串

	//(需要不断的找prev，直到node到达根节点，比如 ABCDE中有模式串 BCDE, CDE, DE，需要不断的找前缀指针直到root，来防止遗漏某个模式串）

	//遇到危险节点N，向前找前缀指针的时候，碰到某个之前被访问过的节点A，即可返回

	//这是因为，若A为危险节点，则它肯定在第一次被访问的时候就进行和N相同的处理（向前找模式串）

	//若A不是危险节点，在第一次被访问的时候，通过A的前缀指针，前缀指针的前缀指针....能到达的模式串都被找到了。因此之后

	//再次碰到A，直接返回即可。

};

Node gNodes[MAX_NODES];

int gNodeCount;

void Insert(Node* root, char* str, int pat){

	char*p = str;

	Node* node = root;

	while (*p != '\0'){

		int index = *p - 'A';

		if (node->childs[index] == NULL){

			node->childs[index] = gNodes + gNodeCount++;

		}

		node = node->childs[index];

		p++;

	}

	node->danger_node = true;

	if (node->pattern_index == 0)

		node->pattern_index = pat;

	else{	//有可能两个virus串，互为逆串

		node->pattern_index <<= 16;

		node->pattern_index |= pat;

	}

}

void BuildDfa(){

	Node* root = gNodes + 1;

	for (int i = 0; i < LETTERS; i++){

		gNodes[0].childs[i] = root;

	}

	root->prev = gNodes;

	gNodes[0].prev = NULL;

	queue<Node*> Q;

	Q.push(root);

	while (!Q.empty()){

		Node* node = Q.front();

		Q.pop();

		Node* prev = node->prev;

		Node* p;

		for (int i = 0; i < LETTERS; i++){

			if (node->childs[i]){

				p = prev;

				while (p && !p->childs[i]){

					p = p->prev;

				}

				node->childs[i]->prev = p->childs[i];

				if (p->childs[i]->danger_node)

					node->childs[i]->danger_node = true;

				Q.push(node->childs[i]);

			}

		}

	}

}

void FindPatternFromEndPoint(Node* node){

	do{

		if (node->visited)	//若该节点之前被访问过，则直接返回

			return;

		node->visited = true;

		if (node->pattern_index){

			if (node->pattern_index <= gVirusNum){

				if (! gVirusVisited[node->pattern_index]){

					gVirusVisited[node->pattern_index] = true;

					gVirusFindNum++;

				}

			}

			else{ //两个模式串互为逆串

				int virus1 = node->pattern_index & 0xFFFF;

				int virus2 = node->pattern_index >> 16;

				if (!gVirusVisited[virus1]){

					gVirusVisited[virus1] = true;

					gVirusFindNum++;

				}

				if (!gVirusVisited[virus2]){

					gVirusVisited[virus2] = true;

					gVirusFindNum++;

				}

			}

		}

		node = node->prev;

	} while (node->prev);

}

void Search(Node* root, char* str, int n){

	char*p = str;

	Node* node = root;

	while (*p != '\0'){

		int index = *p - 'A';

		if (gVirusFindNum >= n){

			return;

		}

		while (node && node->childs[index] == NULL){

			node = node->prev;

		}

		node = node->childs[index];

		if (node->danger_node){

			FindPatternFromEndPoint(node);

		}

		p++;

	}

}

int main(){

	int cas;

	scanf("%d", &cas);

	char virus[MAX_VIRUS_LEN];

	while (cas--){

		int n;

		memset(gNodes, 0, sizeof(gNodes));

		gNodeCount = 2;

		memset(gVirusVisited, false, sizeof(gVirusVisited));

		gVirusFindNum = 0;

		scanf("%d", &n);

		gVirusNum = n;

		getchar();

		for (int i = 0; i < n; i++){

			scanf("%s", virus);

			Insert(gNodes + 1, virus, i + 1);

			reverse(virus, virus + strlen(virus));

			Insert(gNodes + 1, virus, i + 1);

		}

		BuildDfa();

		getchar();

		char tmp;

		int k = 0;

		for (;;){

			scanf("%c", &tmp);

			if (tmp == '\n')

				break;

			if (tmp != '['){

				gProgram[k++] = tmp;

			}

			else{

				int num;

				scanf("%d", &num);

				scanf("%c", &tmp);

				for (int i = 0; i < num; i++){

					gProgram[k++] = tmp;

				}

				scanf("%c", &tmp);

			}

		}

		gProgram[k++] = '\0';

		Search(gNodes + 1, gProgram, n);

		printf("%d\n", gVirusFindNum);

	}

	return 0;

}

poj_3987 Trie图的更多相关文章

【BZOJ-2938】病毒 Trie图 + 拓扑排序
2938: [Poi2000]病毒 Time Limit: 1 Sec Memory Limit: 128 MBSubmit: 609 Solved: 318[Submit][Status][Di ...
【hihoCoder】1036 Trie图
题目:http://hihocoder.com/problemset/problem/1036 给一个词典dict,词典中包含了一些单词words.要求判断给定的一个文本串text中是否包含这个字典中 ...
【hihoCoder 1036】Trie图
看了一下简单的$Trie图$,调模板调啊调一连调了$2h$,最后发现$-'a'$打成$-'A'$了hhh,有种摔键盘的冲动. $Trie图$是$Trie树$上建立“前缀边”,不用再像在$Trie树$上 ...
字符串 --- KMP Eentend-Kmp 自动机 trie图 trie树后缀树后缀数组
涉及到字符串的问题,无外乎这样一些算法和数据结构:自动机 KMP算法 Extend-KMP 后缀树后缀数组 trie树 trie图及其应用.当然这些都是比较高级的数据结构和算法,而这里面最常用和最熟 ...
Trie图和Fail树
Trie图和AC自动机的区别 Trie图是AC自动机的确定化形式,即把每个结点不存在字符的next指针都补全了.这样做的好处是使得构造fail指针时不需要next指针为空而需要不断回溯. 比如构造ne ...
hdu2457 Trie图+dp
hdu2457 给定n个模式串, 和一个文本串问如果修改最少的字符串使得文本串不包含模式串, 输出最少的次数,如果不能修改成功,则输出-1 dp[i][j] 表示长度为i的字符串, 到达状态j(Tr ...
Trie图
AC自动机是KMP的多串形式,当文本串失配时,AC自动机的fail指针告诉我们应该跳到哪里去继续匹配(跳到当前匹配串的最长后缀去),所以AC自动机的状态是有限的但是AC自动机具有不确定性, 比如要求 ...
CF 291E. Tree-String Problem [dfs kmp trie图优化]
CF291E 题意:一棵树,每条边上有一些字符,求目标串出现了多少次直接求目标串的fail然后一边dfs一边跑kmp 然后就被特殊数据卡到$O(n^2)$了... 因为这样kmp复杂度分析的基础 ...
AC自动机相关Fail树和Trie图相关基础知识
装载自55242字符串AC自动机专栏 fail树定义把所有fail指针逆向,这样就得到了一棵树 (因为每个节点的出度都为1,所以逆向后每个节点入度为1,所以得到的是一棵树) 还账- 有了这个东西, ...

随机推荐

Java 获取webapp，Root，classpath，项目等路径工具类
public class UtilPath { public static void main(String[] args) { String systemName = System.getPrope ...
R语言学习笔记之<在Linux上遇到的问题集锦>
Standalone模式:Standalone模式运行的Spark集群对不同的应用程序采用先进先出(FIFO)的顺序进行调度.默认情况下每个应用程序会独占所有可用节点的资源. 现在版本的SparkR只 ...
Java并发编程基础
Java并发编程基础 1. 并发 1.1. 什么是并发? 并发是一种能并行运行多个程序或并行运行一个程序中多个部分的能力.如果程序中一个耗时的任务能以异步或并行的方式运行,那么整个程序的吞吐量和可交互 ...
JSONObject、JSONArray
最近两个星期接触最多的就是json和map了. 之前用到的json,就是一个键对应一个值,超级简单的一对一关系.现在用到的json那可以层层嵌套啊,刚开始接触的时候,确实有种崩溃的赶脚,不想去理,取个 ...
dm8127前段采集和抓拍
高清监控(944275216) 2014-1-17 9:36:24自主研发高清网络摄像机,720P.960P.1080P系列产品,经济型.低照型.宽动态型等各种机型可选,支持onvif.P2 ...
（转）SDL2.0在mfc窗口中显示yuv的一种方法
DWORD ThreadFun() { //用mfc窗口句柄创建一个sdl window SDL_Window * pWindow = SDL_CreateWindowFrom( (voi ...
linux -- 管道“|”
利用Linux所提供的管道符“|”将两个命令隔开,管道符左边命令的输出就会作为管道符右边命令的输入.连续使用管道意味着第一个命令的输出会作为第二个命令的输入,第二个命令的输出又会作为第三个命令的输入 ...
FusionMap 检测融合基因
定义:融合基因是指两个或者多个基因联合起来,一起转录形成一个转录本: 检测的意义:融合基因可以作为某些疾病的特异分子标记,比如 bcr/abl融合基因存在于95%以上的慢性粒细胞白血病患者中: AML ...
最短路径问题-Dijkstra
概述与前面说的Floyd算法相比,Dijkstra算法只能求得图中特定顶点到其余所有顶点的最短路径长度,即单源最短路径问题. 算法思路 1.初始化,集合K中加入顶点v,顶点v到其自身的最短距离为0, ...
iOS: Assertion failure on picker view
Q:I'm getting an assertion failure while scrolling a picker view w/ zero data(zero rows). While scro ...