字典树

概述

    字典树,又称单词查找树Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。(引自百度百科《字典树》)

光说不懂,上引例——

NKOJ 1934 外地人

    你考入大城市沙坪坝的学校, 但是沙坪坝的当地人说着一种很难懂的方言, 你完全

听不懂。 幸好你手中有本字典可以帮你。 现在你有若干个听不懂的方言需要查询字典。

输入格式

第一行,两个整数n和m。

接下来有n行表示字典的内容,每行表示一条字典的记录。每条记录包含两个空格间隔的单词,第一个单词为英文单词,第二个单词为对应的沙坪坝方言。

接下来有m行,每行一个单词,表示你要查询的沙坪坝方言。

输出格式

输出m行,每行一个英文单词,表示翻译后的结果。

如果某个单词字典查不到,输出"eh"

样例输入

5  3

dog  ogday

cat  atcay

pig  igpay

froot  ootfray

loops  oopslay

atcay

ittenkay

oopslay

样例输出

cat

eh

loops

 注:所有单词都用小写字母表示, 且长度不超过10。

传送门http://oi.nks.edu.cn/zh/Problem/Details/1934

    我们看一下这张图先感受一下Trie树的结构,它是首先建立一个Root根节点,然后在读取后来的字符串的同时,从根节点出发,查找字符串每一位的节点是否存在。若存在,就从这一位出发继续查找下一位;若不存在,就建立这个节点。反复以上过程。注意,Trie树是将字符转换为ASCLL码存取,注意转换。

    显然,借用这样的数据结构,我们可以方便存取大量字符串,大幅度优化空间复杂度。

(不知道ASCLL的点这里)

Trie Tree的特点

  1. 根节点不包含字符, 除根节点外每一个节点都只包含一个字符。

  2. 从根节点到某一节点, 路径上经过的字符连接起来, 为该节点对应的字符串。

  3. 在trie树中查找一个关键字的时间和树中包含的结点数无关, 而取决于组成关键字的字符数。 也就是查找字符串s的时间为O(s.length())

  4. 如果要查找的关键字可以分解成字符序列且不是很长, 利用Trie树查找速度优于二叉查找树。

  如:若关键字长度最大是5, 则利用Trie树, 利用5次比较可以从265=11881376个可能的关键字中检索出指定的关键字。 而利用二叉查找树至少要进行log2265=23.5次比较。

接下来先给出引例题解的main函数部分(部分初始化未给出)——
struct node {
int Num; //如果该节点是一个单词的结尾,记录对应单词的编号
int Next[26]; //儿子节点的编号
}trie[1000001];
string s[100001], a;
int main() {
cin >> n >> m;
for (k = 1; k <= n; k ++){
cin >> s[k] >> a;
Insert(a, k);
}
for (k = 1; k <= m; k ++) {
cin >> a;
ans = Find(a);
if (ans)cout << s[ans];
else cout << "eh" << endl;
}
return 0;
}
接着是两个函数的部分——
void Insert(string c, int k) {
int i, t, len, p = 1;
len = c.length();
for (i = 0; i < len; i ++) {
t = c[i] - 'a';//将字符c[i]转换成值为0到25的数字,比如'a'转换为0,'b'转换为1,‘c’转换为2……
if (trie[p].Next[t] == 0) { //若p没有值为t的儿子
tot ++; //新增一个编号为tot的节点
trie[p].Next[t] = tot; //记下p的值为t的孩子节点的编号
p = trie[p].Next[t]; //p指向新添加的节点
trie[p].Num = 0; //初始化新添加的节点,将其标记为不是单词的结尾
} else p = trie[p].Next[t]; //若p存在值为t的儿子,p指向该儿子,继续讨论
}
trie[p].Num = k; //for循环已执行完,说明第k个单词已加入,在单词结尾做上标记
}

int Find(string c) {
int i, t, len, p = 1;
len = c.length();
for (i = 0; i < len; i ++) {
t = c[i] - 'a';
if (trie[p].Next[t] == 0)return 0; //当前要匹配值为t的字母,若没有则结束
p = trie[p].Next[t]; //若存在值为t的字母,则继续匹配
}
return trie[p].Num; //若for循环执行完毕,说明找到了需要的单词,返回其编号
}
以上的代码几乎就是字典树的模板,在不同的题中main函数或许有所不同,可以借此熟悉一下字典树的工作原理,再酌情修改。

Trie树的应用

 (1) 字符串检索

 (2) 字符串最长公共前缀

#######提供几道字典树的简单练习:

NKOJ 1931 电话簿

NKOJ 1932 找出克隆人

NKOJ 1933 彩色木条

NKOJ 1935 图书管理员

01字典树

    01字典树和普通的字典树原理类似,只不过把插入字符改成了插入二进制串的每一位(0或1)。裸的Trie树可以降低空间复杂度,而01还可以降低时间复杂度。

    它与普通的字典树一样先建立Root根节点,但它不存取复杂字符串,而只能存取含有“0”或“1”字符串或数字串。(所以十进制整数可以看做二进制进行存取)以首位为第一个节点建树,按照前面讲解的普通Trie树的工作原理,我们可以得到一个二叉树,而深度由数字范围决定,比如深度为20的01字典树可以进行存取0~221-1的所有数。

后缀自动机

AC自动机

(后续补充)

字典树基础进阶全掌握(Trie树、01字典树、后缀自动机、AC自动机)的更多相关文章

  1. AC自动机相关Fail树和Trie图相关基础知识

    装载自55242字符串AC自动机专栏 fail树 定义 把所有fail指针逆向,这样就得到了一棵树 (因为每个节点的出度都为1,所以逆向后每个节点入度为1,所以得到的是一棵树) 还账- 有了这个东西, ...

  2. Trie图和Fail树

    Trie图和AC自动机的区别 Trie图是AC自动机的确定化形式,即把每个结点不存在字符的next指针都补全了.这样做的好处是使得构造fail指针时不需要next指针为空而需要不断回溯. 比如构造ne ...

  3. codeforces 842 D. Vitya and Strange Lesson(01字典树+思维+贪心)

    题目链接:http://codeforces.com/contest/842/problem/D 题解:像这种求一段异或什么的都可以考虑用字典树而且mex显然可以利用贪心+01字典树,和线段树差不多就 ...

  4. 【BZOJ2434】阿狸的打字机(AC自动机,树状数组)

    [BZOJ2434]阿狸的打字机(AC自动机,树状数组) 先写个暴力: 每次打印出字符串后,就插入到\(Trie\)树中 搞完后直接搭\(AC\)自动机 看一看匹配是怎么样的: 每次沿着\(AC\)自 ...

  5. 【BZOJ2434】【NOI2011】阿狸的打字机(AC自动机,树状数组)

    [BZOJ2434]阿狸的打字机(AC自动机,树状数组) 先写个暴力: 每次打印出字符串后,就插入到\(Trie\)树中 搞完后直接搭\(AC\)自动机 看一看匹配是怎么样的: 每次沿着\(AC\)自 ...

  6. CodeForces -163E :e-Government (AC自动机+DFS序+树状数组)

    The best programmers of Embezzland compete to develop a part of the project called "e-Governmen ...

  7. 从Trie谈到AC自动机

    ZJOI的SAM让我深受打击,WJZ大神怒D陈老师之T3是SAM裸题orz...我还怎么混?暂且写篇`从Trie谈到AC自动机`骗骗经验. Trie Trie是一种好玩的数据结构.它的每个结点存的是字 ...

  8. 【AC自动机&&Trie图】积累

    以前KMP和后缀系列(主要是后缀数组,后缀自动机),都刷了一定数量的题,但是对于AC自动机,却有些冷落,罪过. 但是我感觉,在蓝桥杯比赛中AC自动机出现的概率比后缀系列大,简单的会考匹配,稍难一点会考 ...

  9. AC自动机——1 Trie树(字典树)介绍

    AC自动机——1 Trie树(字典树)介绍 2013年10月15日 23:56:45 阅读数:2375 之前,我们介绍了Kmp算法,其实,他就是一种单模式匹配.当要检查一篇文章中是否有某些敏感词,这其 ...

随机推荐

  1. C#版免费离线人脸识别——虹软ArcSoft V3.0

    [温馨提示] 本文共678字(不含代码),8张图.预计阅读时间需要6分钟. 1. 前言 人脸识别&比对发展到今天,已经是一个非常成熟的技术了,而且应用在生活的方方面面,比如手机.车站.天网等. ...

  2. 【python pip】一招解决pip下载过慢问题

    目录 概述 壹:问题描述 贰:解决过程 一.问题分析 二.问题解决 方法一:下载时加入参数-i [镜像源地址] 方法二:设置源 三.国内镜像源地址 叁:作者有话 作者 概述 在我们经常使用pip安装插 ...

  3. PHP的魔术常量(常用八大常量)

    PHP的魔术常量都是由不同的扩展库定义的,只有在加载了这些扩展时才会出现,或者动态加载后 有八个魔术常量他们的值随着他们在代码中的位置改变而改变. __LINE__  文件中的当前行号. 实列: &l ...

  4. 5G 将带给程序员哪些新机会呢?

    5G,第 5 代移动通信技术,华为在此领域远远领先同行,这也让它成了中美贸易战的最前线.我的第一份工作就在通信行业,当时电信标准都在欧美企业手里,国内企业主要是遵照标准研发软硬件设备,核心芯片靠进口. ...

  5. 通过CGAL将一个多边形剖分成Delaunay三角网

    目录 1. 概述 2. 实现 3. 结果 4. 参考 1. 概述 对于平面上的点集,通过Delaunay三角剖分算法能够构建一个具有空圆特性和最大化最小角特性的三角网.空圆特性其实就是对于两个共边的三 ...

  6. vue基础----组件通信(props,$emit,$attrs,$listeners)

    一.父传子,子传孙 1. props 1>在父组件中通过子组件自定义的标签属性来传递数据. 2>在子组件中通过props声明希望用到的数据 <body> <div id= ...

  7. (转)协议森林12 天下为公 (TCP堵塞控制)

    协议森林12 天下为公 (TCP堵塞控制) 作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! 在TCP协议中,我们使用连接记录TCP ...

  8. created:异步初始化数据都应该放到 created里面

    created:异步初始化数据都应该放到 created里面

  9. 「踩坑记」Android API 判断权限申请结果的闪退问题

    这几天尝试着用Android Studio写一个小工具的时候遇到了一个动态权限申请的问题.权限的申请使用的语句为: ActivityCompat.requestPermissions(this, ne ...

  10. Nginx 入门及基本命令行操作

    Nginx 介绍 Nginx 是一个高性能的 Web 服务器,从 2001 年发展至今,由于 Nginx 对硬件和操作系统内核特性的深度挖掘,使得在保持高并发的同时还能够保持高吞吐量.Nginx 还采 ...