Trie树的理解

Trie树又称单词查找树，字典树，是哈希树的变种；

优点在于：最大限度地减少无谓的字符串比较，查询效率比哈希高；

缺点在于：空间消耗很大；

性质

其基本性质可以归纳为：

跟结点不包括字符，除跟结点以外，每个结点只包含一个字符；
从跟结点到某一个结点，路径上经过的字符连接起来，为该结点对应的字符串；
每个结点的所有子结点包含的字符串不相同；

其中结点对儿子的指向，有三种方法：

对每个结点开字母集大小的数组，对应的下标是儿子所表示的字母，内容则是这个儿子对应在大数组上的位置，即标号；
对每个结点连一个链表，按一定顺序记录每个儿子；
使用树的左儿子右兄弟表示法

第一种方法容易实现，但实际的空间要求比较大，第二种，较易实现，空间要求相对较小，但比较费时，第三种，空间要求最小，但相对费时而且不易写；

示意图

代码：

const int MAX_CHARS = 26;

class TrieNode {

public:

    TrieNode(string s) : isWord(false), word(s) {

        memset(children, 0, sizeof(children));

    }

    string word;

    bool isWord; // 标记该结点是否构成单词

    TrieNode* children[MAX_CHARS]; // 子树

};

class TrieTree {

public:

    TrieTree():root(new TrieNode("")) {}

    ~TrieTree() { freeTree(root); }

    TrieNode * getRoot() {

        return root;

    }

    void addWord(string & s) {

        TrieNode * node = root;

        string t;

        for (int i = 0; i < s.size(); ++i) {

            t += s[i];

            if (node->children[s[i] - 'a'] == NULL) {

                node->children[s[i] - 'a'] = new TrieNode(t);

            }

            node = node->children[s[i] - 'a'];

        }

        node->isWord = true;

    }

private:

    TrieNode * root;

    void freeTree(TrieNode* node) {

        for (int i = 0; i < MAX_CHARS; ++i) {

            if (node->children[i] != NULL) {

                freeTree(node->children[i]);

            }

        }

        delete node;

    }

};

例题

以例题 Word Search ||，从字符数组中连接字符并查找有无符合字符串数组的字符串；

贴上代码：

/// 使用Trie树进行

class TrieNode {

public:

    TrieNode(string s) : isWord(false), word(s) {

        memset(children, 0, sizeof(children));

    }

    string word;

    bool isWord; // 是否到达终点

    TrieNode* children[MAX_CHARS];

};

class TrieTree {

public:

    TrieTree():root(new TrieNode("")) {}

    ~TrieTree() { freeTree(root); }

    TrieNode * getRoot() {

        return root;

    }

    void addWord(string & s) {

        TrieNode * node = root;

        string t;

        for (int i = 0; i < s.size(); ++i) {

            t += s[i];

            if (node->children[s[i] - 'a'] == NULL) {

                node->children[s[i] - 'a'] = new TrieNode(t);

            }

            node = node->children[s[i] - 'a'];

        }

        node->isWord = true;

    }

private:

    TrieNode * root;

    void freeTree(TrieNode* node) {

        for (int i = 0; i < MAX_CHARS; ++i) {

            if (node->children[i] != NULL) {

                freeTree(node->children[i]);

            }

        }

        delete node;

    }

};

void helper2(vector<vector<char>> & board, TrieNode* root, vector<string> & result, int i, int j) {

    if (i < 0 || j < 0 || i >= board.size() || j >= board[0].size() || board[i][j] == '*')

        return;

    char ch = board[i][j];

    root = root->children[ch - 'a'];

    if (root == NULL) return;

    if (root->isWord) {

        result.push_back(root->word);

        root->isWord = false;

    }

    board[i][j] = '*';

    helper2(board, root, result, i - 1, j);

    helper2(board, root, result, i + 1, j);

    helper2(board, root, result, i, j - 1);

    helper2(board, root, result, i, j + 1);

    board[i][j] = ch;

}

vector<string> findWords3(vector<vector<char>>& board, vector<string>& words) {

    TrieTree t;

    for (int i = 0; i < words.size(); ++i) {

        t.addWord(words[i]);

    }

    vector<string> result;

    for (int i = 0; i < board.size(); ++i) {

        for (int j = 0; j < board[i].size(); ++j) {

            helper2(board, t.getRoot(), result, i, j);

        }

    }

    return result;

}

bool test() {

    vector<vector<char>> board1 = {

        {'o','a','a','n'},

        {'e','t','a','e'},

        {'i','h','k','r'},

        {'i','f','l','v'}

    };

    vector<string> words1 = {"oath","pea","eat","rain"};

    vector<vector<char>> board2 = {

        {"a", "a"}

    };

    vector<string> words2 = {"aaa"};

    vector<string> result = findWords3(board1, words1);

    cout << result.size() << endl;

    return true;

}

分析

在trie树中查找一个关键字的时间和树中包含的结点数目无关，而是取决于组成关键字的字符数。而二叉查找树的查找时间的树中的结点数目有关，其时间复杂度为O（log2n）。

如果要查找的关键字可以分解成字母序列并且不是很长，利用trie树查找速度优于二叉查找树。比如若关键字长度最大是5，则利用trie树，利用5次比较可以从26^5＝11881376个可能的关键字中检索出指定的关键字。而利用二叉查找树至少要进行次比较。

应用

字符串的检索，词频统计，搜索引擎的热门查询；

像是一些大数据的问题，像是：

有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。

给出N 个单词组成的熟词表，以及一篇全用小写英文书写的文章，请你按最早出现的顺序写出所有不在熟词表中的生词。

给出一个词典，其中的单词为不良单词。单词均为小写字母。再给出一段文本，文本的每一行也由小写字母构成。判断文本中是否含有任何不良单词。例如，若rob是不良单词，那么文本problem含有不良单词。

1000万字符串，其中有些是重复的，需要把重复的全部去掉，保留没有重复的字符串

寻找热门查询：搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录，这些查询串的重复读比较高，虽然总数是1千万，但是如果去除重复和，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就越热门。请你统计最热门的10个查询串，要求使用的内存不能超过1G。

字符串的最长公共前缀；

举例：

给出N 个小写英文字母串，以及Q 个询问，即询问某两个串的最长公共前缀的长度是多少. 解决方案：

首先对所有的串建立其对应的字母树。此时发现，对于两个串的最长公共前缀的长度即它们所在结点的公共祖先个数，于是，问题就转化为了离线（Offline）的最近公共祖先（Least Common Ancestor，简称LCA）问题。

而最近公共祖先问题同样是一个经典问题，可以用下面几种方法：

1. 利用并查集（Disjoint Set），可以采用采用经典的Tarjan 算法；

2. 求出字母树的欧拉序列（Euler Sequence ）后，就可以转为经典的最小值查询（Range Minimum Query，简称RMQ）问题了；

排序；

trie树是一颗多叉树，只需要先序遍历整棵树，输出相应的字符串便是字典序的结果。
作为其他数据结构和算法的辅助结构；

像是后缀树，AC自动机等；

这些问题，我打算在后面专门来做总结；

高级实现

双数组实现

Trie树理解的更多相关文章

Trie树理解
前言 Trie树又称单词查找树,字典树,是哈希树的变种: 优点在于:最大限度地减少无谓的字符串比较,查询效率比哈希高: 缺点在于:空间消耗很大: 性质其基本性质可以归纳为: 跟结点不包括字符,除跟结 ...
Trie树之C-实现
title: Trie树之C++实现 comments: true date: 2016-10-02 16:59:54 categories: 算法 tags: Trie树前言之前写了一篇偏向于理 ...
Atitit 常见的树形结构红黑树二叉树 B树 B+树 Trie树 attilax理解与总结
Atitit 常见的树形结构红黑树二叉树 B树 B+树 Trie树 attilax理解与总结 1.1. 树形结构-- 一对多的关系1 1.2. 树的相关术语: 1 1.3. 常见的树形结构 ...
【动画】看动画轻松理解「Trie树」
Trie树 Trie这个名字取自“retrieval”,检索,因为Trie可以只用一个前缀便可以在一部字典中找到想要的单词. 虽然发音与「Tree」一致,但为了将这种字典树与普通二叉树以示区别 ...
Trie树【P3879】 [TJOI2010]阅读理解
Description 英语老师留了N篇阅读理解作业,但是每篇英文短文都有很多生词需要查字典,为了节约时间,现在要做个统计,算一算某些生词都在哪几篇短文中出现过. Input 第一行为整数N,表示短文 ...
13-看图理解数据结构与算法系列(Trie树)
Trie树 Trie树,是一种搜索树,也称字典树或单词查找树,此外也称前缀树,因为某节点的后代存在共同的前缀.它的key都为字符串,能做到高效查询和插入,时间复杂度为O(k),k为字符串长度,缺点是如 ...
【BZOJ-4523】路由表 Trie树 + 乱搞
4523: [Cqoi2016]路由表 Time Limit: 30 Sec Memory Limit: 512 MBSubmit: 155 Solved: 98[Submit][Status][ ...
[知识点]Trie树和AC自动机
// 此博文为迁移而来,写于2015年5月27日,不代表本人现在的观点与看法.原始地址:http://blog.sina.com.cn/s/blog_6022c4720102w1s8.html 1.前 ...
字符串 --- KMP Eentend-Kmp 自动机 trie图 trie树后缀树后缀数组
涉及到字符串的问题,无外乎这样一些算法和数据结构:自动机 KMP算法 Extend-KMP 后缀树后缀数组 trie树 trie图及其应用.当然这些都是比较高级的数据结构和算法,而这里面最常用和最熟 ...

随机推荐

Ubuntu使用apt-get upgrade升级时出错
今天在按照常规的sudo apt-get update更新软件列表后,再使用sudo apt-get upgrade升级软件时,出现了以下的错误: 正在设置 linux-image-extra-4.4 ...
关于limit_req和limit_conn的区别
1,首先,limit_req和limit_conn两个模块都是为了来限流的,但是两者不在一个层面,为了搞清楚这个,必须先要弄清楚request和connection的区别,因为在很多情况下,我们把他们 ...
C#中HttpWebRequest的GetRequestStream执行的效率太低，甚至偶尔死掉
为了提高httpwebrequest的执行效率,查到了一些如下设置 request.ServicePoint.Expect100Continue = false; request.ServicePoi ...
记录一款Unity VR视频播放器插件的开发
效果图先上一个效果图: 背景公司最近在做VR直播平台,VR开发我们用到了Unity,而在Unity中播放视频就需要一款视频插件,我们调研了几个视频插件,记录两个,如下: Unity视频插件调研网 ...
01.Web基础和HTML初始
1.1 上网就是请求数据我们先不直接解决这个问题,我们做一个小实验.我们每个人的电脑里面,都有一个神秘的文件夹: C:\Users\Weiheng\AppData\Local\Microsoft\W ...
耗时任务DefaultEventExecutorGroup 定时任务
一. 耗时任务 static final EventExecutorGroup group = new DefaultEventExecutorGroup(16); // Tell the pipel ...
Java 容器的打印
Java容器类库中的两种主要类型,它们的区别在于容器中每个"槽"保存的元素个数 Clollection容器只能在保存一个元素,此类容器包括: List,它以特定顺序保存一组元素 S ...
hihoCoder #1184 : 连通性二·边的双连通分量（边的双连通分量模板）
#1184 : 连通性二·边的双连通分量时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述在基本的网络搭建完成后,学校为了方便管理还需要对所有的服务器进行编组,网络所的老 ...
基于docker 搭建Elasticsearch6.2.4(centos)
一.介绍 ElasticSearch是一个基于Lucene的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口.Elasticsearch是用Java开发的,并作为 ...
python类型学习
python类型学习标准类型数字 Integer 整型 Boolean 布尔型 Long integer 长整型 Floating point real numer 浮点型 Complex nu ...

Trie树 理解

Trie树的理解

性质

示意图

代码：

例题

分析

应用

高级实现

Trie树 理解的更多相关文章

随机推荐

热门专题

Trie树理解

Trie树理解的更多相关文章