body, table{font-family: 微软雅黑; font-size: 13.5pt}
table{border-collapse: collapse; border: solid gray; border-width: 2px 0 2px 0;}
th{border: 1px solid gray; padding: 4px; background-color: #DDD;}
td{border: 1px solid gray; padding: 4px;}
tr:nth-child(2n){background-color: #f8f8f8;}

后缀树:Trie树只适合前缀匹配和全字匹配,并不适合后缀和子串匹配。而后缀树(Suffix Tree)在这方面则非常适合。它与Trie树最大不同在于,后缀树的单词集合是由指定字符串的后缀子串构成。
eg: BIBS.
构造的后缀树如右图所示:
对于每个结点,包含两个数据成员,该结点出发可以到达的其他结点的指针(map)、从根结点到子孙结点的路径构成的子串在源字符串中的开始位置(vector)。
map<char,结点指针>、vector<int>


右图中包含4个子串,BIBS,BS,IBS,S。
BIBS中vector有两个数据0和2,因为BIBS和BS在源字符串中的位置是0和2.char==B,map有两个数据成员,一个为I和指向I的指针,另一个为S和指向S的指针。

#include<iostream>
#include<vector>
#include<map>
#include<string>
using namespace std;
class SuffixTreeNode  //后缀树的结点类
{
public:
        SuffixTreeNode() { }
        void insertString(string s,int idx);  //往后缀树中插入一个字符串
        vector<int> getIndex(string s);  //获取字符串在源字符串中出现的位置
        ~SuffixTreeNode();
private:
        map<char,SuffixTreeNode*> subTreeNode;  //结点出发可以到达的下一个字符以及指向该结点的指针
        vector<int> index;  //存放子字符串在S中的起始位置
        //可能有多个子串,或者从一个结点出发可以找到多个不同子串
};
void SuffixTreeNode::insertString(string s,int idx)
{//建立后缀树
        index.push_back(idx);  //字符串的起始位置保存.放到这里的原因,从root结点开始,等到字后一个字符的时候Str已被耗尽,也就是map没有元素了,但是这个结点index却要保存
        if(s.length()>0)  //如果字符串还没有耗尽,递归接着向下构造后缀树
        {
                char value = s[0];  //结点value的值解释字符串的第一个字符
                //判断该字符在不在该结点的map中,在就继续向下插入下一个字符,不在就新建一个结点并在当前结点的map中保存相关信息
                SuffixTreeNode* next = NULL;
                if(subTreeNode.find(value)!=subTreeNode.end())  //如果结点中存在该字符,next指针指向该结点
                {
                        next = subTreeNode.find(value)->second;
                }
                else  //没有该字符,就新建一个结点,并在当前结点的map中保存这个字符值,以及到这个字符的指针
                {
                        SuffixTreeNode* node = new SuffixTreeNode;
                        subTreeNode.insert(::make_pair(value,node));
                        next = node;
                }
                //递归利用字符串中的下一个字符接着构造后缀树
                string subStr = s.substr(1);
                next->insertString(subStr,idx);  //这个子串的起始位置是idx,以后一直是这个,不会变
        }
}
vector<int> SuffixTreeNode::getIndex(string s)
{
        //挨个字符匹配,最后返回最后一个字符所指向的结点的vector
        if(""==s)  //成功匹配到最后返回该结点的index
                return index;
        else
        {
                if(subTreeNode.find(s[0])!=subTreeNode.end())
                        return ((subTreeNode.find(s[0]))->second)->getIndex(s.substr(1));  //接着向下匹配
                else
                {//找不到,直接返回空
                        return vector<int>(0);
                }
        }
}
SuffixTreeNode::~SuffixTreeNode()
{//挨个释放动态申请的结点内存
        for(auto it = subTreeNode.begin();it!=subTreeNode.end();++it)
        {
                delete it->second;  //这里是一个递归过程
                it->second = NULL;
        }
}
class SuffixTree
{
public:
        SuffixTree(string str);  //用字符串(源串)初始化一个后缀树
        vector<int> getIndex(string str);  //获取一个字符串在源串中出现的位置
        ~SuffixTree();
private:
        SuffixTreeNode* _root;
};
SuffixTree::SuffixTree(string str)
{
        _root = new SuffixTreeNode();
        for(int idx=0;idx!=str.length();++idx)
        {
                string subStr = str.substr(idx);
                _root->insertString(subStr,idx);
        }
}
vector<int> SuffixTree::getIndex(string str)
{
        return _root->getIndex(str);
}
SuffixTree::~SuffixTree()
{
        delete _root;
        _root = NULL;
}

int main(int argc,char** argv)
{
        string testString = "mississippi";
        string arr[4] = {"is","sip","hi","sis"};
        SuffixTree tree(testString);
        for(int idx=0;idx!=4;++idx)
        {
                vector<int> ans = tree.getIndex(arr[idx]);
                cout<<arr[idx]<<" ";
                if(0!=ans.size())
                {
                        for(int iidx=0;iidx!=ans.size();++iidx)
                        {
                                cout<<ans[iidx]<<" ";
                        }
                        cout<<endl;
                }
                else
                {
                        cout<<"not find!"<<endl;
                }
        }
        system("pause");
}
查询效率:很显然,在上面的算法中,匹配成功正好比较了len(查找单词长度)次字符,则查询效率为O(len).
  后缀树还可以用来找出字符串S的最长重复子串S1(比如abcdabcefda里abc同da都重复出现,而最长重复子串是abc,利用vector大小和字符串长度就O(len)就可以找到)、找出字符串S1和S2的最长公共子串(比如字符串acdfg同akdfc的最长公共子串df)、找出字符串S的最长回文串S1(XMADAMYX的最长回文子串是MADAM)。

Suffix树,后缀树的更多相关文章

  1. 字符串 --- KMP Eentend-Kmp 自动机 trie图 trie树 后缀树 后缀数组

    涉及到字符串的问题,无外乎这样一些算法和数据结构:自动机 KMP算法 Extend-KMP 后缀树 后缀数组 trie树 trie图及其应用.当然这些都是比较高级的数据结构和算法,而这里面最常用和最熟 ...

  2. 【Todo】字符串相关的各种算法,以及用到的各种数据结构,包括前缀树后缀树等各种树

    另开一文分析字符串相关的各种算法,以及用到的各种数据结构,包括前缀树后缀树等各种树. 先来一个汇总, 算法: 本文中提到的字符串匹配算法有:KMP, BM, Horspool, Sunday, BF, ...

  3. BZOJ 3879: SvT [虚树 后缀树]

    传送门 题意: 多次询问,给出一些后缀,求两两之间$LCP$之和 哈哈哈哈哈哈哈竟然$1A$了,刚才还在想如果写不好这道题下节数学就不上了,看来是上天让我上数学课啊 $Suffix\ Virtual\ ...

  4. 后缀树(suffix tree)

    参考: 从前缀树谈到后缀树 后缀树 Suffix Tree-后缀树 字典树(trie树).后缀树 一.前缀树 简述:又名单词查找树,tries树,一种多路树形结构,常用来操作字符串(但不限于字符串), ...

  5. [算法]从Trie树(字典树)谈到后缀树

    我是好文章的搬运工,原文来自博客园,博主July_,地址:http://www.cnblogs.com/v-July-v/archive/2011/10/22/2316412.html 从Trie树( ...

  6. 012-数据结构-树形结构-哈希树[hashtree]、字典树[trietree]、后缀树

    一.哈希树概述 1.1..其他树背景 二叉排序树,平衡二叉树,红黑树等二叉排序树.在大数据量时树高很深,我们不断向下找寻值时会比较很多次.二叉排序树自身是有顺序结构的,每个结点除最小结点和最大结点外都 ...

  7. Trie树(代码),后缀树(代码)

    Trie树系列 Trie字典树 压缩的Trie 后缀树Suffix tree 后缀树--ukkonen算法 Trie是通过对字符串进行预先处理,达到加快搜索速度的算法.即把文本中的字符串转换为树结构, ...

  8. 后缀树的建立-Ukkonen算法

    参考: Ukkonen算法讲解 Ukkonen算法动画 Ukkonen算法,以字符串abcabxabcd为例,先介绍一下运算过程,最后讨论一些我自己的理解. 需要维护以下三个变量: 当前扫描位置# 三 ...

  9. [模板] 后缀自动机&&后缀树

    后缀自动机 后缀自动机是一种确定性有限状态自动机, 它可以接收字符串\(s\)的所有后缀. 构造, 性质 翻译自毛子俄罗斯神仙的博客, 讲的很好 后缀自动机详解 - DZYO的博客 - CSDN博客 ...

  10. POJ2774 --后缀树解法

    POJ2774 Long Long Message --后缀树解法 原题链接 题意明确说明求两字符串的最长连续公共子串,可用字符串hash或者后缀数据结构来做 关于后缀树 后缀树的原理较为简单,但 \ ...

随机推荐

  1. Mac python3.6 安装即使用 psycopg2

    学习下python调用PostgreSQL数据库 首先需要安装 psycopg2 python3安装: pip install psycopg2-binary 官网地址: https://pypi.o ...

  2. Webpack 常见静态资源处理 - 模块加载器(Loaders)+ExtractTextPlugin插件

    Webpack 常见静态资源处理 - 模块加载器(Loaders)+ExtractTextPlugin插件 webpack系列目录 webpack 系列 一:模块系统的演进 webpack 系列 二: ...

  3. 第 6 章 存储 - 043 - data-packed volume container

    data-packed volume container 将数据打包到镜像中,然后通过 docker managed volume 共享 1.先用Dockerfile 构建镜像 ADD 将静态文件添加 ...

  4. 停止学习框架(Stop Learning Frameworks)

    https://www.cnblogs.com/strick/p/10161733.html

  5. Web版记账本开发记录(一)

    //index.js var util = require("../../utils/util.js"); //获取应用实例 var app = getApp(); Page({ ...

  6. GPLT L2-014 列车调度

    题目链接:https://pintia.cn/problem-sets/994805046380707840/problems/994805063166312448 分析:明显从右到左列车的序号需要依 ...

  7. Leetcode 1013. 总持续时间可被 60 整除的歌曲

    1013. 总持续时间可被 60 整除的歌曲  显示英文描述 我的提交返回竞赛   用户通过次数450 用户尝试次数595 通过次数456 提交次数1236 题目难度Easy 在歌曲列表中,第 i 首 ...

  8. python 小练习 7

    有一楼梯共n级,刚开始时你在第一级,若每次只能跨上一级或二级,要走上第n级,共有多少种走法? 这其实是fibonacci数列,记走法为f(n),在n-1和n-2时你都可以直接跨上去.因此 f(n) = ...

  9. 1002. Find Common Characters查找常用字符

    参考:https://leetcode.com/problems/find-common-characters/discuss/247573/C%2B%2B-O(n)-or-O(1)-two-vect ...

  10. 关于cf[转]

    还不怎么熟悉cf呢.. 你应当知道的关于Codeforces的事情 Codeforces简称: cf(所以谈论cf的时候经常被误会成TX的那款游戏).网址: codeforces.com 这是一个俄国 ...