场景：现在有一个错词库，维护的是错词和正确词对应关系。比如：错词“我门”对应的正确词“我们”。然后在用户输入的文字进行错词校验，需要判断输入的文字是否有错词，并找出错词以便提醒用户，并且可以显示出正确词以便用户确认，如果是错词就进行替换。

　　首先想到的就是取出错词List放在内存中，当用户输入完成后用错词List来foreach每个错词，然后查找输入的字符串中是否包含错词。这是一种有效的方法，并且能够实现。问题是错词的数量比较多，目前有10多万条，将来也会不断更新扩展。所以pass了这种方案，为了让错词查找提高速度就用了字典树来存储错词。

字典树

　　Trie树，即字典树，又称单词查找树或键树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少无谓的字符串比较。

Trie的核心思想是空间换时间。利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。

通常字典树的查询时间复杂度是O(logL)，L是字符串的长度。所以效率还是比较高的。而我们上面说的foreach循环则时间复杂度为O(n)，根据时间复杂度来看，字典树效率应该是可行方案。

字典树原理

　　根节点不包含字符，除根节点外每一个节点都只包含一个字符；从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串；每个节点的所有子节点包含的字符都不相同。

　　比如现在有错词：“我门”、“旱睡”、“旱起”。那么字典树如下图

　　其中红色的点就表示词结束节点，也就是从根节点往下连接成我们的词。

　　实现字典树：

 public class Trie

 {

     private class Node

     {

         /// <summary>

         /// 是否单词根节点

         /// </summary>

         public bool isTail = false;

         public Dictionary<char, Node> nextNode;

         public Node(bool isTail)

         {

             this.isTail = isTail;

             this.nextNode = new Dictionary<char, Node>();

         }

         public Node() : this(false)

         {

         }

     }

     /// <summary>

     /// 根节点

     /// </summary>

     private Node rootNode;

     private int size;

     private int maxLength;

     public Trie()

     {

         this.rootNode = new Node();

         this.size = ;

         this.maxLength = ;

     }

     /// <summary>

     /// 字典树中存储的单词的最大长度

     /// </summary>

     /// <returns></returns>

     public int MaxLength()

     {

         return maxLength;

     }

     /// <summary>

     /// 字典树中存储的单词数量

     /// </summary>

     public int Size()

     {

         return size;

     }

     /// <summary>

     /// 获取字典树中所有的词

     /// </summary>

     public List<string> GetWordList()

     {

         return GetStrList(this.rootNode);

     }

     private List<string> GetStrList(Node node)

     {

         List<string> wordList = new List<string>();

         foreach (char nextChar in node.nextNode.Keys)

         {

             string firstWord = Convert.ToString(nextChar);

             Node childNode = node.nextNode[nextChar];

             if (childNode == null || childNode.nextNode.Count == )

             {

                 wordList.Add(firstWord);

             }

             else

             {

                 if (childNode.isTail)

                 {

                     wordList.Add(firstWord);

                 }

                 List<string> subWordList = GetStrList(childNode);

                 foreach (string subWord in subWordList)

                 {

                     wordList.Add(firstWord + subWord);

                 }

             }

         }

         return wordList;

     }

     /// <summary>

     /// 向字典中添加新的单词

     /// </summary>

     /// <param name="word"></param>

     public void Add(string word)

     {

         //从根节点开始

         Node cur = this.rootNode;

         //循环遍历单词

         foreach (char c in word.ToCharArray())

         {

             //如果字典树节点中没有这个字母，则添加

             if (!cur.nextNode.ContainsKey(c))

             {

                 cur.nextNode.Add(c, new Node());

             }

             cur = cur.nextNode[c];

         }

         cur.isTail = true;

         if (word.Length > this.maxLength)

         {

             this.maxLength = word.Length;

         }

         size++;

     }

     /// <summary>

     /// 查询字典中某单词是否存在

     /// </summary>

     /// <param name="word"></param>

     /// <returns></returns>

     public bool Contains(string word)

     {

         return Match(rootNode, word);

     }

     /// <summary>

     /// 查找匹配

     /// </summary>

     /// <param name="node"></param>

     /// <param name="word"></param>

     /// <returns></returns>

     private bool Match(Node node, string word)

     {

         if (word.Length == )

         {

             if (node.isTail)

             {

                 return true;

             }

             else

             {

                 return false;

             }

         }

         else

         {

             char firstChar = word.ElementAt();

             if (!node.nextNode.ContainsKey(firstChar))

             {

                 return false;

             }

             else

             {

                 Node childNode = node.nextNode[firstChar];

                 return Match(childNode, word.Substring(, word.Length - ));

             }

         }

     }

 }

　　测试下：

　　现在我们有了字典树，然后就不能以字典树来foreach，字典树用于检索。我们就以用户输入的字符串为数据源，去字典树种查找是否存在错词。因此需要对输入字符串进行取词检索。也就是分词，分词我们采用前向最大匹配。

前向最大匹配

　　我们分词的目的是将输入字符串分成若干个词语，前向最大匹配就是从前向后寻找在词典中存在的词。

　　例子：我们假设maxLength= 3,即假设单词的最大长度为3。实际上我们应该以字典树中的最大单词长度，作为最大长度来分词（上面我们的字典最大长度应该是2）。这样效率更高，为了演示匹配过程就假设maxLength为3，这样演示的更清楚。

　　用前向最大匹配来划分“我们应该早睡早起” 这句话。因为我是错词匹配，所以这句话我改成“我门应该旱睡旱起”。

　　第一次：取子串 “我门应”，正向取词，如果匹配失败，每次去掉匹配字段最后面的一个字。

　　“我门应”，扫描词典中单词，没有匹配，子串长度减 1 变为“我门”。

　　“我门”，扫描词典中的单词，匹配成功，得到“我门”错词，输入变为“应该旱”。

　　第二次：取子串“应该旱”

　　“应该旱”，扫描词典中单词，没有匹配，子串长度减 1 变为“应该”。

　　“应该”，扫描词典中的单词，没有匹配，输入变为“应”。

　　“应”，扫描词典中的单词，没有匹配，输入变为“该旱睡”。

　　第三次：取子串“该旱睡”

　　“该旱睡”，扫描词典中单词，没有匹配，子串长度减 1 变为“该旱”。

　　“该旱”，扫描词典中的单词，没有匹配，输入变为“该”。

　　“该”，扫描词典中的单词，没有匹配，输入变为“旱睡旱”。

　　第四次：取子串“旱睡旱”

　　“旱睡旱”，扫描词典中单词，没有匹配，子串长度减 1 变为“旱睡”。

　　“旱睡”，扫描词典中的单词，匹配成功，得到“旱睡”错词，输入变为“早起”。

　　以此类推，我们得到错词 我们/旱睡/旱起。

　　因为我是结合字典树匹配错词所以一个字也可能是错字，则匹配到单个字，如果只是分词则上面的到一个字的时候就应该停止分词了，直接字符串长度减1。

　　这种匹配方式还有后向最大匹配以及双向匹配，这个大家可以去了解下。

　　实现前向最大匹配，这里后向最大匹配也可以一起实现。

  public class ErrorWordMatch

     {

         private static ErrorWordMatch singleton = new ErrorWordMatch();

         private static Trie trie = new Trie();

         private ErrorWordMatch()

         {

         }

         public static ErrorWordMatch Singleton()

         {

             return singleton;

         }

         public void LoadTrieData(List<string> errorWords)

         {

             foreach (var errorWord in errorWords)

             {

                 trie.Add(errorWord);

             }

         }

         /// <summary>

         /// 最大 正向/逆向 匹配错词

         /// </summary>

         /// <param name="inputStr">需要匹配错词的字符串</param>

         /// <param name="leftToRight">true为从左到右分词，false为从右到左分词</param>

         /// <returns>匹配到的错词</returns>

         public List<string> MatchErrorWord(string inputStr, bool leftToRight)

         {

             if (string.IsNullOrWhiteSpace(inputStr))

                 return null;

             if (trie.Size() == )

             {

                 throw new ArgumentException("字典树没有数据,请先调用 LoadTrieData 方法装载字典树");

             }

             //取词的最大长度

             int maxLength = trie.MaxLength();

             //取词的当前长度

             int wordLength = maxLength;

             //分词操作中，处于字符串中的当前位置

             int position = ;

             //分词操作中，已经处理的字符串总长度

             int segLength = ;

             //用于尝试分词的取词字符串

             string word = "";

             //用于储存正向分词的字符串数组

             List<string> segWords = new List<string>();

             //用于储存逆向分词的字符串数组

             List<string> segWordsReverse = new List<string>();

             //开始分词，循环以下操作，直到全部完成

             while (segLength < inputStr.Length)

             {

                 //如果剩余没分词的字符串长度<取词的最大长度，则取词长度等于剩余未分词长度

                 if ((inputStr.Length - segLength) < maxLength)

                     wordLength = inputStr.Length - segLength;

                 //否则，按最大长度处理

                 else

                     wordLength = maxLength;

                 //从左到右 和 从右到左截取时，起始位置不同

                 //刚开始，截取位置是字符串两头，随着不断循环分词，截取位置会不断推进

                 if (leftToRight)

                     position = segLength;

                 else

                     position = inputStr.Length - segLength - wordLength;

                 //按照指定长度，从字符串截取一个词

                 word = inputStr.Substring(position, wordLength);

                 //在字典中查找，是否存在这样一个词

                 //如果不包含，就减少一个字符，再次在字典中查找

                 //如此循环，直到只剩下一个字为止

                 while (!trie.Contains(word))

                 {

                     //如果最后一个字都没有匹配，则把word设置为空，用来表示没有匹配项(如果是分词直接break)

                     if (word.Length == )

                     {

                         word = null;

                         break;

                     }

                     //把截取的字符串，最边上的一个字去掉

                     //从左到右 和 从右到左时，截掉的字符的位置不同

                     if (leftToRight)

                         word = word.Substring(, word.Length - );

                     else

                         word = word.Substring();

                 }

                 //将分出匹配上的词，加入到分词字符串数组中，正向和逆向不同

                 if (word != null)

                 {

                     if (leftToRight)

                         segWords.Add(word);

                     else

                         segWordsReverse.Add(word);

                     //已经完成分词的字符串长度，要相应增加

                     segLength += word.Length;

                 }

                 else

                 {

                     //没匹配上的则+1，丢掉一个字（如果是分词 则不用判断word是否为空，单个字也返回）

                     segLength += ;

                 }

             }

             //如果是逆向分词，对分词结果反转排序

             if (!leftToRight)

             {

                 for (int i = segWordsReverse.Count - ; i >= ; i--)

                 {

                     //将反转的结果，保存在正向分词数组中 以便最后return 同一个变量segWords

                     segWords.Add(segWordsReverse[i]);

                 }

             }

             return segWords;

         }

     }

　　这里使用了单例模式用来在项目中共用，在第一次装入了字典树后就可以在其他地方匹配错词使用了。

　　这个是结合我具体使用，简化了些代码，如果只是分词的话就是分词那个实现方法就行了。最后分享就到这里吧，如有不对之处，请加以指正。

C#实现前向最大匹、字典树（分词、检索）的更多相关文章

HDU - 6096 处理后缀的字典树
题意:给定n个字符串,m次询问,每次询问多少个字符串前缀是pre且后缀是suf,前后缀不可相交字典树同时存储前后缀,假设字符串长为len则更新2*len个节点,依次按s[0],s[len-1],s[ ...
UVA - 12333 Revenge of Fibonacci 高精度加法 + 字典树
题目:给定一个长度为40的数字,问其是否在前100000项fibonacci数的前缀因为是前缀,容易想到字典树,同时因为数字的长度只有40,所以我们只要把fib数的前40位加入字典树即可.这里主要讨 ...
Trie树（字典树）最热门的前N个搜索关键词
方法介绍 1.1.什么是Trie树 Trie树,即字典树,又称单词查找树或键树,是一种树形结构.典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计.它的优 ...
萌新笔记——用KMP算法与Trie字典树实现屏蔽敏感词（UTF-8编码）
前几天写好了字典,又刚好重温了KMP算法,恰逢遇到朋友吐槽最近被和谐的词越来越多了,于是突发奇想,想要自己实现一下敏感词屏蔽. 基本敏感词的屏蔽说起来很简单,只要把字符串中的敏感词替换成"* ...
用KMP算法与Trie字典树实现屏蔽敏感词（UTF-8编码）
前几天写好了字典,又刚好重温了KMP算法,恰逢遇到朋友吐槽最近被和谐的词越来越多了,于是突发奇想,想要自己实现一下敏感词屏蔽. 基本敏感词的屏蔽说起来很简单,只要把字符串中的敏感词替换成“***”就可 ...
[LeetCode] Implement Trie (Prefix Tree) 实现字典树(前缀树)
Implement a trie with insert, search, and startsWith methods. Note:You may assume that all inputs ar ...
HDU1671 字典树
Phone List Time Limit: 3000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total ...
字典树(Trie Tree)
在图示中,键标注在节点中,值标注在节点之下.每一个完整的英文单词对应一个特定的整数.Trie 可以看作是一个确定有限状态自动机,尽管边上的符号一般是隐含在分支的顺序中的.键不需要被显式地保存在节点中. ...
字典树(Trie树)的实现及应用
>>字典树的概念 Trie树,又称字典树,单词查找树或者前缀树,是一种用于快速检索的多叉树结构,如英文字母的字典树是一个26叉树,数字的字典树是一个10叉树.与二叉查找树不同,Trie树的 ...

随机推荐

感受python之美，python简单易懂的小例子
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 简洁之美通过一行代码,体会Python语言简洁之美 2 Python ...
ntp和chrony
目录 chrony 简介 ntp pool ntp 配置文件 chrony 配置文件 chronyc 命令行工具修改时区 chrony 简介 chrony 是 RedHat 开发的,它是网络时间协议 ...
关于virtual box 虚拟机使用
关于virtual box的使用,如果想用共享文档:比如当前系统为Ubuntu,virtual box安装了win7,win7与Ubuntu之间的文件使用,就可以利用共享文档这个便利的功能—— 在 ...
SQLI-LABS学习笔记(一)
逼话少说,如有错误,烦请指出,谢谢. 第一关提示传个id的参数后面跟个单引号 http://10.2.10.31/sqli/Less-1/?id=1’ 发现报错,这里看到是已经闭合了 You ha ...
深入理解TCP建立和关闭连接
建立连接: 理解:窗口和滑动窗口TCP的流量控制TCP使用窗口机制进行流量控制什么是窗口?连接建立时,各端分配一块缓冲区用来存储接收的数据,并将缓冲区的尺寸发送给另一端接收方发送的确认信息中包含了自 ...
java并发中的Synchronized关键词
文章目录为什么要同步 Synchronized关键词 Synchronized Instance Methods Synchronized Static Methods Synchronized B ...
曹工力荐：调试 jdk 中 rt.jar 包部分的源码（可自由增加注释，修改代码并debug）
背景大家知道,jdk安装的目录下,一般会有个src.zip包,这个包基本对应了rt.jar这个包.rt.jar这个包里面,就放了jdk中,jdk采用java实现的那部分类库代码,比如java.lan ...
HTML 教程之常用html标签
前端三把利器: HTML:赤裸裸的人 20个标签 CSS:华丽的衣服颜色位置 …… JS:让这个人动起来一.HTML本质及在web程序中的作用 web访问中,浏览器充当一个socket客户端. ...
linux和windows互传文件、用户配置文件和密码配置文件、用户组管理、用户管理...
linux和windows互传文件第一种:在linux主机上下载lrzsz软件包 1.yum install lrzsz 2.通过rz命令上传window的文件到linux主机上用过sz 文件名下 ...
面向对象第四单元（UML）总结
OO第四单元一.总结本单元两次作业的架构设计第一次作业架构第一次作业只有类图,所以全部的UmlElement都可以放在MyUmlInteraction中进行存储.计算和查找.对于类图来说,可以 ...

C#实现前向最大匹、字典树（分词、检索）

字典树

字典树原理

前向最大匹配

C#实现前向最大匹、字典树（分词、检索）的更多相关文章

随机推荐

热门专题