TreeTagger

【TreeTagger】的更多相关文章

大家都知道TreeTagger是一个用于词性标注和词型还原的工具,它的返回结果由三部分组成:目标词汇,词性,原形.那该工具是怎样判断目标词汇的词性的呢?又是怎样得到目标词汇的原形的呢?本文就是从这两个问题入手,对TreeTagger的原理进行简单的介绍. 1. 词性的识别判断这里词性的识别采用的决策树分类方法.如下图所示,首先将目标文本分成三元短语,然后通过判断目标词汇的前两个单词的词性来判断当前词汇的词性,具体思路下图所示:当前一个词的词性为ADJ时,判断前面倒数第二个词的词性,当词性为DE…

NLP常用开源/免费工具

一些常见的NLP任务的开源/免费工具, *Computational Linguistics ToolboxCLT http://complingone.georgetown.edu/~linguist/compling.htmlGATE http://gate.ac.uk/Natural Language Toolkit(NLTK) http://nltk.orgMALLET http://mallet.cs.umass.edu/index.php/Main_Page *English Ste…