在前一篇中介绍了用HMM做中文分词,对于未登录词(out-of-vocabulary, OOV)有良好的识别效果,但是缺点也十分明显--对于词典中的(in-vocabulary, IV)词却未能很好地识别.主要是因为,HMM本质上是一个Bigram的语法模型,未能深层次地考虑上下文(context).对于此,本文将介绍更为复杂的二阶HMM以及开源实现. 1. 前言 n-gram语法模型 n-gram语法模型用来:在已知前面\(n-1\)个词\(w_1, \cdots, w_{n-1}\)的情况下…