上文已经介绍了基于词典的中文分词,现在让我们来看一下基于统计的中文分词. 统计分词: 统计分词的主要思想是把每个词看做是由字组成的,如果相连的字在不同文本中出现的次数越多,就证明这段相连的字很有可能就是一个词. 统计分词一般做如下两步操作: 1.建立统计语言模型(n-gram) 2.对句子进行单词划分,然后对划分结果做概率计算,获取概率最大的分词方式.这里就用到了统计学习算法,如隐马尔科夫模型(HMM),条件随机场(CRF)等 语言模型: 语言模型在信息检索,机器翻译,语音识别中承担着重要的任务…