本文先介绍下mmseg的概念和算法,再说下mmseg4j-solor的3个分词器用法 1.mmseg概念 mmseg是用于中文切词的算法,即Maximum Matching Segment,最大匹配分词.根据在词典(语料库)中的匹配情况把原文切分成一个个词语 2.两种方法 为了便于后续介绍,假设要切分的原文是C1 C2 C3 C4 C5 C6, C表示一个汉字. 简单最大匹配:从头依次查找最长的词语,以此切割.如 [研究生], [研究, 生] 复杂最大匹配:是简单最大匹配的变体,引入三词块的概念…