1 什么是中文分词器 学过英文的都知道,英文是以单词为单位的,单词与单词之间以空格或者逗号句号隔开. 而中文的语义比较特殊,很难像英文那样,一个汉字一个汉字来划分. 所以需要一个能自动识别中文语义的分词器. 2. Lucene自带的中文分词器 StandardAnalyzer 单字分词:就是按照中文一个字一个字地进行分词.如:“我爱中国”, 效果:“我”.“爱”.“中”.“国”. CJKAnalyzer 二分法分词:按两个字进行切分.如:“我是中国人”,效果:“我是”.“是中”.“中国”“国人”…