中文分词概述 词是最小的能够独立活动的有意义的语言成分,一般分词是自然语言处理的第一项核心技术.英文中每个句子都将词用空格或标点符号分隔开来,而在中文中很难对词的边界进行界定,难以将词划分出来.在汉语中,虽然是以字为最小单位,但是一篇文章的语义表达却仍然是以词来划分的.因此处理中文文本时,需要进行分词处理,将句子转为词的表示,这就是中文分词. 中文分词的三个难题: 分词规则,消除歧义和未登录词识别. 构建完美的分词规则便可以将所有的句子正确的划分,但是这根本无法实现,语言是长期发展自然而然形成的…