对于一段英文,如果希望提取其中的的单词,只需要使用字符串处理的split()方法即可,例如“China is a great country”. 然而对于中文文本,中文单词之间缺少分隔符,这是中文及类似语言独有的“分词问题”. jieba(“结巴”)是python中一个重要的第三方中文分词函数库.jieba库是第三方库,不是python安装包自带的,因此,需要通过pip指令安装. Windows 下使用命令安装:在联网状态下,在命令行下输入 pip install jieba 进行安装,安装…
jieba “结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module. Scroll down for English documentation. 特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析:…