nltk(Natural Language Toolkit)是处理文本的利器. 安装 pip install nltk 进入python命令行,键入nltk.download()可以下载nltk需要的语料库等等. 分词 按词语分割(传入句子) sentence='hello,world!' tokens=nltk.word_tokenize(sentence) tokens就是一个分割好的词表,如下: ['hello', ',', 'world', '!'] 按句子分割(传入多个句子组成的文档)…