What is Gensim? Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达.它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口. 基本概念 语料(Corpus):一组原始文本的集合,用于无监督地训练文本主题的隐层结构.语料中不需要人工标注的附加信息.在Gensim中,Corpus通常是一个可迭代的对象(比如列表).每一次