import codecs #主题模型 from gensim import corpora from gensim.models import LdaModel from gensim import models from gensim.corpora import Dictionary te = [] fp = codecs.open('input.txt','r') for line in fp: line = line.split(',') te.append([ w for w in
何谓“主题”呢?望文生义就知道是什么意思了,就是诸如一篇文章.一段话.一个句子所表达的中心思想.不过从统计模型的角度来说, 我们是用一个特定的词频分布来刻画主题的,并认为一篇文章.一段话.一个句子是从一个概率模型中生成的. D. M. Blei在2003年(准确地说应该是2002年)提出的LDA(Latent Dirichlet Allocation)模型(翻译成中文就是——潜在狄利克雷分配模型)让主题模型火了起来, 今年3月份我居然还发现了一个专门的LDA的R软件包(7月份有更新),可见主题模