2 Latent Dirichlet Allocation Introduction LDA是给文本建模的一种方法,它属于生成模型.生成模型是指该模型可以随机生成可观测的数据,LDA可以随机生成一篇由N个主题组成文章.通过对文本的建模,我们可以对文本进行主题分类,判断相似度等.在90年代提出的LSA中,通过对向量空间进行降维,获得文本的潜在语义空间.在LDA中则是通过将文本映射到主题空间,即认为一个文章有若干主题随机组成,从而获得文本间的关系.LDA模型有一个前提:bag of word.意思就