一.问题描述 1.1文本建模相关 统计文本建模的目的其实很简单:就是估算一组参数,这组参数使得整个语料库出现的概率最大.这是很简单的极大似然的思想了,就是认为观测到的样本的概率是最大的.建模的目标也是这样,下面就用数学来表示吧.一开始来说,先要注意假设了一些隐变量z,也就是topic.每个文档都符合一个topic的分布,另外是每个topic里面的词也是符合一个分布的,这个似然是以文档为单位的.极大似然式子全部写出来是下面的样子的其中的M表示文档个数.其中的α,就是每个文档符合的那个topic分布…