主题模型-LDA浅析

分类：数据挖掘机器学习2012-09-03 14:09 24937人阅读评论(16) 收藏举报

文档 allocation semantic each 算法网络

上个月参加了在北京举办SIGKDD国际会议，在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型，感觉这个模型的应用挺广泛的，会后抽时间了解了一下LDA，做一下总结：

（一）LDA作用

传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少，如TF-IDF等，这种方法没有考虑到文字背后的语义关联，可能在两个文档共同出现的单词很少甚至没有，但两个文档是相似的。

举个例子，有两个句子分别如下：

“乔布斯离我们而去了。”

“苹果价格会不会降？”

可以看到上面这两个句子没有共同出现的单词，但这两个句子是相似的，如果按传统的方法判断这两个句子肯定不相似，所以在判断文档相关性的时候需要考虑到文档的语义，而语义挖掘的利器是主题模型，LDA就是其中一种比较有效的模型。

在主题模型中，主题表示一个概念、一个方面，表现为一系列相关的单词，是这些单词的条件概率。形象来说，主题就是一个桶，里面装了出现概率较高的单词，这些单词与这个主题有很强的相关性。

怎样才能生成主题？对文章的主题应该怎么分析？这是主题模型要解决的问题。

首先，可以用生成模型来看文档和主题这两件事。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到的。那么，如果我们要生成一篇文档，它里面的每个词语出现的概率为：

这个概率公式可以用矩阵表示：

其中”文档-词语”矩阵表示每个文档中每个单词的词频，即出现的概率；”主题-词语”矩阵表示每个主题中每个单词的出现概率；”文档-主题”矩阵表示每个文档中每个主题出现的概率。

给定一系列文档，通过对文档进行分词，计算各个文档中每个单词的词频就可以得到左边这边”文档-词语”矩阵。主题模型就是通过左边这个矩阵进行训练，学习出右边两个矩阵。

主题模型有两种：pLSA（ProbabilisticLatent Semantic Analysis）和LDA（Latent Dirichlet Allocation），下面主要介绍LDA。

（二）LDA介绍

如何生成M份包含N个单词的文档，LatentDirichlet Allocation这篇文章介绍了3方法：

方法一：unigram model

该模型使用下面方法生成1个文档：

For each ofthe N words w_n:
Choose a word w_n ～ p(w);

其中N表示要生成的文档的单词的个数，w_n表示生成的第n个单词w，p(w)表示单词w的分布，可以通过语料进行统计学习得到，比如给一本书，统计各个单词在书中出现的概率。

这种方法通过训练语料获得一个单词的概率分布函数，然后根据这个概率分布函数每次生成一个单词，使用这个方法M次生成M个文档。其图模型如下图所示：

方法二：Mixture of unigram

unigram模型的方法的缺点就是生成的文本没有主题，过于简单，mixture of unigram方法对其进行了改进，该模型使用下面方法生成1个文档：

Choose a topicz ～ p(z);

For each ofthe N words w_n:

Choose a word w_n ～ p(w|z);

其中z表示一个主题，p(z)表示主题的概率分布，z通过p(z)按概率产生；N和w_n同上；p(w|z)表示给定z时w的分布，可以看成一个k×V的矩阵，k为主题的个数，V为单词的个数，每行表示这个主题对应的单词的概率分布，即主题z所包含的各个单词的概率，通过这个概率分布按一定概率生成每个单词。

这种方法首先选选定一个主题z，主题z对应一个单词的概率分布p(w|z)，每次按这个分布生成一个单词，使用M次这个方法生成M份不同的文档。其图模型如下图所示：

从上图可以看出，z在w所在的长方形外面，表示z生成一份N个单词的文档时主题z只生成一次，即只允许一个文档只有一个主题，这不太符合常规情况，通常一个文档可能包含多个主题。

方法三：LDA(Latent Dirichlet Allocation)

LDA方法使生成的文档可以包含多个主题，该模型使用下面方法生成1个文档：

Chooseparameter θ ～ p(θ);

For each ofthe N words w_n:

Choose a topic z_n ～ p(z|θ);

Choose a word w_n ～ p(w|z);

其中θ是一个主题向量，向量的每一列表示每个主题在文档出现的概率，该向量为非负归一化向量；p(θ)是θ的分布，具体为Dirichlet分布，即分布的分布；N和w_n同上；z_n表示选择的主题，p(z|θ)表示给定θ时主题z的概率分布，具体为θ的值，即p(z=i|θ)= θ_i；p(w|z)同上。

这种方法首先选定一个主题向量θ，确定每个主题被选择的概率。然后在生成每个单词的时候，从主题分布向量θ中选择一个主题z，按主题z的单词概率分布生成一个单词。其图模型如下图所示：

从上图可知LDA的联合概率为：

把上面的式子对应到图上，可以大致按下图理解：

从上图可以看出，LDA的三个表示层被三种颜色表示出来：

1. corpus-level（红色）：α和β表示语料级别的参数，也就是每个文档都一样，因此生成过程只采样一次。

2.document-level（橙色）：θ是文档级别的变量，每个文档对应一个θ，也就是每个文档产生各个主题z的概率是不同的，所有生成每个文档采样一次θ。

3. word-level（绿色）：z和w都是单词级别变量，z由θ生成，w由z和β共同生成，一个单词w对应一个主题z。

通过上面对LDA生成模型的讨论，可以知道LDA模型主要是从给定的输入语料中学习训练两个控制参数α和β，学习出了这两个控制参数就确定了模型，便可以用来生成文档。其中α和β分别对应以下各个信息：

α：分布p(θ)需要一个向量参数，即Dirichlet分布的参数，用于生成一个主题θ向量；

β：各个主题对应的单词概率分布矩阵p(w|z)。

把w当做观察变量，θ和z当做隐藏变量，就可以通过EM算法学习出α和β，求解过程中遇到后验概率p(θ,z|w)无法直接求解，需要找一个似然函数下界来近似求解，原文使用基于分解（factorization）假设的变分法（varialtional inference）进行计算，用到了EM算法。每次E-step输入α和β，计算似然函数，M-step最大化这个似然函数，算出α和β，不断迭代直到收敛。

参考文献：

David M. Blei, AndrewY. Ng, Michael I. Jordan, LatentDirichlet Allocation, Journal of Machine Learning Research 3, p993-1022,2003

【JMLR’03】Latent Dirichlet Allocation （LDA）- David M.Blei

搜索背后的奥秘——浅谈语义主题计算

http://bbs.byr.cn/#!article/PR_AI/2530?p=1

转载请注明出处，原文地址：http://blog.csdn.net/huagong_adu/article/details/7937616

LDA(转发)的更多相关文章

用scikit-learn进行LDA降维
在线性判别分析LDA原理总结中,我们对LDA降维的原理做了总结,这里我们就对scikit-learn中LDA的降维使用做一个总结. 1. 对scikit-learn中LDA类概述在scikit-le ...
线性判别分析LDA原理总结
在主成分分析(PCA)原理总结中,我们对降维算法PCA做了总结.这里我们就对另外一种经典的降维方法线性判别分析(Linear Discriminant Analysis, 以下简称LDA)做一个总结. ...
使用AWS亚马逊云搭建Gmail转发服务（三）
title: 使用AWS亚马逊云搭建Gmail转发服务(三) author:青南 date: 2015-01-02 15:42:22 categories: [Python] tags: [log,G ...
Spring MVC重定向和转发以及异常处理
SpringMVC核心技术---转发和重定向当处理器对请求处理完毕后,向其他资源进行跳转时,有两种跳转方式:请求转发与重定向.而根据要跳转的资源类型,又可分为两类:跳转到页面与跳转到其他处理器.对于 ...
使用AWS亚马逊云搭建Gmail转发服务（二）
title: 使用AWS亚马逊云搭建Gmail转发服务(二) author:青南 date: 2014-12-31 14:44:27 categories: [Python] tags: [Pytho ...
使用AWS亚马逊云搭建Gmail转发服务（一）
title: 使用AWS亚马逊云搭建Gmail转发服务(一) author:青南 date: 2014-12-30 15:41:35 categories: Python tags: [Gmail,A ...
A chatroom for all! Part 1 - Introduction to Node.js（转发）
项目组用到了 Node.js,发现下面这篇文章不错.转发一下.原文地址:<原文>. ------------------------------------------- A chatro ...
JavaWeb_day04搜索_乱码_路径_转发重定向_cookie
本文为博主辛苦总结,希望自己以后返回来看的时候理解更深刻,也希望可以起到帮助初学者的作用. 转载请注明出自 : luogg的博客园谢谢配合! 搜索功能 DAO层都是一些数据库的增删改查操作 Ser ...
SpringMVC传值、转发、重定向例子
练习接收页面参数值使用request 使用@RequestParam注解使用实体对象练习向页面传出数据使用HttpServletRequest和session 使用ModelAndView对象 ...

随机推荐

xml文件的生成与解析
生成方法一:同事StringBuffer类对xml文件格式解析写入 package com.steel_rocky.xml; import android.app.Activity; import a ...
RabbitMQ 工作队列
创建一个工作队列用来在工作者(consumer)间分发耗时任务. 工作队列的主要任务是:避免立刻执行资源密集型任务,然后必须等待其完成.相反地,我们进行任务调度:我们把任务封装为消息发送给队列.工作进 ...
js中return的用法
<!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title>& ...
【BZOJ 4517】【SDOI 2016 Round1 Day2 T2】排列计数
本蒟蒻第一次没看题解A的题竟然是省选$Round1$ $Day2$ $T2$ 这道组合数学题. 考试时一开始以为是莫队,后来想到自己不会组合数的一些公式,便弃疗了去做第三题,,, 做完第三题后再回来看 ...
非编码RNA
生命的基本过程是从DNA转录成mRNA,再翻译成蛋白质发挥功能.DNA就像一张绝密的密码图,不能随意被移动,只能被锁在细胞核里.要想知道这些密码,只能像复印一样,将密码图复印到mRNA上,由它们把这些 ...
Hive 的分桶 & Parquet 概念
分区 & 分桶都是把数据划分成块.分区是粗粒度的划分,桶是细粒度的划分,这样做为了可以让查询发生在小范围的数据上以提高效率. 分区之后,分区列都成了文件目录,从而查询时定位到文件目录,子数据 ...
Shiro-密码的MD5加密
1.密码的加密在数据表中存的密码不应该是123456,而应该是123456加密之后的字符串,而且还要求这个加密算法是不可逆的,即由加密后的字符串不能反推回来原来的密码,如果能反推回来那这个加密是没有 ...
poj 2528 线段树+离散化
题意:在墙上贴一堆海报(只看横坐标,可以抽象成一线段),新海报可以覆盖旧海报.求最后能看到多少张海报 sol:线段树成段更新.铺第i张海报的时候更新sg[i].x~sg[i].y这一段为i. 然而坐标 ...
light oj 1236 分解质因数
题目链接:http://acm.hust.edu.cn/vjudge/contest/view.action?cid=70017#problem/H 题意:求满足1<=i<=j<=n ...
一、swoole安装
说明:swoole扩展需要安装php环境,这里就不说了. 1.有了PHP环境后,即可安装swoole扩展. swoole扩展下载地址:https://github.com/swoole/swoole- ...

LDA(转发)

主题模型-LDA浅析

LDA(转发)的更多相关文章

随机推荐

热门专题