一、简介

https://cloud.tencent.com/developer/article/1058777

1、LDA是一种主题模型

作用：可以将每篇文档的主题以概率分布的形式给出【给定一篇文档，推测其主题分布】。我们的目标是找到每一篇文档的主题分布和每一个主题中词的分布。

　　从而通过分析一些文档抽取出它们的主题（分布）出来后，便可以根据主题（分布）进行主题聚类或文本分类。

2、同时，它是一种典型的词袋模型

即一篇文档是由一组词构成，词与词之间没有先后顺序的关系。

此外，一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。

3、理解LDA，可以分为下述5个步骤：

一个函数：gamma函数
四个分布：二项分布、多项分布、beta分布、Dirichlet分布
一个概念和一个理念：共轭先验和贝叶斯框架
两个模型：pLSA、LDA（在本文第4 部分阐述）
一个采样：Gibbs采样

二、LDA模型

比如假设事先给定了这几个主题：Arts、Budgets、Children、Education，然后通过学习的方式，获取每个主题Topic对应的词语。如下图所示：

然后以一定的概率选取上述某个主题，再以一定的概率选取那个主题下的某个单词，不断的重复这两步，最终生成如下图所示的一篇文章（其中不同颜色的词语分别对应上图中不同主题下的词）：

而当我们看到一篇文章后，往往喜欢推测这篇文章是如何生成的，我们可能会认为作者先确定这篇文章的几个主题，然后围绕这几个主题遣词造句，表达成文。LDA就是要干这事：根据给定的一篇文档，推测其主题分布。

LDA的图模型：

共有M篇文档，每个文档有Nm个单词，一共涉及到K个主题；

每篇文档都有各自的主题，主题分布是多项式分布，该多项式分布的参数服从Dirichlet分布，该Dirichlet分布的参数为α；

每个主题都有各自的词分布，词分布为为多项式分布，该多项式分布的参数服从Dirichlet分布，该Dirichlet分布的参数为β；

对于某篇文档d中的第n个词，首先从该文档的主题分布中采用一个主题，然后再这个主题对应的词分布中采用一个词，不断重复该操作，直到m篇文档全部完成上述过程。

LDA用生成式模型的角度来看待文档和主题。

　　假设每篇文档包含了多个主题，

　　用θ_d表示文档t每个话题所占比例，

　　θ_d_，k表示文档t中包含主题d所占用的比例，继而通过如下过程生成文档d。

　　（1）根据参数为α的狄利克雷分布，随机采样一个话题分布θ_d_；

　　（2）按照如下步骤生成文中的N个词：

　　　　　　根据θ_d进行话指派，得到文档d中词n的话题

　　　　　　根据指派话题所对应的词频β_k进行采样随机生成词

三、两个模型：PLSA、LDA

我们来看一个例子，如图所示：

上图中有三个主题，在PLSA中，我们会以固定的概率来抽取一个主题词，比如0.5的概率抽取教育这个主题词，然后根据抽取出来的主题词，找其对应的词分布，再根据词分布，抽取一个词汇。由此，可以看出PLSA中，主题分布和词分布都是唯一确定的。但是，在LDA中，主题分布和词分布是不确定的，LDA的作者们采用的是贝叶斯派的思想，认为它们应该服从一个分布，主题分布和词分布都是多项式分布，因为多项式分布和狄利克雷分布是共轭结构，在LDA中主题分布和词分布使用了Dirichlet分布作为它们的共轭先验分布。所以，也就有了一句广为流传的话 -- LDA 就是 PLSA 的贝叶斯化版本。下面两张图片很好的体现了两者的区别：

四、模型生成过程：

https://www.cnblogs.com/pinard/p/6831308.html

https://blog.csdn.net/liuy9803/article/details/81091022
LDA从生成式模型的角度看待文档和主题，认为语料库中所有文档是隐含主题的随机混合，每个主题是由所有单词分布体现的。文档m的生成过程为：

（1）根据参数为α的Dirichlet分布选择一个主题分布，\theta _{m}\sim Dir(\alpha )；

（2）根据参数为η的Dirichlet分布选择一个单词分布，\beta _{k}\sim Dir(\eta )；

（3）按照下列步骤生成文档m中的N_{m}个单词：

a、根据\theta _{m} 指派主题，得到文档m中单词n的主题 z_{mn}\sim Multinomial(\theta _{m})；

b、根据指派的主题z_{mn} 所对应的单词分布\beta _{k} 生成单词 w_{mn}\sim Multinomial(\beta _{z_{mn}})。

NLP传统基础（2）---LDA主题模型---学习文档主题的概率分布（文本分类/聚类）的更多相关文章

LDA主题模型学习笔记5：C源代码理解
1.说明本文对LDA原始论文的作者所提供的C代码中LDA的主要逻辑部分做凝视,原代码可在这里下载到:https://github.com/Blei-Lab/lda-c 这份代码实现论文<Lat ...
LDA主题模型学习笔记3.5：变分參数推导
如今来推导一下得到变分參数更新式的过程.这一部分是在论文的附录中,为避免陷入过多细节而影响总体理解.能够在刚開始学习LDA的时候先不关注求解细节.首先要把L写成关于γ,ϕ\gamma,\phi函数.依 ...
用scikit-learn学习LDA主题模型
在LDA模型原理篇我们总结了LDA主题模型的原理,这里我们就从应用的角度来使用scikit-learn来学习LDA主题模型.除了scikit-learn, 还有spark MLlib和gensim库 ...
NLP︱LDA主题模型的应用难题、使用心得及从多元统计角度剖析
将LDA跟多元统计分析结合起来看,那么LDA中的主题就像词主成分,其把主成分-样本之间的关系说清楚了.多元学的时候聚类分为Q型聚类.R型聚类以及主成分分析.R型聚类.主成分分析针对变量,Q型聚类针对样 ...
LDA主题模型三连击-入门/理论/代码
目录概况为什么需要 LDA是什么 LDA的应用 gensim应用数学原理预备知识抽取模型样本生成代码编写本文将从三个方面介绍LDA主题模型--整体概况.数学推导.动手实现. 关于LDA ...
R语言︱LDA主题模型——最优主题数选取(topicmodels)+LDAvis可视化(lda+LDAvis)
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:在自己学LDA主题模型时候,发现该模 ...
Spark：聚类算法之LDA主题模型算法
http://blog.csdn.net/pipisorry/article/details/52912179 Spark上实现LDA原理 LDA主题模型算法 [主题模型TopicModel:隐含狄利 ...
理解 LDA 主题模型
前言 gamma函数 0 整体把握LDA 1 gamma函数 beta分布 1 beta分布 2 Beta-Binomial 共轭 3 共轭先验分布 4 从beta分布推广到Dirichlet 分布 ...
通俗理解LDA主题模型
通俗理解LDA主题模型 0 前言印象中,最開始听说"LDA"这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印 ...

随机推荐

当你登录Github要求你邮箱验证身份，但是你的邮箱登录不了？
事情发送在两天前,我如标题所示......,它给出的tyningling@163我真的不知道什么时候注册的了,尝试了N个密码登录不上,验证密保吧,看到手机号突然想起来,这是拿以前同学的手机号注册的.. ...
python lanbda匿名函数（20）
在python开发中常规的函数在调用之前都需要先声明,而python还有一种匿名函数,有速写函数的功能并且匿名函数不需要声明也没有函数名字,完全不需要担心函数名冲突,具体的妙用还需要从实战练习中多多积 ...
SQL-锁-事物级别
一.锁锁是一种安全机制,控制并发操作,防止用户读取其他用户正在更改的数据,或者多用户同时修改一个数据,从而保证事物的完整性和数据库的一致性.SQLserver 会自动强制执行锁,但是用户可以通过对锁 ...
java 中的容器（札记）
创建容器向上转型为接口的时候,有时候,并不是一定可行的,因为有的实现类,在接口的基础添加了自己的方法:比如:List 接口下面的 LinkedList 自己定义了一些方法 : Arrays.asLis ...
[MA] 有关 Likelihood
当提到 Linear Regression 或是 Logistic regression 等关键词时,都会涉及一个概念,叫做 Likelihood Function 以及 Maximum Likeli ...
python-pillow图像处理模块
from PIL import ImageColor ImageColor.getcolor('red','RGB') #颜色模式 ImageColor.getcolor('red','RGBA') ...
文件操作之打开文件与读写文件——C语言
一.fopen 函数原型:FILE *fopen( const char *filename, const char *mode ); 返回值:返回值类型为FILE *,打开文件成功返回指向打开文件的 ...
红帽linux系统开机自启动脚本。
其实很多东西在最后完成以后会觉得也就那样,有意思的是探究的过程. 前段时间老板要求把一个程序做成linux系统开机自启动脚本的模式. 首先你需要写一个脚本. 我这边建立了一个.sh的脚本,就是用脚本启 ...
Java锁的升级策略偏向锁轻量级锁重量级锁
这三种锁是指锁的状态,并且是专门针对Synchronized关键字.JDK 1.6 为了减少"重量级锁"的性能消耗,引入了"偏向锁"和"轻量级锁&qu ...
C#特性详解
一:Conditional:条件特性,预定义了一个条件方法. 使用方法: [Conditional("DEBUG")] public void test() { MessageBo ...

NLP传统基础（2）---LDA主题模型---学习文档主题的概率分布（文本分类/聚类）