LDA背景资料

[https://zhuanlan.zhihu.com/p/30226687] LDA模型的前世今生

在文本挖掘中，有一项重要的工作就是分析和挖掘出文本中隐含的结构信息，而不依赖任何提前标注的信息。LDA（Latent Dirichlet Allocation）模型在过去十年里开启了一个主题模型领域。

LDA 的论文作者是戴维·布雷（David Blei）、吴恩达和迈克尔·乔丹（Michael Jordan）。这三位都是今天机器学习界炙手可热的人物。论文最早发表在 2002 年的神经信息处理系统大会（Neural Information Processing Systems，简称 NIPS）上，然后长文章（Long Paper）于 2003 年在机器学习顶级期刊《机器学习研究杂志》（Journal of Machine Learning Research）上发表。迄今为止，这篇论文已经有超过 1 万 9 千次的引用数，也成了机器学习史上的重要文献之一。

[ https://zhuanlan.zhihu.com/p/21377575] 关于LDA, pLSA, SVD, Word2Vec的一些看法

LDA从12年开始，经历了SparseLDA, AliasLDA, LightLDA, WarpLDA的发展道路，到了15年底，已经能非常快的学100万topic了，而且这个快是靠直接降低理论的时间复杂度实现的，代码写的更好只是起了辅助作用。

SparseLDA利用了如果topic很多，那么当模型快收敛时，一个word其实只会属于很少的topic，然后利用稀疏性来加速了算法。但这个算法有个致命的缺陷，就是初始化时，模型并不稀疏，因此迭代的前几轮会非常慢。当然充满智慧的群众发明了一堆奇技淫巧部分解决了这个问题。
AliasLDA是优化了Gibbs Sampling采样的时间复杂度，利用Alias Table让对K个topic采样的时间复杂度从O(K)降低到O(1)
LightLDA修改了采用的分布，把原来基于一个word doc在topic上联合分布的采样过程，改成了2个交替进行的独立采样过程，一个只依赖word，另一个只依赖doc。
WarpLDA做了更多的工程级别的优化，让LightLDA更快。

[http://blog.csdn.net/xianlingmao/article/details/7076165] 话题模型（topic model）的提出及发展历史

如果对目前出现的topic models进行分门别类作者认为topic models主要可以分为四大类：

无监督的、无层次结构的topic model 主要有： PLSA, LDA, Correlated Topic Model, PAM，Concept Topic Model等
无监督的、层次结构的topic model 主要有： HLDA， HDP，HPAM等
有监督的、无层次结构的topic model 主要有： S-LDA, Disc-LDA, MM-LDA, Author-Model, Labeled LDA, PLDA 等等
有监督的、层次结构的topic model 主要有： hLLDA, HSLDA
以上模型对应的文章名字，用google直接搜索即可得到，这里就不列出。

下面对于每一类topic model，我都选择一个模型来进行介绍：

对于1) 上述已经介绍了LDA，所以就不介绍这类模型了；

对于2) 我想介绍HLDA（Hierarchical Latent Dirichlet Allocation) 模型

由于LDA产生出来的topic都是孤立的，topic之间没有关系，HLDA模型在LDA的基础上，试图建立topic之间的层次关系，同时考虑到LDA需要指定topic的数量作为参数，如果能自动决定topic的数量就比较理想了。为了自动发现决定topic的数量，HLDA用Chinese Restaurant Process去自动决定每一层的topic数量，然而需要指定topic层次的高度H（也就是有多少层的topic），同时它训练出来的层次结构是等高的，都是H这么高。至于怎么产生文档的每个词，这个和LDA都是一样的。

对于3) 我想介绍Labeled LDA (Labeled Latent Dirichlet Allocation) 模型

这个模型最大的好处是能够训练出来带标签的topic，因为在以前的topic model训练出来的topic都是分布，怎么赋予一个标签给这些topic则是很难的一个问题。

Labeled LDA与LDA最大的不同是： LDA是在所有topics上为某一个词进行选择某个topic，而labeled LDA则是只从文档相关的label对应的topic中去选择，其余和LDA都是一样的。

对于4) 我想介绍hLLDA (hierarchical Labeled Latent Dirichlet Allocation)模型

这个模型最大的好处就是在Labeled Latent Dirichlet Allocation模型的基础上扩展到层次结构，其思想也是很简单的，认为一个文档只是由这个文档对应的层次label所产生，具体学习和推断的时候几乎和Labeled Latent Dirichlet Allocation模型一样。

[https://github.com/baidu/Familia/wiki] Familia 说明文档

由于LDA中采用文档内的Bag-of-Words假设，词与词之间的位置信息是被忽略的。在很多工业界场景中，我们往往需要限制某些位置相近的词产生自同一主题，通过SentenceLDA能很好地满足这个需求。

SentenceLDA假设同一个句子里的词产生自同一主题，对句子内的词进行了进一步的建模，能捕捉到更加细粒度的共现关系。

但是LDA产生的主题往往被高频词占据，这种现象导致低频词在实际应用中的作用非常有限。

Topical Word Embedding (TWE) 利用LDA训练获得的主题为词向量的训练提供补充信息，进而得到词和主题的向量表示。有鉴于向量表示可以较好地建模低频词的语义信息，通过利用词和主题的向量表示，我们可以更好地捕捉每个主题下的低频词的语义信息，提升下游应用的效果。

主题模型在工业界的应用范式可以分为两类：语义表示和语义匹配。

[http://blog.csdn.net/hero_fantao/article/details/70176839] LDA工程化之快速采样算法

标准的Gibbs 采样LDA相关介绍, 采样时间复杂度是O(K)，K表示主题数(不同主题有不同命中概率，需要计算累计概率归一化项)：

Sparse LDA利用稀疏性的特征，相对标准Gibbs LDA 提升了几十倍速度。现实中一般文档只会包含少数若干个主题，一个词也是参与到少数几个主题中。基于这种假设，Sparse LDA 的时间复杂度是O(Kd + Kw)，其中Kd是表示文档的主题数（稀疏），Kw表示词的主题数（稀疏）

Alias LDA 时间复杂度是O（Kd），主要是从pw分布采样时间复杂度是O(Kd)，而才qw分布采样时间复杂度是O(1)。

把主题采样概率分布分解成两部分，两部分都可以采用Alias table 和Metropolis Hastings 方法进行O（1）时间复杂度采样呢？ Light LDA就是试图解决这个问题。

LDA背景资料的更多相关文章

深度强化学习资料（视频+PPT+PDF下载）
https://blog.csdn.net/Mbx8X9u/article/details/80780459 课程主页:http://rll.berkeley.edu/deeprlcourse/ 所有 ...
Spark MLlib LDA 基于GraphX实现原理及源代码分析
LDA背景 LDA(隐含狄利克雷分布)是一个主题聚类模型,是当前主题聚类领域最火.最有力的模型之中的一个,它能通过多轮迭代把特征向量集合按主题分类.眼下,广泛运用在文本主题聚类中. LDA的开源实现有 ...
LDA线性分析推广到多分类
感谢皮果提的文章: http://blog.csdn.net/itplus/article/details/12038441 http://blog.csdn.net/itplus/article 皮 ...
《Spark 官方文档》机器学习库（MLlib）指南
spark-2.0.2 机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库.旨在简化机器学习的工程实践工作,并方便扩展到更大规模.MLlib由一些通用的学习算法和工具组成,包括分 ...
iOS-推送，证书申请，本地推送
介绍一点点背景资料众所周知,使用推送通知是一个很棒的.给应用添加实时消息通知的方式.这样做的结局是,开发者和用户之间,彼此永远保持着一种令人愉悦的亲密关系. 然而不幸的是,iOS的推送通知并非那么容 ...
Atitit.自然语言处理--摘要算法---圣经章节旧约39卷概览bible overview v2 qa1.docx
Atitit.自然语言处理--摘要算法---圣经章节旧约39卷概览bible overview v2 qa1.docx 1. 摘要算法的大概流程2 2. 旧约圣经 (39卷)2 2.1. 与古兰经的对 ...
[翻译]利用顶点位移的VR畸变校正
文章英文原网址: http://www.gamasutra.com/blogs/BrianKehrer/20160125/264161/VR_Distortion_Correction_using_V ...
reflow和repaint（摘录自张鑫旭的翻译）
//正文开始关于回流(reflows)与重绘(repaints),我已经在twitter和delicious上发布,但是并没有在演讲中提到或是以文章形式发布. 第一次让我开始思考关于回流(reflo ...
WebService入门案例
关于WebService的作用和好处,大家应该都了解.但如何在Asp.Net中添加Web Service等问题一直是新手朋友的一大难题.鉴于网上没有一个像样的实际案例,特将课程设计中运用到的WebSe ...

随机推荐

移动端h5页面的那些坑
最近一直在写移动端页面,由于之前写移动端写的比较少,所以此次踩过许多坑.特此总结一下: 1.<input type='button'>背景色在ios中的兼容性,颜色发白解决办法:在全局样 ...
OC学习1——基本数据类型
1.OC是在C语言的基础上进行扩展的一种面向对象的编程语言.很多基础知识都和C语言中的非常类似.首先介绍一下OC中的基本数据类型,整体框架如下图: 2.自动数据类型转换顺序:short --> ...
[EXP]Jenkins 2.150.2 - Remote Command Execution (Metasploit)
## # This module requires Metasploit: https://metasploit.com/download # Current source: https://gith ...
SQL SERVER 用sql语句将一列数据拼接成一个字符串
执行 SELECT userid FROM userinfo 得到 1 2 3 4 如果要得到 1,2,3,4 执行方案 DECLARE @STR NVARCHAR(8000) SELEC ...
Java学习之Servlet篇
<JAVA遇见HTML——Servlet篇> Servlet 生命周期:Servlet 加载--->实例化--->服务--->销毁. init():在Servlet的生命 ...
dotnet new 命令使用模板生成Angular应用
dotnet new 命令使用模板快速生成单页应用,本文以Angular应用为例. 最新版.NET Core SDK RC4 最大改动是更新了 dotnet new 命令. dotnet new 默认 ...
[java初探外篇]__关于StringBuilder类与String类的区别
前言我们前面学习到String类的相关知识,知道了它是一个字符串类,并且了解到其中的一些方法,但是当时并没有太过注意到String类的特点,今天就StringBuilder类的学习来比较一下两者的区 ...
第6章 Selenium2-Java 自动化测试模型
6.1 自动化测试模型介绍 6.1.1 线性测试 :其实就是单纯地来模拟用户完整的操作场景. 优势就是每一个脚本都是完整且独立的: 缺陷测试用例的开发与维护成本很高. 6.1.2 模块化驱动 ...
[NOI 2017]蔬菜
Description 题库链接小 N 是蔬菜仓库的管理员,负责设计蔬菜的销售方案. 在蔬菜仓库中,共存放有 \(n\) 种蔬菜,小 N 需要根据不同蔬菜的特性,综合考虑各方面因素,设计合理的销售方 ...
菜鸟入门【ASP.NET Core】8：Middleware管道介绍、自己动手构建RequestDelegate管道
中间件:是汇集到以处理请求和响应的一个应用程序管道的软件. 每个组件: 可以选择是否要将请求传递到管道中的下一个组件. 之前和之后调用管道中的下一个组件,可以执行工作. 使用请求委托来生成请求管道. ...

LDA背景资料

LDA背景资料的更多相关文章

随机推荐

热门专题