【Topic Model】主题模型之概率潜在语义分析(Probabilistic Latent Semantic Analysis)

感觉LDA在实践中的优势其实不大,学好pLSA才是重点

阅读笔记


PLSI

2008年的时候,pLSA已经被新兴的LDA掩盖了。

LDA是pLSA的generalization:LDA的hyperparameter设为特定值的时候,就specialize成pLSA了。

从工程应用价值的角度看,这个数学方法的generalization,允许我们用一个训练好的模型解释任何一段文本中的语义。而pLSA只能理解训练文本中的语义。

LSA主要使用了线性代数中奇异值分解的方法,但是并没有严格的概率推导,由于文本文档的维度往往很高,如果在主题聚类中单纯的使用奇异值分解计算复杂度会很高,使用概率推导可以使用一些优化迭代算法来求解。

Thomas Hofmann 于1998年根据似然原理定义了生成模型并由此提出了概率潜在语义分析模型(Probabilistic Latent Semantic Analysis),简称PLSA。

PLSA属于概率图模型中的生成模型,相关的模型还有语言模型中的一元模型(Unigram Model)、混合一元模型(Mixture of Unigrams Model)等。

首先对文集进行设定。假设文集的词典中共有V个词,词典向量为,假设词是独立同分布的(一袋子词),即

一篇文章可以表示为,其中表示第i个词在当前文档中出现的次数。(无须考虑顺序性)

-- 多项分布 --

一元模型中假设每篇文档的词都独立遵从于多项式分布,即假设词典中第i个词在文档中出现的次数遵从多项式分布,

。打个比方来说假设我们有一个V面的骰子,骰子第i面向上的概率为,每掷一次骰子得到一个词,掷M次后便得到一篇由M个词组成的文档(文档的词之间是独立同分布的)。根据多项式分布可以知道文档的概率为:

(a)便是一元语言模型的概率图模型,

(b)中是PLSA的概率图模型。

PLSA模型中与一元模型中假设:词遵从多项式分布不同。

PLSA模型中引入了潜层变量作为主题变量,即假设当前文集由K个主题构成。

  • 为文集中的第m篇文档,
  • 表示第t个主题,
  • 为第i个词。
  • 为所有文档的概率分布,
  • 是文档的概率,
  • 为文档对应的主题的分布,
  • 为主题对应的词的分布。

PLSA模型的生成过程如下:

    1. 根据概率选择一篇文档
    2. 根据概率选择一个潜性主题,并且
    3. 根据概率生成一个词,并且

当然每个模型都对文集有一定的假设,PLSA做了如下的假设:

    1. 并元的每一对共现是独立的(单词 与 文档 共现)
    2. 当已知潜性变量的时候,变量和变量是条件独立的。

PLSA最初是根据 视面模型(Aspect Model)提出的,

    • 假设1与一元模型中的“一袋子词”的假设相似,
    • 假设2与PLSA定义的图模型的生成关系有关,PLSA的图模型类似于X->Z->Y这种模式,在贝叶斯网络中被称为间接因果影响(“Indirect Causal Effect”)。

举个例子来说:X表示你口袋里有没有2块钱,Z表示你能不能买一只笔,Y表示你能不能参加考试。

    • 假如不知道你能不能买一支笔(Z),那么你口袋里有没有2块钱(X)将影响到你能不能参加考试(Y)。
    • 假如你已经知道你是否可以买一只笔(Z),则你口袋里有没有2块钱(X)就影响不到你能不能参加考试了(Y)。即已知变量Z,变量X和Y是独立的。

PLSA最终是要求得每个并元对应主题的概率,即。下面我们来推导公式。PLSA使用极大似然估计(MLE)。

(以下高能)

首先求解隐变量z的对数似然函数

由于PLSA模型的假设1,所以有:

其中表示第n篇文档中的第m个词出现的次数。

又由于在已知变量z的情况下d和w是独立的,可得:

From: http://blog.csdn.net/yangliuy/article/details/8330640

为何 have to EM, 如下表述的更好:

其中是term 出现在文档中的次数。

注意这是一个关于的函数,一共有N*K + M*K个自变量(注意这里M表示term的总数,一般文献习惯用V表示),

如果直接对这些自变量求偏导数,我们会发现由于自变量包含在对数和中,这个方程的求解很困难。

因此对于这样的包含“隐含变量”或者“缺失数据”的概率模型参数估计问题,我们采用EM算法。

PLSA使用EM算法求解极大似然,EM算法是一种机器学习中非常常用的迭代近似算法。一般用来求解得到极大似然或极大后验的参数值。

E步指的是在当前参数的情况下隐变量的后验概率(Expectation),M步指的是求解得到极大似然或极大后验的参数值(Maximization)。

首先计算上面似然函数的期望值:

上式有两个限制条件:

根据拉格朗日乘数法进行极值推导,分别对两个约束设定两个参数

在上式中分别对变量求偏导得到:

与之前的限制条件联立得到:

于是便得到了M步求最大化的等式。

PLSA的EM步骤便可以化简如下:

    • E步:计算变量z的后验概率
    • M步:计算

PLSA的问题便是在变量中含有文档d这个变量,在模型上受限使其很难应用到其他文档上去。

之后David Blei提出的LDA(Latent Dirichlet Allocation)便是给文集设定了两个超参来省略掉文档这个固定变量。

其他资源:

代码:http://hpc.cs.tsinghua.edu.cn/research/cluster/plsa/index.html

Application

PLSA may be used in a discriminative setting, via Fisher kernels.

PLSA has applications in information retrieval and filteringnatural language processingmachine learning from text, and related areas.

It is reported that the aspect model used in the probabilistic latent semantic analysis has severe overfitting problems.

[IR] Concept Search and PLSA的更多相关文章

  1. [IR] Concept Search and LDA

    重要的是通过实践更深入地了解贝叶斯思想,先浅浅地了解下LDA. From: http://blog.csdn.net/huagong_adu/article/details/7937616/ 传统方法 ...

  2. [Bayes] Concept Search and PLSA

    [Topic Model]主题模型之概率潜在语义分析(Probabilistic Latent Semantic Analysis) 感觉LDA在实践中的优势其实不大,学好pLSA才是重点 阅读笔记 ...

  3. [IR] Concept Search and LSI

    基于术语关系的贝叶斯网络信息检索模型扩展研究 LSI 阅读笔记 背景知识 提出一种改进的共现频率法,利用该方法挖掘了索引术语之间的相关关系,将这种相关关系引入信念网络模型,提出了一个具有两层术语节点的 ...

  4. [Bayes] Concept Search and LDA

    重要的是通过实践更深入地了解贝叶斯思想,先浅浅地了解下LDA. 相关数学知识 LDA-math-MCMC 和 Gibbs Sampling LDA-math - 认识 Beta/Dirichlet 分 ...

  5. [Bayes] Concept Search and LSI

    基于术语关系的贝叶斯网络信息检索模型扩展研究 LSI 阅读笔记 背景知识 提出一种改进的共现频率法,利用该方法挖掘了索引术语之间的相关关系,将这种相关关系引入信念网络模型,提出了一个具有两层术语节点的 ...

  6. 本人AI知识体系导航 - AI menu

    Relevant Readable Links Name Interesting topic Comment Edwin Chen 非参贝叶斯   徐亦达老板 Dirichlet Process 学习 ...

  7. [Bayesian] “我是bayesian我怕谁”系列 - Naive Bayes+prior

    先明确一些潜规则: 机器学习是个collection or set of models,一切实践性强的模型都会被归纳到这个领域,没有严格的定义,’有用‘可能就是唯一的共性. 机器学习大概分为三个领域: ...

  8. [BOOK] Applied Math and Machine Learning Basics

    <Deep Learning> Ian Goodfellow Yoshua Bengio Aaron Courvill 关于此书Part One重难点的个人阅读笔记. 2.7 Eigend ...

  9. [Bayesian] “我是bayesian我怕谁”系列 - Naive Bayes with Prior

    先明确一些潜规则: 机器学习是个collection or set of models,一切实践性强的模型都会被归纳到这个领域,没有严格的定义,’有用‘可能就是唯一的共性. 机器学习大概分为三个领域: ...

随机推荐

  1. STL——模拟实现空间配置器

    目录 问题 SGI版本空间配置器-std::alloc 一级空间配置器 二级空间配置器 Refill.chunkAlloc函数 最后,配置器封装的simple_alloc接口 问题 我们在日常编写C+ ...

  2. yum安装与源码编译安装实际使用区别

    总结一些我实际生产使用的区别: 1.yum安装不是说不行,都行,各有千秋. 2.yum安装目录不集中,但基本遵循Linux文件夹的作用去划分文件,比如配置文件通常在/etc下. 3.yum安装说的模块 ...

  3. HDOJ 1770 - 阅读理解...树形DP

    题意: 一个能量E可以通过吸收某个光子的能量变成E1或者释放某个光子的能量变成E2...并且任意两个能量的转化路径至多一条...现在有一堆能量,有一堆光子...如果某个能量与某个光子做直接运算(加上其 ...

  4. js实现的map方法

    /** * * 描述:js实现的map方法 * @returns {Map} */ function Map(){ var struct = function(key, value) { this.k ...

  5. Maven deploy部署jar到远程私服仓库

    一.配置私服账号密码 修改maven配置文件,在$MAVEN_HOME/conf/setting.xml中增加如下配置: 注意,这里配置的id为releases何snapshots,当然可以改为其他, ...

  6. Linux下tomcat修改成的80端口无法访问

    转自: https://blog.csdn.net/u013252047/article/details/72834415 tomcat放到服务器上访问8080端口还需要输入端口号,造成访问不便,好多 ...

  7. 你可能不知道的51个Linux经典命令

    1.删除0字节文件 代码如下: find -type f -size 0 -exec rm -rf {} \; 2.查看进程按内存从大到小排列 代码如下: ps -e -o "%C : %p ...

  8. 如何免费的让网站启用https

    本文源自酷壳:如何免费的让网站启用HTTPS 今天,我把CoolShell变成https的安全访问了.我承认这件事有点晚了,因为之前的HTTP的问题也有网友告诉我,被国内的电信运营商在访问我的网站时加 ...

  9. C#:网络传输问题

    1.Http Post Header 中文数据值,服务端接收Header 中文数据值乱码问题: 客户端:    Encoding utf8Encoding = Encoding.GetEncoding ...

  10. MAC EI Capitan上更新系统自带SVN版本号(关闭SIP方能sudo rm)

    继昨晚之后.决定更新系统自带的svn.自带的svn版本号是1.7.看官网svn:http://www.wandisco.com/subversion/download#osx 最新版本号是1.9.13 ...