PLSA中的EM算法】的更多相关文章

转自:http://www.cnblogs.com/rocketfan/archive/2011/07/03/2096953.html 主要记录下几个文章博客内容 A Note on EM Algorithm for Probabilistic Latent SemanticAnalysis(翟成祥的NOTE) A Note on EM Algorithm and PLSA(一个中文比较好的总结 by Xinyan Lu) 注意这两个是一个思路 Probabilistic Latent Sema…
最大期望算法(EM) K均值算法很easy(可參见之前公布的博文),相信读者都能够轻松地理解它. 但以下将要介绍的EM算法就要困难很多了.它与极大似然预计密切相关. 1 算法原理 最好还是从一个样例開始我们的讨论.如果如今有100个人的身高数据,并且这100条数据是随机抽取的. 一个常识性的看法是.男性身高满足一定的分布(比如正态分布),女性身高也满足一定的分布.但这两个分布的參数不同. 我们如今不仅不知道男女身高分布的參数,甚至不知道这100条数据哪些是来自男性.哪些是来自女性.这正符合聚类问…
不同于其它的机器学习模型,EM算法是一种非监督的学习算法,它的输入数据事先不需要进行标注.相反,该算法从给定的样本集中,能计算出高斯混和参数的最大似然估计.也能得到每个样本对应的标注值,类似于kmeans聚类(输入样本数据,输出样本数据的标注).实际上,高斯混和模型GMM和kmeans都是EM算法的应用. 在opencv3.0中,EM算法的函数是trainEM,函数原型为: bool trainEM(InputArray samples, OutputArray logLikelihoods=n…
EM算法也称期望最大化(Expectation-Maximum,简称EM)算法,它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM), LDA主题模型的变分推断,混合高斯模型GMM,基于概率统计的pLSA模型. EM算法概述(原文) 我们经常会从样本观察数据中,找出样本的模型参数. 最常用的方法就是极大化模型分布的对数似然函数. 但是在一些情况下,我们得到的观察数据有未观察到的隐含数据,此时我们未知的有隐含数据和模型参数,因而无法直接用极大化对数似然函数得到模型分布的参…
首先介绍高斯混合模型: 高斯混合模型是指具有以下形式的概率分布模型: 一般其他分布的混合模型用相应的概率密度代替(1)式中的高斯分布密度即可. 给定训练集,我们希望构建该数据联合分布 这里,其中是概率,并且,用表示可能的取值. 因此,我们构建的模型就是假设是由生成,而是从中随机选择出来的,那么就服从个依赖于的高斯分布中的一个.这就是一个高斯混合模型 是潜在随机变量,即它是隐藏的或者观察不到的,这将使得估计问题变得棘手. 上面公式太多,作一个总结,总体意思是关于的条件分布符合高斯分布(即正态分布)…
1.EM算法是含有隐变量的变量的概率模型极大似然估计或极大后验概率估计的迭代算法,含有隐变量的概率模型的数据表示为$P(Y,Z|\theta)$.这里,$Y$是观测变量的数据,$Z$是隐变量的数据,$\theta$是模型参数.EM算法通过迭代求解观测数据的对数似然函数$L(\theta)=logP(Y|\theta)$的极大化,实现极大似然估计.每次迭代包括两步:E步,求期望,即求$logP(Y|\theta)$关于$P(Y|\theta^{(i)})$的期望: $Q(\theta,\theta…
将学习EM算法过程中看到的好的资料汇总在这里,供以后查询.也供大家參考. 1. 这是我学习EM算法最先看的优秀的入门文章,讲的比較通俗易懂,并且举了样例来说明当中的原理.不错! http://blog.csdn.net/zouxy09/article/details/8537620 还有这个,跟上一篇几乎相同,略微有些深入.说明了EM过程收敛的原因. http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html 另外,这篇文章中…
EM算法(Expectation Maximization Algorithm) 1. 前言   这是本人写的第一篇博客(2013年4月5日发在cnblogs上,现在迁移过来),是学习李航老师的<统计学习方法>书以及斯坦福机器学习课Andrew Ng的EM算法课后,对EM算法学习的介绍性笔记,如有写得不恰当或错误的地方,请指出,并多多包涵,谢谢.另外本人数学功底不是很好,有些数学公式我会说明的仔细点的,如果数学基础好,可直接略过. 2.基础数学知识   在正式介绍EM算法之前,先介绍推导EM算…
EM算法简述 EM算法是一种迭代算法,主要用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计.EM算法的每次迭代由两步完成: E步,求期望 M步,求极大. EM算法的引入 如果概率模型的变量都是观测变量,那么给定数据,可以直接用极大似然估计法或贝叶斯估计法估计模型参数,但是当模型中含有隐变量时,就不能简单地使用这些估计方法.因此提出了EM算法. EM算法流程 假定集合 由观测数据 和未观测数据 组成, 和 分别称为不完整数据和完整数据.假设Z的联合概率密度被参数化地定义为 ,其中 表…
前言:本文主要介绍PLSA及EM算法,首先给出LSA(隐性语义分析)的早期方法SVD,然后引入基于概率的PLSA模型,其参数学习采用EM算法.接着我们分析如何运用EM算法估计一个简单的mixture unigram 语言模型和混合高斯模型GMM的参数,最后总结EM算法的一般形式及运用关键点.对于改进PLSA,引入hyperparameter的LDA模型及其Gibbs Sampling参数估计方法放在本系列后面的文章LDA及Gibbs Samping介绍. 1 LSA and SVD LSA(隐性…