Expectation Maximization（EM）算法note

　　EM算法，之前上模式识别课上，推导过，在《统计学习方法》中没耐性的看过几次，个人感觉讲的过于理论，当时没怎么看懂，后来学lda，想要自己实现一下em算法，又忘记了，看来还是学的不够仔细，认识的不够深刻，现在做点笔记。本文是看了几篇blog和《统计学习方法》之后做的笔记，只是用来给自己做记录，很多地方都是直接引用。

一、初识

1. 迭代

　　EM算法本身可以理解为一个迭代算法，很抽象&简单的形容迭代就是，比如我们有两个公式a=f(b), b=g(a)，需要求解，我们可以先随机的给a赋一个值，在根据b=g(a)计算出b，得到b，在根据b得到a，如此往复，直到a，b基本不变。

2. 隐变量问题

　　EM算法很适用与求解包含隐变量的问题，这里引用《统计学习方法》中的一个例子（pLSA的弱化版本）：

　　eg. 有3枚硬币，分别记为A，B，C，掷得正面的概率分别为∏，p，q；

　　　　先投掷硬币A，如果是正面则继续投掷硬币B，是反面则投掷硬币C，最终出现正面记为1，出现反面记为0；

　　　　独立的重复n次实验后，得到一串实验结果Y=(Y1,Y2,……,Yn)。

　　这里Y=(Y₁,Y₂,……,Y_n)^T称作观测变量，但这里也有不能直接观测到，但却需要知道的一个变量，即投掷A的结果，可以记为Z=(Z₁,Z₂,……,Z_n)^T，同时有些已知的参数，我们可以统一记为θ=(∏, p, q)。通过上面的一些符号，我们可以得知Y的分布：

$P(Y|\theta )=\sum_{z}^{ }P(Y,Z;\theta)=\sum_{z}^{ }P(Z|\theta )P(Y|Z,\theta)$

$=\prod_{i=1}^{n}[\pi p^{y_{i}}(1-p)^{1-y_{i}}+(1-\pi)q^{y_{i}}(1-q)^{1-y_{i}}]$

　　上式即为Y的似然函数，得到了似然函数，第一想到的便是参数的似然估计 $\hat{\theta }=arg\underset{\theta }{max}[logP(Y|\theta)]$ ，下面回顾一下最大似然估计（MLE）的一般步骤：

求最大似然函数估计值的一般步骤：

（）写出似然函数；

（）对似然函数取对数，并整理；

（）求导数，令导数为0，得到似然方程；

（）解似然方程，得到的参数即为所求

其实最大似然可以这样想，我们假设已经知道到了θ，在已知θ的情况下，产生Y，很自然，如果我们看到结果产生了很多个Yi，那么P(Yi|θ)一定是比较大的。现在我们反过来想，我们已经知道了Y，

$P(Y|\theta )=\sum_{i=1}^{n}P(Y_{i}|\theta )$

，那么使该结果出现的可能性最大的参数情况，就是我们估计的参数。

　　很不巧，上述步骤，是没有解析解的，这样我们就必须用到EM算法了。

（ps，这里有一篇对常见的三类估计介绍写的不错的文章文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计）

3. Jensen不等式

回顾优化理论中的一些概念。设f是定义域为实数的函数，如果对于所有的实数x，，那么f是凸函数。当x是向量时，如果其hessian矩阵H是半正定的（），那么f是凸函数。如果或者，那么称f是严格凸函数。

Jensen不等式表述如下：

　　如果f是凸函数，X是随机变量，那么

　　特别地，如果f是严格凸函数，那么当且仅当，也就是说X是常量。

如果用图表示会很清晰：

图中，实线f是凸函数，X是随机变量，有0.5的概率是a，有0.5的概率是b。（就像掷硬币一样）。X的期望值就是a和b的中值了，图中可以看到成立。

当f是（严格）凹函数当且仅当-f是（严格）凸函数。

Jensen不等式应用于凹函数时，不等号方向反向，也就是。

二、EM算法

　　上面的例子，有个很悬乎的变量，我们无法直接知道，即A硬币的投掷结果，但如果我们知道了某一次输出在投掷A后的输出是什么了，我们就能够很容易运用最大似然（当然，这个例子用简单的直觉也能知道）得到p，q的估计值。

eg.

　　.如果A硬币的投掷结果有x次正面，n-x次反面（在这个假设下，也就得到了∏的估计值），那么我们只要统计那x次中最后出现的正反面情况就能得到p的估计值了，对q也同理；

　　.得到了p，q值之后，我们又容易反过来问，你怎么知道之前的假设是正确的呢？而在已知p，q的情况下，之前我们的似然函数就能够求解了，这样我们就又能得到一个新的∏

　　.在新的∏值下，我们又可以对p，q进行新的估计了。如此往复，如果最终收敛了，那么就得到了我们对参数θ的估计值

　　上面说的很抽象，下面具体地说一说（以下部分引自（EM算法）The EM Algorithm）。

　　给定的训练样本是，样例间独立，那么样本的似然函数如下：

第一步是对极大似然取对数，第二步是对每个样例的每个可能类别z求联合分布概率和（对z求和后即可得到x的边缘分布概率）。但是直接求θ一般比较困难，因为有隐藏变量z存在，但是一般确定了z后，求解就容易了。

EM是一种解决存在隐含变量优化问题的有效方法。竟然不能直接最大化，我们可以不断地建立的下界（E步），然后优化下界（M步）。这句话比较抽象，看下面的。

对于每一个样例i，让表示该样例隐含变量z的某种分布，满足的条件是。（如果z是连续性的，那么是概率密度函数，需要将求和符号换做积分符号）。比如要将班上学生聚类，假设隐藏变量z是身高，那么就是连续的高斯分布。如果按照隐藏变量是男女，那么就是伯努利分布了（上文提到的三个硬币的例子中的∏就可以理解为这里的，对于每个i，都是∏，∏是伯努利分布）。

　　可以由前面阐述的内容得到下面的公式：

（1）到（2）比较直接，就是分子分母同乘以一个相等的函数。

（2）到（3）利用了Jensen不等式。

　　考虑到是凹函数（二阶导数小于0），而且，可以理解为的期望。得到(3)式后，我可以理解为，得到了似然函数l(θ)的一个下界，如果不断提升下界，使下界的值与l(θ)近似相等时，我们就可以用不等式右边的值代替l(θ)了。

　　对于的选择，有多种可能，那种更好的？假设已经给定，那么的值就决定于和（其实应该是，但这里只有未知）。首先我们思考当和都已经确定时，也就是jensen不等式中的随机变量已知时，我们可以知道当该随机变量恒为常数时，不等式取等号，即：

c为常数，不依赖于（但确是依赖于x⁽ⁱ⁾的，所以对于不同i，c还是不一样的，但都是常数，所以在M步中不能恒为c）。对此式子做进一步推导，我们知道，那么也就有，那么有下式：

至此，我们推出了在固定其他参数后，的计算公式就是后验概率，解决了如何选择的问题。这一步就是E步，建立的下界。接下来的M步，就是在给定后，调整，去极大化的下界（在固定后，下界还可以调整的更大）。那么一般的EM算法的步骤如下：

循环重复直到收敛 {

（E步）对于每一个i，计算

（M步）计算

　这里需要说明几点，比如，从第(t)步到(t+1)步：E步是固定θ^(t)，得到了，那么在M步中，中的θ将还是上一步的θ^(t)，而P(x⁽ⁱ⁾,z⁽ⁱ⁾;θ)则是需要求解的θ，改变该θ的值，去使M步中式子的值最大的时刻对应的θ，即为新的θ^(t+1)所以M步中的式子可以进一步优化成

　　　　 $\theta :=arg\underset{\theta }{max}\sum_{i}^{ }\sum_{z^{(i)}}^{ }Q_{i}(z^{(i)})log[p(x^{(i)},z^{(i)};\theta )]$

因为都是求max时对应的θ，所以分母上的可以不用计算了，而这一步就是最大化似然函数的期望。

　　Zhai老师在一篇经典的EM算法Notes中讲到，当原始数据的似然函数很复杂时，我们通过增加一些隐含变量来增强我们的数据，得到“complete data”,而“complete data”的似然函数更加简单，方便求极大值。于是，原始的数据就成了“incomplete data”。我们将会看到，我们可以通过最大化“complete data”似然函数的期望来最大化"incomplete data"的似然函数，以便得到求似然函数最大值更为简单的计算途径。

　　那么如何证明EM算法会收敛，其实有下面公式就好了：

这里证明了，即l(θ)是单调上升的，到最后就一定能收敛到最大值。具体解释：

（4）是对所有的参数都满足，而其等式成立条件只是在固定，并调整好Q时成立（即如果是 $Q_{i}^{(t+1)}$ ，等式成立），这里 $Q_{i}^{(t+1)}$ 不一定等于 $Q_{i}^{(t)}$ ，所以不一定能取等号。

（4）到（5）就是M步的定义， $\theta ^{(t+1)}$ 是固定第t步，固定Q调整得到的结果

（5）到（6）是前面E步所保证等式成立条件。

　　也就是说E步会将下界拉到与一个特定值（这里）一样的高度，而此时发现下界仍然可以上升，因此经过M步后，下界又被拉升，但达不到与另外一个特定值一样的高度，即此时下界还是要小于，之后E步又将下界拉到与这个特定值一样的高度，重复下去，直到将下界拉升到的最大值。

　　某 blog 中有个很形象的图，引用到这里

如果定义

从前面的推导中我们知道，EM可以看作是J的坐标上升法，E步固定，优化，M步固定优化。

EM算法的基本原理就是这些了

Reference

1. 统计学习方法

2. http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html

3. http://blog.csdn.net/zouxy09/article/details/8537620

4. Andrew Ng 课程

5. http://blog.csdn.net/yangliuy/article/details/8330640

Expectation Maximization（EM）算法note的更多相关文章

Expectation maximization - EM算法学习总结
原创博客,转载请注明出处 Leavingseason http://www.cnblogs.com/sylvanas2012/p/5053798.html EM框架是一种求解最大似然概率估计的方法.往 ...
EM（Expectation Maximization）算法
EM(Expectation Maximization)算法参考资料: [1]. 从最大似然到EM算法浅解 [2]. 简单的EM算法例子 [3]. EM算法)The EM Algorithm(详尽 ...
EM算法(Expectation Maximization)
1 极大似然估计假设有如图1的X所示的抽取的n个学生某门课程的成绩,又知学生的成绩符合高斯分布f(x|μ,σ2),求学生的成绩最符合哪种高斯分布,即μ和σ2最优值是什么? 图1 学生成绩的分 ...
Expectation Maximization and GMM
Jensen不等式 Jensen不等式给出了积分的凸函数值必定大于凸函数(convex)的积分值的定理.在凸函数曲线上的任意两点间连接一条线段,那么线段会位于曲线之上,这就是将Jensen不等式应用到 ...
EM算法详解
EM算法详解 1 极大似然估计假设有如图1的X所示的抽取的n个学生某门课程的成绩,又知学生的成绩符合高斯分布f(x|μ,σ2),求学生的成绩最符合哪种高斯分布,即μ和σ2最优值是什么? 图1 学生成 ...
机器学习五 EM 算法
目录引言经典示例 EM算法 GMM 推导参考文献: 引言 Expectation maximization (EM) 算法是一种非常神奇而强大的算法. EM算法于 1977年由Dempster ...
最大期望算法 Expectation Maximization概念
在统计计算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量(Lat ...
数据挖掘十大经典算法(5) 最大期望(EM)算法
在统计计算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量(Lat ...
NLP —— 图模型（零）：EM算法简述及简单示例（三硬币模型）
最近接触了pLSA模型,该模型需要使用期望最大化(Expectation Maximization)算法求解. 本文简述了以下内容: 为什么需要EM算法 EM算法的推导与流程 EM算法的收敛性定理使 ...
EM算法及其推广
概述 EM算法是一种迭代算法,用于含有隐变量(hidden variable)的概率模型参数的极大似然估计,或极大后验概率估计. EM算法的每次迭代由两步组成:E步,求期望(expectation): ...

随机推荐

linux中backticks反引号的作用
This is a backtick. A backtick is not a quotation sign. It has a very special meaning. Everything yo ...
XAMPP + Xdebug+Zend Studio
建立php开发环境(XAMPP + Xdebug+Zend Studio) 大家知道,运行php可以在apache上运行,但是要在apache上配置php解释器模块,懒得麻烦.就用XAMPP吧,它已经 ...
Zxing二维码扫描
源代码地址有问题能够加QQ:312122330 之前对于Zbar的二位码扫描.到项目上线以后才发现扫描过于灵敏.导致有时候扫描到半截就启动了. 后来翻看ZXING的源代码,没有想象的复杂,复杂的地 ...
OkDownload项目实战
本文介绍项目中引入okhttp-okgo开源框架里的OkDownload部分,实现了RecyclerView列表的下载功能. 引入OKDownload 需求不仅是要支持断点续传,而且还要支持队列下载和 ...
QueryRunner
在相继学习了JDBC和数据库操作之后,我们明显感到编写JDBC代码并非一件轻松的事儿.为了帮助我们更高效的学习工作,从JDBC的繁重代码中解脱出来,xx给我们详尽介绍了一个简化JDBC操作的组件——D ...
JDBC:数据库操作：处理大对象CLOB数据
目标: 了解大对象处理基本原理, 掌握CLOB数据的读,写操作. 可以使用CLOB类处理大文本数据. 大对象处理主要指CLOB和BLOB两种类型字段.可以大量存储文字. 要想在程序中处理这样的大数据操 ...
RecSys Challenge 2015
[The Task] Given a sequence of click events performed by some user during a typical session in an e- ...
【干货】电路设计师指导手册（已更新完毕）（转载EDN）
[干货]电路设计师指导手册(已更新完毕) 第一部分:接地与布线第二部分:电源返回路径与I/O信号接地第三部分:板间互连.星形接地及屏蔽第四部分:安全地以及电线/电缆第五部分:射频电缆.双绞线与串扰
JBoss目录结构说明
http://www.blogjava.net/livery/articles/262544.html $JBOSS-HOME/bin: 放置各种脚本文件以及相关文件,包括jb ...
maven 动态版本 aliyun阿里云Maven仓库地址——加速你的maven构建
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/20 ...

Expectation Maximization（EM）算法note

Expectation Maximization（EM）算法note的更多相关文章

随机推荐

热门专题