EM算法的直观描述】的更多相关文章

解决含有隐变量的问题有三种方法,其中第三种方法就是通常所说的em算法.下面以统计学习方法中给出的三硬币问题为例来分别描述这三种方法.(a,b,c三硬币抛出来为正的概率分别为pai,p,q,每轮抛硬币先抛a硬币,a为正则抛b硬币,a为反则抛c硬币.把b硬币或者c硬币的结果(正或反)作为最终结果,即样观测值.) 第一种方法: 现在我们只知道样本的观测值集合,我们可以以每一个样本观测值(例如y1=1)为一个单位单独考察.在这种方法之下,我们并不关注pai的值是多少,即抛出a为正的概率,只关注与该样本观…
Expectation Maximization, 字面翻译为, "最大期望". 我个人其实一直都不太理解EM算法, 从我个人的渊源来看, 之前数理统计里面的参数估计, 也是没有太理解. 但困难总是要面对, 必须啃下它, 因其真的不太直观, 所以先举个经典的栗子. 栗子-硬币正面概率 理想我是上帝 假设咱有两个硬币, 分别为 coin A 和 coin B 同样假设我们上帝, 知道做实验是用的哪个硬币 的情况下, 扔的结果如下: (H 表正面, T表反面) B: H T T T H H…
讲到 EM 算法就不得不提极大似然估计,我之前讲过,请参考我的博客 下面我用一张图解释极大似然估计和 EM 算法的区别 EM 算法引例1-抛3枚硬币 还是上图中抛硬币的例子,假设最后结果正面记为1,反面记为0,抛10次,结果为 1101001011: 下面我用数据公式解释下这个例子和 EM 算法: 三硬币模型可以写作 θ 表示模型参数,即 三枚硬币正面的概率,用 π p q 表示: y 表示观测随机变量,取值为 0,1: z 表示隐随机变量,在本例中就是 A 的正反面,或者是选择 B 还是不选择…
1 数学基础 在实际中,最小化的函数有几个极值,所以最优化算法得出的极值不确实是否为全局的极值,对于一些特殊的函数,凸函数与凹函数,任何局部极值也是全局极致,因此如果目标函数是凸的或凹的,那么优化算法就能保证是全局的. 凸集:在凸几何中,凸集(convex set)是在凸组合下闭合的仿射空间的子集.更具体地说,在欧氏空间中,凸集是对于集合内的每一对点,连接该对点的直线段上的每个点也在该集合内.例如,立方体是凸集,但是任何中空的或具有凹痕的例如月牙形都不是凸集.特别的,凸集,实数R上(或复数C上)…
EM算法也称期望最大化(Expectation-Maximum,简称EM)算法,它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM), LDA主题模型的变分推断等等.本文就对EM算法的原理做一个总结. 1. EM算法要解决的问题 我们经常会从样本观察数据中,找出样本的模型参数. 最常用的方法就是极大化模型分布的对数似然函数. 但是在一些情况下,我们得到的观察数据有未观察到的隐含数据,此时我们未知的有隐含数据和模型参数,因而无法直接用极大化对数似然函数得到模型分布的参数.…
最近看斯坦福大学的机器学习课程,空下来总结一下参数估计相关的算法知识. 一.极大似然估计: 大学概率论课程都有讲到参数估计的两种基本方法:极大似然估计.矩估计.两种方法都是利用样本信息尽量准确的去描述总体信息,或者说给定模型(参数全部或者部分未知)和数据集(样本),让我们去估计模型的未知参数. 其中,矩估计依赖于辛钦大数定律:简单随机样本的原点矩依概率收敛到相应的总体原点矩,这就启发我们利用样本矩替换总体矩(最简单的是用一阶样本原点矩估计总体期望,而用二阶样本中心矩估计总体方差),其一大优点就是…
EM算法(Expectation Maximization Algorithm) 1. 前言   这是本人写的第一篇博客(2013年4月5日发在cnblogs上,现在迁移过来),是学习李航老师的<统计学习方法>书以及斯坦福机器学习课Andrew Ng的EM算法课后,对EM算法学习的介绍性笔记,如有写得不恰当或错误的地方,请指出,并多多包涵,谢谢.另外本人数学功底不是很好,有些数学公式我会说明的仔细点的,如果数学基础好,可直接略过. 2.基础数学知识   在正式介绍EM算法之前,先介绍推导EM算…
最大期望算法:EM算法. 在统计计算中,最大期望算法(EM)是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量. 最大期望算法经过两个步骤交替进行计算: 第一步是计算期望(E),利用对隐藏变量的现有估计,计算其最大似然估计值: 第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值. M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行. 总体来说,EM算法流程如下: 1.初始化分布参数 2.重复直到收敛: E步:估未知参数的…
EM算法简述 EM算法是一种迭代算法,主要用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计.EM算法的每次迭代由两步完成: E步,求期望 M步,求极大. EM算法的引入 如果概率模型的变量都是观测变量,那么给定数据,可以直接用极大似然估计法或贝叶斯估计法估计模型参数,但是当模型中含有隐变量时,就不能简单地使用这些估计方法.因此提出了EM算法. EM算法流程 假定集合 由观测数据 和未观测数据 组成, 和 分别称为不完整数据和完整数据.假设Z的联合概率密度被参数化地定义为 ,其中 表…
1.EM算法要解决的问题 如果使用基于最大似然估计的模型,模型中存在隐变量,就要用EM算法做参数估计. EM算法解决这个的思路是使用启发式的迭代方法,既然我们无法直接求出模型分布参数,那么我们可以先猜想隐含数据(EM算法的E步),接着基于观察数据和猜测的隐含数据一起来极大化对数似然,求解我们的模型参数(EM算法的M步).由于我们之前的隐藏数据是猜测的,所以此时得到的模型参数一般还不是我们想要的结果.不过没关系,我们基于当前得到的模型参数,继续猜测隐含数据(EM算法的E步),然后继续极大化对数似然…