机器学习-EM算法笔记】的更多相关文章

EM算法也称期望最大化(Expectation-Maximum,简称EM)算法,它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM), LDA主题模型的变分推断,混合高斯模型GMM,基于概率统计的pLSA模型. EM算法概述(原文) 我们经常会从样本观察数据中,找出样本的模型参数. 最常用的方法就是极大化模型分布的对数似然函数. 但是在一些情况下,我们得到的观察数据有未观察到的隐含数据,此时我们未知的有隐含数据和模型参数,因而无法直接用极大化对数似然函数得到模型分布的参…
pLSA模型--基于概率统计的pLSA模型(probabilistic Latent Semantic Analysis,概率隐语义分析),增加了主题模型,形成简单的贝叶斯网络,可以使用EM算法学习模型参数.概率潜在语义分析应用于信息检索,过滤,自然语言处理,文本的机器学习或者其他相关领域. D代表文档,Z代表主题(隐含类别),W代表单词: P(di)表示文档di的出现概率, P(zk|di)表示文档di中主题zk的出现概率, P(wj|zk)表示给定主题zk出现单词wj的概率.每个主题在…
EM算法在很多地方都用使用到,比如简单的K-means算法,还有在隐马尔可夫里面,也涉及到了EM算法,可见EM算法在机器学习领域的重要地位.在这里就写一下我对于EM算法的一些理解笔记.后续有新的理解也会追加的. EM算法的全称叫做:期望最大.EM算法的想法很简单,就像一个人有两条腿向前走,你总是需要固定一条腿动另一条腿这样交替往前走.这里面的两条腿,一个是隐变量,一个是参数θ. 在了解EM算法之前,首先需要了解一些基本的概念. 凹凸函数 这个是<最优化>里面的概念,如果它的二阶导大于0,那么就…
最近感觉对EM算法有一点遗忘,在表述的时候,还是有一点说不清,于是重新去看了这篇<CS229 Lecture notes>笔记. 于是有了这篇小札. 关于Jensen's inequality不等式: Corollary(推论): 如果函数f(x)为凸函数,那么在 f(x) 上任意两点X1,X2所作割线一定在这两点间的函数图象的上方,即:    其中t表示[x1,x2]的位置 举例子: 当t=1/2 ;  1/2*f(x1) + 1/2*f(x2) >= f( 1/2*x1 + 1/2*…
1 数学基础 在实际中,最小化的函数有几个极值,所以最优化算法得出的极值不确实是否为全局的极值,对于一些特殊的函数,凸函数与凹函数,任何局部极值也是全局极致,因此如果目标函数是凸的或凹的,那么优化算法就能保证是全局的. 凸集:在凸几何中,凸集(convex set)是在凸组合下闭合的仿射空间的子集.更具体地说,在欧氏空间中,凸集是对于集合内的每一对点,连接该对点的直线段上的每个点也在该集合内.例如,立方体是凸集,但是任何中空的或具有凹痕的例如月牙形都不是凸集.特别的,凸集,实数R上(或复数C上)…
最大期望算法 EM算法的正式提出来自美国数学家Arthur Dempster.Nan Laird和Donald Rubin,其在1977年发表的研究对先前出现的作为特例的EM算法进行了总结并给出了标准算法的计算步骤,EM算法也由此被称为Dempster-Laird-Rubin算法.1983年,美国数学家吴建福(C.F. Jeff Wu)给出了EM算法在指数族分布以外的收敛性证明. MLE MLE就是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值 的计算过程.直白来讲,就是给定了…
上一篇开头说过1983年,美国数学家吴建福(C.F. Jeff Wu)给出了EM算法在指数族分布以外的收敛性证明. EM算法的收敛性只要我们能够证明对数似然函数的值在迭代的过程中是增加的 即可: 证明: 一直我们的EM算法会极大化这个似然函数L, 问题得证.…
目录 最大似然估计 K-means算法 EM算法 GMM算法(实际是高斯混合聚类) 中心思想:①极大似然估计 ②θ=f(θold) 此算法非常老,几乎不会问到,但思想很重要. EM的原理推导还是蛮复杂的,图片上没法子编辑公式,直接打字无法完美描述整个过程,所以我直接在纸上打出详细过程加以备注 有哪些看不清楚的下面评论区留言,每天我都在 概括 GMM算法…
GMM即高斯混合模型,下面根据EM模型从理论公式推导GMM: 随机变量X是有K个高斯分布混合而成,取各个高斯分布的概率为φ1,φ2,... ,φK,第i个高斯分布的均值为μi,方差为Σi.若观测到随机变量X的一系列样本x1,x2,...,xn,试估计参数φ,μ,Σ. E-step M-step 将多项分布和高斯分布的参数带入EM模型: 对均值求偏导:   令上式等于0,解的均值: 高斯分布的方差:求偏导,等于0: 多项分布的参数: 得到 拉格朗日乘子法: 由于多项分布的概率和为1,建立拉格朗日方…
可供使用现成工具:Matlab SVM工具箱.LibSVM.SciKit Learn based on python 一 问题原型 解决模式识别领域中的数据分类问题,属于有监督学习算法的一种. 如图所示的二分类问题,A,B为决策面(二维空间中是决策线),每个决策面对应一个线性分类器方案,分类间隔越大则SVM分类器的性能越优(A>B),而具有最大间隔的分类方案则是最优决策面.SVM正是要寻找这样的最优解,虚线穿过的向量点就是支撑向量(对应A有三个支撑向量,一红二蓝).优化对象看上去似乎成了决策面的…