EM算法原理以及高斯混合模型实践

EM算法有很多的应用:

最广泛的就是GMM混合高斯模型、聚类、HMM等等.

The EM Algorithm

高斯混合模型（Mixtures of Gaussians）和EM算法

EM算法

求最大似然函数估计值的一般步骤：

（1）写出似然函数；

（2）对似然函数取对数，并整理；

（3）求导数，令导数为0，得到似然方程；

（4）解似然方程，得到的参数即为所求.

期望最大化算法（EM算法）:

优点：

1、简单稳定；

2、通过E步骤和M步骤使得期望最大化，是自收敛的分类算法，既不需要事先设定类别也不需要数据见的两两比较合并等操作.

缺点:

1、迭代速度慢，次数多；

2、对初始化敏感；

3、当所要优化的函数不是凸函数时，容易陷入局部最优；

4、EM可能收敛到参数空间的边界.

#####################R语言：给定一组数据设置参数########################

###EM算法在高斯混合模型GMM(Gaussian Mixture Model )中有很重要的用途.

###简单来讲GMM就是一些高斯分布的组合.如果我们已知观测到的数据的类别，

###则可以根据ML来估计出GMM的参数.反之，对于没有类别信息一堆数据，如果

###我们已知GMM的参数，可以很容易用贝叶斯公式将它们归入不同的类中；但尴尬

###的问题是我们即不知道GMM参数，也不知道观测数据的类别.以下面生成的一维数据为###例，

###我们希望找到这两个高斯分布的参数，同时为这些数据分类.

# 设置模拟参数

if(FALSE){

miu1 <- 3

miu2 <- -2

sigma1 <- 1

sigma2 <- 2

alpha1 <- 0.4

alpha2 <- 0.6

# 生成两种高斯分布的样本

n <- 5000

x <- rep(0,n)

n1 <- floor(n*alpha1)

n2 <- n - n1

x[1:n1] <- rnorm(n1)*sigma1 + miu1

x[(n1+1):n] <- rnorm(n2)*sigma2 + miu2

hist(x,freq=F)

lines(density(x),col='red')

###下面用EM算法来估计GMM的参数.

}

x <- c(-67,-48,6,8,14,16,23,24,28,29,41,49,56,60,75)

# 设置初始值

n <- 15

m <- 2

miu <- runif(m)

sigma <- runif(m)

alpha <- c(0.5,0.5)

prob <- matrix(rep(0,n*m),ncol=m)

for (step in 1:10){

# E步骤

for (j in 1:m){

prob[,j]<- sapply(x,dnorm,miu[j],sigma[j])

}

sumprob <- rowSums(prob)

prob<- prob/sumprob

####做NAN处理

for(i in 1:n)

for(j in 1:m){

{

if(is.nan(prob[i,j])){prob[i,j] <- 0}

}

oldmiu <- miu

oldsigma <- sigma

oldalpha <- alpha

# M步骤

for (j in 1:m){

p1 <- sum(prob[ ,j])

p2 <- sum(prob[ ,j]*x)

miu[j] <- p2/p1

alpha[j] <- p1/n

p3 <- sum(prob[ ,j]*(x-miu[j])^2)

sigma[j] <- sqrt(p3/p1)

}

# 变化

epsilo <- 1e-3

if(sum(abs(miu-oldmiu))<epsilo && sum(abs(sigma-oldsigma))<epsilo && sum(abs(alpha-oldalpha))<epsilo) break

cat('step',step,'miu',miu,'sigma',sigma,'alpha',alpha,'\n')

}

####得出结果

step 1 miu 6.822826 17.40323 sigma 0.9985392 5.880087 alpha 0.08455481 0.3154452

step 2 miu 6.972619 22.93183 sigma 0.9996251 38.57418 alpha 0.1252252 0.8747748

#####

###GMM 模型常用于基于模型的聚类分析，GMM中的每一个高斯分布都可以代表数据的一类，

###整个数据就是多个高斯分布的混合。在R中的mclust包中的Mclust函数可以用来进行基

###于GMM的聚类分析。下面即是以最常用的iris数据集为例，聚类结果生成的图形：

library(mclust)

mc <- Mclust(iris[,1:4], 3)

plot(mc, data=iris[,1:4], what="classification",dimens=c(3,4))

table(iris$Species, mc$classification)

EM算法原理以及高斯混合模型实践的更多相关文章

又看了一次EM 算法，还有高斯混合模型，最大似然估计
先列明材料: 高斯混合模型的推导计算(英文版): http://www.seanborman.com/publications/EM_algorithm.pdf 这位翻译写成中文版: http://w ...
2. EM算法-原理详解
1. EM算法-数学基础 2. EM算法-原理详解 3. EM算法-高斯混合模型GMM 4. EM算法-高斯混合模型GMM详细代码实现 5. EM算法-高斯混合模型GMM+Lasso 1. 前言概率 ...
记录：EM 算法估计混合高斯模型参数
当概率模型依赖于无法观测的隐性变量时,使用普通的极大似然估计法无法估计出概率模型中参数.此时需要利用优化的极大似然估计:EM算法. 在这里我只是想要使用这个EM算法估计混合高斯模型中的参数.由于直观原 ...
EM算法原理详解
1.引言以前我们讨论的概率模型都是只含观测变量(observable variable), 即这些变量都是可以观测出来的,那么给定数据,可以直接使用极大似然估计的方法或者贝叶斯估计的方法:但是当模型 ...
EM算法原理简析——图解
一. 扯淡转眼间毕业快一年了,这期间混了两份工作,从游戏开发到算法.感觉自己还是喜欢算法,可能是大学混了几年算法吧!所以不想浪费基础... 我是个懒得写博客的人,混了几年coding,写的博客不超过 ...
EM算法原理总结
EM算法也称期望最大化(Expectation-Maximum,简称EM)算法,它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM), LDA主题模型的变分推断等等.本文就对 ...
EM算法与混合高斯模型
非常早就想看看EM算法,这个算法在HMM(隐马尔科夫模型)得到非常好的应用.这个算法公式太多就手写了这部分主体部分. 好的參考博客:最大似然预计到EM,讲了详细样例通熟易懂. JerryLead博客非 ...
EM算法--原理
EM算法即期望最大化(Expection Maximization)算法,是一种最优化算法,在机器学习领域用来求解含有隐变量的模型的最大似然问题.最大似然是一种求解模型参数的方法,顾名思义,在给定一组 ...
【转】EM算法原理
EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法.在之后的MT中的词对齐中也用到了.在Mitchell的书中也提到EM可以用于贝叶 ...

随机推荐

Device Tree（三）：代码分析
一.前言 Device Tree总共有三篇,分别是: 1.为何要引入Device Tree,这个机制是用来解决什么问题的?(请参考引入Device Tree的原因) 2.Device Tree的基础概 ...
摩托罗拉SE4500 三星 S3C6410 Wince6.0平台软解码调试记录以及驱动相关问题解释
虽然S3C6410出来很多年了,甚至于已经停产了,出货的几乎都有依赖于库存,SE4500也出来很多年了,但是网上依旧不会有调试资料帮助你,一切源于自私.希望本文能帮到你,不必感谢.本文来自C.S.D. ...
摘抄--使用cos实现多个文件上传详解
在开发中常常需要上传文件,上传文件的方式有很多种,这里有一个cos实现的例子. 首先是要拷贝cos.jar包拷贝到WEB-INF/lib目录下,然后才进行编码. 创建一个可以进行自动重命名的Java文 ...
ios获取摄像头与相册图片
iOS的一些设备上都安装了摄像头.现在绝大多数都有了. 在编程中,我们是用相应的东西来进行照相,录像等功能. 一.UIImagePickerController类 UIImagePickerCon ...
ORACLE分页SQL语句
.根据ROWID来分 select * from t_xiaoxi where rowid in(select rid from (select rownum rn,rid from(select r ...
【Unity3D游戏开发】GameObject.Find()、Transform.Find查找隐藏对象 (十)
GameObjectFindTransformFind查找游戏对象前置条件相关API 1 GameObjectFind 2 TransformFind 3 其他查找实际测试即使隐藏root节点 ...
【转载】linux内核笔记之进程地址空间
原文:linux内核笔记之进程地址空间进程的地址空间由允许进程使用的全部线性地址组成,在32位系统中为0~3GB,每个进程看到的线性地址集合是不同的. 内核通过线性区的资源(数据结构)来表示线性地址 ...
最大熵模型（Maximum Etropy）—— 熵，条件熵，联合熵，相对熵，互信息及其关系，最大熵模型。。
引入1:随机变量函数的分布给定X的概率密度函数为fX(x), 若Y = aX, a是某正实数,求Y得概率密度函数fY(y). 解:令X的累积概率为FX(x), Y的累积概率为FY(y). 则 FY( ...
Web开发——Tomcat的配置
1.选择Tomcat 1.Apache官网http://apache.org/ 2.Tomcat官网http://tomcat.apache.org/ 3.Tomcat下载地址http://tomca ...
C#计算某一些任务的执行时间(消耗时间)
class Program { static void Main(string[] args) { System.Diagnostics.Stopwatch sw = new System.Diagn ...

EM算法原理以及高斯混合模型实践

EM算法原理以及高斯混合模型实践的更多相关文章

随机推荐

热门专题