高斯混合和EM算法

首先介绍高斯混合模型：

高斯混合模型是指具有以下形式的概率分布模型：

一般其他分布的混合模型用相应的概率密度代替（1）式中的高斯分布密度即可。

给定训练集，我们希望构建该数据联合分布

这里，其中是概率，并且，用表示可能的取值。

因此，我们构建的模型就是假设是由生成，而是从中随机选择出来的，那么就服从个依赖于的高斯分布中的一个。这就是一个高斯混合模型

是潜在随机变量，即它是隐藏的或者观察不到的，这将使得估计问题变得棘手。

上面公式太多，作一个总结，总体意思是关于的条件分布符合高斯分布（即正态分布），这个是潜在变量，它的值未知，但是服从多项式分布，于是关于的条件分布就是高斯混合模型，而是一个潜在变量，值不确定，进而导致高斯混合模型的概率估计也变得棘手。

可以看出，我们构建的高斯混合模型参数有和，为了估计出这些参数，写出参数的似然函数：

变量意味着每一个来自于个高斯分布中的哪一个，如果我们知道变量的值，最大化似然函数问题将变得容易，似然函数将会变成如下形式：

那么参数的最大似然估计可以计算出：

可以看出，当已知的时候，最大似然函数的的估计与前面讨论过的高斯判别分析模型（关于高斯判别模型参见生成式学习算法）几乎一样，除了这里替代了高斯判别模型中类别标签的角色。

但是在这个问题中是未知的，该怎么办？就得运用EM算法。在应用到我们的这个问题中，EM算法分两步，在E步骤中，算法试图猜测出的值，在M步骤中，根据E步骤猜测的值更新参数。需要注意的是在M步骤中假定E步骤中的猜测是正确的，算法流程如下：

E-step: 对于每一个，令：

M-step: 更新参数：

重复上面两步直至收敛（参数不再发生明显变化）

在E-step中计算关于的后验概率时，参数和用的都是当前的值，第一步时可以随机初始化，用贝叶斯公式，我们可以得到：

分子上的是由均值为，方差为的高斯分布在处的概率密度给出，由参数

给出. 在E-step中对的猜测只是猜测它是某个值得概率，被称作“软猜测”，与之对应的“硬猜测”就是一个最好的猜测，即不是0就是1.

和上面我们在推导已知时，参数估计的公式相比，EM算法中的参数更新仅仅是用代替了.

EM算法和k-means算法（参考我的博文K-means聚类算法原理和C++实现）很类似，除了k-means是一个“硬” 类别分配（为每个样本选择一个确定的类别），而这里是以概率的“软”分配（就是取某个值的概率）。同k-means一样，EM算法也容易陷入局部最优，所以多次运行，每次都将参数初始化为不同的值将会是一个很好的解决办法。

EM算法就是不断重复猜测的值，但是到底是如何进行的呢，如何保证收敛性呢，在下一篇博文将继续讨论，从而使得EM算法能够更加容易应用到各种存在潜在变量的参数估计问题中，而且将讨论如何保证算法收敛。

高斯混合和EM算法的更多相关文章

高斯混合模型的EM算法
高斯混合模型的EM算法混合高斯模型高斯混合模型的概率分布可以写成多个高斯分布的线形叠加,即 \[ p(\mathbf x) = \sum_{k=1}^{K}\pi_k\mathcal N(\mat ...
SIGAI机器学习第二十三集高斯混合模型与EM算法
讲授高斯混合模型的基本概念,训练算法面临的问题,EM算法的核心思想,算法的实现,实际应用. 大纲: 高斯混合模型简介实际例子训练算法面临的困难EM算法应用-视频背景建模总结高斯混合模型简写GMM,期 ...
高斯混合模型与EM算法
对于高斯混合模型是干什么的呢?它解决什么样的问题呢?它常用在非监督学习中,意思就是我们的训练样本集合只有数据,没有标签. 它用来解决这样的问题:我们有一堆的训练样本,这些样本可以一共分为K类,用z(i ...
机器学习之高斯混合模型及EM算法
第一部分: 这篇讨论使用期望最大化算法(Expectation-Maximization)来进行密度估计(density estimation). 与k-means一样,给定的训练样本是,我们将隐含类 ...
机器学习基础知识笔记（一）-- 极大似然估计、高斯混合模型与EM算法
似然函数常说的概率是指给定参数后,预测即将发生的事件的可能性.拿硬币这个例子来说,我们已知一枚均匀硬币的正反面概率分别是0.5,要预测抛两次硬币,硬币都朝上的概率: H代表Head,表示头朝上 p( ...
机器学习：高斯混合模型及EM算法
Mixtures of Gaussian 这一讲,我们讨论利用EM (Expectation-Maximization)做概率密度的估计.假设我们有一组训练样本x(1),x(2),...x(m),因为 ...
聚类之高斯混合模型与EM算法
一.高斯混合模型概述 1.公式高斯混合模型是指具有如下形式的概率分布模型: 其中,αk≥0,且∑αk=1,是每一个高斯分布的权重.Ø(y|θk)是第k个高斯分布的概率密度,被称为第k个分模型,参数为 ...
混合高斯模型和EM算法
这篇讨论使用期望最大化算法(Expectation-Maximization)来进行密度估计(density estimation). 与k-means一样,给定的训练样本是,我们将隐含类别标签用表示 ...
EM算法原理详解
1.引言以前我们讨论的概率模型都是只含观测变量(observable variable), 即这些变量都是可以观测出来的,那么给定数据,可以直接使用极大似然估计的方法或者贝叶斯估计的方法:但是当模型 ...

随机推荐

嵌入式 hi3518平台指定网卡测试是否通外网
版权声明:本文为博主原创文章,未经博主允许不得转载. /********************************** (C) COPYRIGHT *********************** ...
【WebApi】————.net WebApi开发（一）
2013年08月08日 ⁄ 综合 ⁄ 共 554字 ⁄ 字号小中大 ⁄ 评论关闭 [1].部署环境.net4及以上版本. [2].vs2010 开发需单独安装vs2010 sp1和mvc4 m ...
Android SDK更新 Connection to http://dl-ssl.google.com refused 解决方法
问题描述使用SDK Manager更新时出现问题Failed to fetch URL https://dl-ssl.google.com/android/repository/repository ...
设置TextView控件的背景透明度和字体透明度
TextView tv = (TextView) findViewById(R.id.xx); 第1种:tv.setBackgroundColor(Color.argb(255, 0, 255, 0) ...
HDU5808Price List Strike Back (BestCoder Round #86 E) cdq分治+背包
严格按题解写,看能不能形成sum,只需要分割当前sum怎么由两边组成就好 #include <cstdio> #include <cstring> #include <c ...
成功BOSS的六大秘诀
1.信念力一个没有坚定信念的人,是不可能成为伟大企业家的.如果你认为自己行,你就一定行:如果你都认为自己不行了,那你就注定不行.在成功这条道路上,要勇敢地自我肯定和鼓励,这样才能带来巨大的创造力并最 ...
Markdown 是什么？
这是一篇 Markdown 学习笔记,简要记录常用 Markdown 语法. Markdown 是什么? Markdown 是一种轻量级标记语言,创始人为约翰·格鲁伯(John Gruber)和亚伦· ...
Mysql explain分析SQL语句之字段属性说明
在 explain的帮助下,您就知道什么时候该给表添加索引,以使用索引来查找记录从而让select 运行更快.如果由于不恰当使用索引而引起一些问题的话,可以运行 analyze table来更新该表的 ...
Javascript模板及其中的数据逻辑分离思想（MVC）
#Javascript模板及其中的数据逻辑分离思想 ##需求描述项目数据库的题目表描述了70-120道题目,并且是会变化的,要根据数据库中的数据描述,比如,选择还是填空题,是不是重点题,题目总分是多 ...
HW7.15
public class Solution { public static void main(String[] args) { double[][] set1 = {{1, 1}, {2, 2}, ...

高斯混合和EM算法

高斯混合和EM算法的更多相关文章

随机推荐

热门专题