1. 前言

EM的前3篇博文分别从数学基础、EM通用算法原理、EM的高斯混合模型的角度介绍了EM算法。按照惯例，本文要对EM算法进行更进一步的探究。就是动手去实践她。

2. GMM实现

我的实现逻辑基本按照GMM算法流程中的方式实现。需要全部可运行代码，请移步我的github。

输入：观测数据$x_1,x_2,x_3,...,x_N$

对输入数据进行归一化处理

#数据预处理

def scale_data(self):

    for d in range(self.D):

        max_ = self.X[:, d].max()

        min_ = self.X[:, d].min()

        self.X[:, d] = (self.X[:, d] - min_) / (max_ - min_)

    self.xj_mean = np.mean(self.X, axis=0)

    self.xj_s = np.sqrt(np.var(self.X, axis=0))

输出：GMM的参数

初始化参数

#初始化参数

def init_params(self):

    self.mu = np.random.rand(self.K, self.D)

    self.cov = np.array([np.eye(self.D)] * self.K) * 0.1

    self.alpha = np.array([1.0 / self.K] * self.K)

E步：根据当前模型，计算模型$k$对$x_i$的影响

\[\gamma_{ik}=\frac{\pi_k\mathcal{N}(\boldsymbol{x}|\boldsymbol{\mu}_k,\boldsymbol{\Sigma}_k)}{\sum_{k=1}^K\pi_k\mathcal{N}(\boldsymbol{x}|\boldsymbol{\mu}_k,\boldsymbol{\Sigma}_k)}
\]

#e步，估计gamma

def e_step(self, data):

    gamma_log_prob = np.mat(np.zeros((self.N, self.K)))

    for k in range(self.K):

        gamma_log_prob[:, k] = log_weight_prob(data, self.alpha[k], self.mu[k], self.cov[k])

    log_prob_norm = logsumexp(gamma_log_prob, axis=1)

    log_gamma = gamma_log_prob - log_prob_norm[:, np.newaxis]

    return log_prob_norm, np.exp(log_gamma)

M步：计算$\mu_{k+1},\Sigma_{k+1}^2,\pi_{k+1}$。

\[n_k=\sum_{i=1}^N\gamma_{ik}
\]

\[\mu_{k+1}=\frac{1}{n_k}\sum_{i=1}^N\gamma_{ik}x_i
\]

\[\Sigma_{k+1}^2=\frac{1}{n_k}\sum_{i=1}^N\gamma_{ik}(x_i-\mu_k)^2
\]

\[\pi_{k+1}=\frac{n_k}{N}
\]

#m步，最大化loglikelihood

def m_step(self):

    newmu = np.zeros([self.K, self.D])

    newcov = []

    newalpha = np.zeros(self.K)

    for k in range(self.K):

        Nk = np.sum(self.gamma[:, k])

        newmu[k, :] = np.dot(self.gamma[:, k].T, self.X) / Nk

        cov_k = self.compute_cov(k, Nk)

        newcov.append(cov_k)

        newalpha[k] = Nk / self.N

    newcov = np.array(newcov)

    return newmu, newcov, newalpha

重复2，3两步直到收敛

最后加上loglikelihood的计算方法。

基本的计算方法按照公式定义。

\[L(\theta) = \sum\limits_{i=1}^m log\sum\limits_{z^{(i)}}Q_i(z^{(i)})P(x^{(i)},z^{(i)}|\theta)\;\;\;s.t.\sum\limits_{z}Q_i(z^{(i)}) =1
\]

实现如下

def loglikelihood(self):

    P = np.zeros([self.N, self.K])

    for k in range(self.K):

        P[:,k] = prob(self.X, self.mu[k], self.cov[k])

    return np.sum(np.log(P.dot(self.alpha)))

但是这样的实现会有2个问题。

非矩阵运算，速度慢。
非常容易underflow，因为$P.dot(self.alpha)$非常容易是一个很小的数，系统把它当作0处理。

使用以下$LogSumExp$公式进行改进，并且令$a_h = log(Q_i(z^{(i)}))+log(P(x^{(i)},z^{(i)}|\theta))$，具体实现看github：

\[log(\sum_hexp(a_h)) = m + log(\sum_hexp(a_h - m))\;\;\;m=max(a_h)
\]

3. 总结

首先gmm算法会很容易出现underflow和overflow，所以处理的时候有点麻烦。但是$LogSumExp$能解决大部分这个问题。还有就是我的实现方式是需要协方差矩阵一定要是正定矩阵，所以我的代码中也做了处理。我们好想还不能够满足于最基础的GMM算法，所以在下一篇文章中我们要对GMM加入一个惩罚项，并且用对角矩阵的方式代替协方差矩阵。

4. EM算法-高斯混合模型GMM详细代码实现的更多相关文章

6. EM算法-高斯混合模型GMM+Lasso详细代码实现
1. 前言我们之前有介绍过4. EM算法-高斯混合模型GMM详细代码实现,在那片博文里面把GMM说涉及到的过程,可能会遇到的问题,基本讲了.今天我们升级下,主要一起解析下EM算法中GMM(搞事混合模 ...
3. EM算法-高斯混合模型GMM
1. EM算法-数学基础 2. EM算法-原理详解 3. EM算法-高斯混合模型GMM 4. EM算法-高斯混合模型GMM详细代码实现 5. EM算法-高斯混合模型GMM+Lasso 1. 前言 GM ...
5. EM算法-高斯混合模型GMM+Lasso
1. EM算法-数学基础 2. EM算法-原理详解 3. EM算法-高斯混合模型GMM 4. EM算法-GMM代码实现 5. EM算法-高斯混合模型+Lasso 1. 前言前面几篇博文对EM算法和G ...
高斯混合模型GMM与EM算法的Python实现
GMM与EM算法的Python实现高斯混合模型(GMM)是一种常用的聚类模型,通常我们利用最大期望算法(EM)对高斯混合模型中的参数进行估计. 1. 高斯混合模型(Gaussian Mixture ...
EM算法和高斯混合模型GMM介绍
EM算法 EM算法主要用于求概率密度函数参数的最大似然估计,将问题$\arg \max _{\theta_{1}} \sum_{i=1}^{n} \ln p\left(x_{i} | \theta_{ ...
贝叶斯来理解高斯混合模型GMM
最近学习基础算法<统计学习方法>,看到利用EM算法估计高斯混合模型(GMM)的时候,发现利用贝叶斯的来理解高斯混合模型的应用其实非常合适. 首先,假设对于贝叶斯比较熟悉,对高斯分布也熟悉. ...
高斯混合模型 GMM
本文将涉及到用 EM 算法来求解 GMM 模型,文中会涉及几个统计学的概念,这里先罗列出来: 方差:用来描述数据的离散或波动程度. \[var(X) = \frac{\sum_{i=1}^N( X_ ...
Spark2.0机器学习系列之10：聚类(高斯混合模型 GMM）
在Spark2.0版本中(不是基于RDD API的MLlib),共有四种聚类方法: (1)K-means (2)Latent Dirichlet allocation (LDA) ...
2. EM算法-原理详解
1. EM算法-数学基础 2. EM算法-原理详解 3. EM算法-高斯混合模型GMM 4. EM算法-高斯混合模型GMM详细代码实现 5. EM算法-高斯混合模型GMM+Lasso 1. 前言概率 ...

随机推荐

HDU 1850 Being a Good Boy in Spring Festival （Nim博弈）
Being a Good Boy in Spring Festival Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32 ...
【Servlet】web.xml中welcome-file-list的作用
今天尝试使用struts2+ urlrewrite+sitemesh部署项目,结果发现welcome-file-list中定义的欢迎页不起作用: <welcome-file-list> & ...
使用Nexus搭建Maven内部服务器
概述我们在使用maven时,一般通过网络上一些公共的maven仓库来获取jar包,但是有时候会碰到网速比较慢的情况就比较郁闷,Nexus是一个maven的服务器,可以让我们搭建一个本 ...
Spring 注解 hibernate 实体方法 <property name="packagesToScan" value="com.sise.domain"/>
<property name="annotatedClasses"> <list> <value>com.sise.domain.Admin&l ...
ural 1091. Tmutarakan Exams(容斥)
http://acm.timus.ru/problem.aspx? space=1&num=1091 从1~s中选出k个数,使得k个数的最大公约数大于1,问这种取法有多少种. (2<=k ...
SharePoint 2013 Designer工作流——Parallel Block的应用
参考目录安装和配置SharePoint 2013 Workflow SharePoint 2013 实现多级审批工作流在自定义Workflow时,往往会遇到这样场景,某个审批需要被多人查阅,每个查 ...
javascript some()函数用法详解
参数说明callback: 要对每个数组元素执行的回调函数.thisObject : 在执行回调函数时定义的this对象. 功能说明对数组中的每个元素都执行一次指定的函数(callback),直到此函 ...
Excel列添加单引号
="'"&A2&"'," 对A2列同步添加单引号
AR模型与数据平稳性之间的关系
作者:桂. 时间:2017-12-19 21:39:08 链接:http://www.cnblogs.com/xingshansi/p/8068021.html 前言前几天碰到一个序列分析的问题, ...
Kinect v2 记录
最多可同时识别跟踪 6 人,每人可识别到 25 个关节数据.可以根据上身 10 个关节数据来判断坐姿状态. 物理极限识别范围:0.5m – 4.5m,最佳识别范围:0.8m – 3.5m. 深度数据可 ...

4. EM算法-高斯混合模型GMM详细代码实现

1. EM算法-数学基础

2. EM算法-原理详解

3. EM算法-高斯混合模型GMM