part 6

接下来就是无监督学习算法了。

k均值聚类

问题背景

样本集描述:
\[
x\in D, x\in R^n
\]
之前的有监督学习问题中,所有的x都有对应的y。但是如果我们的x没有对应的y。但是我们还是希望对x进行分类那应该如何做呢。

迭代过程

最简单的想法就是圈地。对每个类别圈一定的样本。即类似于构造一个星团的过程,我们希望星团有一个中心,属于这个星团的星星离这个星团越近越好。不属于这个星团的星星离这个中心越远越好。但是这个中心的选取也是未知的,于是我们给出一个迭代算法:

  1. 任意选取k个聚类中心\(\mu_k\)
  2. 计算样本的类型\[c ^ { ( i ) } : = \arg \min _ { j } \| x ^ { ( i ) } - \mu _ { j } \| | ^ { 2}\]
  3. 重新计算各个聚类中心 \[\mu _ { j } : = \frac { \sum _ { i = 1} ^ { m } 1\left\{ c ^ { ( i ) } = j \right\} x ^ { ( i ) } } { \sum _ { i = 1} ^ { m } 1\left\{ c ^ { ( i ) } = j \right\} }\]
  4. 回到2直到收敛,即聚类中心重新计算变得不大时

迭代过程如下图所示

这里收敛性的证明请翻阅讲义。

EM算法

问题背景

再讲EM之前先回顾一下之前我们求分布参数用的最大似然。比如一个班级分为男生和女生,我们假设男生和女生的身高服从正态分布。那么正态分布的参数就可以用最大似然法来求解。但是如果把男生和女生混起来,我们怎么求这个分布呢。或者我们说我们手上有一个班级的身高数据,但是不知道是男生还是女生的。我们想要对其分别求出男生和女生的身高的正态分布参数。

迭代过程

那么直观理解EM算法的话,EM算法就是一个存在隐变量的最大似然法。所谓的隐变量就是对于x我们所不知道的那个类别y。于是EM算法做的事情其实就是两步:

  1. 拿出一个人的身高数据,先猜测它到底是男是女
  2. 根据猜测的结果求分布的参数

公式化描述的话就是这么个过程:
这是我们最初求参数用的对数似然:
\[
\theta ^ { * } = \arg \max _ { \theta } \ln P ( X | \theta )
\]
因为存在隐变量z:
\[
\theta ^ { * }= \arg \max _ { \theta } \ln\sum _ { z } P ( X ,z | \theta )
\]
对数似然即:
\[
\left.\begin{aligned} L ( \theta ) & = \ln P ( X | \theta ) \\ & = \ln \sum _ { z } P ( X ,z | \theta ) \end{aligned} \right.
\]
因为z不好求,稍微做一下处理:
\[
L(\theta)= \ln \sum _ { z } P ( X ,z | \theta ) \frac { Q ( z ) } { Q ( z ) }
\]
利用log函数凹函数的性质和琴声不等式得到下界:
\[
L(\theta)\geq \sum _ { z } Q ( z ) \ln \frac { P ( X ,z | \theta ) } { Q ( z ) }
\]

那么我们EM算法就是:

  1. E步。先似然最大化求z的分布Q(z):\[Q _ { n } ( z ) = \arg \max _ { \mathcal { Q } ( z ) } \sum _ { z } Q ( z ) \ln \frac { P \left( X ,z | \theta _ { n } \right) } { Q ( z ) }\] 利用拉格朗日算子可以得到,详细推导请翻阅参考:\[\Rightarrow Q _ { n } ( z ) = P \left( z | X ,\theta _ { n } \right)\] 这样我们就得到了隐变量的估计。
  2. M步。既然我们已经得到了类别,再最大似然一次\[\left.\begin{aligned} \theta ^ { n + 1} & = \arg \max _ { \theta } l ( \theta ) \\ & = \arg \max _ { \theta } \sum _ { z } P \left( z | X ,\theta ^ { n } \right) \ln \frac { P ( X ,z | \theta ) } { P \left( z | X ,\theta ^ { n } \right) } \\ & = \arg \max _ { \theta } \sum _ { z } P \left( z | X ,\theta ^ { n } \right) \ln P ( X ,z | \theta ) ) \\ & = \arg \max _ { \theta } E _ { z | X ,\theta ^ { n } } ( \ln P ( X ,z | \theta ) ) \end{aligned} \right.\] 这样就得到了其他参数的估计。

高斯混合模型

问题背景

之前生成式的分类算法里面讲到了高斯辨别分析。我们构造了一个高斯分布去拟合不同的类别。那么这个高斯混合模型也是差不多的。只是多了一个隐变量z,这个z又可以通过EM算法来进行求解。

迭代过程

和高斯判别分析一样我们的对数似然是:
\[
\ell ( \phi ,\mu ,\Sigma ) = \sum _ { i = 1} ^ { m } \log p \left( x ^ { ( i ) } ; \phi ,\mu ,\Sigma \right)
\]
注意y的分布是一个多项式分布而不是伯努利分布,然后引入隐变量z:
\[
\ell ( \phi ,\mu ,\Sigma ) = \sum _ { i = 1} ^ { m } \log \sum _ { z ^ { ( i ) } = 1} p \left( x ^ { ( i ) } | z ^ { ( i ) } ; \mu ,\Sigma \right) p \left( z ^ { ( i ) } ; \phi \right)
\]
假设我们知道z的分布,那么似然函数可以化简成:
\[
\ell ( \phi ,\mu ,\Sigma ) = \sum _ { i = 1} ^ { m } \log p \left( x ^ { ( i ) } | z ^ { ( i ) } ; \mu ,\Sigma \right) + \log p \left( z ^ { ( i ) } ; \phi \right)
\]

对参数分别求导就得到了
\[
\phi _ { j } = \frac { 1} { m } \sum _ { i = 1} ^ { m } 1\left\{ z ^ { ( i ) } = j \right\}
\]
\[
\mu _ { j } = \frac { \sum _ { i = 1} ^ { m } 1\left\{ z ^ { ( i ) } = j \right\} x ^ { ( i ) } } { \sum _ { i = 1} ^ { m } 1\left\{ z ^ { ( i ) } = j \right\} }
\]
\[
\Sigma _ { j } = \frac { \sum _ { i = 1} ^ { m } 1\left\{ z ^ { ( i ) } = j \right\} \left( x ^ { ( i ) } - \mu _ { j } \right) \left( x ^ { ( i ) } - \mu _ { j } \right) ^ { T } } { \sum _ { i = 1} ^ { m } 1\left\{ z ^ { ( i ) } = j \right\} }
\]
到目前为止。我们的求解过程还是和之前的高斯判别分析一样。但是这里有一个问题就是实际上隐类别z是不知道的。所以我们可以用E步进行估计。
EM算法如下:

  1. E步估计类别\[w _ { j } ^ { ( \text{i} ) } : = p \left( Z ^ { ( i ) } = j | x ^ { ( i ) } ; \Phi ,\mu ,\Sigma \right)\]利用贝叶斯可以得到\[p \left( z ^ { ( i ) } = j | x ^ { ( i ) } ; \phi ,\mu ,\Sigma \right) = \frac { p \left( x ^ { ( i ) } | z ^ { ( i ) } = j ; \mu ,\Sigma \right) p \left( z ^ { ( i ) } = j ; \phi \right) } { \sum _ { l = 1} ^ { k } p \left( x ^ { ( i ) } | z ^ { ( i ) } = l ; \mu ,\Sigma \right) p \left( z ^ { ( i ) } = l ; \phi \right) }\]
  2. M步更新参数\[\phi _ { j } : = \frac { 1} { m } \sum _ { i = 1} ^ { m } w _ { j } ^ { ( i ) }\] \[\mu _ { j } : = \frac { \sum _ { i = 1} ^ { m } w _ { j } ^ { ( i ) } x ^ { ( i ) } } { \sum _ { i = 1} ^ { m } w _ { j } ^ { ( i ) } }\] \[\Sigma _ { j } \quad = \frac { \sum _ { i = 1} ^ { m } w _ { j } ^ { ( i ) } \left( x ^ { ( i ) } - \mu _ { j } \right) \left( x ^ { ( i ) } - \mu _ { j } \right) ^ { T } } { \sum _ { i = 1} ^ { m } w _ { j } ^ { ( i ) } }\]

参考

  1. 怎么通俗易懂地解释EM算法并且举个例子?
  2. The Introduction to Expectation Maximization Algorithm

cs229_part6的更多相关文章

  1. cs229课程索引

    重要说明 这个系列是以cs229为参考,梳理下来的有关机器学习传统算法的一些东西.所以说cs229的有些内容我会暂时先去掉放在别的部分里面,也会加上很多重要的,但是cs229没有讲到的东西.而且本系列 ...

随机推荐

  1. ZROI提高组模拟赛05总结

    ZROI提高组模拟赛05总结 感觉是目前为止最简单的模拟赛了吧 但是依旧不尽人意... T1 有一半的人在30min前就A掉了 而我花了1h11min 就是一个简单的背包,我硬是转化了模型想了好久,生 ...

  2. 修正 FreeBSD 字体锯齿问题

    如果你给 FreeBSD 安装完图形界面,一登录就被满屏幕不论中英全是锯齿且残缺不堪入目的文字吓了一跳,那一定是安装了文泉驿字体.先不必急着卸载文泉驿,只需简单修改相关配置即可恢复正常显示.这是因为文 ...

  3. 使用express+mongoDB搭建多人博客 学习(6)发表文章

    发表文章 1.在modules文件夹下新建post.js var mongodb=require("./db"); function Post(name,title,post){ ...

  4. java threadLocal的初探

    在网上找了半天,终于找到一篇靠谱的文章了. 文章地址:http://qifuguang.me/2015/09/02/[Java%E5%B9%B6%E5%8F%91%E5%8C%85%E5%AD%A6% ...

  5. ueditor单独调用图片上传

    很多人在问ueditor,如何单独使用图片上传功能,但是网上没有一篇能用的文档,没办法,我刚好也需要这个功能,花了3天时间(本人水平太菜,哎)终于知道怎么处理了,发出来给大家共享: 效果如下: 页面效 ...

  6. ACM学习大纲(转)

    1 推荐题库 •http://ace.delos.com/usaco/ 美国的OI 题库,如果是刚入门的新手,可以尝试先把它刷通,能够学到几乎全部的基础算法极其优化,全部的题解及标程还有题目翻译可以b ...

  7. P1816 忠诚 倍增

    链接:https://www.luogu.org/problem/show?pid=1816 题目描述 老管家是一个聪明能干的人.他为财主工作了整整10年,财主为了让自已账目更加清楚.要求管家每天记k ...

  8. [转](不理想)Ubuntu下更改主显示器

    参考链接:http://www.cnblogs.com/feng_013/archive/2012/03/05/2380111.html 查看显示器信息: fdm@fdm-OptiPlex-780:~ ...

  9. GraphicsMagick安装&make命令使用

    0.0本过程为GraphicsMagick Linux版安装,通过典型的make编译安装. 未了支持png和jpg格式,首先请安装依赖.执行 yum install -y libpng-devel y ...

  10. Android.mk模板

    此文列出Android.mk的常用模板(部分内容源于多篇他人博客,这里不具体指出),如有错漏,还请在评论中指出,后期持续更新   #链接第三方动态库,在和部分android源码的编译中验证不过 LOC ...