An elegant and powerful method for finding maximum likelihood solutions for models with latent variables is called the expectation-maximization algorithm, or EM algorithm. If we assume that the data points are drawn independently from the distributio…
EM算法(Expectation Maximization Algorithm) 1. 前言   这是本人写的第一篇博客(2013年4月5日发在cnblogs上,现在迁移过来),是学习李航老师的<统计学习方法>书以及斯坦福机器学习课Andrew Ng的EM算法课后,对EM算法学习的介绍性笔记,如有写得不恰当或错误的地方,请指出,并多多包涵,谢谢.另外本人数学功底不是很好,有些数学公式我会说明的仔细点的,如果数学基础好,可直接略过. 2.基础数学知识   在正式介绍EM算法之前,先介绍推导EM算…
1. 通过一个简单的例子直观上理解EM的核心思想 0x1: 问题背景 假设现在有两枚硬币Coin_a和Coin_b,随机抛掷后正面朝上/反面朝上的概率分别是 Coin_a:P1:-P1 Coin_b:P2:-P2 为了估计这个概率(我们事先是不知道这两枚硬币正面朝上的概率的),我们需要通过实验法来进行最大似然估计,每次取一枚硬币,连掷5下,记录下结果 硬币 结果 统计 Coin_a 正 正 反 正 反 3正-2反 Coin_b 反 反 正 正 反 2正-3反 Coin_a 正 反 反 反 反 1…
https://blog.csdn.net/zhihua_oba/article/details/73776553 EM算法(Expectation Maximization Algorithm)详解 主要内容 EM算法简介 预备知识  极大似然估计 Jensen不等式 EM算法详解  问题描述 EM算法推导 EM算法流程 1.EM算法简介   EM算法是一种迭代优化策略,由于它的计算方法中每一次迭代都分两步,其中一个为期望步(E步),另一个为极大步(M步),所以算法被称为EM算法(Expect…
2.1. Binary Variables 1. Bernoulli distribution, p(x = 1|µ) = µ 2.Binomial distribution + 3.beta distribution(Conjugate Prior of Bernoulli distribution) The parameters a and b are often called hyperparameters because they control the distribution of…
Linear Basis Function Models 线性模型的一个关键属性是它是参数的一个线性函数,形式如下: w是参数,x可以是原始的数据,也可以是关于原始数据的一个函数值,这个函数就叫basis function,记作φ(x),于是线性模型可以表示成: w0看着难受,定义一个函数φ0(x) = 1, 模型的形式再一次简化成: 以上就是线性模型的一般形式.basis function有很多选择,例如Gaussian.sigmoid.tanh (tanh(x) = 2 * sigmoid(…
x, a vector, and all vectors are assumed to be column vectors. M, denote matrices. xT, a row vcetor, T means transpose of a vector or matrix. (w1 , . . . , wm ), a row vector with m elements, and the corresponding column vector is written as w = (w1 …
什么是模式识别(Pattern Recognition)? 按照Bishop的定义,模式识别就是用机器学习的算法从数据中挖掘出有用的pattern. 人们很早就开始学习如何从大量的数据中发现隐藏在背后的pattern.例如,16世纪的Kepler从他的老师Tycho搜集的大量有关于行星运动的数据中发现了天体运行的规律,并直接导致了牛顿经典力学的诞生.然而,这种依赖于人类经验的.启发式的模式识别过程很难复制到其他的领域中.例如手写数字的识别.这就需要机器学习的技术了.(顺便提一下,开普勒定律在物理…
一.基本名词 泛化(generalization) 训练集所训练的模型对新数据的适用程度. 监督学习(supervised learning) 训练数据的样本包含输入向量以及对应的目标向量. 分类( classification ):给每个输入向量分配到有限数量离散标签中的一个. 回归( regression ):输出由一个或者多个连续变量组成. 无监督学习(unsupervised learning) 训练数据由一组输入向量 x 组成,没有任何对应的目标值. 聚类(clustering):发现…
期望最大化算法EM. 简介 EM算法即期望最大化算法,由Dempster等人在1976年提出[1].这是一种迭代法,用于求解含有隐变量的最大似然估计.最大后验概率估计问题.至于什么是隐变量,在后面会详细解释.EM算法在机器学习中有大量成功的应用,典型是求解高斯混合模型,隐马尔可夫模型.如果你要求解的机器学习模型中有隐变量存在,并且要估计模型的参数,EM算法很多时候是首选算法. EM算法的推导.收敛性证明依赖于Jensen不等式,我们先对它做一简单介绍.Jensen不等式的表述是,如果f(x)是凸…
1.1. Example: Polynomial Curve Fitting 1. Movitate a number of concepts: (1) linear models: Functions which are linear in the unknow parameters. Polynomail is a linear model. For the Polynomail curve fitting problem, the models is : which is a linear…
熵 给定一个离散变量,我们观察它的每一个取值所包含的信息量的大小,因此,我们用来表示信息量的大小,概率分布为.当p(x)=1时,说明这个事件一定会发生,因此,它带给我的信息为0.(因为一定会发生,毫无悬念) 如果x和y独立无关,那么: 他们之间的关系为: (p(x)=1时,h(x)=0,负号为了确保h(x)为正,这里取2为底是随机的,可以取其他的正数(除了1)) 因此,对于所有x的取值,它的熵有: 注:,当遇到时, 这里插一段信息熵的解释: ———————————————————————————…
初体验: 概率论为我们提供了一个衡量和控制不确定性的统一的框架,也就是说计算出了一大堆的概率.那么,如何根据这些计算出的概率得到较好的结果,就是决策论要做的事情. 一个例子: 文中举了一个例子: 给定一个X射线图x,目标是如何判断这个病人是否得癌症(C1或C2).我们把它看作是一个二分类问题,根据bayes的概率理论模型,我们可以得到: 因此,就是的先验概率:(假设Ck表示患病,那么就表示普通人患病的概率) 则作为是后验概率. 假设,我们的目标是:在给定一个x的情况下,我们希望最小化误分类的概率…
维数灾难 给定如下分类问题: 其中x6和x7表示横轴和竖轴(即两个measurements),怎么分? 方法一(simple): 把整个图分成:16个格,当给定一个新的点的时候,就数他所在的格子中,哪种颜色的点最多,最多的点就是最有可能的. 如图: 显然,这种方法是有缺陷的: 例子给出的是2维的,那么3维的话,就是一个立体的空间,如下图所示: 因为我们生活在3维的世界里,所以我们很容易接受3维.比如,我们考虑一个在D维环境下,半径为1和半径为1-的球体的容积之差: 他们的差即为: volume…
在训练集上有个好的效果不见得在测试集中效果就好,因为可能存在过拟合(over-fitting)的问题. 如果训练集的数据质量很好,那我们只需对这些有效数据训练处一堆模型,或者对一个模型给定系列的参数值,然后再根据测试集进行验证,选择效果最好的即可: 大多数情况下,数据集大小是有限的或质量不高,那么需要有个第三测试集,用于测试选中的模型的评估. 为了构建好的模型,我们常常选用其中质量较高的数据拿来训练,这就存在一个问题就是测试集的数据质量变低,导致预测的效果由于noisy而导致性能较差. 这种解决…
一个例子: 两个盒子: 一个红色:2个苹果,6个橘子; 一个蓝色:3个苹果,1个橘子; 如下图: 现在假设随机选取1个盒子,从中.取一个水果,观察它是属于哪一种水果之后,我们把它从原来的盒子中替换掉.重复多次. 假设我们40%的概率选到红盒子,60%的概率选到蓝盒子.并且当我们把取出的水果拿掉时,选择盒子中任何一个水果还是等可能的. 问题: 1.整个过程中,取得苹果的概率有多大? 2.假设已经去的了一个橘子的情况下,这个橘子来自蓝盒子的可能性有多大? (这里,推荐一篇好文:数学之美番外篇:平凡而…
书中给出了一个典型的曲线拟合的例子,给定一定量的x以及对应的t值,要你判断新的x对应的t值多少. 任务就是要我们去发现潜在的曲线方程:sin(2πx) 这时就需要概率论的帮忙,对于这种不确定给t赋何值的情况,它可以通过一种精确和量化的方式来提供一种框架, 而对于决策理论,为了根据适当的度量方式来获取最优的预测,它允许我们挖掘一种概率模型. 下面对于上面的例子展开讨论: 假设曲线的多项式方程为: 系数怎么求? 通过把多项式去拟合训练数据,我们需要设定一个error function,通过最小化这个…
模式识别领域主要关注的就是如何通过算法让计算机自动去发现数据中的规则,并利用这些规则来做一些有意义的事情,比如说,分类. 以数字识别为例,我们可以根据笔画规则启发式教学去解决,但这样效果并不理想. 我们一般的做法是: 1,统一尺寸; 2,简化色彩; 3,计算灰度平均值; 4,计算哈希值(生成指纹); 当有新的测试图片时,只需利用"汉明距离"来判断两张图片之间不同的数据位数量就可以了.这是最简单快速的方法.缺陷是如果图片上加几个字,就认不出来了.因此,它的最佳用途就是用来通过缩略图找原图…
一.最小化误差函数拟合 正则化( regularization )技术涉及到给误差函数增加一个惩罚项,使得系数不会达到很大的值.这种惩罚项最简单的形式采用所有系数的平方和的形式.这推导出了误差函数的修改后的形式: 在效果上, λ 控制了模型的复杂性,因此决定了过拟合的程度. 二.贝叶斯曲线拟合 1.正态分布( normal distribution )或者高斯分布( Gaussian distribution ) 对于一元实值变量 x ,高斯分布被定义为: 它由两个参数控制:\(μ\) ,被叫做…
本章开始学习第一个有监督学习模型--线性回归模型."线性"在这里的含义仅限定了模型必须是参数的线性函数.而正如我们接下来要看到的,线性回归模型可以是输入变量\(x\)的非线性函数. 书中首先对回归问题给出了一个简短的不那么正式的定义: Given a training data set comprising \(N\) observations \(\{x_n\}\), where \(n = 1, ... , N\), together with corresponding targ…
To summarize, principal component analysis involves evaluating the mean x and the covariance matrix S of the data set and then finding the M eigenvectors of S corresponding to the M largest eigenvalues. If we plan to project our data onto the first M…
1 极大似然估计     假设有如图1的X所示的抽取的n个学生某门课程的成绩,又知学生的成绩符合高斯分布f(x|μ,σ2),求学生的成绩最符合哪种高斯分布,即μ和σ2最优值是什么? 图1 学生成绩的分布     欲求在抽样X时,最优的μ和σ2参数估计,虽然模型的原型已知,但不同的参数对应着不同的学生成绩分布,其中一种最简单有效的参数估计方法就是估计的参数在目前抽样的数据上表现最好,即使得f(X|μ,σ2)的联合概率最大,这就是极大似然估计,常用L(μ,σ2|X)表示,满足公式(1)所示的关系.在…
1.EM算法概念 EM 算法,全称 Expectation Maximization Algorithm.期望最大算法是一种迭代算法,用于含有隐变量(Hidden Variable)的概率参数模型的最大似然估计或极大后验概率估计. 1.1 问题描述 我们假设学校男生和女生分别服从两种不同的正态分布,即男生  ,女生  ,(注意:EM算法和极大似然估计的前提是一样的,都要假设数据总体的分布,如果不知道数据分布,是无法使用EM算法的).那么该怎样评估学生的身高分布呢? 简单啊,我们可以随便抽 100…
强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning) 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 数学符号看不懂的,先看看这里: 强化学习读书笔记 - 00 - 术语和数学符号 时序差分学习简话 时序差分学习结合了动态规划和蒙特卡洛方法,是强化学习的核心思想. 时序差分这个词不…
http://blog.csdn.net/jinshengtao/article/details/17954427   <Mastering Opencv ...读书笔记系列>车牌识别(II) http://blog.csdn.net/jinshengtao/article/details/17883075/   <Mastering Opencv ...读书笔记系列>车牌识别(I) <Mastering Opencv ...读书笔记系列>车牌识别(II) 标签: 车牌…
http://blog.csdn.net/jinshengtao/article/details/17883075/  <Mastering Opencv ...读书笔记系列>车牌识别(I) http://blog.csdn.net/jinshengtao/article/details/17954427   <Mastering Opencv ...读书笔记系列>车牌识别(II) Mastering Opencv ...读书笔记系列>车牌识别(I) 标签: 车牌分割svm西…
<Apache kafka实战>读书笔记-kafka集群监控工具 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 如官网所述,Kafka使用基于yammer metrics的监控指标体系来统计broker端和clinets端的各种监控指标(metric).说到yammer metrics,其官网过出了这样的一句话: yammer metrics是一个java库,它使得你能够对生产环境代码所做之事具有无与伦比的洞察力. 当然,虽然该项目已经进化到3.x版本,但即使最新版本的ka…
<Essential C++>读书笔记 之 泛型编程风格 2014-07-07 3.1 指针的算术运算(The Arithmetic of Pointer) 新需求1 新需求2 新需求3 3.2 了解 Iterators(泛性指针) 3.3 所有容器的共通操作 3.6 如何设计一个泛性算法 Function Objects Function Object Adapters Standard Template Library(STL)主要由两种组件构成: 一是容器(container),包括ve…
EM(Expectation Maximization)算法  参考资料: [1]. 从最大似然到EM算法浅解 [2]. 简单的EM算法例子 [3]. EM算法)The EM Algorithm(详尽的理论推导过程,源自斯坦福大学的教程) [4]. 混合高斯模型(Mixtures of Gaussians)和EM算法…
本文内容包含以下章节: Chapter 2 AI Methods Chapter 2.1 General Notes 本书英文版: Artificial Intelligence and Games - A Springer Textbook 这个章节主要讨论了在游戏中经常用到的一些基础的人工智能算法.这些算法大部分都出现在一些人工智能和机器学习的入门书籍中.在讲解算法在游戏中的应用的时候,会以吃豆人(Ms Pac-Man)作为样例,讲解怎么用行为树算法,树搜索算法,监督学习算法,无监督学习算法…