本博文来自《PRML第二章》

在第一章中说了对于模式识别问题来说,核心角色就是概率论。本章的目的一方面是为了介绍概率分布,另一方面也是为了对后面遇到的那些复杂问题先打下基础。本章关于分布上的一个讨论核心就是如何在给定有限的观测集合基础上对随机变量的概率分布进行建模,这也被称之为密度估计问题。本章中假设数据都是i.i.d
的。这里我们的强调下密度估计问题其实是个病态问题,因为对于某个观测到的有限数据集来说,其实是会有无限个概率分布可以可以如此表示。

什么分布最合适是需要基于模型选择问题上的考虑,比如第一章中说的多项式拟合问题,其实就是模式识别的一个中心问题。本章先介绍基于离散随机变量的二元和多元分布和基于连续随机变量的高斯分布。这些都是参数化分布的具体形式,这么称呼是因为他们都是受到一些可调整参数的控制的,例如高斯中的均值和方差。所以在给定观测的数据集基础上,使用这些密度估计就需要选择合适的参数值,在频率学派的眼里,这些值可以通过一些优化标准来得到,比如似然函数;而对于贝叶斯学派来说,是先引入参数上的先验分布,然后使用贝叶斯理论来计算在给定观测数据基础上的后验分布。

在这其中有个重要的东西叫做共轭先验,它可以让后验分布有着与先验一样的函数形式,所以这对于贝叶斯的分析带来了很大的便利。例如多元分布中产生的共轭先验叫做dirichlet分布;一个高斯的均值的共轭先验却又是另一个高斯。所有的这些分布其实都可以看成是分布的指数族(exponential family)的具体情况。

参数化方法的一个限制就是它对于一个分布需要假设一个具体的函数形式,这使得对于特殊的应用来说总是有点不合适。相对的叫做非参数化密度估计方法,这里面对于分布的形式通常都是依赖于数据集的大小而定的。虽然这些模型还是包含着参数,不过它们是控制模型的复杂度的而不是分布的形式。本章最后会介绍三个非参数化方法:直方图、最近邻、核。

2.1 二值变量

先介绍单一的二值随机变量。假设这是一个残缺的硬币,的概率可以通过参数表示,所以:

其中。所以。基于的概率分布可以写成:

这就是大家熟悉的伯努力分布,可以很容易的证明该分布是已经归一化的,并且他的均值和方差为:

对于数据集来说,似然函数是关于参数的函数,假设所有观测得到的值都是独立的从同一个分布中采样得到的,那么似然函数为:

                                    (2.1.4)

对于频率学派的人来说,可以通过最大化似然函数或者最大化似然函数的log对数来求得。在伯努力分布中,似然函数的形式为:

将上面式子进行关于的求导,然后等于0,求得其最大似然估计:

这也被称之为采样均值。如果我们将上面硬币头朝上的频率表示成,那么就可以将上面那个最大似然估计写成:

不过假设我们抛这个硬币只抛了三次,而且三次都是头朝上的,那么上述期望值就该为1了,即。在这种情况下,通过最大似然函数得到的结果就是个百分百事件了,对于这种极端的情况下的例子,我们称之为最大似然函数过拟合。在下面会介绍如何通过引入一个基于的先验分布来解决该问题。

对于单次伯努力实验来说就是得0 和1 的概率,如果多次试验(其中都是独立的),这样 就叫做二项式分布,从式子(2.4.1)中可以知道二项式分布是与成比例的:

                                                                  (2.1.8)

这里:

而相对的二项式分布的期望和方差为:

ps:下面是二项式分布的期望证明过程:

需要依赖的,组合恒等式:,假设我们有N次实验,其中在这N次中成功的次数及其概率如下图:

下面是推导过程:

或者另一种推导方式:即因为每次试验都是相互独立的,所以对于期望来说,是每个期望独立相加即可,而对于某次的伯努力试验来说其期望就是为,所以n次试验就是n(此处即为上面第一种推导的
p)。

2.1.1 beta分布

正如上面说的,对于小样本量来说,最大似然方法求的参数有可能会过拟合。为了通过贝叶斯角度来解决该问题,我们需要引入一个先验分布。这里我们考虑先验分布的形式需要简单的解释,并且有许多有用的特性。我们注意到之前的似然函数是形式的因子的乘积,如果我们选择的先验是与和(1
)的幂成比例的,那么得到的后验概率(与先验和似然函数的积成比例),就可以得到与先验一样的函数形式了。这种特性就叫做共轭性(conjugacy)。这里我们选择的先验叫做beta分布:

                                         (2.1.1.1)

这里是一个gamma函数:

上面(2.1.1.1)的系数可以确保该beta分布是归一化的,所以:

beta分布的均值和方差为:

上面的参数被称为超参数,因为它们控制着参数。下图展示了不同的超参数下beta分布的形式:

图中的(2.13)为上面的式子(2.1.1.1)

现在,参数的后验分布可以通过将beta先验(2.1.1.1)乘以二项似然函数(2.1.8)然后归一化得到,其中后验分布有如下形式:

                                                     (2.1.1.6)

这里,对应着抛硬币头朝下的次数。从上面式子可以看出它有着与先验一样的函数形式,反映了先验关于似然函数的共轭性。这简直就是另一个beta分布,它的归一化系数可以通过与(2.1.1.1)的对比得到:

假设当前这次试验该数据集中观察到发生的次数为次,而对应的0的次数发生了次。从之前的先验分布到这里的后验分布,的值分别增加了。我们可以简单的理解成先验中的超参数和0的有效观测数。注意这里的不需要是整数。更进一步来说,这里的后验分布可以当成是在观察后续额外数据的先验。即假设一次观察一个样本,然后更新当前的后验分布。只要将新的样本的似然函数乘以当前的后验分布,然后归一化得到新的后验分布即可。在每个阶段来说,该后验分布都是一个在给定参数的基础上观测到和0的总数的beta分布而已。

(图中2.9为式子2.1.8)

从贝叶斯角度来说,顺序学习的方法是很自然的。这种方法与先验和似然函数的选择无关,只取决于数据i.i.d 的假设 ,顺序学习可以一次使用一个观测样本或者一个小批量,然后在使用下一个观测样本之前抛弃它们。

(个人:这里是基于给定一个数据集求下一个目标为1的概率,就等于基于之前的数据集先计算出参数的概率,然后通过该参数计算当前的目标的概率,这里用到了乘法规则,而且因为是连续的,所以采用连续变量的求概率方法,即积分形式)

参考文献:

2015年09月11日 第0次修改!

PRML2-概率分布的更多相关文章

  1. paper 115:常见的概率分布(matlab作图)

    一.常见的概率分布 表1.1 概率分布分类表 连续随机变量分布 连续统计量分布 离散随机变量分布 分布 分布 二项分布 连续均匀分布 非中心 分布 离散均匀分布 (Gamma)分布 分布 几何分布 指 ...

  2. 如何在Python中实现这五类强大的概率分布

    R编程语言已经成为统计分析中的事实标准.但在这篇文章中,我将告诉你在Python中实现统计学概念会是如此容易.我要使用Python实现一些离散和连续的概率分布.虽然我不会讨论这些分布的数学细节,但我会 ...

  3. 受限玻尔兹曼机(RBM)学习笔记(三)能量函数和概率分布

      去年 6 月份写的博文<Yusuke Sugomori 的 C 语言 Deep Learning 程序解读>是囫囵吞枣地读完一个关于 DBN 算法的开源代码后的笔记,当时对其中涉及的算 ...

  4. N个骰子的点数和的概率分布

    程序设计思路: 假设有n个骰子,关键是需要统计每个点数出现的次数.首先分析第一个骰子点数和有1到6的点数,计算出1到6的每种点数 的次数,并将结果用一个数组pos1记录.然后分析有两个骰子时, 点数为 ...

  5. 概率分布之间的距离度量以及python实现(四)

    1.f 散度(f-divergence) KL-divergence 的坏处在于它是无界的.事实上KL-divergence 属于更广泛的 f-divergence 中的一种. 如果P和Q被定义成空间 ...

  6. 常见的概率分布类型(Probability Distribution)

    统计学中最常见的几种概率分布分别是正态分布(normal distribution),t分布(t distribution),F分布(F distribution)和卡方分布(χ2 distribut ...

  7. 贝叶斯A/B测试 - 一种计算两种概率分布差异性的方法过程

    1. 控制变量 0x1:控制变量主要思想 科学中对于多因素(多变量)的问题,常常采用控制因素(变量)的方法,吧多因素的问题变成多个单因素的问题.每一次只改变其中的某一个因素,而控制其余几个因素不变,从 ...

  8. 概率分布之间的距离度量以及python实现(三)

    概率分布之间的距离,顾名思义,度量两组样本分布之间的距离 . 1.卡方检验 统计学上的χ2统计量,由于它最初是由英国统计学家Karl Pearson在1900年首次提出的,因此也称之为Pearson ...

  9. Lecture4_1&4_2.多维随机变量及其概率分布

    1.二维随机变量(X,Y)的联合分布函数: F(x,y)=P(X≤x,Y≤y) 2.二维随机变量(X,Y)关于X的边缘分布函数: FX(x)=P(X≤x) =P(X≤x,Y<+∞) =F(x,+ ...

  10. Lecture3.随机变量及其概率分布

    1.随机变量的定义 2.随机变量的类型: 若随机变量X的可能取值是有限个或可列个, 则称X为离散型随机变量. 反之,则称X为非离散型随机变量. 若随机变量X的可能取值“连续”(“不间断”),则称X 为 ...

随机推荐

  1. Vue.js之路由系统

    Vue.js生态之vue-router vue-router是什么? vue-router是Vue的路由系统,定位资源的,我们可以不进行整页刷新去切换页面内容. vue-router的安装与基本配置 ...

  2. 从浏览器地址栏输入URL到浏览器呈现数据全过程解析

    一.输入设备(或粘贴)输入 URL,按下 Enter键 或其他按钮开始请求. 二.浏览器开始解析 URL 关于 URL 到相关知识点:什么是URI,URL以及URN,你真的理解了吗. 1.URL 是否 ...

  3. 1.print()与input()

    hello world必备->print函数 print(): 作用: 打印函数,打印数据到屏幕中 参数列表: print(value, ..., sep=' ', end='\n', file ...

  4. python turtle 绘制图像

    def _circle(): t = turtle.Turtle() t.pencolor("yellow") t.pensize(5) t.speed(200) t.circle ...

  5. Scala包的使用

    package big.data.analyse.scala.classes /** * Created by zhen on 2018/9/15. */ object Packages { def ...

  6. MySQL的binlog2sql闪回

    从MySQL binlog解析出你要的SQL.根据不同选项,你可以得到原始SQL.回滚SQL.去除主键的INSERT SQL等. 用途=========== * 数据快速回滚(闪回)* 主从切换后新m ...

  7. 创建SQL Server数据库集群的经历

    自己尝试安装SQL Server集群和配置AlwaysOn可用性组,服务器系统是Windows Server 2012 R2,SQL Server是2014企业版,我的环境是一台服务器,然后用Hype ...

  8. [Spark RDD_add_1] groupByKey & reduceBykey 的区别

    [groupByKey & reduceBykey 的区别] 在都能实现相同功能的情况下优先使用 reduceBykey Combine 是为了减少网络负载 1. groupByKey 是没有 ...

  9. MySQL基础之 恢复数据和数据库迁移

    1.mysql命令或者source命令恢复数据 这两个命令在进行恢复数据的时候要检查是否创建数据库.如果数据库不存在,则恢复失败. 数据库迁移 1.相同版本的mysql数据库之间的迁移. mysqld ...

  10. linux禁止非法用户试探登录

    当我们的linux主机一旦暴露在互联网上,就会遭受到来自网络上的一些非法用户的骚扰.如弱口令扫描,试探性登录:这些行为对linux主机构成一定的威胁.那怎样防范此类的攻击了,这里写了一个脚本,功能就是 ...