PRML Chapter 2. Probability Distributions
PRML Chapter 2. Probability Distributions
P68
In Bayesian
probability theory, if the posterior
distributions p(θ|x)
are in the same family as the prior
probability distributionp(θ),
the prior and posterior are then called conjugate distributions, and
the prior is called a conjugate prior for
the likelihood. For example, the Gaussian family
is conjugate to itself (or self-conjugate)
with respect to a Gaussian likelihood function: if the likelihood function is Gaussian, choosing a Gaussian prior over the mean will ensure that the posterior distribution is also Gaussian.
The
exponential families include many of the most common distributions, including the normal, exponential, gamma, chi-squared, beta, Dirichlet, Bernoulli, binomial,multinomial, Poisson, Wishart, Inverse
Wishart and many others.
2012@3@21补充:起先第二章果真没有仔细看好,现在看到狄利克雷分布了,回来再了解一下贝塔分布,发现里面这么关键的内容愣是都没看出来,汗。不过今天22点半了,明天在写咯。
2.1.1 The beta distribution
如果忘记伯努利分布和二项分布是怎么回事了,看这里。
书中引出贝塔分布的理由:P70提到,由于最大似然估计在观察数据很少时,会出现严重over-fitting(比如估计抛硬币正反面概率,只有3次抛硬币观察数据,且结果正好都是正面,则模型预测以后所有抛硬币都将是正面)。为了解决这个问题,可以考虑贝叶斯方法,即引入一个先验知识(先验分布p(μ))来控制参数μ,那么如何挑选这个分布呢?
考虑到伯努利分布的似然函数的形式是μx(1−μ)1−x,错!!原先这里看了个似懂非懂,完全写错了,囧死了,得到一个教训,写日志还是要多来回看看,看懂了再写,否则留下笑柄!现在重写如下:应该是,二项分布的似然函数是:μm(1−μ)n (就是二项分布除归一化参数之外的后面那部分,似然函数之所以不是pdf,是因为它不需要归一化),这个函数的形式是μ的m次方乘以1−μ的n次方,记住这个形式,下面要用到。
根据:
posterior=likelihood∗prior
已经知道似然函数的形式,如果选择的先验分布也与 μ
和 (1-μ) 两者的乘方成比例,那么后验分布的函数形式就会跟它的先验函数形式一样了。具体来说,选择prior的形式是w1∗μa(1−μ)b,那么posterior就会变成w2∗μm+a(1−μ)n+b这个样子了(w1,w2为pdf的归一化参数),所以posterior和prior具有相同的函数形式(都是μ和(1-μ)的次方的乘积),这就是所谓的conjugacy。
最终这里的先验和后验就都是贝塔分布了,其中先验的形式如下:
Beta(μ|a,b)=Γ(a+b)Γ(a)Γ(b)μa−1(1−μ)b−1 式2.13
其中Γ(a+b)Γ(a)Γ(b)这玩意就是w1,是为了把整个分布概率归一化,从而使:
∫10Beta(μ|a,b)dμ=1
式2.14
在维基里面,有这么一个式子:
B(α,β)=Γ(α)Γ(β)Γ(α+β)≃(α−1α+β−2)
瞬间觉得世界清晰了,因为Γ(n)=(n−1)!,所以其实当上式中α,β为整数时,就是Cα−1α+β−2。因此,其实beta分布就是二项分布推广成实数域上的情况而已!注意,这里曾经把Beta函数写反过,Beta
function 是指B(x,y)=Γ(x)Γ(y)Γ(x+y),而Beta
distribution的pdf公式为Beta(μ|a,b)=1B(a,b)μa−1(1−μ)b−1
从式2.14看出,Beta分布就是一个μ的PDF(概率密度函数)(这个昨天(3@21)刚仔细看过哈),μ本身是二项分布的参数,而a,b由于2.14的归一化过程可以被视作μ的控制参数,因此贝塔分布的a和b就被称作hyperparameters。下面的图是Beta分布的几个例子,其中横轴是μ取值范围,纵轴是PDF取值,PDF的值可以大于1哦。
最后得到的posterior如下:
p(μ|m,l,a,b)∝μm+a−1(1−μ)l+b−1 式2.17,其中l=N-m
要把这个posterior归一化其实可以参照式2.13,式2.17中的m+a等同于2.13中那个a,而l+b就是2.13中那个b,所以:
p(μ|m,l,a,b)=Γ(m+a+l+b)Γ(m+a)Γ(l+b)μm+a−1(1−μ)l+b−1
最后,如果我们已经有观察数据D,要估计μ,即p(μ|D),我们可以得到:
p(x=1|D)=m+am+a+l+b 式2.20
可以发现这个式子比最大似然估计的结果m/(m+l)多了a和b,也就是先验知识的影响。
2012@4@17补充:事实上这种给参数加先验的方法叫做Maximum。
a posterior(MAP),而PRML里的这章没有明显的提到,刚从《Parameter estimation of text analysis》里看到,在这里提一下
2013@4@22
在评论中有同学指正,2.20的结果不应该是MAP,输出期望的应是Bayesian inference。MAP结果应为(m+a-1)/(m+a+l+b-2)。当时并没有搞清楚这个两者的区别。在此纠正。非常感谢评论中的同学!!鉴于经常被发现错误,我打算近期写完论文检查一下所有博客。
2.2
Multinomial Variables
Multinomial Variables说白了就是多种选择选其一。比如随机变量X有三种取值x1,x2,x3,那么用一个三维向量表示Multinomial
的取值就是{1,0,0},{0,1,0},{0,0,1}分别代表选中x1,x2,x3,即必须选中一个,同时只能选一个这样的意思。
如果用μk表示xk=1时的概率,那么对于随机变量x的取值的概率分布可以表示为:
p(x|μ)=∏k=1Kμxkk
其实这个式子的意思就是当K取值k的时候,只有xk是1,其他都是0,所以这个p(x|μ)的值就是μk的值而已,因为一个数的0次方是1,所以对于其他xi(i≠k)的那部分μi全部都乘以了一个1而已。搞了这么一个玄乎的式子,应该是为了数学表示全面点,事实上直接理解就是p(x|μ)
= μk。
上面所讲的这些其实只是多项分布的一次事件(或一次观察),如果有N多次观察,那么就需要用多项分布来描述了。就像伯努利分布只是描述一次抛硬币,而二项分布是描述N次抛硬币的一样。
对于Multinomial 的极大似然估计其实可想而知,就是数数xk的个数然后取占整个集合的比例作为概率了。式(2.31)给了数学上的likelihood的式子,但是那个什么拉格朗日乘子λ我已经没啥概念了,只知道是用来求函数极值的,这里记着点以后到高数里去看。2012@4@4补充,大致看了一下拉格朗日乘数法,没有想象中的复杂,就是用来求一个条件极值,在这里。
2.3
The Gaussian Distribution
这章的公式太唬人了,西方人的数学功底感觉很好,虽然这些数学都挺简单,但是我没有全局了解的那种观念,所以有些东西没法一下子理解了。多元高斯分布里面的矩阵的东西不太好懂。
P80讲的是多元高斯分布通过正交向量ui 线性变换为以 y=U(x−μ)
为基的向量空间,大概也只能明白这点了。在这样一个基上,高斯分布是一个椭圆(当所有特征值λi都是正数的时候)
P82有讲到关于 moment这个就是矩,k阶中心矩(The
kth central
moment)为 E((X−μ)k)
P84讲高斯分布的缺点,,然后说到可以引入隐含随机变量来解决高斯分布模型表示能力不强的问题。可以用一系列离散的隐含变量混合高斯分布,可以用连续隐含变量,用来干嘛不太理解。
再后面已经完全不知所云了。所以只能Skip了。
2012@11@30
时隔8月,偶终于回来把这些东西都看懂了!其实并没有那么虎,只不过PRML讲得不是那么细而已。只要翻《Methods
of Multivariate Analysis》,这些东西其实相对来说还是easy的!链接
2.5 Nonparametric Methods
这章主要介绍两种无参方法:核方法和近邻法。
P122 开始介绍核密度估计时,从公式2.242到2.246都是为了推导未知概率密度p(x)的估计。
最后推导得到式2.246如下:
p(x)=KNV
其中V是x附近区域R的体积,K则是落入x附近区域R中的数据点个数,由此导出了两种不同的密度估计方法:
(1)如果固定K而估计V的大小,那么就是kNN算法(k固定而根据选定最近的k个数据来评估R的体积)
(2)如果固定V而估计K的大小,那么就是核密度估计,用一个核函数表示一个固定的体积V,然后数数这个体积里面数据点K的个数
这就是对这两种无参数方法比较深入的理解,很好。
关于核密度估计,虽然还不是很清楚,但是可以知道其实它的道理跟P121的histogram approach是一样的,只不过核密度估计是高维的而已
PRML Chapter 2. Probability Distributions的更多相关文章
- PRML读书会第二章 Probability Distributions(贝塔-二项式、狄利克雷-多项式共轭、高斯分布、指数族等)
主讲人 网络上的尼采 (新浪微博: @Nietzsche_复杂网络机器学习) 网络上的尼采(813394698) 9:11:56 开始吧,先不要发言了,先讲PRML第二章Probability Dis ...
- PRML读书笔记——2 Probability Distributions
2.1. Binary Variables 1. Bernoulli distribution, p(x = 1|µ) = µ 2.Binomial distribution + 3.beta dis ...
- PRML Chapter 1. Introduction
PRML Chapter 1. Introduction 为了防止忘记,要把每章的重要内容都记下来,从第一章开始 2012@3@28 今天又回去稍微翻了一下第一章内容,发现第一次看的时候没有看透,每次 ...
- 一起啃PRML - 1.2 Probability Theory 概率论
一起啃PRML - 1.2 Probability Theory @copyright 转载请注明出处 http://www.cnblogs.com/chxer/ A key concept in t ...
- Common Probability Distributions
Common Probability Distributions Probability Distribution A probability distribution describes the p ...
- 基本概率分布Basic Concept of Probability Distributions 8: Normal Distribution
PDF version PDF & CDF The probability density function is $$f(x; \mu, \sigma) = {1\over\sqrt{2\p ...
- 基本概率分布Basic Concept of Probability Distributions 7: Uniform Distribution
PDF version PDF & CDF The probability density function of the uniform distribution is $$f(x; \al ...
- 基本概率分布Basic Concept of Probability Distributions 6: Exponential Distribution
PDF version PDF & CDF The exponential probability density function (PDF) is $$f(x; \lambda) = \b ...
- 基本概率分布Basic Concept of Probability Distributions 5: Hypergemometric Distribution
PDF version PMF Suppose that a sample of size $n$ is to be chosen randomly (without replacement) fro ...
随机推荐
- user database的initial size和dbcc shrinkfile
之前我们讨论了dbcc shrinkfile改变tempdb initial size的情况.而用DBCC Shrinkfile去收缩一个user database,情况就比较简单了.让我们通过一些测 ...
- zabbix一件漂亮的外衣配置
http://www.cnblogs.com/yyhh/archive/2015/09/08/4792830.html
- mvc4中的 webapi 的使用方式
目录 一:简单介绍什么是Web api 二:怎么定义的 Post Get Put 和 Delete 三:简单使用,直接从前台传递一个类到后台接收 四:其他获取值的方式 一:简单介绍什么是Web api ...
- 基于React Native的Material Design风格的组件库 MRN
基于React Native的Material Design风格的组件库.(为了平台统一体验,目前只打算支持安卓) 官方网站 http://mrn.js.org/ Github https://git ...
- JS案例之7——瀑布流布局(2)
这个例子与上一篇类似,唯一的区别是排序的方式有差别.上一篇是在高度最小的列里插入内容,这个案例是按顺序放置内容. 两种方法各有优缺点.第一种需要在图片内容加载完成的情况下有效.这个例子不需要在wind ...
- 使用ObjectAnimator设置动画
ObjectAnimator是ValueAnimator的子类,他本身就已经包含了时间引擎和值计算,所以它拥有为对象的某个属性设置动画的功能.这使得为任何对象设置动画更加的容易.你不再需要实现 Val ...
- ace布置小作业: 制作一个简单的电话号码归属地查询软件:JSON解析和Volly发送get请求
大概就这个样子 用到JSON解析和Volly发送Get请求两个知识点 关于Volly的用法请看我的这篇: http://www.cnblogs.com/AceIsSunshineRain/p/5177 ...
- python为什么会有@classmethod?
今天被问了这么个问题 python为什么要有classmethod? 被问倒了,只能回答:classmethod不需要实例化类,用起来比较方便.这么回答没有什么底细,于是查看了一下python的官方文 ...
- unity3d 纹理动画
不知道大家有没有玩过赛车游戏 赛车游戏的跑道有路标,如下图 玩过赛车游戏的都知道,大多数赛车游戏的路标是会动的,如上图,它会从右往左运动 不会发动态图,大家脑补一下吧 没有玩过赛车游戏的也不要紧,大家 ...
- SQL脚本循环修改数据库字段类型
数据库在设计的时候也许考虑不全面,导致某些字段类型不太准确.比如设计的时候是varchar(1024),但是实际使用的时候却发现太小了,装不下,于是需要修改字段类型为ntext什么的. 我最近就遇到了 ...