听同事讲 Bayesian statistics: Part 2

听同事讲 Bayesian statistics: Part 2 - Bayesian inference

摘要：每天坐地铁上班是一件很辛苦的事，需要早起不说，如果早上开会又赶上地铁晚点，更是让人火烧眉毛。在城市里工作的人，很多是需要搭乘地铁上下班的，也包括同事M。

有一次M早上来得比较晚，进办公室以后就开始抱怨地铁又晚点了，而且同一周不只发生了一次。我说，作为 statistician，你就不能 predict 一下地铁会不会晚点吗？她说，"This is a very tricky problem. There are so many unknown factors." “好吧，那算一下地铁晚点的概率总可以吧？” "Great! Let's do it now!” 说完M就拿起笔开始在白板上写起公式来，当然用的是 Bayesian 的方法。

通常拿到一个问题后，第一步要做的，就是要简化这个问题。M做的简化是：假设每天地铁迟到的概率是一样的，记为 t。当然，这个假设有不合理的地方，比如周一、周二早上乘地铁的人比较多，而周五不少人 work from home 所以乘地铁的人相对较少，这样导致地铁在每周不同的天里迟到的概率可能不同。但任何假设都有不完善的地方，如果乘客人数不是主导因素的话，那么我们就可以做这样的近似。问题简化后，每天地铁是否迟到就是一个 Bernoulli 分布，N 天中地铁迟到的次数 n 则为一个 binomial 分布。

以M过去两周的经验来说，总共10天里，地铁迟到了3次。那么地铁迟到的概率 t 是多少呢？

上一期中我们提到了 frequentist 和 Bayesian 之间的区别。其中最主要的一点是，frequentist 认为参数是固定的，而 Bayesian 认为参数和其它随机变量没有区别，它们也是随机变量，它们的 distribution 就是我们对其值 belief 的 distribution。在我们这个问题里，t 就是参数。

首先大致地讲一下 frequentist 的做法。Frequentist 求解参数，一般用 maximum likelihood 方法。参数的 likelihood 也就是 data 的 probability。假设 N 天里，地铁迟到了 n 次，那么 likelihood 为，

这个公式不是很讨好，我们来把它变换一下。我们知道，log 函数不会改变原函数的大小关系 (monotonic)，所以，maximum likelihood 等价于 maximum log-likelihood。公式变成了，

C为常数，不取决于 t 的值。我们可以很容易地求得当 t ＝ n / N 时，上面地 log-likelihood 取得最大值。好的，frequentist 的结果为 n / N ＝ 3 / 10 ＝ 0.3，即地铁迟到的概率为30%。

Bayesian 方法怎么去做呢？还记得上一期我们提到的 Bayesian 理念吧。我们需要给 t 一个 prior distribution。我们知道，t 作为概率是介于0到1之间的，它最常用的 prior 是 beta distribution。可能很多学友不是特别熟悉 beta distribution，但对于 statistician 尤其是 Bayesian statistician 来说，它是最基本的一种 distribution。我们在这儿不讨论 beta distribution 的细节。需要大体了解一下，它有两个参数，pdf 的图形如下，

它的表达式为，

如果我们认为 t 是从0到1均匀分布的，我们可以用 uniform 作为它的 prior，也就是 t ~ Beta(1, 1) = uniform。这个 prior 没有融入任何主观的猜测，所以这样的 prior 也叫做 uninformative prior。其实，即便是这样的 prior，它也提供了一定的信息，比如 t 的值不会小于0或者大于1 。所以，uninformative prior 名字有些歧义，它实际上是 less informative prior。

知道了参数的 prior distribution 和 likelihood，那么 posterior distribution 是不是很容易求得呢？答案是否定的。只有一些特定的 distribution (比如 Gaussian distribution) 才可以写出它的解析式。即便写出它的解析式，很多情况下 posterior 的一些 statistics 是很难求得的。这是就需要请出强大的 MCMC (Markov chain Monte Carlo)，这个后面一定会讲到。

好的，我们计算一下，给了数据 D 后，参数 t 的 posterior distribution 为，

对于很多其他形式的 posterior 来说，位于分母的积分 P(D) 并不容易计算。幸运的是，这个积分的值并不取决于参数的值，而分子才是决定参数的重要因素。从这个角度来说，分母的作用只是 normalization 而已，对决定参数分布作用不大。

还有一个有趣的现象是，算得的 posterior 和 prior 形式上是一样的。这也是当 likelihood 为 binomial 时，我们选择 beta distribution 作为 prior 的好处。对于不同的 likelihood，选择一些特定的 prior 可以使得 posterior 与 prior 形式一致，给计算带来方便。这样的 prior，称之为 conjugate prior。

我们最后求得 t 的 posterior 为 Beta(n+1, N－n+1)，即 Beta(4, 8)，它的 mode 是 0.3，而 mean 是 1 / 3。

假如说我们只想用一个值而不是 distribution 来表示参数，很多情况下我们会选择 mode，也就是让 posterior 最大的那个参数值。这个方法也叫做 maximum a posteriori (MAP)。如果 prior 是 uniform 的话，它跟 frequentist 的 maximum likelihood 得到的结果一样。当然，maximum a posteriori 是一个过于简单的方法，用一个值来代替整个 distribution 显然是不准确或不完备的。我们后面会讲到 Bayesian 是怎样利用 posterior 来做 prediction 的。

听同事讲 Bayesian statistics: Part 2 - Bayesian inference的更多相关文章

听同事讲 Bayesian statistics: Part 1 - Bayesian vs. Frequentist
听同事讲 Bayesian statistics: Part 1 - Bayesian vs. Frequentist 摘要:某一天与同事下班一同做地铁,刚到地铁站,同事遇到一熟人正从地铁站出来. ...
Stanford机器学习笔记-3.Bayesian statistics and Regularization
3. Bayesian statistics and Regularization Content 3. Bayesian statistics and Regularization. 3.1 Und ...
BAYESIAN STATISTICS AND CLINICAL TRIAL CONCLUSIONS: WHY THE OPTIMSE STUDY SHOULD BE CONSIDERED POSITIVE（转）
Statistical approaches to randomised controlled trial analysis The statistical approach used in the ...
贝叶斯统计（Bayesian statistics） vs 频率统计（Frequentist statistics）：marginal likelihood（边缘似然）
1. Bayesian statistics 一组独立同分布的数据集 X=(x1,-,xn)(xi∼p(xi|θ)),参数 θ 同时也是被另外分布定义的随机变量 θ∼p(θ|α),此时: p(X|α) ...
Bayesian Statistics for Genetics | 贝叶斯与遗传学
Common sense reduced to computation - Pierre-Simon, marquis de Laplace (1749–1827) Inventor of Bayes ...
Bayesian statistics
文件夹 1Bayesian model selection贝叶斯模型选择 1奥卡姆剃刀Occams razor原理 2Computing the marginal likelihood evidenc ...
【死磕JVM】给同事讲了一遍GC后，他要去面试，年轻人，就是容易冲动！
前言在一个风和日丽的中午,和同事小勇一起走在公司楼下的小公园里面,看到很多的小姐姐,心想什么时候能够和这些小姐姐一起讨论人生呀,美滋滋,嘿嘿嘿. 收起你的哈喇子好不好,小勇总是在这个时候发出声音,挺 ...
什么是WebSocket （经常听别人讲感觉很高大上其实不然）
WebSocket 协议在2008年诞生,2011年成为国际标准.现在所有浏览器都已经支持了.WebSocket 的最大特点就是,服务器可以主动向客户端推送信息,客户端也可以主动向服务器发送信息,是真 ...
算法很美，听我讲完这些Java经典算法包你爱上她
大家好,我是小羽. 对于编程来说的话,只有掌握了算法才是了解了编程的灵魂,算法对于新手来说的话,属实有点难度,但是以后想有更好的发展,得到更好的进阶的话,对算法进行系统的学习是重中之重的. 对于 Ja ...

随机推荐

Top 10 Uses of a Message Queue
Top 10 Uses of a Message QueueAsynchronicity, Work Dispatch, Load Buffering, Database Offloading, an ...
Android ImageSwitcher和Gallery的使用
前几天,听说室友的老师要求他们做一个图片效果.其效果如下图所示(可左右滑动切换图片): 我当时晃眼一看,第一感觉好高级的样子.我还没做过这种效果呢,但室友说他们同学已经有人做出来了,我觉得既然有人做出 ...
MVC中，查询以异步呈现，分页不用异步的解决方案
MVC中,查询以异步呈现,分页不用异步的解决方案这种需求,用一个ASPX页面和一个ASCX分部视图就可以解决了,ASPX提供对ASCX的引用,ASCX显示列表信息,ASPX主页面提供查询功能 < ...
Sublime Text2配置python环境
1.下载python并安装地址:https://www.python.org/downloads/ 2.下载Sublime Text2 并安装地址:http://www.subli ...
Java获取某年某周的最后一天
package test; import java.text.SimpleDateFormat; import java.util.Calendar; /** * ClassName: LastDay ...
transfrom属性
transfrom可以实现一些形变.常见的有平移.缩放和旋转三种.使用起来很简单: //横纵放大1.3倍 self.imageButton.transform=CGAffineTransformSca ...
call与apply的区别
/** * 用 add 来替换 sub,add.call(sub,3,1) == add(3,1) ,所以运行结果为:alert(4); */ function add(a,b){ alert(a+b ...
怎么安装MySQL，安装MySQL遇到的一些问题！！！！！！
简介: 对于初学,我们在安装MySQL时,会出现各种各样的报错,这让我们非常的头痛.那么我来分享一下我在安装的过程中遇到的一些问题吧! 我们在安装MySQL之前,先安装好dotNetFx40_Clie ...
17_AOP入门准备_Salay案例（利用动态代理）
[案例分析] 查看Salary: 1.启动日志 2.启动安全性的框架 3.检查权限:如果有查看工资的权限,则查看工资,否则提示"权限不足" [工厂截图] [SalaryManage ...
height为100%的问题
问题描述很多同学,对于设置div 的高度为100%时,有疑惑. 设置div 的高度为100%,意思是此 div 的高度铺满父元素. 那么怎么使 div 铺满浏览器屏幕? 代码 <!DOCT ...

听同事讲 Bayesian statistics: Part 2 - Bayesian inference

听同事讲 Bayesian statistics: Part 2 - Bayesian inference

听同事讲 Bayesian statistics: Part 2 - Bayesian inference的更多相关文章

随机推荐

热门专题