常见的概率分布类型（Probability Distribution）

统计学中最常见的几种概率分布分别是正态分布（normal distribution），t分布（t distribution），F分布（F distribution）和卡方分布（χ2 distribution，chi-square distribution），其中后三种属于抽样分布。

为什么要研究概率分布呢？因为通过研究概率分布，我们可以找出数据的分布规律，并根据这些规律来解决特定条件下的问题。比如：假设随机变量X服从某个已知的分布，我们就可以利用这个分布对X的取值是否显著异于分布期望值进行检验。

下面来看一下这几种概率分布的类型：

正态分布：又叫高斯分布（Gaussian distribution），是最为人们所熟知的分布类型

正态分布最为人们所熟知是因为在实际生活中我们经常可以看到正态分布的例子。比如男女身高，学习成绩等都服从正态分布。也就是说身高和学习成绩处于中游水平的人的数量最多，而身高特别高或特别矮以及成绩特别好或特别差的人的数量很少（趋于0），上图的曲线看起来像一口钟，因此正态分布曲线又被称为钟形曲线（bell curve）。

若随机变量X服从一个期望为μ，方差为σ²的正态分布，那么记作X~N(μ，σ²)。正态分布的期望值μ决定了其位置，标准差σ决定了分布的幅度。正态分布的概率密度函数为。

如果数据服从正态分布，我们可以看到大约68%的数据分布在均值的第一个标准差范围之内，95%分布在均值的两个标准差范围之内，99.7%分布在均值的三个标准差范围之内，这就是经验法则（empirical rule）。

我们可以通过计算随机变量的z值（z score），得知其距离平均值有多少个标准差。z值的计算公式为：。（其中x是随机变量的值，μ是总体均值，σ是总体标准差）

当μ=0，σ=1时，正态分布就成为标准正态分布，记作N（0，1)。通过把服从正态分布的原始数据转变为z值，其z值分布就变为标准正态分布。

通过查找z值表（z-table），我们可以找到z值对应的概率，此概率是z值出现的累计概率（也就是小于此z值的概率）。通过转换，我们就能知道某z值落在某个区间内的概率是多少了。

（如何使用z值表可参考：http://www.z-table.com/how-to-use-z-score-table.html）

我们在实践中为何总是选择使用正态分布呢？正态分布在自然界中的频繁出现只是原因之一，还有一个重要的原因是正态分布的最大熵性质。很多时候，我们并不知道数据的真实分布是什么，我们能从数据中获取到的比较好的知识就是均值和方差，除此之外没有其它更加有用的信息。因此按照最大熵原理，我们应该选择在给定的知识的限制下熵最大的概率分布，而这恰好是正态分布。因此按照最大熵的原理，由于我们对真实分布一无所知，如果数据不能有效提供除了均值和方差之外的更多的知识，即便数据的真实分布不是正态分布，那这时候正态分布就是最佳的选择。（此段摘自正态分布的前世今生）

正态分布的前世今生：

http://songshuhui.net/archives/76501

http://songshuhui.net/archives/77386

t分布：小样本分布

根据中心极限定理，如果从服从正态分布的总体中多次抽样，每次抽取n个观察值，只要抽样次数足够多，那么样本平均数的分布仍然服从正态分布，即~N(μ, )。

我们可以把这个公式转换一下，变为，这样计算出某样本均值的z值，就可以找到其对应的累计概率。反过来，我们也可以通过设置置信度（level of confidence），找到相应的z值，然后计算出总体均值的置信区间。

但有一个问题，就是在实际应用中，总体的标准差σ往往是未知的，因此人们常用样本标准差s作为σ的估计值。这个问题是解决了，但是还有一个问题。根据样本标准差的计算公式，如果样本中的观察值数量很少，那么样本的标准差就会很大，因此如果在样本量小的情况下直接使用z值公式，得出的结果是不准确的。

那么怎么办呢？有个叫Gosset的人通过计算大量样本均值和样本标准差的比值，得到了这个比值的分布，叫做t分布。

我们按照计算z值的方式，把样本平均数转换成标准值，这个数值就叫做t值（t statistic），t值的分布服从t分布。t值的计算公式为：。（其中是随机样本均值，μ是总体均值，s是样本标准差，n是样本中的观察值数量）

t分布以0为中心，左右对称，其形态变化与自由度ν（degrees of freedom）有关。自由度ν越小，t分布曲线越低平；自由度ν越大，t分布曲线越接近标准正态分布曲线。（自由度指在数据集中能自由变化的观察值的数量，对于某个抽样样本来说，其自由度等于样本中的观察值数量减一，即v=n-1）

我们发现，当样本中的观察值数量接近30时，t分布开始逐渐接近标准正态分布。因此，t分布被广泛使用，因为其不管对于小样本或者大样本都是正确的，而正态分布只对大样本正确。

通过自由度（v）和设置置信度（1-α），在t值表（t-table）上查找出对应的t值。这样，我们可以通过样本均值来对总体均值进行估计（点估计，point estimate），并且可以计算出在某个置信度下（比如95%），总体均值的置信区间（区间估计，interval estimate）。

t分布的发现：

http://www.360doc.com/content/16/1101/21/36719146_603220801.shtml

https://blog.csdn.net/lengxiao1993/article/details/81985399

卡方分布：样本期望值和观察值之间差异的分布

假设O代表某个样本中某个类别的观察频数，E代表基于零假设计算出的期望频数，O与E之差称为残差。残差可以表示某一个类别变量观察值和期望值的偏离程度。但因为残差有正有负，相加后会彼此抵消，因此不能将残差简单相加以表示观察频数与期望频数的差别，为此可以将残差进行平方然后求和。另一方面，残差的大小是一个相对的概念。当期望频数为10时，残差为20显得较大，但当期望频数为1000时，20的残差就很小了。考虑到这一点，人们又将残差平方除以期望频数。对于多个观察值，只要将这些残差平方相加，得到的数值就是χ²值（χ²statistic），χ²值服从卡方分布。χ²值的计算公式为：。

卡方分布的正式定义：若k个相互独立的随机变量服从标准正态分布N（0,1）（也称独立同分布于标准正态分布），则这k个服从标准正态分布的随机变量的平方和构成一个新的随机变量，其分布称为卡方分布（chi-square distribution），自由度为k。

从卡方分布图可以看出：卡方值都是正值，呈右偏态，随着自由度k的增大，其分布趋近于正态分布。（卡方分布的极限就是正态分布）

卡方分布主要用于卡方检验。有两种检验目的，一种是检验样本中各个类别的观察值与期望值是否有显著的不同（goodness of fit），另一种是检验样本中两个类别之间是否相互独立（independence）。

卡方检验的例子：

https://www.jianshu.com/p/807b2c2bfd9b

F分布：多个样本方差比率的分布

t检验和卡方检验可以用来检验单个样本的均值是否和总体一致，或者检验两个样本之间的均值是否一致。那么如果我们需要检验两个以上的样本的均值是否一致该怎么办呢？为此，Fisher创造出了方差分析（analysis of variance，ANOVA），通过分析多个样本的方差来检验这几个样本的均值是否相同。

将多个样本之间的方差（组间方差）除以样本内部的方差（组内方差），得出的比率被称为F值（F Ratio），F值服从F分布。F值的计算公式为：。（其中是总均值，，k是样本数量，N是k个样本的总观察值的数量）

如果组间方差和组内方差相差不大，那么F值应该在1附近，说明这些样本的均值是一致的；如果F值远远大于1，那么说明不是所有的样本均值都是一致的。

F分布的正式定义：假设X、Y为两个独立的随机变量，X服从自由度为n的卡方分布，Y服从自由度为m的卡方分布，这两个独立的卡方分布除以各自的自由度以后的比率服从F分布。

F分布是一种非对称分布，它有两个自由度，即n-1和m-1，相应的分布记为F(n–1，m-1)， n-1通常称为分子自由度， m-1通常称为分母自由度。不同的自由度决定了F分布的形状。

常见的概率分布类型（Probability Distribution）的更多相关文章

常见的概率分布类型（二）（Probability Distribution II）
以下是几种常见的离散型概率分布和连续型概率分布类型: 伯努利分布(Bernoulli Distribution):常称为0-1分布,即它的随机变量只取值0或者1. 伯努利试验是单次随机试验,只有&qu ...
paper 115：常见的概率分布(matlab作图)
一.常见的概率分布表1.1 概率分布分类表连续随机变量分布连续统计量分布离散随机变量分布分布分布二项分布连续均匀分布非中心分布离散均匀分布 (Gamma)分布分布几何分布指 ...
Android自动化压力测试之Monkey Test Android常见的错误类型及黑白名单的使用方法（四）
Android常见的错误类型有两种 1.ANR类型 1)在5秒内没有响应输入的事件(例如,按键按下,屏幕触摸) 2)BroadcastReceiver在10秒内没有执行完毕 2.Crash类型 1)异 ...
Study notes for Discrete Probability Distribution
The Basics of Probability Probability measures the amount of uncertainty of an event: a fact whose o ...
游戏开发中IIS常见支持MIME类型文件解析
游戏开发中IIS常见支持MIME类型文件解析 .apkapplication/vnd.android .ipaapplication/vnd.iphone .csbapplication/octet- ...
常见的Content-Type类型
Content-Type说明 MediaType,即是Internet Media Type,互联网媒体类型:也叫做MIME类型, 在Http协议消息头中,使用Content-Type来表示具体请求中 ...
Monkey压力测试Android常见的错误类型及黑白名单的使用方法
Android常见的错误类型有两种 1.ANR类型 1)在5秒内没有响应输入的事件(例如,按键按下,屏幕触摸) 2)BroadcastReceiver在10秒内没有执行完毕 2.Crash类型 1)异 ...
常见文件MIME类型
常见文件MIME类型.asx,video/x-ms-asf .xml,text/xml .tsv,text/tab-separated-values .ra,audio/x-pn-realaudio ...
常见的MIME类型与00截断
常见的MIME类型 1)超文本标记语言.html文件的MIME类型为:text/html 2)普通文本.txt文件的MIME类型为:text/plain 3)PDF文档.pdf的MIME类型为:app ...

随机推荐

从一个点子到一个社区APP，是如何通过.NET实现的？——“文林物业系统”APP介绍及采访记录
“文林物业系统”(简称“文林社区”)是一款与物业管理软件无缝衔接的移动端系统.可在线查看通知公告.报修.投诉建议.查询物业管理费.水电气等其他费用,并且支持在线缴费.以物业管理为接入点,在未来,将会致 ...
事件Event一
事件(Event)例如:最近的视觉中国'黑洞事件'.我们大多数人(订阅者)是通过XX平台(发布者)得知的这一消息,然后订阅者A出售视觉中国的股票(触发的方法),订阅者B买入视觉中国的股票. using ...
vscode下面开发vue.js项目
vscode下面开发vue.js项目 https://blog.csdn.net/linzhiqiang0316/article/details/79176651 vscode下面开发vue.js ...
MVC bootstrap-table显示数据时显示No matching records found
问题:bootstrap-table加载数据不显示 @{ ViewBag.Title = "Index"; Layout = "~/Views/Shared/_Layou ...
springMVC报404,没有显示地址
正常报404会显示你的错误地址信息,而针对本问题如果你使用的是springMVC框架,这就代表你的请求被拦截了
Django学习之十: staticfile 静态文件
目录 Django学习之十: staticfile 静态文件理解阐述静态文件 Django对静态文件的处理其它方面总结 Django学习之十: staticfile 静态文件理解阐述 ...
Windows环境下使用pip install安装lxml库
lxml是Python语言和XML以及HTML工作的功能最丰富和最容易使用的库.lxml是为libxml2和libxslt库的一个Python化的绑定.它与众不同的地方是它兼顾了这些库的速度和功能完整 ...
qsv文件转码mp4格式过程记录
之前帮一个朋友剪辑配音视频,源文件在爱奇艺里,特有的qsv格式让我白忙活一下午. 晚上趁着有空,在网上查找资料,翻阅了很多文件,都让我无从下手. 基本都是一个套路,转成fiv格式,再转mp4格式,但是 ...
python的学习笔记01_6练习
# 一.[用户登陆程序]# 基础需求:# 让用户输入用户名密码# 认证成功后显示欢迎信息# 输错三次后退出程序 count = 0 name = "cheng" password ...
google zxing android扫描优化&解析
这里先给出zxing包的源码地址 zip包:https://codeload.github.com/zxing/zxing/zip/master Github:https://github.com/z ...

常见的概率分布类型（Probability Distribution）

常见的概率分布类型（Probability Distribution）的更多相关文章

随机推荐

热门专题