统计学中最常见的几种概率分布分别是正态分布(normal distribution),t分布(t distribution),F分布(F distribution)和卡方分布(χ2 distribution,chi-square distribution),其中后三种属于抽样分布。

为什么要研究概率分布呢?因为通过研究概率分布,我们可以找出数据的分布规律,并根据这些规律来解决特定条件下的问题。比如:假设随机变量X服从某个已知的分布,我们就可以利用这个分布对X的取值是否显著异于分布期望值进行检验。

下面来看一下这几种概率分布的类型:

正态分布:又叫高斯分布(Gaussian distribution),是最为人们所熟知的分布类型

正态分布最为人们所熟知是因为在实际生活中我们经常可以看到正态分布的例子。比如男女身高,学习成绩等都服从正态分布。也就是说身高和学习成绩处于中游水平的人的数量最多,而身高特别高或特别矮以及成绩特别好或特别差的人的数量很少(趋于0),上图的曲线看起来像一口钟,因此正态分布曲线又被称为钟形曲线(bell curve)。

若随机变量X服从一个期望为μ,方差为σ2的正态分布,那么记作X~N(μ,σ2)。正态分布的期望值μ决定了其位置,标准差σ决定了分布的幅度。正态分布的概率密度函数为

如果数据服从正态分布,我们可以看到大约68%的数据分布在均值的第一个标准差范围之内,95%分布在均值的两个标准差范围之内,99.7%分布在均值的三个标准差范围之内,这就是经验法则(empirical rule)。

我们可以通过计算随机变量的z值(z score),得知其距离平均值有多少个标准差。z值的计算公式为:。(其中x是随机变量的值,μ是总体均值,σ是总体标准差)

当μ=0,σ=1时,正态分布就成为标准正态分布,记作N(0,1)。通过把服从正态分布的原始数据转变为z值,其z值分布就变为标准正态分布。

通过查找z值表(z-table),我们可以找到z值对应的概率,此概率是z值出现的累计概率(也就是小于此z值的概率)。通过转换,我们就能知道某z值落在某个区间内的概率是多少了。

(如何使用z值表可参考:http://www.z-table.com/how-to-use-z-score-table.html

我们在实践中为何总是选择使用正态分布呢?正态分布在自然界中的频繁出现只是原因之一,还有一个重要的原因是正态分布的最大熵性质。很多时候,我们并不知道数据的真实分布是什么,我们能从数据中获取到的比较好的知识就是均值和方差,除此之外没有其它更加有用的信息。因此按照最大熵原理,我们应该选择在给定的知识的限制下熵最大的概率分布,而这恰好是正态分布。因此按照最大熵的原理,由于我们对真实分布一无所知,如果数据不能有效提供除了均值和方差之外的更多的知识,即便数据的真实分布不是正态分布,那这时候正态分布就是最佳的选择。(此段摘自正态分布的前世今生)

正态分布的前世今生:

http://songshuhui.net/archives/76501

http://songshuhui.net/archives/77386

t分布:小样本分布

根据中心极限定理,如果从服从正态分布的总体中多次抽样,每次抽取n个观察值,只要抽样次数足够多,那么样本平均数的分布仍然服从正态分布,即~N(μ, )。

我们可以把这个公式转换一下,变为,这样计算出某样本均值的z值,就可以找到其对应的累计概率。反过来,我们也可以通过设置置信度(level of confidence),找到相应的z值,然后计算出总体均值的置信区间

但有一个问题,就是在实际应用中,总体的标准差σ往往是未知的,因此人们常用样本标准差s作为σ的估计值。这个问题是解决了,但是还有一个问题。根据样本标准差的计算公式,如果样本中的观察值数量很少,那么样本的标准差就会很大,因此如果在样本量小的情况下直接使用z值公式,得出的结果是不准确的。

那么怎么办呢?有个叫Gosset的人通过计算大量样本均值和样本标准差的比值,得到了这个比值的分布,叫做t分布。

我们按照计算z值的方式,把样本平均数转换成标准值,这个数值就叫做t值(t statistic),t值的分布服从t分布。t值的计算公式为:。(其中是随机样本均值,μ是总体均值,s是样本标准差,n是样本中的观察值数量)

t分布以0为中心,左右对称,其形态变化与自由度ν(degrees of freedom)有关。自由度ν越小,t分布曲线越低平;自由度ν越大,t分布曲线越接近标准正态分布曲线。(自由度指在数据集中能自由变化的观察值的数量,对于某个抽样样本来说,其自由度等于样本中的观察值数量减一,即v=n-1)

我们发现,当样本中的观察值数量接近30时,t分布开始逐渐接近标准正态分布。因此,t分布被广泛使用,因为其不管对于小样本或者大样本都是正确的,而正态分布只对大样本正确。

通过自由度(v)和设置置信度(1-α),在t值表(t-table)上查找出对应的t值。这样,我们可以通过样本均值来对总体均值进行估计(点估计,point estimate),并且可以计算出在某个置信度下(比如95%),总体均值的置信区间(区间估计,interval estimate)。

t分布的发现:

http://www.360doc.com/content/16/1101/21/36719146_603220801.shtml

https://blog.csdn.net/lengxiao1993/article/details/81985399

卡方分布:样本期望值和观察值之间差异的分布

假设O代表某个样本中某个类别的观察频数,E代表基于零假设计算出的期望频数,O与E之差称为残差。残差可以表示某一个类别变量观察值和期望值的偏离程度。但因为残差有正有负,相加后会彼此抵消,因此不能将残差简单相加以表示观察频数与期望频数的差别,为此可以将残差进行平方然后求和。另一方面,残差的大小是一个相对的概念。当期望频数为10时,残差为20显得较大,但当期望频数为1000时,20的残差就很小了。考虑到这一点,人们又将残差平方除以期望频数。对于多个观察值,只要将这些残差平方相加,得到的数值就是χ2值(χstatistic),χ2值服从卡方分布。χ2值的计算公式为:

卡方分布的正式定义:若k个相互独立的随机变量服从标准正态分布N(0,1)(也称独立同分布于标准正态分布),则这k个服从标准正态分布的随机变量的平方和构成一个新的随机变量,其分布称为卡方分布(chi-square distribution),自由度为k。

从卡方分布图可以看出:卡方值都是正值,呈右偏态,随着自由度k的增大,其分布趋近于正态分布。(卡方分布的极限就是正态分布)

卡方分布主要用于卡方检验。有两种检验目的,一种是检验样本中各个类别的观察值与期望值是否有显著的不同(goodness of fit),另一种是检验样本中两个类别之间是否相互独立(independence)。

卡方检验的例子:

https://www.jianshu.com/p/807b2c2bfd9b

F分布:多个样本方差比率的分布

t检验和卡方检验可以用来检验单个样本的均值是否和总体一致,或者检验两个样本之间的均值是否一致。那么如果我们需要检验两个以上的样本的均值是否一致该怎么办呢?为此,Fisher创造出了方差分析(analysis of variance,ANOVA),通过分析多个样本的方差来检验这几个样本的均值是否相同。

将多个样本之间的方差(组间方差)除以样本内部的方差(组内方差),得出的比率被称为F值(F Ratio),F值服从F分布。F值的计算公式为:。(其中是总均值,,k是样本数量,N是k个样本的总观察值的数量)

如果组间方差和组内方差相差不大,那么F值应该在1附近,说明这些样本的均值是一致的;如果F值远远大于1,那么说明不是所有的样本均值都是一致的。

F分布的正式定义:假设X、Y为两个独立的随机变量,X服从自由度为n的卡方分布,Y服从自由度为m的卡方分布,这两个独立的卡方分布除以各自的自由度以后的比率服从F分布。

F分布是一种非对称分布,它有两个自由度,即n-1和m-1,相应的分布记为F(n–1,m-1), n-1通常称为分子自由度, m-1通常称为分母自由度。不同的自由度决定了F分布的形状。

常见的概率分布类型(Probability Distribution)的更多相关文章

  1. 常见的概率分布类型(二)(Probability Distribution II)

    以下是几种常见的离散型概率分布和连续型概率分布类型: 伯努利分布(Bernoulli Distribution):常称为0-1分布,即它的随机变量只取值0或者1. 伯努利试验是单次随机试验,只有&qu ...

  2. paper 115:常见的概率分布(matlab作图)

    一.常见的概率分布 表1.1 概率分布分类表 连续随机变量分布 连续统计量分布 离散随机变量分布 分布 分布 二项分布 连续均匀分布 非中心 分布 离散均匀分布 (Gamma)分布 分布 几何分布 指 ...

  3. Android自动化压力测试之Monkey Test Android常见的错误类型及黑白名单的使用方法(四)

    Android常见的错误类型有两种 1.ANR类型 1)在5秒内没有响应输入的事件(例如,按键按下,屏幕触摸) 2)BroadcastReceiver在10秒内没有执行完毕 2.Crash类型 1)异 ...

  4. Study notes for Discrete Probability Distribution

    The Basics of Probability Probability measures the amount of uncertainty of an event: a fact whose o ...

  5. 游戏开发中IIS常见支持MIME类型文件解析

    游戏开发中IIS常见支持MIME类型文件解析 .apkapplication/vnd.android .ipaapplication/vnd.iphone .csbapplication/octet- ...

  6. 常见的Content-Type类型

    Content-Type说明 MediaType,即是Internet Media Type,互联网媒体类型:也叫做MIME类型, 在Http协议消息头中,使用Content-Type来表示具体请求中 ...

  7. Monkey压力测试Android常见的错误类型及黑白名单的使用方法

    Android常见的错误类型有两种 1.ANR类型 1)在5秒内没有响应输入的事件(例如,按键按下,屏幕触摸) 2)BroadcastReceiver在10秒内没有执行完毕 2.Crash类型 1)异 ...

  8. 常见文件MIME类型

    常见文件MIME类型.asx,video/x-ms-asf .xml,text/xml .tsv,text/tab-separated-values .ra,audio/x-pn-realaudio ...

  9. 常见的MIME类型与00截断

    常见的MIME类型 1)超文本标记语言.html文件的MIME类型为:text/html 2)普通文本.txt文件的MIME类型为:text/plain 3)PDF文档.pdf的MIME类型为:app ...

随机推荐

  1. Writing a Simple Service and Client (C++)

    此前说的publisher/subscriber都是广播式的,subscriber被动地接收消息,二者没有request/response这种交互. Service Node Client Node ...

  2. PHP+nginx 启动后访问超时

    场景 在Windows上, nginx配置并启动后, 访问报504超时 解决 很尴尬, php-cgi没启动 php-cgi -b

  3. Spring笔记

    Spring概念 Spring是一个开源的轻量级的框架 Spring核心主要两部分 (1) Aop面向切面编程,扩展功能不是修改源代码实现 (2) Ioc控制反转, 比如说有一个类,在类里面有方法(不 ...

  4. Dynamics 365 Customer Engagement中插件的调试

    微软动态CRM专家罗勇 ,回复319或者20190319可方便获取本文,同时可以在第一间得到我发布的最新博文信息,follow me!我的网站是 www.luoyong.me . 本文主要根据官方的教 ...

  5. Android Fragment碎片

    什么是碎片? 碎片(Fragment)是一种可以嵌入在活动当中的UI片段,它能让程序更加合理和充分地利用大屏幕的空间,因而在平板上应用的非常广泛.可以把Fragment当成Activity一个界面的一 ...

  6. win10下安装mysql5.7.25版本

    之前使用mysql都是使用的xampp上面集成的mysql,也在安装过5.6.35的版本,好像都是下一步下一步就完成了,昨天安装了一个5.7.25的版本的mysql,也不知道怎么了,就开始百度一些东西 ...

  7. UE4游戏开发基础命令

    在个人的Unrealengine账户中关联自己的GitHub账户成功之后,就可以访问UE4引擎的源码了. git clone -b release https://github.com/EpicGam ...

  8. 64位Win7下Asp.net项目连接Oracle时报ORA-6413:连线未打开异常

    当时小弟碰到这个问题的时候,也找了挺久的回答,但是回答都是模棱两可的说是因为()的问题,但是没有给出具体的解决方案,这里小弟就用一个比较笨的方法来解决这个问题. 第一种:就是使用本地IISWeb服务器 ...

  9. 我的第一个python web开发框架(38)——管理员管理功能

    后台管理员的管理功能,它主要用来管理后台的登录账号,绑定权限,当然如果想将后台管理扩展成企业相关管理系统,比如用于公司人事管理,在这个基础上进行适当扩展就可以了. 我们先看看界面效果(也可以看着数据字 ...

  10. CentOS 7 最小安装网络配置

    通常最小安装是没有自动启动网络连接的,可以通过ifconfig或ip addr查看网络信息 (类似windows里的ipconfig),然而最小安装是没有ifconfig命令的, 这里我们使用ip a ...