小马哥课堂-统计学-t分布
T distribution
定义
在概率论和统计学中,学生t-分布(t-distribution),可简称为t分布,用于根据小样本来估计 呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。
In probability and statistics, Student's t-distribution (or simply the t-distribution) is any member of a family of continuous probability distributions that arises when estimating the mean of a normally distributed population in situations where the sample size is small and population standard deviation is unknown.
If we take a sample of n observations from a normal distribution, then the t-distribution with \(\displaystyle \nu =n-1\) degrees of freedom can be defined as the distribution of the location of the sample mean relative to the true mean, divided by the sample standard deviation, after multiplying by the standardizing term \(\displaystyle \sqrt {n}\). In this way, the t-distribution can be used to construct a confidence interval for the true mean.
概率密度函数(pdf)
\(f(t)=\frac{\displaystyle \Gamma(\frac{\nu+1}{2})}{\displaystyle \sqrt{\nu\pi}\cdot\Gamma(\frac {\nu} {2})} \Large \left(1+\frac{t^2}{\nu}\right)^{-\frac{\nu+1}{2}}\),where \(\displaystyle \nu\) is the number of degrees of freedom and \(\displaystyle \Gamma\) is the gamma function.
特点
t分布曲线形态与n(确切地说与自由度df)大小有关。与标准正态分布曲线相比,自由度df越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度df愈大,t分布曲线愈接近正态分布曲线,当自由度df->∞时,t分布曲线为标准正态分布曲线。
The t-distribution is symmetric and bell-shaped, like the normal distribution, but has heavier tails, meaning that it is more prone to producing values that fall far from its mean. This makes it useful for understanding the statistical behavior of certain types of ratios of random quantities, in which variation in the denominator is amplified and may produce outlying values when the denominator of the ratio falls close to zero. The Student's t-distribution is a special case of the generalised hyperbolic distribution.
作用
在概率论和统计学中,t-分布 经常应用在 对正态分布的总体的均值 进行估计。t检验改进了Z检验,不论样本数量大或小皆可应用。在样本数量大(超过120)时,可以应用Z检验,但Z检验用在小的样本会产生很大的误差,因此样本很小的情况下得改用t检验。
The t-distribution plays a role in a number of widely used statistical analyses, including Student's t-test for assessing the statistical significance of the difference between two sample means, the construction of confidence intervals for the difference between two population means, and in linear regression analysis. The Student's t-distribution also arises in the Bayesian analysis of data from a normal family.
t分布的产生
Let X1, ..., Xn be independent and identically distributed as N(μ, σ2), i.e. this is a sample of size n from a normally distributed population with expected mean value μ and variance σ2.
Let \(\overline X = \frac 1 n \displaystyle\sum_{i=1}^n X_i\) be the sample mean,Let \(S^2=\frac{1}{n-1}\displaystyle\sum_{i=1}^n(X_i-\overline X)^2\) be the(Bessel-corrected)sample variance.Then the random variable \(\frac{\overline X - \mu}{\frac {\sigma} {\sqrt n}}\) has a standard normal distribution(i.e. normal with expected value 0 and variance 1),and the random variable \(\frac{\overline X - \mu}{\frac{S}{\sqrt n}}\) (where S has been substituted for \(\sigma\))has a t distribution with n-1 degrees of freedom.
t分布置信区间的计算
Suppose the number A is so chosen that \(Pr(-A<T<A)=0.9\),when T has a t-distribution with n-1 degrees of freedom. By symmetry, this is the same as saying that A satisfies \(Pr(T<A)=0.95\),so A is the "95th percentile" of this probability distribution, or \(A=t_{(0.05,n-1)}\).Then \(\displaystyle Pr\left( -A < \frac{\overline X_n-\mu}{\frac {S_n}{\sqrt n}}<A \right)=0.9 => Pr\left( \overline X_n-A\cdot \frac{S_n}{\sqrt n}<\mu<\overline X_n+A\cdot \frac{S_n}{\sqrt n}\right)=0.9\).Therefore, the interval whose endpoints are \(\overline X_n \pm A\cdot \frac{S_n}{\sqrt n}\). It is a 90% confidence interval for \(\mu\).Therefore, if we find the mean of a set of observations that we can reasonably expect to have normal distribution,we can use the t-distribution to examine whether the confidence limits on that mean include some theoretically predicted value-such as the value predicted on a null hypothesis.
例1
7 patients' blood pressure have been measured after having been given a new drug for 3 months.they had blood pressure increases of 1.5,2.9,0.9,3.9,3.2,2.1 and 1.9.Construct a 95% confidence interval for the true expected blood pressure increases for all patients in a population.
样本容量:n=7,
样本均值:\(\overline X=\frac{1.5+2.9+0.9+3.9+3.2+2.1+1.9}{7}=2.34\)
样本方差: \(S=\frac{(1.5-2.34)^2+(2.9-2.34)^2+(0.9-2.34^2)+(3.9-2.34^2)+(3.2-2.34)^2+(2.1-2.34)^2+(1.9-2.34)^2}{7-1}=1.04\)
查找t-table,自由度为6的95%的双侧T值为2.447
那么,置信区间的端点是\(2.34\pm2.447\cdot\frac{1.04}{\sqrt 7}=2.34\pm0.9618\)
自由度
统计学上,自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数,称为该统计量的自由度。
自由度的解释:
- 若存在两个变量a,b,且条件是a+b=1,显然,我们只要知道其中一个数(a),另一个数(b=1-a)会依赖a的值变化而变化,所以这组数的自由度为1
- 估计总体的平均数(\(\mu\))时,由于样本中的n个数都是相互独立的,任一个尚未抽出的数都不受已抽出任何数值的影响,所以自由度为n。
- 估计总体的方差(\(\sigma^2\))时所使用的统计量是样本的方差\(S^2\),而\(S^2\)必须用到样本平均数\(\overline X\)来计算。在抽样完成后\(\overline X\)已确定,所以大小为n的样本中只要n-1个数确定了,第n个数的值就只有一个能使样本符合\(\overline X\)的数值。也就是说,样本中只有n-1个数可以自由变化,只要确定了这n-1个数,方差\(S^2\)也就确定了。这里,平均数\(\overline X\)就相当于一个限制条件,由于加了这个限制条件,样本方差\(S^2\)的自由度为n-1。
有一个有4个数据(n=4)的样本,其平均值m等于5,即受到m=5的条件限制,在自由确定4、2、5三个数据后, 第四个数据只能是9,否则\(m\neq5\)。因而这里的自由度df=n-1=4-1=3。推而广之,任何统计量的自由度df=n-k(k为限制条件的个数)。
伽马函数
In mathematics, the gamma function (represented by \(\Gamma\),the capital Greek alphabet letter gamma) is an extension of the factorial function, with its argument shifted down by 1, to real and complex numbers. If n is a positive integer,\(\Gamma(n)=(n-1)!\)
伽马函数产生背景
1728年,哥德巴赫在考虑数列插值的问题,通俗的说就是把数列的通项公式定义从整数集合延拓到实数集合,例如数列1,4,9,16.....可以用通项公式n²自然的表达,即便 n 为实数的时候,这个通项公式也是良好定义的。直观的说也就是可以找到一条平滑的曲线y=x²通过所有的整数点(n,n²),从而可以把定义在整数集上的公式延拓到实数集合。一天哥德巴赫开始处理阶乘序列1,2,6,24,120,720,...,我们可以计算2!,3!,是否可以计算2.5!呢?我们把最初的一些(n,n!)的点画在坐标轴上,确实可以看到,容易画出一条通过这些点的平滑曲线。但是哥德巴赫无法解决阶乘往实数集上延拓的这个问题,于是写信请教尼古拉斯·伯努利和他的弟弟丹尼尔·伯努利,由于欧拉当时和丹尼尔·伯努利在一块,他也因此得知了这个问题。而欧拉于1729 年完美地解决了这个问题,由此导致了伽玛函数的诞生,当时欧拉只有22岁。
小马哥课堂-统计学-t分布的更多相关文章
- 小马哥课堂-统计学-t分布(2)
t分布,随着自由度的增加,而逐渐接近于正态分布 #!/usr/bin/env python3 #-*- coding:utf-8 -*- ############################### ...
- 小马哥课堂-统计学-z分数
Standard score(z-分数) The standard score is the signed number of standard deviations by which the val ...
- 统计学_F分布(图文详解和python脚本实现)
python机器学习-乳腺癌细胞挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003&u ...
- LDA-math-神奇的Gamma函数
http://cos.name/2013/01/lda-math-gamma-function/ 1. 神奇的Gamma函数1.1 Gamma 函数诞生记学高等数学的时候,我们都学习过如下一个长相有点 ...
- R代码展示各种统计学分布 | 生物信息学举例
二项分布 | Binomial distribution 泊松分布 | Poisson Distribution 正态分布 | Normal Distribution | Gaussian distr ...
- 统计学中比较重要的分布及python中使用方法
比较重要的四种分布:正态分布.卡方分布.F分布.t分布 卡方分布概率密度曲线 t分布概率密度曲线 F分布概率密度曲线 参考资料: 统计学中四个概率分布 重要抽样分布
- 统计学(检验、分布)的 python(numpy/pandas/scipy) 实现
scipy 中统计相关的 api:https://docs.scipy.org/doc/scipy/reference/stats.html https://zhuanlan.zhihu.com/p/ ...
- 统计学中z分布、t分布、F分布及χ^2分布
Z就是正态分布,X^2分布是一个正态分布的平方,t分布是一个正态分布除以(一个X^2分布除以它的自由度然后开根号),F分布是两个卡方分布分布除以他们各自的自由度再相除 比如X是一个Z分布,Y(n)=X ...
- 潭州课堂25班:Ph201805201 爬虫高级 第十二 课 Scrapy-redis分布 项目实战 (课堂笔记)
建代理池, 1,获取多个网站的免费代理IP, 2,对免费代理进行检测,>>>>>携带IP进行请求, 3,检测到的可用IP进行存储, 4,实现api接口,方便调用, 5,各 ...
随机推荐
- luci框架-LUA的一个web框架使用
转自:http://blog.csdn.net/initphp/article/details/17527639 LUCI 这个在百度上搜索除了一篇我的百度文库 luci 的介绍文章之外,前三页都是些 ...
- Android内存优化5 了解java GC 垃圾回收机制3
引言 接App优化之内存优化(序), 作为App优化系列中内存优化的一个小部分. 由于内存相关知识比较生涩, 内存优化中使用到的相关工具, 也有很多专有名词. 对Java内存管理, GC, Andro ...
- lykchat信息发送系统
lykchat信息发送系统是Python3开发的,通过模拟微信网页端,基于个人微信号,为系统管理人员提供信息发送工具. 实现的功能有用户登录管理.微信登陆管理和微信信息发送功能. 代码地址:https ...
- Node.js abaike图片批量下载Node.js爬虫1.01版
//====================================================== // abaike图片批量下载Node.js爬虫1.01 // 1.01 修正了输出目 ...
- 服务端REST与SOAP的探讨
REST简介 在开始我们的正式讨论之前,让我们简单看一下REST的定义. REST(Representational State Transfer)是Roy Fielding提出的一个描述互联系统架构 ...
- GDB+GdbServer: ARM程序调试
arm-linux-gdb+gdbserver环境搭建以及远程调试 GDB+GdbServer: ARM程序调试 嵌入式arm linux环境中gdb+gdbserver调试 建立交叉调试环境 编译过 ...
- java中,重构、重载、重写
1.什么叫重构? 答:重构(Refactoring)就是通过调整程序代码改善软件的质量.性能,使其程序的设计模式和架构更趋合理,提高软件的扩展性和维护性,系统发展到一定阶段后,使用重构的方式,不改变系 ...
- Android获取前台进程的方法
概述 项目中很多场景交互非常依赖于客户端的前后景状态以及其他一些辅助信息上传,譬如当前新闻在前台(看到的是新闻界面)播放时,语音开启音乐应用,此时我们希望能看到音乐界面,并且音乐在播;而在导航应用在前 ...
- 无比强大!Python抓取cssmoban站点的模版并下载
Python实现抓取http://www.cssmoban.com/cssthemes站点的模版并下载 实现代码 # -*- coding: utf-8 -*- import urlparse imp ...
- Java中Object转化为int类型
转自:http://blog.sina.com.cn/s/blog_5f8421fb010162kb.html Java中由Object类型转化为int类型时,不能直接转化,先是将Object类型转化 ...