转载:传说中的T检验
第二周结束:传说中的T检验
本文和上一篇笔记一样:语言十分啰嗦。请大家忍耐……
以前我不懂统计的时候(现在也不懂),只知道数据出来了要做三件事:1,检验一下数据是否符合正态分布;2,如果符合正态分布,就进行T检验,看P值是否小于0.05;3,如果数据不符合正态分布,就用另外的“非参数检验”。但是我完全不明白这些名词背后是什么原理。
这些原理是这样的:
举个例子:好比我们有一个H0假设(不希望出现的假设)说:“抽烟人群的肺活量和非抽烟人群没有差异”。我们已经知道非抽烟人群的肺活量均值是u0。因此H0假设就意味着:如果在抽烟人群中抽一个足够大的样本,这个样本的均值应该来自一个均值为u0的正态分布。
为什么样本的均值会服从正态分布呢?当然是因为高大上的“中心极限定理”。
好的,现在我们真的去抽了一个抽烟者样本,算出一个肺活量均值,发现它比非抽烟者的肺活量均值u0低了不少。但是这个时候我们还不能说H0假设就是错的。因为H0假设可以自我辩解说:本来嘛,你的样本均值是来自我这个正态分布,那当然有可能高有可能低。没准你这次只是碰巧抽到一帮肺活量低的人,是你运气不好。
面对这种狡辩,我们……竟然毫无办法!因为这种可能性确确实实是存在的,而且基本上是永远不可能排除掉的。我们任何一个基于统计做出的研究结论,都无法完全否定这样的质疑:你的样本并不能代表“真实”情况,你得到这个结果只是“碰巧”。除非你像超人一样抽样,拿到了全世界所有抽烟者的肺活量数据,才能排除这种所谓“第一类错误”。
但如果要这样想的话,那所有的研究都没法做了。所以我们找了一个现实一点的妥协方案:确实,在你H0假设之下,我是有可能抽样抽到这个均值;但只要让我发现抽到这样的均值的概率小于0.05,我就认为这里面有问题。我认为0.05这么小概率的事情是不可能发生在我身上的。所以如果我们的抽烟者肺活量均值在H0假设之下发生的概率小于0.05,我们就拒绝H0假设,认为抽烟者的平均肺活量和非抽烟者相比,是下降的。
基本上,上面几段只是重复了我第一篇笔记里的内容。所以如果你看过我第一篇笔记的话,可以跳过前面,从这里开始阅读。(那你一开始为什么不说咧!)
那么,我们怎么计算:“在H0假设之下,抽到这个均值的概率”呢?上面说了,H0假设认为,样本均值u来自一个均值为u0的正态分布。我们手里也有样本标准差S。样本的容量是n。那么这就结了,我们把这个正态曲线画出来,把我们的均值标在横坐标上,马上就得到了:在抽样中,抽到的均值小于(或者大于)这个均值的概率。然后我们拿这个概率p去和0.05相比。
这是一个思路,另一个思路是:我们先把0.05所对应的均值在曲线上标出来,这样我们就得到了“可以拒绝H0假设的均值取值范围”。只要我们的均值落在这个范围之内,就说明它悲剧了,它的概率小于0.05;而我们就喜剧了,就可以拒绝H0假设了。而这个范围,我们把它命名为“置信区间”。你把均值“置”入,我就“信”你,这样一个区间。(呃,其实置信区间这个名字另有出处,我以后再另写一篇吧。)
以上这种检验方法是基于正态分布的,我们把它叫做“Z检验”。“Z”代表“正态”的“正”的拼音。(并不是!“Z”在统计学上代表“标准正态分布”。)
但是要应用这种“Z检验”,有个前提:样本容量n要足够大。为什么?同样是因为高大上的“中心极限定理”。我看到课程中举的例题里,使用Z检验的样本容量一般都在100以上。(好像科研实践中是20以上?我忘了。)
那你说我的样本容量只有7啊8啊的,老鼠不给力啊样本收集不上来啊怎么办?没关系,如果你满足另一个前提,你就可以选择我们的另一个优惠套餐。如果你所抽样的那个总体,比如“全体吸烟者的肺活量”,本身服从正态分布的话,就算样本容量小了点,我也可以勉强认为:你的样本均值服从另一种叫做 Student T 的分布。(所以这个优惠套餐是叫学生套餐吗?)
这就是在科研中被大量使用(看来大家的样本数量都不怎么多撒)的:T检验。
注意这里有个容易混淆的概念。Z检验是说:当样本容量足够大时,你的“样本均值”服从某个正态分布。通俗点说:你们实验室去抽了一个样本,得到一个均值;某某大学也做这项研究,也抽了一个样本得到一个均值……这么多均值放在一起,它们是服从正态分布的。为什么?“中!心!极!限!定!理!”
而T检验是说:当样本——那一个个抽烟者的肺活量数字——服从正态分布时,均值服从Student T分布。为什么?抱歉,老师没教……
Student T的分布曲线和正态分布有点像,当然公式不一样。T分布在样本量极大的时候趋近于正态分布。正态分布只要知道均值和标准差就可以画出曲线,T分布还要知道一个值叫“自由度”df,df=n-1。我不知道什么是自由度,但我知道为什么它是n-1而不是n:因为,好比说你的样本里有n个数,你告诉我它们的均值,然后让我猜这n个数是多少。这种情况下,对我来说,前n-1个数都可以“自由”取值,但最后一个却不行。因为一旦前n-1个数确定了,然后根据均值,我就可以算出最后一个数来。所以最后一个数不“自由”。所以自由度是n-1。
自由度在Student T分布和另一种叫“卡方分布”的分布里都有出现。
以上就是Z检验和T检验背后的原理。上面举例举的是一个样本的情况,两个样本的情况可以以此类推。
两个配对样本本质上就是一个样本:比如一个班的学生,期中考的成绩和期末考的成绩,表面上看是两个样本,实际上在做统计的时候,我们是用每个人的期末考减去他本人的期中考,最后还是一个样本。这种情况下H0一般就是两次考试分数没有差异,也就是说期末减期中之后产生的这个样本,其样本均值来自一个均值为0的分布。
两个独立样本情况略复杂,主要是公式里的标准差部分有点变化,均值就拿来直接相减了。具体公式就不写了,其实没必要了解,交给软件或者R就可以了。
转载:传说中的T检验的更多相关文章
- Fisher精确检验【转载】
转自:https://en.wikipedia.org/wiki/Fisher%27s_exact_test https://www.cnblogs.com/Dzhouqi/p/3440575.htm ...
- KS检验学习[转载]
转自:https://wenku.baidu.com/view/ccfa573a3968011ca30091d6.html https://www.cnblogs.com/arkenstone/p/5 ...
- t检验&z检验学习[转载]
转自:https://blog.csdn.net/m0_37777649/article/details/74937242 1.什么是T检验? T检验是假设检验的一种,又叫student t检验(St ...
- (转载)持续集成(第二版)[来自:Martin Fowler]
转载自:iTech的博客 持续集成(第二版) 作者:Martin Fowler 译者:雷镇 持续集成 是一种软件开发实践.在持续集成中,团队成员频繁集成他们的工作成果,一般每人每天至少集成一次,也可以 ...
- 转载 什么是P问题、NP问题和NPC问题
原文地址http://www.matrix67.com/blog/archives/105 这或许是众多OIer最大的误区之一. 你会经常看到网上出现“这怎么做,这不是NP问题吗”.“这个只有搜 ...
- 转载请注明出处: https://github.com/qiu-deqing/FE-interview
转载请注明出处: https://github.com/qiu-deqing/FE-interview Table of Contents generated with DocToc FE-inter ...
- JDK1.5/1.6/1.7之新特性总结(转载)
原文地址:http://www.cnblogs.com/yezhenhan/archive/2011/08/16/2141510.html 如果原作者看到不想让我转载请私信我! 开发过程中接触到了从j ...
- 服务器.htaccess 详解以及 .htaccess 参数说明(转载)
htaccess文件(或者”分布式配置文件”)提供了针对目录改变配置的方法, 即,在一个特定的文档目录中放置一个包含一个或多个指令的文件, 以作用于此目录及其所有子目录.作为用户,所能使用的命令受到限 ...
- 【转载】PHP性能优化干货
PHP优化对于PHP的优化主要是对php.ini中的相关主要参数进行合理调整和设置,以下我们就来看看php.ini中的一些对性能影响较大的参数应该如何设置. # vi /etc/php.ini (1) ...
随机推荐
- MSP430常见问题之通信类
Q1: 430 串口中,有个R/D 控制线,在接收上位机的数据,但本身的数据有无发送完毕不知道啊,什么时候才可置低R/d 位来接收数据啊?好像430 没有发送完中断标志A1:字节主动发送,一般都能发出 ...
- 【转】istringstream、ostringstream、stringstream 类介绍 .
http://www.cnblogs.com/gamesky/archive/2013/01/09/2852356.html 好吧,懒死我算了
- gVim 配置方案 采用Vundle管理插件
在Linux下配置vim非常简单,尤其是采用Vundle来管理插件,使得一切用起来得心应手. Maple大神在github上公布了自己的vim配置方案,相当方便好用.详见 https://github ...
- javascript-函数进阶
一.函数定义 1.函数声明 function add(i,j){ return i+j; } 特点:1.函数声明定义函数会被前置.要知道在js代码执行时,会有一个预解析,预解析时会把变量声明.函数声明 ...
- ActiveMQ 的安装
1. 在 http://activemq.apache.org/ 下载 ActiveMQ.Windows 系统选择下载 apache-activemq-x.x.x-bin.zip,Unix/Linux ...
- 每天一道LeetCode--237.Delete Node in a Linked List
Write a function to delete a node (except the tail) in a singly linked list, given only access to th ...
- Android adb常见问题整理(转)
原文地址:http://blog.csdn.net/androiddevelop/article/details/8130416 以下都是ADB连接问题,可以通过尝试如下步骤,由简单度排序 1. 插拔 ...
- 【oracle】oracle函数-数值函数
一.数值函数 1. mod(m,n) 求余函数 注意:若m或者n为null,则返回null.若n为0,则返回m的值 eg:
- easyui扩展-日期范围选择.
参考: http://www.5imvc.com/Rep https://github.com/dangrossman/bootstrap-daterangepicker * 特性: * (1)基本功 ...
- c#学习汇总-----------------多态
刚开通了博客园的博客,原因是我的师兄和前辈们在这里写的一些学习笔记让我受益匪浅,所以决定从今天起用这个平台来记录我的点滴学习心得.我喜欢GIS二次开发,以后应该也不会脱离于此,对于编程我积累的知识太零 ...