P值,“差异具有显著性”和“具有显著差异”
链接:https://www.zhihu.com/question/23149768/answer/23758600
来源:知乎
著作权归作者所有,转载请联系作者获得授权。
P.S. 1 在我的故事里,显著性水平被称为α,“检验的势”被称为“检验力”,power..
P.S. 2 要彻底理解这三个概念,故事真的不够,建议在有了更多了解之后,看这篇文章《Scientific method: Statistical errors : Nature News & Comment》,或者果壳的翻译版《统计学里“P”的故事:蚊子、皇帝的新衣和不育的风流才子》
故事1
公司A全国的某个岗位X有1000人应聘,这1000人当中,有400是真的符合公司要求的,有600个是能力不达标来碰运气的。这间公司对自己的测试题很有信心(觉得只有5%的人能碰运气通过),没有面试,只是让所有应聘者参加这个测试,只要测试通过就录取入职,根据一年后的表现决定留任、升职还是裁员。最后350人通过测试,入职
但是实际上呢,其实5%浑水摸鱼的人因为种种原因通过了测试,20%真正有能力的人又因为其他种种原因没有通过测试
这些人工作一年后,根据他们的表现,公司发现,其中320人是真的符合公司要求的,30人是碰运气给碰进来的。也就是如下图的情况<img src="https://pic3.zhimg.com/65a1cf5337b67e48456fb614adab7ff6_b.jpg" data-rawwidth="830" data-rawheight="398" class="origin_image zh-lightbox-thumb" width="830" data-original="https://pic3.zhimg.com/65a1cf5337b67e48456fb614adab7ff6_r.jpg">
有30个(8.57%>5%)浑水摸鱼的,看来这测试不太行啊..
故事2
公司B全国的某个岗位Y有1000人应聘,这1000人当中,有800是真的符合公司要求的,有200个是能力不达标来碰运气的。这间公司也对自己的测试题很有信心(觉得只有5%的人能碰运气通过),没有面试,只是让所有应聘者参加测试,只要测试通过就录取入职,根据一年后的表现决定留任、升职还是裁员。最后650人通过测试,入职
但是实际上呢,其实5%浑水摸鱼的人因为种种原因通过了测试,20%真正有能力的人又因为其他种种原因没有通过测试
这些人工作一年后,根据他们的表现,公司发现,其中640人是真的符合公司要求的,10人是碰运气给碰进来的,也就是如下图的情况<img src="https://pic1.zhimg.com/f3248637b53deff8bd6f164cf40d8d0c_b.jpg" data-rawwidth="853" data-rawheight="390" class="origin_image zh-lightbox-thumb" width="853" data-original="https://pic1.zhimg.com/f3248637b53deff8bd6f164cf40d8d0c_r.jpg">
650人里只有10人(1.54%<5%)是浑水摸鱼的,这个测试还不错~
为什么要说这两个坑爹的故事?(哪有公司这么招人的= =)因为这和研究者在进行“通过样本推断总体”一类的研究时的情况类似,不过两家公司代表的可能是不同的研究领域。而用故事最后的比例对比5%来判断故事中的测试是否“有用”,是很容易犯的一个错误
所谓显著性水平α,就是你允许最多有多大比例庸才(H0)通过你的测试——你允许最多有多大比例“H0”被你误以为是H1。这是预先设置好的,在研究前就存在的。为了防止浑水摸鱼的人靠运气入职公司,你的测验不能太简单
所谓检验力power,就是你的测试能够让多大比例人才(H1)通过——你有多大能力发现"H1是H1"。检验力分两种,一种是事前检验力,即在正式进行研究前,你预先设定一个检验力标准,为了获得这么大的检验力(以防人才没有被你招进来),你需要对研究进行一些设计(公司需要设计一份“好”的测试,例如不要太难);另一种是回溯性检验力,即在研究进行之后,根据结果计算自己在研究中实际拥有的检验力。故事里的两个其实都是回溯性检验力
如何权衡上面两者,就看所在领域,及研究者自身了(公司的偏好、决策,以及对于损失人才和浪费资源在庸才两种不同类型的风险承担能力)
而p值,我的理解则是实际上你让庸才之中的多大比例庸才(H0)招了进来,而不是入职者当中的庸才比例。故事里两个p值都是.05,但是入职者当中的庸才比例却不是.05。这是最容易混淆的两点。放到研究里,假设p=.030,意思是说你的研究有3%的可能是在“H0”这个库里面被发现而错误地归入H1;而不是指3%的可能在“包含H0和H1的所有现象”这个库里被发现。后一个比例的大小,相当于故事里入职庸才在所有入职人士中的比例,这个比例取决于在应聘者(你想要检验的假设的总体)当中,有多少是人才(H1),有多少是庸才(H0)
链接:https://www.zhihu.com/question/23149768/answer/23751377
来源:知乎
著作权归作者所有,转载请联系作者获得授权。
前半句话大家理解起来都没问题,重点在理解后半句——出现现状或更差的情况。
举个例子:
假如我有特别的打电话技巧,我告诉楼主接我电话的人都是女生。
楼主不信,于是他要做试验来检验。
他默默的写下原假设和备择假设:
原假设(没有确凿证据一般不推翻的假设):这个人没有特别的打电话技巧,也就是他打电话是男是女接听的概率都是1/2。
备择假设:他真的有特别的打电话技巧。
好了然后我们做实验:我在楼主面前打了20个电话,这20个电话里有18个是娇滴滴的萌妹子回复的。
那这个实验的p值怎么算呢?
在假设原假设(H0)正确时:所以现在我们都假设接我电话的人的性别是随机的,也就是接听我电话的人是男是女的概率分别为1/2。
出现现状或更差的情况:对楼主来说,20个里有18个萌妹子已经是很奇怪的了。如果有19个?甚至20个都是岂不是更奇怪么?所以,出现现状或更差的情况代表着:接我电话的妹子等于或超过18个。
这下p值就清楚了吧:
楼主看了一眼这么多0,觉得还是吹的可能性还是很小的,于是就拒绝了原假设,接受了我“真的有特别的打电话技巧的”备择假设。
可是呢!!!!!!
千万不要以为你这就理解了出现现状或更差的情况哦!
更多时候,我们会遇到这种情况:
我们检验硬币的均匀性:
原假设(没有确凿证据一般不推翻的假设):硬币均匀,正反出现概率各为1/2。
备择假设:硬币不均匀。
如果这次试验我们抛了20次硬币,18次出现正面,出现现状或更差的情况是什么呢?
答案是:出现18次、19次、20次正面和0次、1次、2次正面。(不是出现18、19、20次正面哦!)
我可没说这个硬币正面出现概率多,所以这个时候出现18次正面和出现18次反面(2次正面)或更差的情况(19正、19反、20正和20反)一样是更坏的情况。
这也是为什么当前排名第一的 @李锦霞的答案是错误的原因。他的答案应该是1/1048576*2
当然,如果你以后继续学习概率论的知识的话,有可能碰到比单侧和双侧更难的情况。当然我就不让你犯迷糊了。
最后回到另一个问题:为什么我不对楼主的命题进行分析呢?
因为楼主的命题要求:H0:他是合格的射手(p=1)
这下....只要出现任意一次没射中,p就 小于等于 1-至少全中=1-1*1*1*1*1……=0
看到了吗?一次没中,H0就一定拒绝了。同理,在检验很多东西的时候,你不能说绝对如何如何。
因为数理统计告诉你:小概率发生不正常;而概率论告诉你:一切皆有可能。
很重要的一点是:对于该样本,在假设原假设(H0)正确时,出现现状或更差的情况的概率。
这个例子也很不好,如果真是假设p=1的情况,也根本不能这么用,因为这影响了停止规则。
详见:http://arxiv.org/pdf/1311.0081.pdf
其实 p-value 真的没有你们想象的那么厉害,它会被样本影响,会被停止规则影响,会被很多乱七八糟的事情影响。
其实这个事情理解起来非常简单,我们知道p-value 它是一个随机变量。
那么作为一个随机变量,它是有分布的,那么在原假设的情况下,它的分布是什么呢?
p-value在原假设成立的情况下,它是服从均匀分布(uniform)的。
p-value本身是从type-I error,也就是我们俗称的alpha 来的,而正因为alpha 是服从uniform 的distribution,我们才会说它是在假设原假设(H0)正确时,出现现状或更差的情况的概率。
那如果有停止规则了呢?
这时alpha的distribution 可就变了,例如在原假设p=1的情况中,按照@姚岑卓的说,alpha其实为0,因为在原假设成立的情况下,是不会有type-1 error的,那么也就是没有p-value的说法。
说完停止规则,我们来说说样本的影响,样本的影响更具有现实应用意义。
由于在没有互联网的时候,数据采集很难,我们总是把样本当作样本总体,因为数据本身就很少,迭代也并不快,所以这么做也没有什么关系。但是随着互联网的发展,这么做已经不是很合适了。
举个现实中的例子。
一个互联网网站,要做一个a/b testing,比如说就是检验一个工具的加入会不会增加用户对某个按钮的点击量。那么这个网站在今天收集了5000组用户数据,一组没有新工具,一组有新工具,发现p-value <0.05。
那么这能说明这个工具有效果么?
其实是不行的,原因是在原假设成立的情况下,p-value遵从均匀分布,出现一次p-value<0.05又有什么不可能,你第二天再做一次出现p>0.95都有可能的。
所以experimental design 是怎么做的呢?我们日均有大量的数据,我们不停的做5000个样本的t-test,看p-value是否遵从均匀分布,如果不遵从,我们才可以说这个工具有效果。
这不是我瞎说的哦,Dow Jones就是这么做的。只不过他们为了区别机器人的影响,做了很多假的样本,也就是a/a testing。在原假设成立的情况下(不引入工具的很多个样本相互比较),如果p-value 不服从均匀分布,那这里面就有机器人在作祟。
这就是为什么我要强调p-value要针对样本。在题例中,射飞镖射10000次,你做t-test,p-value<0.05,那是说针对这10000次射飞镖,在假设原假设(H0)正确时,出现现状或更差的情况的概率小于0.05。你只是感觉10000次都这样了,那对于之后的几次应该都小于0.05,但这只是感觉。但你也可以每次射100支,一共做100次,每次都取个p-value,看p-value的distribution,发现并不是uniform的distribution,来说明原假设不成立。前者样本大,但对于总体说明小,后者样本虽小,但对于总体确实更有把握。
不得不提的P值
一、P值的由来
R·A·Fisher(1890-1962)作为一代假设检验理论的创立者,在假设检验中首先提出P值的概念。他认为假设检验是一种程序,研究人员依照这一程序可以对某一总体参数形成一种判断。也就是说,他认为假设检验是数据分析的一种形式,是人们在研究中加入的主观信息。(当时这一观点遭到了Neyman-Pearson的反对,他们认为假设检验是一种方法,决策者在不确定的条件下进行运作,利用这一方法可以在两种可能中作出明确的选择,而同时又要控制错误发生的概率。这两种方法进行长期且痛苦的论战。虽然Fisher的这一观点同样也遭到了现代统计学家的反对,但是他对现代假设检验的发展作出了巨大的贡献。)Fisher的具体做法是:
- 假定某一参数的取值。
- 选择一个检验统计量(例如z 统计量或Z 统计量) ,该统计量的分布在假定的参数取值为真时应该是完全已知的。
- 从研究总体中抽取一个随机样本4计算检验统计量的值5计算概率P值或者说观测的显著水平,即在假设为真时的前提下,检验统计量大于或等于实际观测值的概率。
- 如果P<0.01,说明是较强的判定结果,拒绝假定的参数取值。
- 如果0.01<P值<0.05,说明较弱的判定结果,拒接假定的参数取值。
- 如果P值>0.05,说明结果更倾向于接受假定的参数取值。
可是,那个年代,由于硬件的问题,计算P值并非易事,人们就采用了统计量检验方法,也就是我们最初学的t值和t临界值比较的方法。统计检验法是在检验之前确定显著性水平αα,也就是说事先确定了拒绝域。但是,如果选中相同的αα,所有检验结论的可靠性都一样,无法给出观测数据与原假设之间之间不一致程度的精确度量。只要统计量落在拒绝域,假设的结果都是一样,即结果显著。但实际上,统计量落在拒绝域不同的地方,实际上的显著性有较大的差异。
因此,随着计算机的发展,P值的计算不再是个难题,使得P值变成最常用的统计指标之一。
三、P值的意义
P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明这种情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。
总之,P值越小,表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。
P值,“差异具有显著性”和“具有显著差异”的更多相关文章
- P值(P-value),“差异具有显著性”和“具有显著差异”
郑冰刚提到P值,说P值的定义(着重号是笔者加的,英文是从WikiPedia摘来的): P值就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率. The P-value is the pr ...
- 差异基因分析:fold change(差异倍数), P-value(差异的显著性)
在做基因表达分析时必然会要做差异分析(DE) DE的方法主要有两种: Fold change t-test fold change的意思是样本质检表达量的差异倍数,log2 fold change的意 ...
- 扩增子图表解读5火山图:差异OTU的数量及变化规律
火山图 Volcano plot 在统计学上,火山图是一种类型的散点图,被用于在大数据中快速鉴定变化.由于它的形成像火山喷发的样子,所以被称为火山图.和上文讲的曼哈顿图类似. 火山图基本元素 火山 ...
- 四种比较简单的图像显著性区域特征提取方法原理及实现-----> AC/HC/LC/FT。
laviewpbt 2014.8.4 编辑 Email:laviewpbt@sina.com QQ:33184777 最近闲来蛋痛,看了一些显著性检测的文章,只是简单的看看,并没有深入的研究,以 ...
- (复杂值vs原始值)&&内存空间 — 准确我们的JavaScript世界观(一):
写在前面 最近在读<JavaScript启示录>,这本书不是JavaScript的详尽的参考指南,但是把对象作为了解JavaScript的透镜,受益匪浅. 那么我们先来聊一下JavaScr ...
- 四种简单的图像显著性区域特征提取方法-----AC/HC/LC/FT。
四种简单的图像显著性区域特征提取方法-----> AC/HC/LC/FT. 分类: 图像处理 2014-08-03 12:40 4088人阅读 评论(4) 收藏 举报 salient regio ...
- React 虚拟 DOM 的差异检测机制
React 使用虚拟 DOM 将计算好之后的更新发送到真实的 DOM 树上,减少了频繁操作真实 DOM 的时间消耗,但将成本转移到了 JavaScript 中,因为要计算新旧 DOM 树的差异嘛.所以 ...
- 【转载】Java与C++语言在作用域上的差异浅析
http://developer.51cto.com/art/200906/126199.htm 差异一:变量作用域的不同 如下面这段程序代码是符合C++语言的语法要求的.其可以在C语言下正常运行.但 ...
- C#与Java的语法差异
C#与Java的语法差异C与Java的语法差异前言程序结构基本语法数据类型字符串变量与常量运算符判断语句循环语句访问权限方法数组结构枚举类继承多态运算符重载接口命名空间预处理器指令正则表达式异常IO泛 ...
随机推荐
- Validation failed for one or more entities. See ‘EntityValidationErrors’解决方法
Validation failed for one or more entities. See ‘EntityValidationErrors’解决方法 You can extract all the ...
- mysql IP转换函数
1.将字符串类型的实际IP转换成十进制数值型的 SELECT INET_ATON('209.207.224.40'); 执行结果:
- iOS 判断内容是否是中文,两种实现
用category实现 新建类别文件,代码 .h文件 #import <Foundation/Foundation.h> @interface NSString (Valid) - (BO ...
- Hacker communities collection
Copy from E安全 Hack Forums: Hack Forums是目前最为理想的黑客技术学习根据地.该论坛不仅在设计上面向黑客群体,同时也适用于开发人员.博主.游戏开发者.程序员.图形设计 ...
- 中国移动测试大会 PPT 和视频
PPT网盘链接:http://pan.baidu.com/s/1c0prdoG优酷专辑:http://v.youku.com/v_show/id_XMTI5NjExNjIwOA==.html?f=25 ...
- UI坐标变换/转换
InverseTransformPoint Transform.InverseTransformPoint :相对于谁的坐标.如果是相对2D UI,请使用localposition,如果是3D场景,请 ...
- VS的快捷键F12改成和ECLIPSE一样用ctrl+点击下载线
安装resharper 插件即可 不过这个插件是收费的,可免费体验30天
- 批处理文件指定jre路径启动java桌面应用程序
应用场景: 我开发了一个应用程序,并连同jre一起刻成光盘,提供给用户,用户直接双击批处理文件即可运行,而不需要自己额外装jre. 目录组织结构如下: client |-images |-jre |- ...
- 转:设置Eclipse中的tab键为4个空格的完整方法
from: https://my.oschina.net/xunxun10/blog/110074 设置Eclipse中的tab键为4个空格的完整方法 收藏 XunXun10 发表于 4年前 阅读 ...
- java工程中的.classpathaaaaaaaaaaaaaaaa<转载>
第一部分:classpath是系统的环境变量,就是说JVM加载类的时候要按这个路径下去找,当然这个路径下可以有jar包,那么就是jar包里所有的class. eclipse build path是ec ...