P值是论文中最常用的一个统计学指标，可是其误用、解释错误的现象却很常见。因此，很有必要说明p值的意义、用法及常见错误。

P值指的是比较的两者的差别是由机遇所致的可能性大小。P值越小，越有理由认为对比事物间存在差异。例如，P<0.05,就是说结果显示的差别是由机遇所致的可能性不足5%，或者说，别人在同样的条件下重复同样的研究，得出相反结论的可能性不足5%。P>0.05称“不显著”；P<=0.05称“显著”，P<=0.01称“非常显著”。

由于常用“显著”来表示P值大小，所以P值最常见的误用是把统计学上的显著与临床或实际中的显著差异相混淆，即混淆“差异具有显著性”和“具有显著差异”二者的意思。其实，前者指的是p<=0.05，即说明有充分的理由认为比较的二者来自同一总体的可能性不足5%，因而认为二者确实有差异，下这个结论出错的可能性<=5%。而后者的意思是二者的差别确实很大。举例来说，4和40的差别很大，因而可以说是“有显著差异”，而4和4.2差别不大，但如果计算得到的P值<=0.05，则认为二者“差别有显著性”，但是不能说“有显著差异”。

由于“有显著差异”和“差异具有显著性”容易混淆，因而现在有些期刊提倡用“差异有统计意义”来代替“差异有显著性”，用“差异无统计意义”、“差异有高度统计意义”来代替“差异不显著”和“差异有高度显著性”。例如《中华胃肠外科学》即是如此。

如果P>5%，是否我们就可以下结论说比较的二者没有差别呢？不能。P>5%只能说明没有充分的证据说明二者确有差别，但是也不能说二者没有差别或差别很小。在这两个极端之间还有一个过渡区间，即无论下有差别还是没有差别或差别很小的证据都不足。要推断二者没有差别或差别很小，需要采用等效检验的统计推断方法。

作者：Zeth
链接：https://www.zhihu.com/question/23149768/answer/23758600
来源：知乎
著作权归作者所有，转载请联系作者获得授权。

好吧我不擅长讲故事..但我还是试着讲一下。这些故事是我的统计老师讲给我听的

P.S. 1 在我的故事里，显著性水平被称为α，“检验的势”被称为“检验力”，power..
P.S. 2 要彻底理解这三个概念，故事真的不够，建议在有了更多了解之后，看这篇文章《Scientific method: Statistical errors : Nature News & Comment》，或者果壳的翻译版《统计学里“P”的故事：蚊子、皇帝的新衣和不育的风流才子》

故事1
　　公司A全国的某个岗位X有1000人应聘，这1000人当中，有400是真的符合公司要求的，有600个是能力不达标来碰运气的。这间公司对自己的测试题很有信心（觉得只有5%的人能碰运气通过），没有面试，只是让所有应聘者参加这个测试，只要测试通过就录取入职，根据一年后的表现决定留任、升职还是裁员。最后350人通过测试，入职
　　但是实际上呢，其实5%浑水摸鱼的人因为种种原因通过了测试，20%真正有能力的人又因为其他种种原因没有通过测试
　　这些人工作一年后，根据他们的表现，公司发现，其中320人是真的符合公司要求的，30人是碰运气给碰进来的。也就是如下图的情况&lt;img src="https://pic3.zhimg.com/65a1cf5337b67e48456fb614adab7ff6_b.jpg" data-rawwidth="830" data-rawheight="398" class="origin_image zh-lightbox-thumb" width="830" data-original="https://pic3.zhimg.com/65a1cf5337b67e48456fb614adab7ff6_r.jpg"&gt;
　　有30个（8.57%>5%）浑水摸鱼的，看来这测试不太行啊..

故事2
　　公司B全国的某个岗位Y有1000人应聘，这1000人当中，有800是真的符合公司要求的，有200个是能力不达标来碰运气的。这间公司也对自己的测试题很有信心（觉得只有5%的人能碰运气通过），没有面试，只是让所有应聘者参加测试，只要测试通过就录取入职，根据一年后的表现决定留任、升职还是裁员。最后650人通过测试，入职
　　但是实际上呢，其实5%浑水摸鱼的人因为种种原因通过了测试，20%真正有能力的人又因为其他种种原因没有通过测试
　　这些人工作一年后，根据他们的表现，公司发现，其中640人是真的符合公司要求的，10人是碰运气给碰进来的，也就是如下图的情况&lt;img src="https://pic1.zhimg.com/f3248637b53deff8bd6f164cf40d8d0c_b.jpg" data-rawwidth="853" data-rawheight="390" class="origin_image zh-lightbox-thumb" width="853" data-original="https://pic1.zhimg.com/f3248637b53deff8bd6f164cf40d8d0c_r.jpg"&gt;
　　650人里只有10人（1.54%<5%）是浑水摸鱼的，这个测试还不错~

　　为什么要说这两个坑爹的故事？（哪有公司这么招人的= =）因为这和研究者在进行“通过样本推断总体”一类的研究时的情况类似，不过两家公司代表的可能是不同的研究领域。而用故事最后的比例对比5%来判断故事中的测试是否“有用”，是很容易犯的一个错误
　　所谓显著性水平α，就是你允许最多有多大比例庸才（H0）通过你的测试——你允许最多有多大比例“H0”被你误以为是H1。这是预先设置好的，在研究前就存在的。为了防止浑水摸鱼的人靠运气入职公司，你的测验不能太简单
　　所谓检验力power，就是你的测试能够让多大比例人才（H1）通过——你有多大能力发现"H1是H1"。检验力分两种，一种是事前检验力，即在正式进行研究前，你预先设定一个检验力标准，为了获得这么大的检验力（以防人才没有被你招进来），你需要对研究进行一些设计（公司需要设计一份“好”的测试，例如不要太难）；另一种是回溯性检验力，即在研究进行之后，根据结果计算自己在研究中实际拥有的检验力。故事里的两个其实都是回溯性检验力
　　如何权衡上面两者，就看所在领域，及研究者自身了（公司的偏好、决策，以及对于损失人才和浪费资源在庸才两种不同类型的风险承担能力）
　　而p值，我的理解则是实际上你让庸才之中的多大比例庸才（H0）招了进来，而不是入职者当中的庸才比例。故事里两个p值都是.05，但是入职者当中的庸才比例却不是.05。这是最容易混淆的两点。放到研究里，假设p=.030，意思是说你的研究有3%的可能是在“H0”这个库里面被发现而错误地归入H1；而不是指3%的可能在“包含H0和H1的所有现象”这个库里被发现。后一个比例的大小，相当于故事里入职庸才在所有入职人士中的比例，这个比例取决于在应聘者（你想要检验的假设的总体）当中，有多少是人才（H1），有多少是庸才（H0）

作者：姚岑卓
链接：https://www.zhihu.com/question/23149768/answer/23751377
来源：知乎
著作权归作者所有，转载请联系作者获得授权。

我整篇文章就说了一句话：通俗的来说，p值代表：在假设原假设（H0）正确时，出现现状或更差的情况的概率。

前半句话大家理解起来都没问题，重点在理解后半句——出现现状或更差的情况。

举个例子：

假如我有特别的打电话技巧，我告诉楼主接我电话的人都是女生。

楼主不信，于是他要做试验来检验。

他默默的写下原假设和备择假设：
原假设（没有确凿证据一般不推翻的假设）：这个人没有特别的打电话技巧，也就是他打电话是男是女接听的概率都是1/2。
备择假设：他真的有特别的打电话技巧。

好了然后我们做实验：我在楼主面前打了20个电话，这20个电话里有18个是娇滴滴的萌妹子回复的。

那这个实验的p值怎么算呢？
在假设原假设（H0）正确时：所以现在我们都假设接我电话的人的性别是随机的，也就是接听我电话的人是男是女的概率分别为1/2。
出现现状或更差的情况：对楼主来说，20个里有18个萌妹子已经是很奇怪的了。如果有19个？甚至20个都是岂不是更奇怪么？所以，出现现状或更差的情况代表着：接我电话的妹子等于或超过18个。

这下p值就清楚了吧： $p=(\frac{1}{2} )^{20}C^{18}_{20}+(\frac{1}{2} )^{20}C^{19}_{20}+(\frac{1}{2} )^{20}C^{20}_{20}=0.00020122528$
楼主看了一眼这么多0，觉得还是吹的可能性还是很小的，于是就拒绝了原假设，接受了我“真的有特别的打电话技巧的”备择假设。

可是呢！！！！！！

千万不要以为你这就理解了出现现状或更差的情况哦！

更多时候，我们会遇到这种情况：

我们检验硬币的均匀性：

原假设（没有确凿证据一般不推翻的假设）：硬币均匀，正反出现概率各为1/2。
备择假设：硬币不均匀。

如果这次试验我们抛了20次硬币，18次出现正面，出现现状或更差的情况是什么呢？

答案是：出现18次、19次、20次正面和0次、1次、2次正面。（不是出现18、19、20次正面哦！）

我可没说这个硬币正面出现概率多，所以这个时候出现18次正面和出现18次反面（2次正面）或更差的情况（19正、19反、20正和20反）一样是更坏的情况。

这也是为什么当前排名第一的 @李锦霞的答案是错误的原因。他的答案应该是1/1048576*2

当然，如果你以后继续学习概率论的知识的话，有可能碰到比单侧和双侧更难的情况。当然我就不让你犯迷糊了。

最后回到另一个问题：为什么我不对楼主的命题进行分析呢？

因为楼主的命题要求：H0：他是合格的射手（p=1）

这下....只要出现任意一次没射中，p就 小于等于 1-至少全中=1-1*1*1*1*1……=0

看到了吗？一次没中，H0就一定拒绝了。同理，在检验很多东西的时候，你不能说绝对如何如何。

因为数理统计告诉你：小概率发生不正常；而概率论告诉你：一切皆有可能。

排名第一的的回答其实也容易让人产生误解。@姚岑卓

他的答案是：在假设原假设（H0）正确时，出现现状或更差的情况的概率。
很重要的一点是：对于该样本，在假设原假设（H0）正确时，出现现状或更差的情况的概率。
这个例子也很不好，如果真是假设p=1的情况，也根本不能这么用，因为这影响了停止规则。
详见：http://arxiv.org/pdf/1311.0081.pdf

其实 p-value 真的没有你们想象的那么厉害，它会被样本影响，会被停止规则影响，会被很多乱七八糟的事情影响。
其实这个事情理解起来非常简单，我们知道p-value 它是一个随机变量。
那么作为一个随机变量，它是有分布的，那么在原假设的情况下，它的分布是什么呢？
p-value在原假设成立的情况下，它是服从均匀分布（uniform）的。
p-value本身是从type-I error，也就是我们俗称的alpha 来的，而正因为alpha 是服从uniform 的distribution，我们才会说它是在假设原假设（H0）正确时，出现现状或更差的情况的概率。
那如果有停止规则了呢？
这时alpha的distribution 可就变了，例如在原假设p=1的情况中，按照@姚岑卓的说，alpha其实为0，因为在原假设成立的情况下，是不会有type-1 error的，那么也就是没有p-value的说法。

说完停止规则，我们来说说样本的影响，样本的影响更具有现实应用意义。
由于在没有互联网的时候，数据采集很难，我们总是把样本当作样本总体，因为数据本身就很少，迭代也并不快，所以这么做也没有什么关系。但是随着互联网的发展，这么做已经不是很合适了。
举个现实中的例子。
一个互联网网站，要做一个a/b testing，比如说就是检验一个工具的加入会不会增加用户对某个按钮的点击量。那么这个网站在今天收集了5000组用户数据，一组没有新工具，一组有新工具，发现p-value <0.05。
那么这能说明这个工具有效果么？
其实是不行的，原因是在原假设成立的情况下，p-value遵从均匀分布，出现一次p-value<0.05又有什么不可能，你第二天再做一次出现p>0.95都有可能的。
所以experimental design 是怎么做的呢？我们日均有大量的数据，我们不停的做5000个样本的t-test，看p-value是否遵从均匀分布，如果不遵从，我们才可以说这个工具有效果。
这不是我瞎说的哦，Dow Jones就是这么做的。只不过他们为了区别机器人的影响，做了很多假的样本，也就是a/a testing。在原假设成立的情况下（不引入工具的很多个样本相互比较），如果p-value 不服从均匀分布，那这里面就有机器人在作祟。
这就是为什么我要强调p-value要针对样本。在题例中，射飞镖射10000次，你做t-test，p-value<0.05，那是说针对这10000次射飞镖，在假设原假设（H0）正确时，出现现状或更差的情况的概率小于0.05。你只是感觉10000次都这样了，那对于之后的几次应该都小于0.05，但这只是感觉。但你也可以每次射100支，一共做100次，每次都取个p-value，看p-value的distribution，发现并不是uniform的distribution，来说明原假设不成立。前者样本大，但对于总体说明小，后者样本虽小，但对于总体确实更有把握。

不得不提的P值

的确，P值是最常用的一个统计学指标，几乎统计软件输出结果都有P值。了解p值的由来、计算和意义很有必要。

一、P值的由来

R·A·Fisher（1890-1962）作为一代假设检验理论的创立者，在假设检验中首先提出P值的概念。他认为假设检验是一种程序，研究人员依照这一程序可以对某一总体参数形成一种判断。也就是说，他认为假设检验是数据分析的一种形式，是人们在研究中加入的主观信息。（当时这一观点遭到了Neyman-Pearson的反对，他们认为假设检验是一种方法，决策者在不确定的条件下进行运作，利用这一方法可以在两种可能中作出明确的选择，而同时又要控制错误发生的概率。这两种方法进行长期且痛苦的论战。虽然Fisher的这一观点同样也遭到了现代统计学家的反对，但是他对现代假设检验的发展作出了巨大的贡献。）Fisher的具体做法是：

假定某一参数的取值。
选择一个检验统计量(例如z 统计量或Z 统计量) ，该统计量的分布在假定的参数取值为真时应该是完全已知的。
从研究总体中抽取一个随机样本4计算检验统计量的值5计算概率P值或者说观测的显著水平，即在假设为真时的前提下，检验统计量大于或等于实际观测值的概率。

如果P<0.01，说明是较强的判定结果，拒绝假定的参数取值。
如果0.01<P值<0.05，说明较弱的判定结果，拒接假定的参数取值。
如果P值>0.05，说明结果更倾向于接受假定的参数取值。

可是，那个年代，由于硬件的问题，计算P值并非易事，人们就采用了统计量检验方法，也就是我们最初学的t值和t临界值比较的方法。统计检验法是在检验之前确定显著性水平αα，也就是说事先确定了拒绝域。但是，如果选中相同的αα，所有检验结论的可靠性都一样，无法给出观测数据与原假设之间之间不一致程度的精确度量。只要统计量落在拒绝域，假设的结果都是一样，即结果显著。但实际上，统计量落在拒绝域不同的地方，实际上的显著性有较大的差异。

因此，随着计算机的发展，P值的计算不再是个难题，使得P值变成最常用的统计指标之一。

三、P值的意义

P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小，说明这种情况的发生的概率很小，而如果出现了，根据小概率原理，我们就有理由拒绝原假设，P值越小，我们拒绝原假设的理由越充分。

总之，P值越小，表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。

P值，“差异具有显著性”和“具有显著差异”的更多相关文章

P值(P-value)，“差异具有显著性”和“具有显著差异”
郑冰刚提到P值,说P值的定义(着重号是笔者加的,英文是从WikiPedia摘来的): P值就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率. The P-value is the pr ...
差异基因分析：fold change(差异倍数), P-value(差异的显著性)
在做基因表达分析时必然会要做差异分析(DE) DE的方法主要有两种: Fold change t-test fold change的意思是样本质检表达量的差异倍数,log2 fold change的意 ...
扩增子图表解读5火山图：差异OTU的数量及变化规律
火山图 Volcano plot 在统计学上,火山图是一种类型的散点图,被用于在大数据中快速鉴定变化.由于它的形成像火山喷发的样子,所以被称为火山图.和上文讲的曼哈顿图类似. 火山图基本元素火山 ...
四种比较简单的图像显著性区域特征提取方法原理及实现-----> AC/HC/LC/FT。
laviewpbt 2014.8.4 编辑 Email:laviewpbt@sina.com QQ:33184777 最近闲来蛋痛,看了一些显著性检测的文章,只是简单的看看,并没有深入的研究,以 ...
（复杂值vs原始值）&&内存空间 — 准确我们的JavaScript世界观（一）：
写在前面最近在读<JavaScript启示录>,这本书不是JavaScript的详尽的参考指南,但是把对象作为了解JavaScript的透镜,受益匪浅. 那么我们先来聊一下JavaScr ...
四种简单的图像显著性区域特征提取方法-----AC/HC/LC/FT。
四种简单的图像显著性区域特征提取方法-----> AC/HC/LC/FT. 分类: 图像处理 2014-08-03 12:40 4088人阅读评论(4) 收藏举报 salient regio ...
React 虚拟 DOM 的差异检测机制
React 使用虚拟 DOM 将计算好之后的更新发送到真实的 DOM 树上,减少了频繁操作真实 DOM 的时间消耗,但将成本转移到了 JavaScript 中,因为要计算新旧 DOM 树的差异嘛.所以 ...
【转载】Java与C++语言在作用域上的差异浅析
http://developer.51cto.com/art/200906/126199.htm 差异一:变量作用域的不同如下面这段程序代码是符合C++语言的语法要求的.其可以在C语言下正常运行.但 ...
C#与Java的语法差异
C#与Java的语法差异C与Java的语法差异前言程序结构基本语法数据类型字符串变量与常量运算符判断语句循环语句访问权限方法数组结构枚举类继承多态运算符重载接口命名空间预处理器指令正则表达式异常IO泛 ...

随机推荐

mybatis 插入数据时返回主键
在使用MyBatis做持久层时,insert语句默认是不返回记录的主键值,而是返回插入的记录条数:显然,假如主键是你生成后插入的,自然你已经有主键了,显然不需要我们再去获得,所以我们这里处理的是当主键 ...
TFS 2013 生成（构建）历史记录保持策略(Retention Policy)
TFS服务器通过自动构建,实现软件生成和发布的自动化过程,这一直是TFS系统中非常重要的一个功能模块.近年来发布的TFS版本,都在自动化构建方面大幅增强了相应的功能.在这篇博客里我主要总结TFS 20 ...
MMORPG大型游戏设计与开发（part4 of net）
上一节简单的介绍了服务器消息处理的流程,想必大家对这方面有了初步的认识,接下来我们需要知道和掌握的便是其中一些重要的方法,进一步深入熟悉整个构架. 1.FD_*系列宏函数 FD_ZERO(fd_set ...
shell tips
1.shopt 命令可以设置shell的可选参数 shopt [-psu] [optname...] -s 开启某个选项 -u 关闭某个选项 -p 列出所有可设置的选项其中开启extglob选项,s ...
Stanford机器学习笔记-2.Logistic Regression
Content: 2 Logistic Regression. 2.1 Classification. 2.2 Hypothesis representation. 2.2.1 Interpretin ...
jQuery UI常用插件使用
一.什么是插件 ①是遵循一定接口规范编写的程序 ②是原有系统平台功能的扩展和补充 ③只能运行在规定的系统平台下,而不能单独运行注:由于jQuery插件是基于jQuery脚本库的扩展,所以所有jQue ...
AC日记——回文子串 openjudge 1.7 34
34:回文子串总时间限制: 1000ms 内存限制: 65536kB 描述给定一个字符串,输出所有长度至少为2的回文子串. 回文子串即从左往右输出和从右往左输出结果是一样的字符串,比如:abb ...
lock关键字只不过是C#提供的语法糖
lock关键字只不过是C#提供的语法糖, 最终使用的还是Monitor类. Monitor类的Enter方法要求传入的参数不为null, 否则会有ArgumentNullException excep ...
[No000008]发工资不仅仅是让你写代码的
这是我对团队每个新进员工说的第一件事情.这句话的意思是,我并不关心你是如何快速完成任务的,哪怕代码很差,只要它像救生艇通气门一样管用就行.这句话也是我最喜欢的座右铭之一. 这个说法其实很合理:我们的工 ...
向数据库中插入一个DateTime类型的数据到一个Date类型的字段中，需要转换类型。TO_DATE('{0}','YYYY-MM-DD'))
需要指出的是,C#中有datetime类型,但是这个类型是包括小时,分钟,秒的.这个格式与数据库中的Date类型不符,如果将now设为datetime类型插入数据会失败. 需要通过TO_DATE('字 ...

P值，“差异具有显著性”和“具有显著差异”

不得不提的P值

一、P值的由来

三、P值的意义

P值，“差异具有显著性”和“具有显著差异”的更多相关文章

随机推荐

热门专题