p值还是 FDR ?

差异分析

如何筛选显著性差异基因，p value, FDR 如何选

经常有同学询问如何筛选差异的基因（蛋白）。已经计算了表达量和p value值，差异的基因（蛋白）太多了，如何筛选。其中最为关键的是需要对p value进行校正。

基本概念：

零假设：在随机条件下的分布。
p值：在零假设下，观测到某一特定实验结果的概率称为p值。
假阳性：得到了阳性结果，但这个阳性结果是假的。
假阴性：得到了阴性结果，但这个阴性结果是假的。

单次检验：

针对单个基因（蛋白），采用统计检验，假设采用的p值为小于0.05，我们通常认为这个基因在两个（组）样本中的表达是有显著差异的，但是仍旧有5%的概率，这个基因并不是差异基因。

单多次检验：

当两个（组）样本中有10000个基因采用同样的检验方式进行统计检验时，这个时候就有一个问题，单次犯错的概率为0.05，进行10000次检验的话，那么就有0.05*10000=500 个基因的差异被错误估计了。

多重检验矫正：

为了解决多次检验带来的问题，我们需要对多次检验进行校正。那如何校正呢？在此介绍两种方法：

Bonferroni 校正法
Bonferroni校正法：如果进行N次检验，那么p值的筛选的阈值设定为p/N。比如，进行10000次检验的话，如果p值选择为0.05，那么校正的p值筛选为0.000005。 p值低于此的基因才是显著性差异基因。
该方法虽然简单，但是过于严格，导致最后找的差异基因很少，甚至找不到差异的基因。
FDR(False Discovery Rate) 校正法
FDR错误控制法是Benjamini于1995年提出的一种方法，基本原理是通过控制FDR值来决定p值的值域。相对Bonferroni来说，FDR用比较温和的方法对p值进行了校正。其试图在假阳性和假阴性间达到平衡，将假/真阳性比例控制到一定范围之内。
那么怎么从p值来估算FDR呢，人们设计了几种不同的估算模型。其中使用最多的是Benjamini and Hochberg方法，简称BH法。该方法分两步完成，具体如下：
2.1 假设总共有m个候选基因，每个基因对应的p值从小到大排列分别是p(1),p(2),…,p(m)
2.2 若想控制FDR不能超过q，则只需找到最大的正整数i，使得 p(i)<= (i*q)/m . 然后，挑选对应p(1),p(2),…,p(i)的基因做为差异表达基因，这样就能从统计学上保证FDR不超过q。

如何实现多重检验：

如果你了解R语言的话，那么采用p.adjust方法就可以了。

p值还是 FDR ?的更多相关文章

Population-based metagenomics analysis reveals markers for gut microbiome composition and diversity
读paper的时候觉得自己就是个24K纯学渣(=.=)一大堆问题等着我去解决...所以在这里写一个Q&A好了,先列问题,逐步填充答案- ××××××××××××××××××我是分割线么么哒×× ...
ONCOCNV软件思路分析之tumor处理
前期处理 perl脚本统计RC(RC(read counts)) 读入control baseline 和 sigma(最后baseline 预测的mad值) 将gc < 0.28或gc > ...
生信基础知识【04】GO和pathway分析
非原创参考资料: 一文掌握GO和pathway分析 - 生物信息学讨论版 -丁香园论坛http://www.dxy.cn/bbs/thread/34904124#34904124 GO富集 GO是G ...
【R方差分析】蛋白质表达量多组比较
初始数据类似: 蛋白质组数据虽不是严格的正态分布,但目前最常用的检验方法还是T检验(两组比较)和方差分析(多组比较).这个话题值得深究,这里不展开. 主要是求多个蛋白的Pvalue值或FDR,用于差异 ...
FDR错误发现率-P值校正学习[转载]
转自:https://baike.baidu.com/item/FDR/16312044?fr=aladdin https://blog.csdn.net/taojiea1014/article/d ...
MongoDB学习笔记~MongoDB实体中的值对象
回到目录注意,这里说的值对象是指在MongoDB实体类中的,并不是DDD中的值对象,不过,两者也是联系,就是它是对类的补充,自己本身没有存在的价值,而在值对象中,也是不需要有主键Id的,这与DDD也 ...
matlab FDR校正
http://home.52brain.com/forum.php?mod=viewthread&tid=27066&page=1#pid170857 http://www.mathw ...
SPM FDR校正
来源: http://blog.sciencenet.cn/blog-479412-572049.html,http://52brain.com/thread-15512-1-1.html SPM8允 ...
假设检验：p-value，FDR，q-value
来源:http://blog.sina.com.cn/s/blog_6b1c9ed50101l02a.html,http://wenku.baidu.com/link?url=3mRTbARl0uPH ...

随机推荐

trie数的实现
Trie树又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种.典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计.它的优点是:利用字符串 ...
百度地图报错：APP Referer校验失败
今天微信小程序,通过经纬度,调用百度api,将经纬度转换成城市名和街道地址,结果小程序报错. 错误信息如下: 这个是KEY的白名单设置问题.因为白名单设置限制了来源信息.只要在下面红色部分设置IP,或 ...
Kafka日志及Topic数据清理
由于项目原因,最近经常碰到Kafka消息队列拥堵的情况.碰到这种情况为了不影响在线系统的正常使用,需要大家手动的清理Kafka Log.但是清理Kafka Log又不能单纯的去删除中间环节产生的日志, ...
linux 基本操作centos7
基于centos7 ,很多都跟6不同 Centos 7 firewall 命令: 查看已经开放的端口:firewall-cmd --list-ports 开启端口firewall-cmd --zon ...
java-学习8
方法的声明及使用 public class function { public static void main(String[] args) { printInfo();//调用printInfo( ...
1.3.6、CDH 搭建Hadoop在安装之前(端口---DistCp使用的端口)
DistCp使用的端口列出的所有端口都是TCP. 在下表中,每个端口的“ 访问要求”列通常是“内部”或“外部”.在此上下文中,“内部”表示端口仅用于组件之间的通信; “外部”表示该端口可用于内部或外 ...
字符串相似度算法(编辑距离Levenshtein Distance)的应用场景
应用场景 DNA分析: 将DNA的一级序列如β-球蛋白基因的第一个外显子(Exon)转化为分子“结构图”,然后由所得“结构图”提取图的不变量,如分子连接性指数．以图的不变量作为自变量,再由相似度计算公 ...
spark基本组件与概念
数据结构核心之数据集RDD 俗称为弹性分布式数据集.Resilient Distributed Datasets,意为容错的.并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的 ...
beanstalkd 说明文档
BEANSTALKD(1) BEANSTALKD(1) NAME beanstalkd - simple, fast work queue SYNOPSIS beanstalkd [options] ...
CentOS rpm
rpm命令是RPM软件包的管理工具.rpm原本是Red Hat Linux发行版专门用来管理Linux各项套件的程序,由于它遵循GPL规则且功能强大方便,因而广受欢迎.逐渐受到其他发行版的采用.RPM ...

p值还是 FDR ?

p值还是 FDR ?

p值还是 FDR ?的更多相关文章

随机推荐

热门专题