Sensitivity, specificity, and reproducibility of RNA-Seq differential expression calls RNA-Seq差异表达调用的灵敏度 特异性 重复性
Sensitivity, specificity, and reproducibility of RNA-Seq differential expression calls
RNA-Seq差异表达调用的灵敏度 特异性 重复性
抽象
背景:
MAQC / SEQC联盟最近编制了一个关键基准,可用于测试微阵列和RNA-seq表达谱分析工具的最新发展。这些客观基准是基础研究和应用研究所需,对临床和监管结果至关重要。超越原始SEQC研究中提出的第一次比较,我们在此提出包括效果的扩展基准常见实验的典型优势。
结果:
通过因子分析和其他过滤器删除人工制品,用于基因组规模调查,对于所有检查的工具组合,差异表达调用的可重复性通常超过80%。这直接反映了不同研究中结果和再现性的稳健性。对于具有最强相对表达变化的排名靠前的候选人,观察到类似的改进,虽然这里的一些工具明显比其他工具表现更好,典型的再现性范围从60%到93%不等。
结论:
在我们用于RNA-seq数据分析的替代工具的基准测试中我们展示了可以带来的好处通过在使用参考标准样品的其他实验的背景下分析结果来获得。这允许计算识别和去除隐藏的混杂因素,例如,通过因子分析。在自身,这已经大大改善了经验性虚假发现率(eFDR),而没有改变整体敏感度。然而,需要进一步过滤假阳性以获得可接受的eFDR水平。适当的过滤器显着改善了跨站点和替代差异表达分析管道之间差异表达基因的一致性。
审稿:本研究论文的扩展摘要被选入2015年ISMB的CAMDA卫星会议
由CAMDA计划委员会提供。然后,完整的研究论文在一位负责任的CAMDA计划委员会成员的指导下进行了一轮公开同行评审,Lan Hu,博士(Bio-Rad Laboratories,Digital Biology Center-Cambridge)。
Open Peer Review由Charlotte Soneson博士(苏黎世大学)和MichałOkoniewski提供,博士(苏黎世联邦理工学院)。Reviewer Comments部分显示完整的评论和作者回复。
关键词:RNA-seq,灵敏度,特异性,再现性,差异表达调用
背景
多年来,MAQC [1]和SEQC [2,3]联盟编制了用于测试实验平台和用于表达谱分析的计算分析工具的性能的关键资源。这些客观基准是有效研究以及临床和监管应用所必需的。在这项研究中,基于最新的
在SEQC数据集中,我们研究了RNA-seq差异表达调用的灵敏度,特异性和可重复性。超越原始SEQC研究[2,3]中提出的第一次比较,我们在此提出扩展基准,包括常见实验的典型效应强度。
我们特别关注SEQC标准化参考样品A和C的比较,其中C由3份样品A和1份样品B组成(见方法)[1,2]。这对样品最小不同可能的平均效应强度(信号)MAQC / SEQC样本A,B,C和D的成对比较,允许我们也考虑更精细信号的表现,例如表达变化通常弱表达的分子开关。用于差异替代方法的综合基准表达分析,我们在这里考虑所有5574个已知的人类基因[4],用于无偏见地评估RNA-seq管道选择的影响。我们对所选工具的比较代表了目前可用于基因表达估计和差异表达调用的各种算法,反映了该领域的快速发展。研究的指标涵盖敏感度,特异性和可重复性。我们的基准测试既测试了全基因组筛选或调查结果的一致性,也测试了具有最强相对表达变化的顶级候选者的稳健识别。
方法
实验研究设计和数据
该研究建立在SEQC联盟的主要合成基准数据集上,其中已知混合物在设置控制中,标准化参考样本的多个平台已经对其进行了排序用于实验室场地的特定效果[2]。尤其是,充分表征的参考RNA样品A.已经使用来自MAQC联盟的(Universal Human Reference RNA)和B(Human Brain Reference RNA)[1]。然后将样品A和B以已知比例3:1和1:3混合,分别构建样品C和D.在这数据分析基准我们的结果基于六个Illumina HiSeq 2000站点的样品A和C的子集其中每个样本都是具有4个技术重复的序列。
基因表达谱分析
在这项研究中,使用了AceView基因模型[4]。我们以前已经表明,尽管它的年龄,AceView仍然是人类最全面和准确的注释数据库[2]。已经通过表示表达谱分析中的现有技术的选定工具评估了人AceView基因的表达谱
分析。表达式估计以读取计数等价物的形式表示。 r-make(基于STAR)[5]和Subread [6]对基因组的序列读数进行比对,然后计数下降的读数进入已知的基因区域。具有'-G'选项的流行TopHat2工具[7]采用混合方法,其中基于提供的基因模型构建虚拟转录组并首先将读数与其对齐,与我们之前的分析一致,首先表明这改善了表达式估计的精确度[8]。在接下来的步骤中,这些对齐的读数被映射回基因组和剩余的未对齐的读数与基因组序列对齐。基因和转录物表达水平然后使用匹配的Cufflinks2 [9]工具估算,该工具处理基于基因组的比对。相比之下,BitSeq [10]直接使用转录组比对 (这里我们使用SHRiMP2 [11]将读数与转录组比对)来评估转录本丰度。然后总结这些以获得基因的表达水平估计。kallisto [12]采用无对齐方法,其中基于伪对齐的思想直接从读数估计转录本丰度,以快速确定相容性用目标转录物序列读取,无需完全比对。这种轻量级的方法已经由Sailfish [13]推动,这里没有考虑。再次总结转录物表达估计以获得基因的表达估计。这种从转录水平结果获得基因水平估计的方法最近发现在RNA-seq的差异分析中改善基因水平推断[14]。所有工具如何运行的详细信息可以在原始的SEQC / MAQC-III研究的补充材料中找到; [2] kallisto已用于默认参数。
因子分析
进行因子分析以去除不想要的变化。我们检查了工具svaseq [15],它为SVA [16]提供了对RNA-seq数据的适应性。 SVA [16]和PEER [17]是原始SEQC研究的主要预处理工具[3]。
所有样品的基因表达估计值用于检测潜在变量。包括与样本类型相关的共变量用于推断,推断的隐藏混杂因素是从信号中删除。
差异表达式调用
在样品A / C的差异表达分析中,我们可以关注样品A中下调的基因,因为任何潜在上调的效应强度被设计限制为最多4/3倍,因为样品C是3份样品A和样品B的一部分。因此,我们预计没有满足常用的上调基因效果强度的阈值。我们通过比较三种流行的替代方案来研究方法选择在差异表达分析中的作用:limma [18],edgeR [19,20]和DESeq2[21],每个都使用默认设置运行。例如,limma默认包括TMM [20] -normalization和voom [22]预处理。FDR由Benjamini-Hochberg调整进行多次测试。基因被称为差异表达,q <5%。可选的附加过滤规则应用,要求最小效果强度为1(即| log2(FC)|> 1,意味着倍数变化大于2)。此外,可选过滤器需要平均值表达高于特定阈值。为每种表达方法组合定义该阈值估计和差异表达调用,以便在svaseq校正后均衡站内灵敏度。设定为使得平均位点3,000个基因被鉴定为差异表达。相同的阈值已应用于站点间差异表达式调用。一旦应用效应强度滤波器,即使丢弃45%最不强烈表达的基因也会消除只有16%的剩余差异表达调用(表1和表2),仅占所有AceView基因的2.5%。
经验错误发现率
利用SEQC研究设计[2],我们可以通过比较在跨站点同一比较中鉴定为差异表达的基因数量来推断经验性假发现率(eFDR)(A-vs-A和C-vs -C)具有差异表达的基因
A-vs-C比较:eFDR =(A1-vs-A2 + C1-vs-C2)/(A1-vs-C2 + A2-vs-C1),其中:XN -vs-YM是
当比较来自位点N的样品X和来自位点M的样品Y时,鉴定为差异表达的基因数量。
站点间重现性
差异表达基因列表之间的总体一致性已经计算为列表的比率交叉点和列表联合。前N个候选者的一致性被计算为来自比较的前N个基因的交叉长度的比率列表(差异表达的候选者按效果强度排序)除以N. 折叠变化的方向被考虑在内:显示相反变化方向的基因被认为不一致,因此被排除在计算列表交叉点评估协议之外。所有基因列表都是集合,包括或排除基因名称,没有基因计数超过一旦。
结果
在我们的基准分析中我们研究了各种差异表达分析工具。该分析通常包括两个步骤,有时通过不同的工具执行:基因/转录物表达水平的估计,以及差异表达的显着性调用。我们的比较基准评估了表达评估工具的代表性选择,包括r-make [5],Subread [6],TopHat2 / Cufflinks2 [7,9],SHRiMP2 / BitSeq [10,11]和kallisto [12],结合几种已建立的差分工具表达调用,包括limma [18,22,23],edgeR [19,20]和DESeq2 [21]。虽然该领域正在迅速出现新工具,我们的比较调查中的选择涵盖了差异表达的RNA-seq分析的现有技术的主要方法分析。
Sensitivity, specificity, and reproducibility of RNA-Seq differential expression calls RNA-Seq差异表达调用的灵敏度 特异性 重复性的更多相关文章
- Differential expression analysis for paired RNA-seq data 成对RNA-seq数据的差异表达分析
Differential expression analysis for paired RNA-seq data 抽象背景:RNA-Seq技术通过产生序列读数并在不同生物条件下计数其频率来测量转录本丰 ...
- RNA-Seq differential expression analysis: An extended review and a software tool RNA-Seq差异表达分析: 扩展评论和软件工具
RNA-Seq differential expression analysis: An extended review and a software tool RNA-Seq差异表达分析: 扩展 ...
- Notes: sensitivity & specificity
terminology: True positive (TP); False positive (FP): originally negative; True negative (TN); False ...
- RNA测序相对基因表达芯片有什么优势?
RNA测序相对基因表达芯片有什么优势? RNA-Seq和基因表达芯片相比,哪种方法更有优势?关键看适用不适用.那么RNA-Seq适用哪些研究方向?是否您的研究?来跟随本文了解一下RNA测序相对基因表达 ...
- RNA Sequencing
RNA Sequencing 选择其他单元: RNA Sequencing 国内领先的转录组定序基地 Transcriptome Sequencing可全面性并快速地获得某一物种特定细胞或组织在某一状 ...
- ROC 曲线/准确率、覆盖率(召回)、命中率、Specificity(负例的覆盖率)
欢迎关注博主主页,学习python视频资源 sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频教程) https://study.163.com/course/introduction.ht ...
- xgene:之ROC曲线、ctDNA、small-RNA seq、甲基化seq、单细胞DNA, mRNA
灵敏度高 == 假阴性率低,即漏检率低,即有病人却没有发现出来的概率低. 用于判断:有一部分人患有一种疾病,某种检验方法可以在人群中检出多少个病人来. 特异性高 == 假阳性率低,即错把健康判定为病人 ...
- 20 seq 某个数到另外一个数之间的所有整数
seq命令Shell内建命令 seq命令用于产生从某个数到另外一个数之间的所有整数. 语法 : seq [选项]... 尾数 seq [选项]... 首数 尾数 seq [选项]... 首数 增量 尾 ...
- 非编码RNA
生命的基本过程是从DNA转录成mRNA,再翻译成蛋白质发挥功能.DNA就像一张绝密的密码图,不能随意被移动,只能被锁在细胞核里.要想知道这些密码,只能像复印一样,将密码图复印到mRNA上,由它们把这些 ...
随机推荐
- [LOJ6198]谢特
loj description 给你一个字符串和一个数组\(w_i\),定义\(\mbox{LCP}(i,j)\)为\(i,j\)两个后缀的最长公共前缀.求\(\max_{i,j}\mbox{LCP} ...
- fusionjs 学习一 基本试用
参考demo 项目 https://github.com/rongfengliang/fusionjs-docker-demo 安装 create startkit yarn global add c ...
- CollabNet Subversion Edge 安装笔记(1):基本安装设定篇
转载于:http://blog.miniasp.com/post/2011/12/30/CollabNet-Subversion-Edge-Installation-Notes-Part-1-Basi ...
- macdown在mac OS 中的配置
macdown 用命令行打开.md文件 执行两条命令即可. sudo echo "open -a MacDown \$*" > /usr/local/bin/macdown ...
- hdu 4336 Card Collector——最值反演
题目:http://acm.hdu.edu.cn/showproblem.php?pid=4336 点集中最早出现的元素的期望是 min ,最晚出现的元素的期望是 max :全部出现的期望就是最晚出现 ...
- mysql 计算经纬度函数(米)
) CHARSET utf8mb4 begin return ROUND( * ASIN( SQRT( POW( SIN( ( lat1 ) ), ) ) ) * POW( SIN( ( lon1 ) ...
- ddt数据驱动
数据驱动原理 1.测试数据为多个字典的list类型 2.测试类前加修饰@ddt.ddt 3.case前加修饰@ddt.data() 4.运行后用例会自动加载成三个单独的用例 5.测试结果: Testi ...
- mac电脑安装selenium 记录
1.使用终端去命令安装 sudo easy_install selenium 参考:https://www.cnblogs.com/nichoc/p/5543654.html 2.听说驱动放在 /us ...
- Lucene 中的Tokenizer, TokenFilter学习
lucene中的TokenStream,TokenFilter之间关系 TokenStream是一个能够在被调用后产生语汇单元序列的类,其中有两个类型:Tokenizer和TokenFilte ...
- All sentinels down, cannot determine where is mymaster master is running...
修改配置的哨兵文件 vim /sentinel.conf 将保护模式关闭