对FPKM/RPKM以及TPM的理解

2018年07月03日 16:05:53 sixu_9days 阅读数：559 标签： FPKM/RPKM TPM RNA-Seq 更多

个人分类： RNA-Seq

虽然一直在接触FPKM/RPKM以及TPM，但是仅仅是知道它们是转录本定量的值，并未究其根本。最近看了几篇文献，对其深层次的含义有了进一步的理解，因而在这里记录下来。

首先来看FPKM/RPKM的起源：

在RNA-Seq中，最简单的定量基因表达量（gene expression）的方法就是将RNA-Seq数据比对到相应的参考序列上时，会有比对到各个基因的read数量，称为raw read counts。但是如果要比较不同样本中基因的表达量，光有raw counts是远远不够的，因为raw cread counts受到很多因素的影响，如目标基因的转录本长度（transcript length）、总的有效比对的read数量（即测序深度 sequencing depth）以及测序的偏差（sequencing bias）等等，这些因素是如何影响raw read counts的后面会有解释。那么为了将不同样本的基因表达量归一化到一个能够量化比较的标准上，科学家们采取的措施是将raw counts同时除以目标基因的外显子长度之和（也就是目标基因转录本长度）和总的有效比对的read总数。这就是RPKM的定义

RPKM = (10^6 * nr) / （L * N）

其中 nr 代表比对至目标基因的read数量；L代表目标基因的外显子长度之和除以1000，单位是Kb，不是bp；N是总的有效比对至基因组的reads数量。

注意这里的 nr：在single-end测序中，一个read就是一个read。而在pair-end测序中，若一对paired-read 都比对上了，当做两个read；若只有一个read比对上，另一个未比对上，当做一个read计算。

类似的，FPKM的定义如下

FPKM = (10^6 * nf) / （L * N）

其中 nf 代表比对至目标基因的fragment数量；L代表目标基因的外显子长度之和除以1000，单位是Kb，不是bp；N是总的有效比对至基因组的fragment数量。

注意这里的 nf：在single-end测序中，FPKM将read当做fragment计算，此时FPKM和RPKM是相同的。而在pair-end测序中，若一堆paired-read 都比对上了，当做一个fragment。

以上是这两个量的计算方式，它们这样计算的目都是为了解决在计算RNA-seq转录本丰度的两个bias：
（1）即便是相同表达丰度的转录本，会由于其基因长度上的差异，导致测序获得的Read（Fragment）数不同。因为在测序时，随机抽样的情况下，序列较长的转录本被抽到的概率更大，测得的Read（Fragment）数越多。

（2）由测序文库的不同大小而引来的差异。即同一个转录本，其测序深度越深，通过测序获得的Read（Fragment）数就越多。

FPKM和RPKM通过同时除以L（转录本长度）和N（有效比对的Read（Fragment）总数）的办法，最终将不同样本（或者同个样本在不同条件下）的转录本丰度归一化到一个能够进行量化比较的标准上。

以上一切看起来都很合理

但是！！！

既然说了测序获得的read（fragment）受到基因长度的影响，RPKM和FPKM计算中也去除了目标基因长度的影响，但是除以N时没有考虑到这个影响，N是总的有效比对的read（fragment），它同样会受到各个转录基因长度（distribution of transcript lengths）的影响。所以FPKM/RPKM是不准确的。那么有没有一个统计量能解决这个问题呢？有！那就是TPM

TPMi={( nr/Lr )*10^6 } / sum( nr/Lr+……..+ nm/Lm )

nr：mapping到目标基因上的read数；
Lr：目标基因的外显子长度的总和。

在一个样本中一个基因的TPM：先对每个基因的read数用基因的长度进行校正，之后再用校正后的这个基因read数(nr/Lr)与校正后的这个样本的所有校正后的read数（sum( nr/Lr+……..+ nm/Lm )）求商。

没错！TPM不是除以有效比对的read总数，而是除以经过基因长度归一化后的有效比对的read总数，即归一化后的测序深度。

因此，TPM在计算不同样本的基因表达量比较时，是更加准确的统计量。

在网上浏览时，看到了这篇文章 http://www.fungenomics.com/article/30 是从另一个角度理解FPKM/RPKM与TPM的关系，讲得很好很详细，大家也可以看看。

对FPKM/RPKM以及TPM的理解的更多相关文章

FPKM\RPKM\TPM学习[转载]
转自:http://www.360doc.com/content/18/0112/02/50153987_721216719.shtml 1.问题提出在RNA-Seq的分析中,对基因或转录本的rea ...
Bulk RNA-Seq转录组学习
与之对应的是single cell RNA-Seq,后面也会有类似文章. 参考:https://github.com/xuzhougeng/Learn-Bioinformatics/ 作业:RNA-s ...
RNA-seq 数据文件处理
http://www.fungenomics.com/article/30 [专题]基因组学技术专题(二)-- 为什么说FPKM/RPKM是错的下载数据 wget是linux下一个从网络上自动下载文 ...
转录组表达量计RPKM、FPKM、TPM说明
在转录组测序(RNA-Seq)中,基因的表达量是我们关注的重点.基因表达量的衡量指标有:RPKM.FPKM.TPM. RPKM:Reads Per Kilobase Million:说实话,这个英文说 ...
TPM、read counts、RPKM/FPKM你选对了吗？
TPM.read counts.RPKM/FPKM你选对了吗? 已有 3940 次阅读 2017-12-15 15:04 |个人分类:RNA-seq|系统分类:科普集锦|关键词:RNA-seq| RN ...
RPKM FPKM TPM RSEM
RPKM:Reads Per Kilobases Per Million Reads指的是每1百万个reads中比对到每1kb碱基外显子上的reads数 FPKM:Fragments Per Kilo ...
生信-RPKM与FPKM学习[转载]
转自:https://baike.baidu.com/item/RPKM/1197657 均反应基因的表达水平 1.RPKM的计算公式分母是总共比对到这个基因的reads的数目(条为单位),分母是 ...
FPKM与RPKM
FPKM与RPKM (2015-01-09 23:55:17) 转载▼ 标签: 转载原文地址:FPKM与RPKM作者:Fiona_72965 定义: FPKM:Fragment Per Kil ...
全方位理解Android权限之底层实现概览
0000 这个阶段搞了很多和Android文件权限相关的问题,虽然一知半解,但也算是对Android权限机制有一些自己的理解.遂将这些内容整理出来.因为权限这部分涉及到的内容很多,故将知识分为几块内容 ...

随机推荐

求m-n之间数字的和
unction sum(m,n){ var sum = 0; if(m>n){ for(var i=n; i<=m; i++ ...
[Flutter] 发布自己的插件 package
我们自己做了插件包,当然也想发布到pub.dartlang.org上去.怎么发布呢?先看看官方的说明(https://flutter.io/developing-packages/). Publish ...
TestNG中DataProvider的用法
提供数据的一个测试方法.注解的方法必须返回一个Object[] [],其中每个对象 []的测试方法的参数列表中可以分配.该@Test 方法,希望从这个 DataProvider 的接收数据,需要使用一 ...
RabbitMQ-从基础到实战（4）— 消息的交换（中）
转自:https://www.cnblogs.com/4----/p/6590459.html 1.简介本章节和官方教程相似度较高,英文好的可以移步官方教程在上一章的例子中,我们创建了一个消费者, ...
IOS CFBundleIdentifier
CFBundleIdentifier CFBundleIdentifier 必须是com.12306.aaa 这样的格式吗 AppID 用通配符格式的AppID方便. AppSt ...
程序员必看：给你一份详细的Spring Boot知识清单
在过去两三年的Spring生态圈,最让人兴奋的莫过于Spring Boot框架.或许从命名上就能看出这个框架的设计初衷:快速的启动Spring应用.因而Spring Boot应用本质上就是一个基于Sp ...
mime设置
ie9对mime有特殊要求,必须要有type才可以. 如果出现css的mime类型不支持.则没有加 type="css/text" 查看本机的mime支持: regedit > ...
更改maven下载jar的仓库为阿里云仓库
修改settings.xml  <localRepository>D:\file\path\maven\repository</ ...
Jena TDB Assembler
TDB Assembler Assemblers (装配器) 是Jena中用于描述将要构建的对象(通常是模型和数据集 models & datasets)的一种通用机制.例如, Fuseki ...
基于 tensorflow 的 mnist 数据集预测
1. tensorflow 基本使用方法 2. mnist 数据集简介与预处理 3. 聚类算法模型 4. 使用卷积神经网络进行特征生成 5. 训练网络模型生成结果 how to install ten ...

对FPKM/RPKM以及TPM的理解

对FPKM/RPKM以及TPM的理解

对FPKM/RPKM以及TPM的理解的更多相关文章

随机推荐

热门专题