转录组分析综述A survey of best practices for RNA-seq data analysis
转录组分析综述
今天介绍下小编最近阅读的关于RNA-seq分析的文章,文章发在Genome Biology 上的A survey of best practices for RNA-seq data analysis 。由于文章较长和枯燥,小编认为重要的信息,已经加粗加红,可以直接看重要信息。不要问我为啥这么好,请叫我雷锋。
摘要
现在RNA-seq数据使用广泛,但是没有一套流程可以解决所有的问题。我们重点关注RNA-seq分析中的重要的几步:实验设计,质控,read比对,表达定量,可视化,差异表达,识别可变剪切,功能注释,融合基因检测,eQTL定位等。
文章会讨论每一步分析中的重点和面临的问题,另外最后说明了RNA-seq如何和其他数据相结合分析的。
背景
利用转录组数据来识别转录本和表达定量,是转录组数据的核心作用。由于这个作用,他可以不依赖其他组学信息,单独成为一个产品项目RNA-seq 测序。所以导致RNA-seq 彻底的火了起来。这之后出现了很多的行业标准和分析文档。这使得新的用户为了做好实验,不得不去认识和理解所有的实验步骤。
目前的情况是没有一成不变的流程,整个分析过程都是根据不同的物种,不同的设计目的进行变化的。本文中我们只关注常规RNA-seq分析。也就是摘要中主要说的那几部分。
同时,文章指出在流程的整个过程中都应该添加check point 以期得到好的结果。
1、实验设计
想要获得感兴趣的生物学答案,实验设计一定要合理。首先要对数据的建库类型,测序深度和生物学重复进行选择。另外就是保证测序机器运行充分,尽量少的产生无效数据。
这里我们知道对转录组测序存在两种方法:检测polyA和核糖体剔除。对于真核而言,通常利用第一种方法,而对于细菌,没有polyA,应该用第二种。
文中指出转录组也应该多测些长片段,这可以提供比对效率和转录本识别能力。利用那种数据取决与分析的目的。如果研究的物种是注释非常好的,只是来研究其表达水平,利用便宜和短的se就够啦。但是如果注释的不好的话,pe和长read 能发挥好的作用。
对于测序深度,取决于转录本的复杂程度,太低和太高都不好。
关于重复,应该是包括技术导致的重复,这个很难处理掉,只能在实验的时候,多加小心,尽量避免。而对于人为设定的生物学重复,利用利用统计学工具进行过滤。
在实验设计中,如果样品太多,应该按照组别进行处理。这样可以减少错误。
2、RNA-seq分析
RNA-seq文库制备过程包括:RNA fragmentation, cDNA synthesis, adapter
ligation, PCR amplification, bar-coding, and lane loading)。这里要注意数据的质量控制,文库大小标准化,缩小碱基偏好性: such as the use of adapters with random nucleotides at the extremities or the use of chemical-based
fragmentation instead of RNase III-based fragmentation.
如果样品太多,不得不用分开测序,或者在不同的lane上,一定要对batch effect 进行处理,以防其他因素影响实验。
(1)质控点
<1>、原始数据
包括GC含量,数据质量,有无接头,复制比例等。这里同一个物种的样品测序的数据中信息应该是一致的。如果相差超过30%,应该被去掉。
这里监控的软件推荐fastqc和NGSqc。另外read两端的数据如果质量很低,应该被切掉,这里推荐工具:FASTX-toolkit和Trimmomatic。
<2>、read 比对
一个衡量标准是read比对效率。
文章测试中70-90%的read比对上了人的基因组。
另外一个是uniformity of read coverage on exons and the mapped strand.在利用polyA选择进行转录组测序中如果read富集在3端,可能预示数据质量过低。
还有就是GC含量评估了碱基的偏好性。推荐的软件:RSeQC、Qualimap。
<3>、表达定量
检测GC含量和基因长度的偏好,这样可以更好的进行标准化,推荐的软件
NOIseq EDASEQ。
<4>、生物学再现
这里要对样品相关性进行评估,比对spearman R2 >0.9。同时一定要对batch effect 进行评估和过滤。这里主要可以利用PCA进行分析。(详情见上一篇文章)
<5>、转录本识别
如果有参考,直接比对就可以啦,当时如果没有参考,这里首先爱你需要进行组装,然后定进行表达定量。这里建立用来组装的和定量的数据要有从继性和同步性。
(2)、比对
(3-1)、转录本识别
有参考的情况下,对转录本进行识别这里用到的软件根据不同的情况有以下几个:GRIT、Cufflinks、StringTie、Augustus(辅助基因预测)等
利用短的序列其实是很难得到全长转录本的,同时起始和结尾预测也不准确。
(3-2)、从头组装
如果没有参考,或者参考比较糟糕,我们需要自己从头组装。主要的软件:SOAPdenovo-Trans [30], Oases [31], Trans-ABySS [32] or Trinity [33].对与低表达的区域,覆盖太低,很难组装出来,read覆盖过高,又容易组装错误。这里建议如果存在多个样品的时候,建议进行混样组装。
(4)、转录本表达定量
通常都是通过read比对来做,也有通过kmer做的。可以利用raw counts of mapped read 进行评估,但是这个指标没有考虑基因的长度和其他的因素。RPKM是一个去除了基因长度和文库影响的组内标准化的指标,同样的指标还有FPKM,RPKs,TPM等。主要的软件:Cufflinks,RSEM (RNA-Seq by Expectation Maximization) , eXpress , Sailfish and kallisto
。
(5)、差异表达分析
常用的软件有很多,在使用的使用要注意每种软件使用的数据分布特征。
同样这里很重要的是一定要对batch effect进行评估和过滤(COMBAT
)目前鲜有软件对于不同的数据都表现良好,因此建议对于重要的结果,利用多个软件综合进行分析。
(6)、可变剪切分析
方法1:transcript expression and total gene expression rSeqDiff:uses a hierarchical likelihood ratio test to detect differential gene expressionwithout splicing change and differential isoform expression simultaneously 方法2: exon-based approach detects signals of alternative splicing by comparing the distributions of reads on exons and junctions of the genes between the compared samples;
(7)、可视化
用户需要通过可视化看到read覆盖在基因上的变化,以此来对结果鲁棒性进行评估。
推荐的软件:UCSC browser、Integrative Genomics Viewer (IGV)、Genome Maps、Savant 、RNAseqViewer等。
另外文章还介绍了融合基因检测,sRNA和功能注释等。
然后文章探究了RNA-seq和其他数据进行结合分析,包括基因组数据,甲基因数据,Chromatin features、MicroRNAs、Proteomics and metabolomics等。
最后文章对单细胞测序技术和三代测序进行对转录组测序的影响进行了说明:
single cell studies are meaningful only when a set of individual cell libraries are compared with the cell population, with the aim of identifying subgroups of multiple cells with distinct combinations of expressed genes Long-read sequencing provides amplification-free, singlemolecule sequencing of cDNAs that enables recovery of full-length transcripts without the need for an assembly step
转录组分析综述A survey of best practices for RNA-seq data analysis的更多相关文章
- A survey of best practices for RNA-seq data analysis RNA-seq数据分析指南
A survey of best practices for RNA-seq data analysis RNA-seq数据分析指南 内容 前言 各位同学/老师,大家好,现在由我给大家讲讲我的文献阅读 ...
- 性能分析之-- JAVA Thread Dump 分析综述
性能分析之-- JAVA Thread Dump 分析综述 一.Thread Dump介绍 1.1什么是Thread Dump? Thread Dump是非常有用的诊断Java应用问题的工 ...
- 转录组分析---Hisat2+StringTie+Ballgown使用
转录组分析---Hisat2+StringTie+Ballgown使用 (2016-10-10 08:14:45) 转载▼ 标签: 生物信息学 转录组 1.Hisat2建立基因组索引: First ...
- 小样本学习最新综述 A Survey on Few-shot Learning | Introduction and Overview
目录 01 Introduction Bridging this gap between AI and humans is an important direction. FSL can also h ...
- (转)性能分析之-- JAVA Thread Dump 分析综述
原文链接:http://blog.csdn.net/rachel_luo/article/details/8920596 最近在做性能测试,需要对线程堆栈进行分析,在网上收集了一些资料,学习完后,将相 ...
- 最新小样本学习综述 A Survey on Few-Shot Learning | 四大模型Multitask Learning、Embedding Learning、External Memory…
目录 原文链接: 小样本学习与智能前沿 01 Multitask Learning 01.1 Parameter Sharing 01.2 Parameter Tying. 02 Embedding ...
- A Survey on the Security of Stateful SDN Data Planes
论文摘要: 本文为读者提供新兴的SDN带状态数据平面,集中关注SDN数据平面编程性带来的隐患. I部分 介绍 A.带状态SDN数据平面的兴起 B.带状态数据平面带来的安全隐患 引出带状态数据平面的安全 ...
- 综述类文章(Peng 等)阅读笔记Cross-media analysis and reasoning: advances and directions
综述类文章 Cross-media analysis and reasoning: advances and directions Yu-xin PENG et al. Front Inform Te ...
- Why many EEG researchers choose only midline electrodes for data analysis EEG分析为何多用中轴线电极
Source: Research gate Stafford Michahial EEG is a very low frequency.. and literature will give us t ...
随机推荐
- Object.keys(obj)--获取对象属性,该方法返回一个数组
find: function(id){ var self = this; var _id = parseInt(id, 10), id = ''; Object.keys(self.data).for ...
- 理解 e.clientX,e.clientY e.pageX e.pageY e.offsetX e.offsetY
event.clientX.event.clientY 鼠标相对于浏览器窗口可视区域的X,Y坐标(窗口坐标),可视区域不包括工具栏和滚动条.IE事件和标准事件都定义了这2个属性 event.pageX ...
- linux投递运行情况
1.构建文件夹 ..}.sh 2.状态 D 不可中断 Uninterruptible sleep (usually IO) R 正在运行,或在队列中的进程 S 处于休眠状态 T 停止或被追踪 Z 僵尸 ...
- java工程师基础笔试题(一)
一.选择和填空 (不定项哦!) 1,如下是一份文件名为Test2.java的源文件,请问,编译该文件之后会生成几份字节码文件 class Test{ class Inner{} static cla ...
- day18 logging模块 sys shelve
昨日回顾 re 正则表达式 匹配字符串 场景 例如:爬虫,密码规则验证,邮箱地址验证,手机号码 学习re主要学习的就是 那一堆特殊符号 hashlib hash是一种算法 lib表示库 该模块包含了一 ...
- Tomcat添加管理员role
最近朋友问我怎么在Tomcat里面使用 admin 登录,一般情况下登录后是提示xxx的,经过百度后,好不容易才找到答案: 原来添加一个role为admin:<role rolena ...
- app和wap手机网站的区别在哪里
第一点 我们从依附的平台来看: 移动Wap网站:由移动设备的浏览器来支持,只要移动设备支持上网浏览网站基本上可以随时随地的打开网站查找自己需要的信息. 移动App客户端:由智能移动设备的操作系统来支持 ...
- Error in building opencv with ffmpeg
I installed ffmpeg according to this article. ffmpeg installation was ok. Now I build opencv with ff ...
- ES5之函数的间接调用 ( call、apply )、绑定 ( bind )
call().apply()的第一个实参是函数调用的上下文,在函数体内通过this来获得对它的引用. call()将实参用逗号分隔:apply ()将实参放入数组.类数组对象中. function h ...
- [Java学习]常用类-包装类型
八种基本类型对应的包装类 Java中的数据类型由八种基本类型,以及引用类型组成. byte short int long float double boolbean char Object 为了方便, ...