转录组分析综述A survey of best practices for RNA-seq data analysis

转录组分析综述

转录组研究综述文章解读

今天介绍下小编最近阅读的关于RNA-seq分析的文章，文章发在Genome Biology 上的A survey of best practices for RNA-seq data analysis 。由于文章较长和枯燥，小编认为重要的信息，已经加粗加红，可以直接看重要信息。不要问我为啥这么好，请叫我雷锋。

摘要

现在RNA-seq数据使用广泛，但是没有一套流程可以解决所有的问题。我们重点关注RNA-seq分析中的重要的几步：实验设计，质控，read比对，表达定量，可视化，差异表达，识别可变剪切，功能注释，融合基因检测，eQTL定位等。

文章会讨论每一步分析中的重点和面临的问题，另外最后说明了RNA-seq如何和其他数据相结合分析的。

背景

利用转录组数据来识别转录本和表达定量，是转录组数据的核心作用。由于这个作用，他可以不依赖其他组学信息，单独成为一个产品项目RNA-seq 测序。所以导致RNA-seq 彻底的火了起来。这之后出现了很多的行业标准和分析文档。这使得新的用户为了做好实验，不得不去认识和理解所有的实验步骤。

目前的情况是没有一成不变的流程，整个分析过程都是根据不同的物种，不同的设计目的进行变化的。本文中我们只关注常规RNA-seq分析。也就是摘要中主要说的那几部分。

同时，文章指出在流程的整个过程中都应该添加check point 以期得到好的结果。

1、实验设计

想要获得感兴趣的生物学答案，实验设计一定要合理。首先要对数据的建库类型，测序深度和生物学重复进行选择。另外就是保证测序机器运行充分，尽量少的产生无效数据。

这里我们知道对转录组测序存在两种方法：检测polyA和核糖体剔除。对于真核而言，通常利用第一种方法，而对于细菌，没有polyA，应该用第二种。

文中指出转录组也应该多测些长片段，这可以提供比对效率和转录本识别能力。利用那种数据取决与分析的目的。如果研究的物种是注释非常好的，只是来研究其表达水平，利用便宜和短的se就够啦。但是如果注释的不好的话，pe和长read 能发挥好的作用。

对于测序深度，取决于转录本的复杂程度，太低和太高都不好。

关于重复，应该是包括技术导致的重复，这个很难处理掉，只能在实验的时候，多加小心，尽量避免。而对于人为设定的生物学重复，利用利用统计学工具进行过滤。

在实验设计中，如果样品太多，应该按照组别进行处理。这样可以减少错误。

2、RNA-seq分析

RNA-seq文库制备过程包括：RNA fragmentation, cDNA synthesis, adapter
ligation, PCR amplification, bar-coding, and lane loading)。这里要注意数据的质量控制，文库大小标准化，缩小碱基偏好性： such as the use of adapters with random nucleotides at the extremities or the use of chemical-based
fragmentation instead of RNase III-based fragmentation.

如果样品太多，不得不用分开测序，或者在不同的lane上，一定要对batch effect 进行处理，以防其他因素影响实验。

(1)质控点

<1>、原始数据

包括GC含量，数据质量，有无接头，复制比例等。这里同一个物种的样品测序的数据中信息应该是一致的。如果相差超过30%，应该被去掉。

这里监控的软件推荐fastqc和NGSqc。另外read两端的数据如果质量很低，应该被切掉，这里推荐工具：FASTX-toolkit和Trimmomatic。

<2>、read 比对

一个衡量标准是read比对效率。

文章测试中70-90%的read比对上了人的基因组。

另外一个是uniformity of read coverage on exons and the mapped strand.在利用polyA选择进行转录组测序中如果read富集在3端，可能预示数据质量过低。

还有就是GC含量评估了碱基的偏好性。推荐的软件：RSeQC、Qualimap。

<3>、表达定量

检测GC含量和基因长度的偏好，这样可以更好的进行标准化，推荐的软件

NOIseq EDASEQ。

<4>、生物学再现

这里要对样品相关性进行评估，比对spearman R2 >0.9。同时一定要对batch effect 进行评估和过滤。这里主要可以利用PCA进行分析。（详情见上一篇文章）

<5>、转录本识别

如果有参考，直接比对就可以啦，当时如果没有参考，这里首先爱你需要进行组装，然后定进行表达定量。这里建立用来组装的和定量的数据要有从继性和同步性。

（2）、比对

（3-1）、转录本识别

有参考的情况下，对转录本进行识别这里用到的软件根据不同的情况有以下几个：GRIT、Cufflinks、StringTie、Augustus（辅助基因预测）等

利用短的序列其实是很难得到全长转录本的，同时起始和结尾预测也不准确。

（3-2）、从头组装

如果没有参考，或者参考比较糟糕，我们需要自己从头组装。主要的软件：SOAPdenovo-Trans [30], Oases [31], Trans-ABySS [32] or Trinity [33].对与低表达的区域，覆盖太低，很难组装出来，read覆盖过高，又容易组装错误。这里建议如果存在多个样品的时候，建议进行混样组装。

（4）、转录本表达定量

通常都是通过read比对来做，也有通过kmer做的。可以利用raw counts of mapped read 进行评估，但是这个指标没有考虑基因的长度和其他的因素。RPKM是一个去除了基因长度和文库影响的组内标准化的指标，同样的指标还有FPKM，RPKs，TPM等。主要的软件：Cufflinks,RSEM (RNA-Seq by Expectation Maximization) , eXpress , Sailfish and kallisto
。

（5）、差异表达分析

常用的软件有很多，在使用的使用要注意每种软件使用的数据分布特征。

同样这里很重要的是一定要对batch effect进行评估和过滤（COMBAT

）目前鲜有软件对于不同的数据都表现良好，因此建议对于重要的结果，利用多个软件综合进行分析。

（6）、可变剪切分析

方法1：transcript expression and total gene expression rSeqDiff：uses a hierarchical likelihood ratio test to detect differential gene expressionwithout splicing change and differential isoform expression simultaneously 方法2： exon-based approach detects signals of alternative splicing by comparing the distributions of reads on exons and junctions of the genes between the compared samples；

（7）、可视化

用户需要通过可视化看到read覆盖在基因上的变化，以此来对结果鲁棒性进行评估。

推荐的软件：UCSC browser、Integrative Genomics Viewer (IGV)、Genome Maps、Savant 、RNAseqViewer等。

另外文章还介绍了融合基因检测，sRNA和功能注释等。

然后文章探究了RNA-seq和其他数据进行结合分析，包括基因组数据，甲基因数据，Chromatin features、MicroRNAs、Proteomics and metabolomics等。

最后文章对单细胞测序技术和三代测序进行对转录组测序的影响进行了说明：

single cell studies are meaningful only when a set of individual cell libraries are compared with the cell population, with the aim of identifying subgroups of multiple cells with distinct combinations of expressed genes Long-read sequencing provides amplification-free, singlemolecule sequencing of cDNAs that enables recovery of full-length transcripts without the need for an assembly step

转录组分析综述A survey of best practices for RNA-seq data analysis的更多相关文章

A survey of best practices for RNA-seq data analysis RNA-seq数据分析指南
A survey of best practices for RNA-seq data analysis RNA-seq数据分析指南内容前言各位同学/老师,大家好,现在由我给大家讲讲我的文献阅读 ...
性能分析之-- JAVA Thread Dump 分析综述
性能分析之-- JAVA Thread Dump 分析综述一.Thread Dump介绍 1.1什么是Thread Dump? Thread Dump是非常有用的诊断Java应用问题的工 ...
转录组分析---Hisat2+StringTie+Ballgown使用
转录组分析---Hisat2+StringTie+Ballgown使用 (2016-10-10 08:14:45) 转载▼ 标签: 生物信息学转录组 1.Hisat2建立基因组索引: First ...
小样本学习最新综述 A Survey on Few-shot Learning | Introduction and Overview
目录 01 Introduction Bridging this gap between AI and humans is an important direction. FSL can also h ...
(转)性能分析之-- JAVA Thread Dump 分析综述
原文链接:http://blog.csdn.net/rachel_luo/article/details/8920596 最近在做性能测试,需要对线程堆栈进行分析,在网上收集了一些资料,学习完后,将相 ...
最新小样本学习综述 A Survey on Few-Shot Learning | 四大模型Multitask Learning、Embedding Learning、External Memory…
目录原文链接: 小样本学习与智能前沿 01 Multitask Learning 01.1 Parameter Sharing 01.2 Parameter Tying. 02 Embedding ...
A Survey on the Security of Stateful SDN Data Planes
论文摘要: 本文为读者提供新兴的SDN带状态数据平面,集中关注SDN数据平面编程性带来的隐患. I部分介绍 A.带状态SDN数据平面的兴起 B.带状态数据平面带来的安全隐患引出带状态数据平面的安全 ...
综述类文章（Peng 等）阅读笔记Cross-media analysis and reasoning： advances and directions
综述类文章 Cross-media analysis and reasoning: advances and directions Yu-xin PENG et al. Front Inform Te ...
Why many EEG researchers choose only midline electrodes for data analysis EEG分析为何多用中轴线电极
Source: Research gate Stafford Michahial EEG is a very low frequency.. and literature will give us t ...

随机推荐

生成一个文件夹中的所有文件的txt列表
1.windows操作系统中 1.用管理员运行打开dos界面: 2.用cd转到相应的文件夹中: 3.用dir /b /on >list.txt来生成文件列表的txt. 2.Mac系统中 1.打开 ...
linux mysqlERROR 1045 (28000): linux忘记数据库密码
已验证没问题 #1.停止mysql数据库(确定能停止掉,不然第二部有问题) /etc/init.d/mysqld stop #2.执行如下命令 mysqld_safe --user=mysql - ...
node Cannot enqueue Quit after invoking quit.
因为第二次调用数据库时连接关闭了,应该把connection.connect();放在请求的函数里面:不然第二次请求出错
2018面向对象程序设计（Java）第3周学习指导及要求
2018面向对象程序设计(Java) 第3周学习指导及要求(2018.9.11-2018.9.16) 学习目标适应老师教学方式,能按照自主学习要求完成本周理论知识学习: 掌握Java Appli ...
jar is specified twice.
Warning:Exception while processing task java.io.IOException: The same input jar [libs\afinal_0.5.1_b ...
解题9（StringReversedOrder）
题目描述将一个英文语句以单词为单位逆序排放.例如“I am a boy”,逆序排放后为“boy a am I”所有单词之间用一个空格隔开,语句中除了英文字母外,不再包含其他字符接口说明 /** * ...
shell 通过shift获得某位后的入参
有时shell的入参个数不定,想要获得第2位后的参数,作为新的入参调用其他脚本通常这时候想到的方法是用遍历,例如下面的方法: for (( i=2;i<=$#;i++)) do ...
MySQL数据类型及使用场景
MySQL数据类型介绍整数类型类型名称说明存储需求取值范围有符号取值范围符号 TINYINT 很小的整数 1个字节 -128~127 0-255 SMALLINT 小的整数 2个字节 32 ...
python--第二天总结
一.作用域只要变量在内存中存在,则就可以使用.(栈) 二.三元运算result = 值result = 值1 if 条件 else 值2 如果条件为真:result = 值1如果条件为假:result ...
可视化工具Navicat的使用
可视化工具Navicat的使用掌握Navicat的基本使用 # PS:在生产环境中操作MySQL数据库还是推荐使用命令行工具mysql,但在我们自己开发测试时,可以使用可视化工具Navicat,以图 ...

转录组分析综述A survey of best practices for RNA-seq data analysis

转录组分析综述

转录组分析综述A survey of best practices for RNA-seq data analysis的更多相关文章

随机推荐

热门专题