转录组分析综述

转录组研究综述文章解读

今天介绍下小编最近阅读的关于RNA-seq分析的文章,文章发在Genome Biology 上的A survey of best practices for RNA-seq data analysis 。由于文章较长和枯燥,小编认为重要的信息,已经加粗加红,可以直接看重要信息。不要问我为啥这么好,请叫我雷锋。

摘要

现在RNA-seq数据使用广泛,但是没有一套流程可以解决所有的问题。我们重点关注RNA-seq分析中的重要的几步:实验设计,质控,read比对,表达定量,可视化,差异表达,识别可变剪切,功能注释,融合基因检测,eQTL定位等。

文章会讨论每一步分析中的重点和面临的问题,另外最后说明了RNA-seq如何和其他数据相结合分析的。

背景

利用转录组数据来识别转录本和表达定量,是转录组数据的核心作用。由于这个作用,他可以不依赖其他组学信息,单独成为一个产品项目RNA-seq 测序。所以导致RNA-seq 彻底的火了起来。这之后出现了很多的行业标准和分析文档。这使得新的用户为了做好实验,不得不去认识和理解所有的实验步骤。

目前的情况是没有一成不变的流程,整个分析过程都是根据不同的物种,不同的设计目的进行变化的。本文中我们只关注常规RNA-seq分析。也就是摘要中主要说的那几部分。

同时,文章指出在流程的整个过程中都应该添加check point  以期得到好的结果。

1、实验设计

想要获得感兴趣的生物学答案,实验设计一定要合理。首先要对数据的建库类型,测序深度和生物学重复进行选择。另外就是保证测序机器运行充分,尽量少的产生无效数据。

这里我们知道对转录组测序存在两种方法:检测polyA和核糖体剔除。对于真核而言,通常利用第一种方法,而对于细菌,没有polyA,应该用第二种。

文中指出转录组也应该多测些长片段,这可以提供比对效率和转录本识别能力。利用那种数据取决与分析的目的。如果研究的物种是注释非常好的,只是来研究其表达水平,利用便宜和短的se就够啦。但是如果注释的不好的话,pe和长read 能发挥好的作用。

对于测序深度,取决于转录本的复杂程度,太低和太高都不好。

关于重复,应该是包括技术导致的重复,这个很难处理掉,只能在实验的时候,多加小心,尽量避免。而对于人为设定的生物学重复,利用利用统计学工具进行过滤。


在实验设计中,如果样品太多,应该按照组别进行处理。这样可以减少错误。

2、RNA-seq分析

RNA-seq文库制备过程包括:RNA fragmentation, cDNA synthesis, adapter
ligation, PCR amplification, bar-coding, and lane loading)。这里要注意数据的质量控制,文库大小标准化,缩小碱基偏好性: such as the use of adapters with random nucleotides at the extremities or the use of chemical-based
fragmentation instead of RNase III-based fragmentation.

如果样品太多,不得不用分开测序,或者在不同的lane上,一定要对batch effect 进行处理,以防其他因素影响实验。

(1)质控点

<1>、原始数据

包括GC含量,数据质量,有无接头,复制比例等。这里同一个物种的样品测序的数据中信息应该是一致的。如果相差超过30%,应该被去掉。

这里监控的软件推荐fastqc和NGSqc。另外read两端的数据如果质量很低,应该被切掉,这里推荐工具:FASTX-toolkit和Trimmomatic。

<2>、read 比对

一个衡量标准是read比对效率。

文章测试中70-90%的read比对上了人的基因组。

另外一个是uniformity of read coverage on exons and the mapped strand.在利用polyA选择进行转录组测序中如果read富集在3端,可能预示数据质量过低。

还有就是GC含量评估了碱基的偏好性。推荐的软件:RSeQC、Qualimap。

<3>、表达定量

检测GC含量和基因长度的偏好,这样可以更好的进行标准化,推荐的软件

NOIseq EDASEQ。

<4>、生物学再现

这里要对样品相关性进行评估,比对spearman R2 >0.9。同时一定要对batch effect 进行评估和过滤。这里主要可以利用PCA进行分析。(详情见上一篇文章)

<5>、转录本识别

如果有参考,直接比对就可以啦,当时如果没有参考,这里首先爱你需要进行组装,然后定进行表达定量。这里建立用来组装的和定量的数据要有从继性和同步性。

(2)、比对

(3-1)、转录本识别

有参考的情况下,对转录本进行识别这里用到的软件根据不同的情况有以下几个:GRIT、Cufflinks、StringTie、Augustus(辅助基因预测)等

利用短的序列其实是很难得到全长转录本的,同时起始和结尾预测也不准确。

(3-2)、从头组装

如果没有参考,或者参考比较糟糕,我们需要自己从头组装。主要的软件:SOAPdenovo-Trans [30], Oases [31], Trans-ABySS [32] or Trinity [33].对与低表达的区域,覆盖太低,很难组装出来,read覆盖过高,又容易组装错误。这里建议如果存在多个样品的时候,建议进行混样组装。

(4)、转录本表达定量

通常都是通过read比对来做,也有通过kmer做的。可以利用raw counts of mapped read 进行评估,但是这个指标没有考虑基因的长度和其他的因素。RPKM是一个去除了基因长度和文库影响的组内标准化的指标,同样的指标还有FPKM,RPKs,TPM等。主要的软件:Cufflinks,RSEM (RNA-Seq by Expectation Maximization) , eXpress , Sailfish and kallisto 

(5)、差异表达分析

常用的软件有很多,在使用的使用要注意每种软件使用的数据分布特征。

同样这里很重要的是一定要对batch effect进行评估和过滤(COMBAT

)目前鲜有软件对于不同的数据都表现良好,因此建议对于重要的结果,利用多个软件综合进行分析。

(6)、可变剪切分析

方法1:transcript expression and total gene expression  rSeqDiff:uses a hierarchical likelihood ratio test to detect differential gene expressionwithout splicing change and differential isoform expression simultaneously 方法2: exon-based  approach   detects signals of alternative splicing by comparing the distributions of reads on exons and junctions of the genes between the compared samples;

(7)、可视化

用户需要通过可视化看到read覆盖在基因上的变化,以此来对结果鲁棒性进行评估。

推荐的软件:UCSC browser、Integrative Genomics Viewer (IGV)、Genome Maps、Savant 、RNAseqViewer等。

另外文章还介绍了融合基因检测,sRNA和功能注释等。

然后文章探究了RNA-seq和其他数据进行结合分析,包括基因组数据,甲基因数据,Chromatin features、MicroRNAs、Proteomics and metabolomics等。

最后文章对单细胞测序技术和三代测序进行对转录组测序的影响进行了说明:

single cell studies are meaningful only when a set of individual cell libraries are compared with the cell population, with the aim of identifying subgroups of multiple cells with distinct combinations of expressed genes   Long-read sequencing provides amplification-free, singlemolecule sequencing of cDNAs that enables recovery of full-length transcripts without the need for an assembly step

转录组分析综述A survey of best practices for RNA-seq data analysis的更多相关文章

  1. A survey of best practices for RNA-seq data analysis RNA-seq数据分析指南

    A survey of best practices for RNA-seq data analysis RNA-seq数据分析指南 内容 前言 各位同学/老师,大家好,现在由我给大家讲讲我的文献阅读 ...

  2. 性能分析之-- JAVA Thread Dump 分析综述

    性能分析之-- JAVA Thread Dump 分析综述       一.Thread Dump介绍 1.1什么是Thread Dump? Thread Dump是非常有用的诊断Java应用问题的工 ...

  3. 转录组分析---Hisat2+StringTie+Ballgown使用

    转录组分析---Hisat2+StringTie+Ballgown使用 (2016-10-10 08:14:45) 转载▼ 标签: 生物信息学 转录组   1.Hisat2建立基因组索引: First ...

  4. 小样本学习最新综述 A Survey on Few-shot Learning | Introduction and Overview

    目录 01 Introduction Bridging this gap between AI and humans is an important direction. FSL can also h ...

  5. (转)性能分析之-- JAVA Thread Dump 分析综述

    原文链接:http://blog.csdn.net/rachel_luo/article/details/8920596 最近在做性能测试,需要对线程堆栈进行分析,在网上收集了一些资料,学习完后,将相 ...

  6. 最新小样本学习综述 A Survey on Few-Shot Learning | 四大模型Multitask Learning、Embedding Learning、External Memory…

    目录 原文链接: 小样本学习与智能前沿 01 Multitask Learning 01.1 Parameter Sharing 01.2 Parameter Tying. 02 Embedding ...

  7. A Survey on the Security of Stateful SDN Data Planes

    论文摘要: 本文为读者提供新兴的SDN带状态数据平面,集中关注SDN数据平面编程性带来的隐患. I部分 介绍 A.带状态SDN数据平面的兴起 B.带状态数据平面带来的安全隐患 引出带状态数据平面的安全 ...

  8. 综述类文章(Peng 等)阅读笔记Cross-media analysis and reasoning: advances and directions

    综述类文章 Cross-media analysis and reasoning: advances and directions Yu-xin PENG et al. Front Inform Te ...

  9. Why many EEG researchers choose only midline electrodes for data analysis EEG分析为何多用中轴线电极

    Source: Research gate Stafford Michahial EEG is a very low frequency.. and literature will give us t ...

随机推荐

  1. js高级-执行上下文

    全局上下文  方法1() 压入 (栈的数据结构 先进后出)push()  pop() 1.当一个函数在调用另外一个函数的时候新调用的函数会行成一个新的执行上下文 压入执行环境栈的栈顶 2.浏览器js执 ...

  2. PPT的感想

    ①double:使用double类型的数值进行计算, 其结果是不精确的.因为double类型的数值占用64个二进制数,除去最高位表示正负符号的位,在最低位上一定会与实际数据存在误差. 这个涉及到二进制 ...

  3. HBuilder在MAC下的SVN

    1. 安装svn插件,工具--插件安装---svn--安装 2. 使用svn,文件---导入---从svn检出项目 -- 下一步 3. 创建新的资源库位置--下一步-- URL(输入svn仓库地址)- ...

  4. go module 命令

    项目目录下,执行以下命令初始化 go mod init 执行以下命令会自动分析项目里的依赖关系同步到go.mod文件中,同时创建go.sum文件 go mod tidy 以上的管理依赖管理操作,所以依 ...

  5. java.lang.NoClassDefFoundError: net.tsz.afinal.FinalHttp

    java.lang.NoClassDefFoundError: net.tsz.afinal.FinalHttpat com.hbjyjt.oa.utils.i.<init>(HttpRe ...

  6. 1、CDH 搭建Hadoop在安装之前(存储空间规划)

    Cloudera Manager的存储空间规划 最低要求角色: 完全管理员 Cloudera Manager跟踪许多后台进程中的服务,作业和应用程序的度量标准.所有这些指标都需要存储.根据组织的大小, ...

  7. smtp扫描

    nc扫描 nc -nv ip号 25 nmap扫描

  8. day16 包的使用 json time 常用模块

    复习 1.判断py文件的两种用途 提到判断__name__ == '__main__'时,会执行py文件, 直接输入main,在pycharm里按tab直接自动输入这条语句 2.解决模块相互导入的问题 ...

  9. Redis数据结构的多种用法

    分布式锁(string) setnx key value,当key不存在时,将 key 的值设为 value ,返回1.若给定的 key 已经存在,则setnx不做任何动作,返回0. 当setnx返回 ...

  10. 简单的jQ代码

    简单的jQ代码 /* * Lazy Load - jQuery plugin for lazy loading images * * Copyright (c) 2007-2012 Mika Tuup ...