如何通过RNA-Seq了解转录本的结构
[转载]如何通过RNA-Seq了解转录本的结构
已有 1942 次阅读 2014-12-26 15:22 |个人分类:转录组测序|系统分类:科研笔记|关键词:RNA-Seq,转录组测序,转录本结构| RNA-seq, 转录组测序, 转录本结构 |文章来源:转载
测序转录组的方法可不止一种。一些研究人员的目标是计数转录本,评估表达水平,则测序可代替DNA芯片。而另一些研究人员感兴趣的是转录本的结构。大家都知道,真核生物的基因常常经过选择性剪接。是否包含特定的外显子,这有着深远的生物学影响。
前一个应用比较简单,也更加广泛。它与Illumina测序平台的特征相吻合,这些平台提供了短的RNA序列,但每次有数十亿个。而对于后一个阵营的研究人员而言,生物信息学工具和长读取计数才是问题的关键。
长长短短的读取
据Pacific Biosciences的首席科学官Jonas Korlach介绍,哺乳动物的转录本大约在1,000至3,000个碱基,并以多种形式存在。例如,一个基因有5个外显子,则可能出现各种配置,如12345、1245、1345、245等等。弄清这些不同形式的结构和丰度应该不是什么难事,只要测序每个RNA分子并计算其数量。然而,问题在于目前的测序技术无法做到这一点。
Illumina的HiSeq v4试剂每次运行大约产生40亿个高度准确的读取,这对转录组测序而言是足够了。然而,每个双端读取的长度在2 x 125 bp,这就难以确定哪些片段是在一起的。如果这些读取中包含重复元件,则很难定位到基因组中。
斯坦福大学遗传学教授Michael Snyder在接受采访时表示:“你仔细想想,我们研究转录组的方式是疯狂的。我们得到RNA,将其炸成碎片,然后又尝试将它们组合回去,了解转录组一开始是个什么样子。这是一种可怕的方式。”
Pacific Biosciences的单分子测序系统PacBio RS II产生了平均长度在8,500 bp的读取,这足以覆盖大多数的转录本。但RS II的每个SMRT Cell只产生50,000至80,000个读取,这对于全面读取每个转录本而言还是太少。目前,市场上的长读取技术还有Illumina的Moleculo技术和Oxford Nanopore Technologies的纳米孔技术。
混合方法
对于许多研究人员来说,两全的解决方案就是将两种方法相结合。在最近一项发表于PNAS上的研究中,Snyder的研究团队采用混合策略,利用PacBio的长读取和Illumina的短数据来测序一位儿童及其父母的淋巴母细胞转录组。同时,Illumina的读取也能用来检查PacBio碱基检出的错误[1]。
华盛顿大学西北基因组中心的技术开发主任Jason Underwood也在H1人胚胎干细胞系的转录组分析中采用了这种策略[2]。他们的“混合测序(hybrid sequencing)”方法鉴定出H1细胞中表达的数百个新基因/长链非编码RNA(lncRNA)以及数千个已知基因的异构体。
不过,Underwood并不总是利用短读取来进行错误校正,在分析鸡的转录组结构时,他只使用了长读取技术[3]。他利用SMRT测序来产生鸡胚胎心脏的全长cDNA,鉴定出9,000多个新颖的转录异构体,以及Ensembl注释中未包含的500多个基因。
据Korlach介绍,PacBio的技术让研究人员能捕获全部的转录本多样性。在这种称为Iso-Seq的方法中,用户合成cDNA并筛分,创建出不同长度的文库,然后环化并测序。PacBio的SMRT分析软件对相同结构的转录本进行聚类,从而最大限度减少测序错误。互补的策略是环化测序(circular consensus sequencing,CCS),其中cDNA被环化并反复测序,以产生更加准确的平均读取。
鉴于PacBio的读取次数相对较低,一些研究人员将这种技术与选择一些基因的方法相结合。在一项最新的研究中,瑞士巴塞尔大学Peter Scheiffele领导的研究团队利用PacBio方法,对成年小鼠大脑中的370,000个轴突蛋白转录本进行测序,鉴定出这个家族中近1,400个独特的异构体[4]。
分析工具
为了理解那些数据,Scheiffele的团队使用了一种称为GMAP的算法程序,这也是Underwood使用的。分析转录本结构的其他生物信息学工具包括Cufflinks、SpliceMap和 SigFuge。SigFuge由北卡罗来纳大学教堂山分校D. Neil Hayes副教授的实验室开发,是一种鉴定有趣的结构变异的工具。Hayes则使用它来鉴定数千个患者样本中的癌症标志物。“如果变异很重要,那么它应当是经常性的,”他解释道。有了SigFuge,“我们能够检测RNA结构中经常性的结构变异。”
但是你需要多少序列才能找到它们呢?Hayes认为没有简单的答案。“一般来说,越多越好。但是你测序越多,研究就越昂贵。”他认为每个肿瘤转录组需要6000万个Illumina读取。
作为一般准则,Underwood建议对全转录组分析感兴趣的用户至少分析每个样品的100万个读取。“最低和最高表达的RNA之间可能相差5至6个数量级,”他说。因此,即使是最稀有的转录本,100万个读取应该也够了。这大约需要PacBio仪器上的20个SMRT cell,或每次运行8个cell,2.5次运行。(Jeffrey M. Perkel )
参考文献
[1] Tilgner, H, et al., “Defining a personal, allele-specific, and single-molecule long-read transcriptome,” Proc Natl Acad Sci USA, 111:9869-74, 2014. [PubMed ID: 24961374]
[2] Au, KF, et al., “Characterization of the human ESC transcriptome by hybrid sequencing,” Proc Natl Acad Sci USA, 110:E4821–30, published online November 26, 2013, doi: 10.1073/pnas.1320101110. [PubMed ID: 24282307]
[3] Thomas, S, et al., “Long-read sequencing of chicken transcripts and identification of new transcript isoforms,” PLoS ONE, 9:e94650, 2014. [PubMed ID: 24736250]
[4] Schreiner, D, et al., “Targeted combinatorial alternative splicing generates brain region-specific repertoires of neurexins,” Neuron, in press, 2014. [DOI: 10.1016/j.neuron.2014.09.011]
转自测序中国。
如何通过RNA-Seq了解转录本的结构的更多相关文章
- RNA -seq
RNA -seq RNA-seq目的.用处::可以帮助我们了解,各种比较条件下,所有基因的表达情况的差异. 比如:正常组织和肿瘤组织的之间的差异:检测药物治疗前后,基因表达的差异:检测发育过程中,不同 ...
- RNA seq 两种计算基因表达量方法
两种RNA seq的基因表达量计算方法: 1. RPKM:http://www.plob.org/2011/10/24/294.html 2. RSEM:这个是TCGAdata中使用的.RSEM据说比 ...
- RNA剪接体 Spliceosome | 冷冻电镜 | 结构生物学
冷冻电镜 为什么冷冻电镜 (Cryo-EM) 技术的发明可以获得2017诺贝尔化学奖?知乎看法 Press release: The Nobel Prize in Chemistry 2017 We ...
- RNA测序相对基因表达芯片有什么优势?
RNA测序相对基因表达芯片有什么优势? RNA-Seq和基因表达芯片相比,哪种方法更有优势?关键看适用不适用.那么RNA-Seq适用哪些研究方向?是否您的研究?来跟随本文了解一下RNA测序相对基因表达 ...
- c语言结构体以及结构体指针的使用
结构体: 正常定义一个结构体: typedef struct node{ ]; int len; }Seq,*llink; 定义结构体指针: Seq *s;或者llink t;之后关于s与t的用法,其 ...
- featureCounts 软件说明
featuresCounts 软件用于定量,不仅可以支持gene的定量,也支持exon, gene bodies, genomic bins, chromsomal locations的定量: 官网 ...
- Differential expression analysis for paired RNA-seq data 成对RNA-seq数据的差异表达分析
Differential expression analysis for paired RNA-seq data 抽象背景:RNA-Seq技术通过产生序列读数并在不同生物条件下计数其频率来测量转录本丰 ...
- xgene:WGS,突变与癌,RNA-seq,WES
人类全基因组测序06 SNP(single nucleotide polymorphism):有了10倍以上的覆盖深度以后,来确认SNP信息,就相当可靠了. 一个普通黄种人的基因组,与hg19这个参 ...
- 转录组测序(RNA-seq)技术
转录组是某个物种或者特定细胞类型产生的所有转录本的集合.转录组研究能够从整体水 平研究基因功能以及基因结构,揭示特定生物学过程以及疾病发生过程中的分子机理,已广泛应 用于基础研究.临床诊断和药 ...
随机推荐
- centos-rpm安装的mariadb,php52源码编译安装时注意点
1.不要静态指定with-mysql 以扩展的mysql.so的形式安装 2.找不到header file之类的 要yum install mysql-devel find / -name mysql ...
- 阅读 Device Driver Programmer Guide 笔记
阅读 Device Driver Programmer Guide 笔记 xilinx驱动命名规则 以X开头 源文件命名规则 以x打头 底层头文件与高级头文件 重点来了,关于指针的使用 其中 XDev ...
- c语言fork 多进程
fork函数的作用 一个进程,包括代码.数据和分配给进程的资源.fork()函数通过系统调用创建一个与原来进程几乎完全相同的进程,也就是两个进程可以做完全相同的事,但如果初始参数或者传入的变量不同,两 ...
- EasyMock 模拟对象测试
一.EasyMock 使用动态代理实现模拟对象创建,一般可以满足以下测试需求 1.要测试的模块依赖于其它自己控制不了的模块,如第三方服务,其它组员在开发的服务等,它们都没办法配合你来测试: 2.涉及到 ...
- *浅解嵌入式中的BootLoader
本文只作为本人学习过程中的记录及时不时的突发奇想偶记.鄙人菜鸟一只,文中如有错误或疏漏,若读者肯不吝赐教,在下感激零涕.文章一直不断更新中 一.何为Bootloader 在嵌入式系统中,Bootloa ...
- 报错:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.1
错误现象: Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.1:compile (default-com ...
- CSS之form&span
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
- java web 三大核心组件Filter
Filter 过滤: 定义: 过滤器是客户端与服务端之间的一道网,可以对请求的数据进行拦截和修改,同时也可以对,响应数据进行拦截和修改
- beautifulSoup《转》
beautifulSoup基本用法及find选择器 总结来源于官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.h ...
- 杂谈2.cpp
Ostream类定义的插入运算符(<<)使数据插入到输出流,istream定义的抽取运算符(>>)能够从输入流中抽取信息 Cin和cout都是智能对象,能够根据程序上下文将信息 ...