定义:融合基因是指两个或者多个基因联合起来,一起转录形成一个转录本;

检测的意义:融合基因可以作为某些疾病的特异分子标记,比如

  bcr/abl融合基因存在于95%以上的慢性粒细胞白血病患者中;

  AML1/ETO融合基因主要见于急性粒细胞白血病部分分化型患者中;

  CBFβ/MYH11融合基因是M4Eo型白血病的分子标志;

  PML/RARα融合基因是急性早幼粒细胞白血病(APL)的分子标志;

检测方法:

  只有少数的融合基因是因为染色体易位等原因,在DNA水平上联合在一起,而大多数的融合基因在DNA水平上并没有真正的融合在一起,只是在转录的时候共同转录而已,

所以通常利用RNA-seq来研究融合基因;只要检测到一个转录本来源于不同的基因,就可以识别出融合基因;

  fusionMap 可以利用RNA_seq的数据来检测融合基因,http://www.arrayserver.com/wiki/index.php?title=FusionMap

原理:

  

  通过两种方式来检测融合基因:

  1) 对于没有mapping 上的基因组的unmapped reads, 通过识别 Fusion junction-spanning reads 来识别融合基因;这部分reads 在mapping的时候由于插入缺失的限制,没有能够mapping 上任何一个基因;

  2)对于mapping 上基因组的reads, 通过识别 Inter-transcript read pairs 来识别融合基因,这部分reads 的R1端和R2端分别mapping 到不同的基因

  在fusionmap 中,假定融合基因由2个基因组成,对于没能比对上基因组的Fusion Junction-spanning reads, 又分为两类:设定一个阈值,如果这条reads 在两个基因中比对上的长度都大于阈值,就属于seed reads; 如果在任意一个基因中比对上的长度小于阈值,就属于Rescued reads;

安装:

  由于fusionmap 是一个在windows 平台上开发的一个.exe 文件,为了能够在linux 平台上运行,需要安装mono 这个软件,就用官网推荐的版本就可以

  下载fusinomap 安装包,下载物种对应的数据库

测试:

  

结果:

  

  FusionID : 识别到的融合基因的ID,前缀都为FUS,第一个数字为融合基因的起始位置,第二个数字为融合基因的终止位置,这里的位置实际上都是累积位置,把所有的染色体按照字母顺序首位相连构成一条参照的染色体,这样每个基因在这条染色体上都有一个位置,所以这里的位置都是累积位置,可以发现,终止位置的数字总是比起始位置大;括号里的内容是形成融合基因的两个基因的链的方向

  Strand : 形成融合基因的两个基因的链的方向, 包括++, --, +-, -+ 四种组合

  Position1: 检测到的融合基因的起始位置

  Chromosome1 : gene1 所在的染色体

  Chromsome2: gene2 所在的染色体

  Position2: 检测到的融合基因的终止位置

  knowGene1 : gene1 的symbol

  KnowTranscriptStrand: gene1的转录本的方向,有多个转录本,就有多个方向

  KnowGene2: gene2 的symbol

  KnowTranscripitStrand : gene2的转录本的方向,有多个转录本,就有多个方向

  FusionGene: 融合基因的名字,有gene1->gene2

  SplicePattern: 剪切模式,在融合基因的断点处的剪切模式,GT-AG, 在真核生物中存在可变剪切,不同物种间的exon之间的剪切位点是保守的,fusionmap 通过识别剪切位点作为融合基因的breakpoint, 还有其他几种常见的剪切模式,比如GC-AG,AT-AC

  在fusionmap 的输出结果中,还会给出accepted_hits.FusionReads.bam 文件,这个文件记录了fusionmap 识别到的融合基因的reads, 举一个具体的例子:

  以FUS_10436924_1077001566(++) 融合基因为例,对应的bam文件中的内容为:

  

ST-E00169:303:HC7LFALXX:3:2109:11921:42147	67	1	10436820	60	106M22S	17	7952031	0	CTCTTTTCTTTTTTCTTGTGCTGAGAATCTCGTTAGTAGCATGTGGCCTAACAAAAGGAAAAAATGTTTTTAAACACACACACACACACACACACACACACACACACATATACACACACAAAAACAGA	AAFFFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJAFJJ<FJJFJ<JAF-A	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Seed
ST-E00169:303:HC7LFALXX:3:2112:29680:36451 179 1 10436895 60 31M9S 17 7952031 0 ACACACACACACACACACACACACACACACACATACACAC F7<JJJJF<JFJJJJFFJJJFJJJFJJJJFFJJFFFAAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:1224:28270:28206 179 1 10436898 60 28M12S 17 7952031 0 CACACACACACACACACACACACACACACATACACACACA JJJJJJJJJJJFJFJJJJJJJJJJJJJJJJJFJFJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2124:27681:49267 179 1 10436898 60 28M12S 17 7952031 0 CACACACACACACACACACACACACACACATACACACACA JJJJJJJJJJFFJJJJJJJJJJJJJJJJJJJFJAJFA-AA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:1209:27651:10503 179 1 10436900 60 26M12S 17 7952031 0 CACACACACACACACACACACACACACATACACACACA F-JFFFJJF<JJJJJJJJJJJJJJJJJJJFJJJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2208:30036:65968 179 1 10436900 60 26M12S 17 7952031 0 CACACACACACACACACACACACACACATACACACACA JJJJJJJJFJJJJJJJJJJJJJJJJJJJJFJJJFFFAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2209:4026:58848 179 1 10436900 60 26M12S 17 7952031 0 CACACACACACACACACACACACACACATACACACACA JAJFJJJJF<JJJFJJJJJJJJJJJJJJJJJ<JFFFAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2110:31020:2452 179 1 10436901 60 25M9S 17 7952031 0 ACACACACACACACACACACACACACATACACAC JJJJJJJJJJJJJJJJJJJJFJJJJJJFJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2219:23632:11664 179 1 10436904 60 22M12S 17 7952031 0 CACACACACACACACACACACACATACACACACA JJJJJJJJJJJJJJJFJJJJJJJJJJJJJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2109:11921:42147 131 17 7952031 30 106S22M 1 10436820 0 CTCTTTTCTTTTTTCTTGTGCTGAGAATCTCGTTAGTAGCATGTGGCCTAACAAAAGGAAAAAATGTTTTTAAACACACACACACACACACACACACACACACACACATATACACACACAAAAACAGA AAFFFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJAFJJ<FJJFJ<JAF-A ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Seed
ST-E00169:303:HC7LFALXX:3:1209:27651:10503 115 17 7952031 60 26S12M 1 10436900 0 CACACACACACACACACACACACACACATACACACACA F-JFFFJJF<JJJJJJJJJJJJJJJJJJJFJJJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:1224:28270:28206 115 17 7952031 60 28S12M 1 10436898 0 CACACACACACACACACACACACACACACATACACACACA JJJJJJJJJJJFJFJJJJJJJJJJJJJJJJJFJFJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2110:31020:2452 115 17 7952031 60 25S9M 1 10436901 0 ACACACACACACACACACACACACACATACACAC JJJJJJJJJJJJJJJJJJJJFJJJJJJFJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2112:29680:36451 115 17 7952031 60 31S9M 1 10436895 0 ACACACACACACACACACACACACACACACACATACACAC F7<JJJJF<JFJJJJFFJJJFJJJFJJJJFFJJFFFAAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2124:27681:49267 115 17 7952031 60 28S12M 1 10436898 0 CACACACACACACACACACACACACACACATACACACACA JJJJJJJJJJFFJJJJJJJJJJJJJJJJJJJFJAJFA-AA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2208:30036:65968 115 17 7952031 60 26S12M 1 10436900 0 CACACACACACACACACACACACACACATACACACACA JJJJJJJJFJJJJJJJJJJJJJJJJJJJJFJJJFFFAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2209:4026:58848 115 17 7952031 60 26S12M 1 10436900 0 CACACACACACACACACACACACACACATACACACACA JAJFJJJJF<JJJFJJJJJJJJJJJJJJJJJ<JFFFAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2219:23632:11664 115 17 7952031 60 22S12M 1 10436904 0 CACACACACACACACACACACACATACACACACA JJJJJJJJJJJJJJJFJJJJJJJJJJJJJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued

  这里实际上保存的是fusionmap 识别到的融合基因的reads, 比如 ST-E00169:303:HC7LFALXX:3:2109:11921:42147 这条reads 的比对出现了两次,第一次比对到染色体1 上,比对情况为106M22S, 就是说这条reads 的前106bp 比对到染色体1上,比对上的起始位置为10432860; 第二次比对到染色体17上,比对情况为106S22M,就是说这条reads的后22bp比对到染色体17上,比对上的起始位置为7952031,由于在两个基因上的比对长度一个为106,一个为22,都超过了预先设定的最小比对长度,所以认为该reads 为Seed reads, 根据这个比对情况,我们就可以认为检测到了一个融合基因,由1号染色体和17号染色体上的两个基因共同转录生成了一个转录本;

  其他reads的比对情况也是一样的道理,可以发现,识别到的某个融合基因的breakpoint的位置是固定的,对于一个融合基因,只有识别到两条以上的reads支持该融合基因时,才认为检测到的是一个真实的融合基因,可以通过reads 比对的起始位置和终止位置来判断,如果起始位置和终止位置相同,则可能为相同模板的PCR 产物, 只能算作1条;只有起始和终止位置不同时,才可以算作不同的reads, 在fusionmap 输出的报告文件中,还有几列保存了这些信息;

  accepted_hits.UniqueCuttingPositionCount : unique cut 的次数,和上面说的支持融合基因的reads数目是一个道理,实验时将转录本随机打断进行测序,只有存在多个打断的位置,才会出现多条支持该融合基因的reads, 这个数字越大,证明该融合基因的准确度越高;

  

黑色的线条是真实存在的融合基因形成的转录本,灰色的fragment是随机打断该转录本生成的序列,红色为融合基因对应的breakpoint,图中一共4条reads, 但是中间的2条reads 位置相同,可能是PCR 重复,所以实际上只能说有3条reads 支持该融合基因;fusinomap 在统计reads 数目的时候,实际上只看在第二个基因中的终止位置是否相同来判断,对于例子中的融合基因,报告中的值是3

  accepted_hits.SeedCount      : Seed reads 的个数

  accepted_hits.RescuedCount : Rescude reeds 的个数

SplicePattern : fusionmap 会识别融合基因的breakpoint 处的剪切模式,并对其进行分类,GA-TC这样的剪切模式是最常见的,类型为CanonicalPatter[Major],接下来比较常见的是GC-AG 和 AT-AC, 类型为CanonicalPatter[Minor], 对于其他的剪切模式,一般不常见,类型为NonCanonicalPatter;如果一个融合基因的breakpoint 处的剪切模式越常见,则检测到的该融合基因为真实存在的融合基因的可能信越大

  Frameshift:  breakpoint 处的密码子框的类型,3个碱基构成一个密码子,标记为0,1,2, 示意图如下:

  

   

    FrameshiftClass: 上述几种常见的Frameshift 都归为In-Frame, 其他类型为 Frame-Shift;

    OnExonBoundary: 融合基因的breakpoint 是否位于基因的外显子的边界,一共有三种类型,None, Single, Both

    Distance : 融合基因的breakpoint 在两个基因之间的距离,如果两个基因位于不同的染色体,值为-1;

  

  

  

FusionMap 检测融合基因的更多相关文章

  1. tophat-fusion 鉴定融合基因

    tophat-fusion 是一款利用RNA_seq 数据鉴定融合基因的工具,官网链接如下: http://ccb.jhu.edu/software/tophat/fusion_index.shtml ...

  2. NGS检测ALK融合大起底--转载

    导读: ALK融合是非小细胞肺癌的关键驱动机制之一,在NSCLC患者中发生的频率约为3-7%.针对ALK融合的抑制剂克唑替尼.色瑞替尼以及Alectinib在治疗ALK融合阳性的NSCLC患者中都取得 ...

  3. fusion--RNAseq

    融合基因(Fusion gene)是指两个基因的全部或一部分的序列相互融合为一个新的基因的过程.其有可能是染色体易位.中间缺失或染色体倒置所致的结果. 异常的融合基因可以引起恶性血液疾病以及肿瘤.例如 ...

  4. perl 截取 fastq文件

    #!/usr/bin/perl -w use warnings; use strict; input_fastq trim_length}; ; my ($fastq, $trim_length) = ...

  5. RNA -seq

    RNA -seq RNA-seq目的.用处::可以帮助我们了解,各种比较条件下,所有基因的表达情况的差异. 比如:正常组织和肿瘤组织的之间的差异:检测药物治疗前后,基因表达的差异:检测发育过程中,不同 ...

  6. xgene:WGS,突变与癌,RNA-seq,WES

     人类全基因组测序06 SNP(single nucleotide polymorphism):有了10倍以上的覆盖深度以后,来确认SNP信息,就相当可靠了. 一个普通黄种人的基因组,与hg19这个参 ...

  7. BCR-ABL融合基因及检测

    费城染色体 费城染色体(Philadelphia chromosome, Ph (or Ph') chromosome),或称费城染色体易位(Philadelphia translocation),是 ...

  8. FusionCancer-人类癌症相关的融合基因的数据库

    RNA-seq 测序可以用于融合基因的发现,在过去的十几年里,RNA-seq 测序数据不断增加,发现的融合基因的数据也不断增加: FusionCancer 是一个人类癌症相关的融合基因的数据库,利用N ...

  9. 通过FISH和下一代测序检测肺腺癌ALK基因融合比较

    ALK FISH探针是FDA批准的用于检测肺癌患者中ALK重排的方法,这些患者可能受益于ALK激酶抑制剂.FISH测定在技术上可能具有挑战性并且难以解释.已经有研究者提出以ALK免疫组织化学和下一代测 ...

随机推荐

  1. unity, 让主角头顶朝向等于地面法线(character align to surface normal)

    计算过程如下: 1,通过由主角中心raycast一条竖直射线获得主角所在处地面法线,用作主角的newUp. 注:一定要从主角中心raycast,而不要从player.transform.positio ...

  2. 《Effective Java》读书笔记三(类和接口)

    No13 使类和成员的可访问性最小化 要区别设计良好的模块与设计不好的模块,最重要的因素在于,这个模块对于外部的其他模块而言,是否隐藏其内部数据和其他实现细节.模块之间只通过它们的API进行通信,一个 ...

  3. Android 权限表

    String ACCESS_CHECKIN_PROPERTIES 同意在登入数据库的时候读写当中的属性表,并上传改变的值 String ACCESS_COARSE_LOCATION 同意应用訪问范围( ...

  4. SQL Server 备份数据库到指定路径,任务实现

    --Description:备份指定数据到指定路径,第一次完整备份.每月1号完整备份.每周一完整,每天增量备份--====================================ALTER p ...

  5. 百度Android在线语音识别SDK用法

    百度Android语音识别SDK分在线与离线两种,这篇文章介绍在线SDK的用法. 在线SDK是以JAR包和动态链接库形式公布和使用,能够从百度开放云平台站点中下载SDK及使用说明文档. title=d ...

  6. centos 7 sshd 重启 停止 启动

    # systemctl stop sshd.service #restart stop start

  7. HTTP请求中的Keep-Alive模式详解

    Keep-Alive模式 我们都知道HTTP是基于TCP的,每一个HTTP请求都需要进行三步握手.如果一个页面对某一个域名有多个请求,就会进行频繁的建立连接和断开连接.所以HTTP 1.0中出现了Co ...

  8. JS页面跳转并及时刷新

    "<script type='text/javascript'>alert('操作成功!');window.history.go(-2);window.close();</ ...

  9. iOS Emoji

    iOS Emoji 前言:我比较喜欢有趣的东西,有一些有趣的小东西,可能不是多么多么牛逼,也可能不需要多高深的技巧,也不会为其他什么强大的功能而服务,但是有时候将很多有趣的小东西组合起来运用,比如在你 ...

  10. vue2.0的ajax

    Vue 原本有一个官方推荐的 ajax 插件 vue-resource,但是自从 Vue 更新到 2.0 之后,官方就不再更新 vue-resource 目前主流的 Vue 项目,都选择 axios ...