多重比对序列的格式及其应用

 

这里对多重序列比对格式(Multiple sequence alignment – MSA)进行总结。在做系统演化分析、序列功能分析、基因预测等,都需要涉及到多重序列比对。特别是当需要用不同软件对多重比对序列进行批量操作时,会遇到各种的格式,而这些格式是如何产生的,有什么区别,格式之间如何转换,从哪里可以下载到相关的格式序列,不同的格式又有什么特殊的用途等,本篇文章将就这些问题进行总结与讨论。因为涉及内容较多,不足之处,欢迎大家补充或者批判。

生物信息学的基础是基于这样的一个假设:序列相似,结构相似,功能相似。所以相似的一组序列,就可能同属于一个基因家族,而这样的一组序列相似的部分,就可能使其功能之所在,称其为结构域。这是对于基因家族分类的一种方式,将结构与功能进行联系,从而实现从结构预测功能(序列称为一级结构)。

进行多重比对、多重序列的编辑、多重序列注释、存储与展示、系统演化分析等,不同的软件、不同的系统,除了要兼容现有的格式,还会根据自身的需要,都定义新的格式。所以这些本身可以进行部分的格式转换,同时许多脚本模块比如bioperl等也提供了一些格式之间转换的脚本。这些格式同发布其软件平台有着密切的联系,随着软件的流行而流行。

下表是目前主流的格式:

名称 后缀 描述 Unique file Feature 详细定义地址
FASTA .fasta, fa Pearson or FASTA sequence format >SequenceNameTHISISASEQENCE FASTA (Pearson)
GCG/MSF format .msf, .gcg GCG Multiple Sequence File (MSF) alignment format !! AA_MULTIPLE_ALIGNMENT 1.0..// GCG/MSF
Aligned FASTA (UCSC a2m) format .a2m UCSC    
Stockholm format .txt used by Pfam and Rfam to disseminate protein and RNA sequence alignments. 可以添加丰富的注释信息,适合多序列比对结果的注释。 # STOCKHOLM 1.0<seqname> <aligned sequence>

//
链接wiki链接
PHYLIP .phy, .phylip, .phylip2 PHYLIP software   链接
NBR/PIR .pir NBRF or PIR sequence format >P1; 链接
CLUSTAL .aln, .an, .aln2 ClustalW alignment format CLUSTAL 链接
GDE .gde GDE format is a tagged-field format similar to ASN.l that is used for storing all available information about a sequence, including residue color.   链接
NEXUS .nxs, .nexus Nexus file formatis widely used in Bioinformatics. Several popular phylogenetic programs such as Paup, MrBayes, Mesquite, and MacClade use this format.   链接
BLC .blc   >Seq1>Seq2  
PFAM .pfam   SequenceName THISISASEQENCE 链接
MEGA .meg MEGA software    
SELEX .      
IG .ig      
Internet (NCBI) XML format .xml      
NBRF format .nbrf      

主要软件平台对于格式的要求

  • Clustal
    输入:NBRF/PIR, GCG/MSF, PHYLIP, GDE, NEXUS, FASTA
    输出:CLUSTAL, NBRF/PIR, GCG/MSF, PHYLIP, GDE, NEXUS, FASTA
  • MUSCLE(http://www.drive5.com/muscle/muscle.html)
    输入:FASTA, CLUSTAL, MSF
    输出:FASTA
  • hmmbuild
    ClustalW, GCG MSF, or SELEX
  • hmmalign
    输入:FASTA, GENBANK, EMBL, GCG, PIR, STOCKHOLM, SELEX, MSF, CLUSTAL, and PHYLIP.
    输出:Stockholm, SELEX, MSF, Clustal, Phylip, and A2M
  • Jalview java viewer (http://www.jalview.org/help.html)
    输入:Fasta (Pearson), GCG-MSF, ALN/ClustalW, AMPS Block file, NBRF/PIR (including MODELLER variant), Pfam/Stockholm
    输出:Fasta (Pearson), GCG-MSF, ALN/ClustalW, AMPS Block file, NBRF/PIR, Pfam/Stockholm
  • MEGA
    输入:CLUSTAL, NEXUS (PAUP, MacClade), PHYLIP, GCG, FASTA, PIR,  NBRF, MSF, IG, and XML formats.
    输出:MEGA, PAUP, FASTA
  • PFAM数据库
    Selex, Stockholm, MSF, FASTA

MSA:多重比对序列的格式及其应用的更多相关文章

  1. BAM/SAM格式

    本质上就是二进制压缩的SAM文件,大部分生物信息学流程都需要这个格式,为了节省存储空间以及方便索引. # BiocInstaller::biocLite('Rsamtools') library(Rs ...

  2. FASTQ格式

    FASQT格式是用于存储生物序列(通常是核苷酸序列)及其相应的碱基质量分数的一种文本格式.为简洁起见,序列字母和质量分数均使用单个ASCII字符进行编码.最初由Wellcome Trust Sange ...

  3. Oracle 学习笔记 12 -- 序列、索引、同义词

    版权声明:本文为博主原创文章.未经博主同意不得转载. https://blog.csdn.net/Topyuluo/article/details/24232449 数据库的对象包含:表.视图.序列. ...

  4. HGVS的变异格式

    符号: 1.HGVS的变异格式由两部分组成: 1.1 reference sequence file identifier (accession.version-number) :  actual d ...

  5. 第七章 yaml格式

    一.简单说明 yaml是一个可读性高,用来表达数据序列的格式.YAML 的意思其实是:仍是一种标记语言,但为了强调这种语言以数据做为中心,而不是以标记语言为重点 二.基本语法 缩进时不允许使用Tab键 ...

  6. Hmmer安装与使用

    Hmmer的安装与使用   从功能基因研究的角度来讲,相关的搜索,比如从序列数据库中,找同源的序列,或者对一个对一个新的基因功能进行鉴定,使用hmmer比使用blast有着更高的灵敏度已经更高的搜索速 ...

  7. hmmer 使用(转载)

    hmmer 使用 » 转载文章请注明,转载自:博耘生物 » <hmmer的安装与使用> » 原文链接:http://boyun.sh.cn/bio/?p=1753   从功能基因研究的角度 ...

  8. XSLT学习

    XSL 语言 XSL(eXtensible Stylesheet Language)是可扩展样式表语言,是一种用于以可读格式呈现 XML(标准通用标记语言的子集)数据的语言. XSL与xml CSS ...

  9. hmm 软件的使用

    1)使用HMM模型搜索序列数据库(以青蟹蛋白库为例,简写为qingxie.pep),同源参考序列(query.fas) hmmbuild: 用多重比对序列构建HMM模型:hmmsearch: 使用HM ...

随机推荐

  1. Entity Framework Code First (八)迁移 Migrations

    创建初始模型和数据库 在开始使用迁移(Migrations)之前,我们需要一个 Project 和一个 Code First Model, 对于本文将使用典型的 Blog 和 Post 模型 创建一个 ...

  2. 面试题:Integer和int的区别?在什么时候用Integer和什么时候用int

    /*  * (1) int是java提供的8种原始数据类型之一.Java为每个原始类型提供了封装类,Integer是java为int提供的封装类. * (2)int的默认值为0, 而Integer的默 ...

  3. SpringMVC与Struts2区别与比较总结

    1.Struts2是类级别的拦截, 一个类对应一个request上下文,SpringMVC是方法级别的拦截,一个方法对应一个request上下文,而方法同时又跟一个url对应,所以说从架构本身上Spr ...

  4. SQLite3 学习笔记

    1.数据存储方式 Plist(NSArray\NSDictionary) Preference(偏好设置\NSUserDefaults) NSCoding(NSKeyedArchiver\NSkeye ...

  5. [bzoj1009][HNOI2008]GT考试

    Description 阿申准备报名参加考试,准考证号为位数,他不希望准考证号上出现不吉利的数字. 他的不吉利数学有位,不出现是指中没有恰好一段等于. 可以为. Input 第一行输入.接下来一行输入 ...

  6. 【BZOJ-1046】上升序列 DP + 贪心

    1046: [HAOI2007]上升序列 Time Limit: 10 Sec  Memory Limit: 162 MBSubmit: 3723  Solved: 1271[Submit][Stat ...

  7. yocto系统介绍

    The Yocto Project is an open source collaboration project that provides templates, tools and methods ...

  8. 遍历map集合

    for(var key in map){ if(data.hasOwnProperty(key)){ var value = map[key]; } }​

  9. 数据结构算法C语言实现(八)--- 3.2栈的应用举例:迷宫求解与表达式求值

    一.简介 迷宫求解:类似图的DFS.具体的算法思路可以参考书上的50.51页,不过书上只说了粗略的算法,实现起来还是有很多细节需要注意.大多数只是给了个抽象的名字,甚至参数类型,返回值也没说的很清楚, ...

  10. AngularJs angular.equals

    angular.equals 对比两个对象/值是否相等.支持值类型.正则表达式.数组和对象. 如果下列至少有一个是正确的,则将两个对象/值视为相等. 两个对象/值能通过===比较. 两个对象/值是同一 ...