转载]Blast本地化:使用Blastall进行数据库比对

(2012-02-13 21:25:31)

 

用blastall进行序列比对

blastall是最常用的blast程序之一,其功能非常强大,其下面有非常多的参数,但是一般使用的参数如:-p、-i、-d、-o、-e等几个。

  • -p: 执行的程序名称
  • -d: 搜索的数据库名称
  • -i : 要查询的序列文件名(Query File)
  • -e:(数学)期望值(Expectation value),E值是个统计阈值,缺省值10, 意指比对结果中由于随机偶然性产生的匹配结果不大于10,E值越小结果越可靠。
  • -o :查询结果输出文件名
  • -m: 比对结果显示格式选项,缺省值为0 ,即pairwise格式。另外还可以根据不同的需要选择1~6等不同的格式。
  • -I :在描述行中显示gi号[T/F],缺省值F
  • -v :单行描述(one-line description)的最大数目,缺省值500
  • -b :显示的比对结果的最大数目,缺省值250
  • -F :对于要查询的序列做低复杂度区域(low complexity regions, LCR)的过滤[T/F],缺省值T。对blastn用的是DUST程序,其他比对用的是SEG程序。
  • 所谓“低复杂度区域”是指某些或一些残基过多表现,短周期重复等。对于高等哺乳动物的基因组序列,可以先用RepeatMask程序遮蔽重复元件。在输出结果中,对LCR区的序列核酸用“N”代替,蛋白质序列用“X”代替。
  • -a:运行BLAST程序所使用的处理器的数目,缺省值1
  • -S:在数据库中搜索时所使用的核酸链(strand),只对blastn、blastx和tblastx有效;1表示top,2表示bottom,3表示both;缺省值3
  • -T: 产生HTML格式的输出[T/F],缺省值F
  • -n: 使用MegaBlast搜索[T/F],缺省值F
  • -G: 打开一个gap的罚分(0表示使用缺省设置值),默认0
  • -E: 扩展一个gap的罚分(0表示使用缺省设置值),默认0
  • -q: 一个核酸碱基的错配(mismatch)的罚分(只对blastn有效),缺省值-3
  • -r : 一个核酸碱基的正确匹配(match)的奖分(只对blastn有效),缺省值1
  • -M: 所使用的打分矩阵,缺省值BLOSUM62

1.1.1.    参数说明

基本参数、比对优化参数、结果输出参数、控制输入参数

表:blastall命令的参数说明

参数 说明 默认值 备注
-p 使用的程序 字符[String]   blastnblastpblastx

tblastn

tblastx

-d 使用的数据库 文件名[File In] nr  
-i 搜索用的序列 文件名[File In] stdin  
-e 期望值 数字[Real] 10.0  
-m 控制比对结果的样式 0到11的整数[Integer] 0 0 = pairwise,1 = query-anchored showing identities,2 = query-anchored no identities,

3 = flat query-anchored, show identities,

4 = flat query-anchored, no identities,

5 = query-anchored no identities and blunt ends,

6 = flat query-anchored, no identities and blunt ends,

7 = XML Blast output,

8 = tabular,

9 tabular with comment lines

10 ASN, text

11 ASN, binary

-o 比对结果存放的文件名 文件名[File Out] stdout  
-F 过滤询问序列 [String] T DUST with blastn, SEG with others
-G 打开gap得分 [Integer] -1  
-E 延伸gap得分 [Integer] -1  
-X X dropoff value for gapped alignment (in bits) [Integer] 0 blastn 30, megablast 20, tblastx 0, all others 15
-I 显示gi号Show GI’s in deflines [T/F] F  
-q 核酸错配罚分 [Integer] -3 blastn only
-r 核酸匹配得分 [Integer] 1 blastn only
-v Number of database sequences to show one-line descriptions for (V) [Integer] 500  
-b Number of database sequence to show alignments for (B) [Integer] 250  
-f Threshold for extending hits [Integer] 0 blastp 11, blastn 0, blastx 12, tblastn 13, tblastx 13, megablast 0
-g Perform gapped alignment [T/F] T not available with tblastx
-Q 指定询问序列使用的遗传密码 [Integer] 1  
-D 指定数据使用的遗传密码 [Integer] 1 for tblast[nx] only
-a 使用CPU的数目 [Integer] 1  
-O SeqAlign file [File Out]   可选
-J Believe the query defline [T/F] F  
-M 比对使用的矩阵 [String] BLOSUM62  
-W Word size [Integer] 0 blastn 11, megablast 28, all others 3
-z 数据库的有效长度Effective length of the databas [Real] 0 use zero for the real size
-K Number of best hits from a region to keep [Integer] 0 off by default, if used a value of 100 is recommended
-P 0 for multiple hit, 1 for single hit [Integer] 0 does not apply to blastn
-Y Effective length of the search space [Real] 0 use zero for the real size
-S Query strands to search against database [Integer] 3 for blast[nx], and tblastx, 3 is both, 1 is top, 2 is bottom
-T 将结果保存为HTML格式 [T/F] F  
-l 通过gi号列表,限制搜索范围 [String] Optional  
-U Use lower case filtering of FASTA sequence [T/F] Optional  
-y X dropoff value for ungapped extensions in bits [Real] 0.0 0.0 invokes default behavior blastn 20, megablast 10, all others 7
-Z X dropoff value for final gapped alignment in bits [Integer] 0 blastn/megablast 50, tblastx 0, all others 25
-R PSI-TBLASTN checkpoint file [File In] Optional  
-n MegaBlast search [T/F] F  
-L Location on query sequenc [String] Optional  
-A Multiple Hits window size [Integer] 0 default if zero (blastn/megablast 0, all others 40)
-w Frame shift penalty [Integer] 0 OOF algorithm for blastx
-t Length of the largest intron allowed in a translated nucleotide sequence when linking multiple distinct alignments [Integer] 0 0 invokes default behavior; a negative value disables linking.
-B Number of concatenated queries [Integer] 0 for blastn and tblastn
-V Force use of the legacy BLAST en gine [T/F] F Optional
-C Use composition-based statistics for tblastn [String] D D or d: default (equivalent to F)     0 or F or f: no composition-based statistics      1 or T or t: Composition-based statistics as in NAR 29:2994-3005, 2001

2: Composition-based score adjustment as in Bioinformatics 21:902-911,

2005, conditioned on sequence properties

3: Composition-based score adjustment as in Bioinformatics 21:902-911,

2005, unconditionally

For programs other than tblastn, must either be absent or be D, F or 0.

-s Compute locally optimal Smith-Waterman alignments [T/F] F This option is only      available for gapped tblastn.

1.1.2.    使用说明与示例

程序使用说明

程序名 搜索序列 数据库 说明 备注
blastn 核酸 核酸 用核酸序列搜索核酸数据库  
blastp 蛋白质 蛋白质 用蛋白质(氨基酸)序列搜索蛋白质数据库 寻找较高分值的匹配,对较远关系的不太适用
blastx 核酸 蛋白质 用核酸双链序列理论上的六种框架的所有翻译结果搜索蛋白质数据库,用于新的序列和ESTs的分析 转译搜索序列
tblastn 蛋白质 核酸 用搜索的蛋白质和数据库中核酸的 用于寻找数据库中没有标注的编码区
tblastx 核酸 核酸    

比对命令示例

blastall-p blastn-i U00096.ffn -d ecoli-o U00096_Vs_ecoli_blastn.out -F F blastall-p blastp-i U00096.faa -d nr -o U00096_Vs_NR_blastp.htm -e 0.01 -b 1 -v 1 -T T blastall-p blastx-i U00096.ffn -d nr -o U00096_Vs_NR_blastx.htm -e 1e-5 -b 1 -v 1

Blast本地化的更多相关文章

  1. ncbi-blast 本地安装

    详见:http://blog.shenwei.me/local-blast-installation/ Linux系统中NCBI BLAST+本地化教程 本文面向初学者(最好还是懂得基本的linux使 ...

  2. Linux下BLAST+的本地化(BLAST 2.2.29+)

    链接:http://blog.sciencenet.cn/home.php?mod=space&uid=830496&do=blog&quickforward=1&id ...

  3. BLAST在Windows系统中本地化

    简介 NCBI除了提供在线的Web BLAST序列比对服务外,还提供FTP方式下载序列比对工具.这允许在本地平台上针对从NCBI下载或本地创建的数据库执行BLAST搜索.这些实用程序没有图形用户界面, ...

  4. blast及其格式输出简介

    1)blast产生背景 双序列比对可以采用是基于动态规划算法的Needleman-Wunsch(NW)和Smith-Waterman algorithm(SW)算法,虽然精度高,但计算消耗大.当与数据 ...

  5. ABP文档 - 本地化

    文档目录 本节内容: 简介 应用语言 本地化源 XML文件 注册XML本地化源 JSOn文件 注册JSON本地化源 资源文件 自定义源 获取一个本地文本 在服务端 在MVc控制器里 在MVC视图里 在 ...

  6. JS魔法堂:不完全国际化&本地化手册 之 理論篇

    前言  最近加入到新项目组负责前端技术预研和选型,其中涉及到一个熟悉又陌生的需求--国际化&本地化.熟悉的是之前的项目也玩过,陌生的是之前的实现仅仅停留在"有"的阶段而已. ...

  7. 一步一步使用ABP框架搭建正式项目系列教程之本地化详解

    返回总目录<一步一步使用ABP框架搭建正式项目系列教程> 本篇目录 扯扯本地化 ABP中的本地化 小结 扯扯本地化 本节来说说本地化,也有叫国际化.全球化的,不管怎么个叫法,反正道理都是一 ...

  8. ABP源码分析十二:本地化

    本文逐个分析ABP中涉及到locaization的接口和类,以及相互之间的关系.本地化主要涉及两个方面:一个是语言(Language)的管理,这部分相对简单.另一个是语言对应得本地化资源(Locali ...

  9. ABP源码分析四十三:ZERO的本地化

    ABP Zero模块扩展了ABP基础框架中的本地化功能,实现了通过数据库管理本地化的功能.其通过数据库保存本地化语言及其资源. ApplicationLanguage:代表本地化语言的实体类.一种语言 ...

随机推荐

  1. js 0.1+0.2!=0.3

    准确的说就是js小数采用ieee的64位的双精度,1位表示正负,11位指数,52位小数,所以对于0.1js是无法精确表示的的,所以会多点, http://www.jb51.net/article/77 ...

  2. 树链剖分(+线段树)(codevs4633)

    type node=^link; link=record des:longint; next:node; end; type seg=record z,y,lc,rc,toadd,sum:longin ...

  3. word2vec 实践

    关于word2vec,这方面无论中英文的参考资料相当的多,英文方面既可以看官方推荐的论文,也可以看gensim作者Radim Řehůřek博士写得一些文章.而中文方面,推荐 @licstar的< ...

  4. MVC认知路【点点滴滴支离破碎】【三】----IIS7.5上部署MVC4.0

    发布web到iis不能运行Google   ----- ╲ http://stackoverflow.com/questions/12057540/installing-asp-net-mvc-4-o ...

  5. No goals have been specified for this build

    在pom.xml文件中build后面加上<defaultGoal>compile</defaultGoal>

  6. [转]理解RESTful架构

    原文地址:http://www.ruanyifeng.com/blog/2011/09/restful 越来越多的人开始意识到,网站即软件,而且是一种新型的软件. 这种"互联网软件" ...

  7. 如何在移动端app中应用字体图标icon fonts (转)

    原文: http://www.cnblogs.com/willian/p/4166757.html?utm_source=tuicool&utm_medium=referral How to ...

  8. JS搞基指南----延迟对象入门提高资料整理

    JavaScript的Deferred是比较高大上的东西,  主要的应用还是主ajax的应用,  因为JS和nodeJS这几年的普及,  前端的代码越来越多,  各种回调套回调再套回调实在太让人崩溃, ...

  9. 利用MVC的自定义过滤器FilterAttribute、IActionFilter、IExceptionFilter实现异常处理等功能

    今天在博客园上看了一篇推荐文章,还说得蛮有道理: http://www.cnblogs.com/richieyang/p/4779028.html 项目中确实有各种后台验证过程,最常见的莫过于判空,而 ...

  10. 获取登陆ip

    想获取用户的ip, 在vendor\yiisoft\yii2\web\User.php的login中看到 $ip = Yii::$app->getRequest()->getUserIP( ...