1. Blast

  • (1)格式化数据库

    formatdb -i db.seq -p T -o T -l logfile

    主要参数:

    -i 输入需要格式化的源数据库名称

    -p 文件类型,是核苷酸序列数据库(F - nucleotide)/蛋白质序列数据库(T – protein),default = T

    -a 输入数据库的格式是否为ASN.1/FASTA [T/F],default = F

    -o 解析选项:解析序列标识并且建立目录[T/F],default = F

    -l 自定义log文件命令default=formatdb.log,记录运行时间、版本号、序列数目等

    -n 自定义库文件命名

    建库结果

    如果建立的是核酸库,输出为db.seq.nhr、db.seq.nin、db.seq.nsq三个文件,若选择了“-o  T”,还会同时输出db.seq.nsd、db.seq.nsi、db.seq.nni、db.seq.nnd四个文件,一共七个。

    蛋白库和核酸库的输出类似,相应的输出文件为:db.seq.nhr、db.seq.nin、db.seq.nsq和db.seq.nsd、db.seq.nsi、db.seq.nni、db.seq.nnd七个文件。

    此外还有log文件。

  • (2)blastall

    `blastall -i test.fa -d test.fa -o testblast.out -p blastp -F F -m 8 -e 1e-5 -b 10 -v 10 -a 2```

    主要参数

    以上流程中所用参数:

    -i 所用查询序列文件

    -d 所用序列数据库的名称 default=nr

    -o BLAST结果的输出文件

    -p 所用程序名称: blastn,blastp,blastx,tblastn,tblastx

    -F 查询序列过滤:将那些给出影响比对结果的低复杂度区域过滤掉 default = T

    -m 比对结果显示格式 defalut=0

    -e 期望值,描述搜索某一特定数据库时,随机出现的匹配序列数目default = 10.0

    -b 显示比对结果的最大数目 default=250

    -v 单行描述的最大数目 default=500

    -a 使用处理器的数目 default = 1(单机)

    其他参数:

    -G 空位gap开放罚分 default = 0

    -E 空位gap扩展罚分 default = 0

    -I 描述行显示GI号[T/F], default = F

    -q 核酸序列基对不匹配mismatch所罚分数(只对blastn有效)default = -3

    -r 核苷酸序列基对匹配match所加分数(只对blastn有效) default = 1

    -g 是否执行带缺口的比对 [T/F],default = T

    -B 需要联配查询的序列数目 default = 0

    -S:在数据库中搜索时所使用的核酸链strand(只对blastn、blastx和tblastx有效),1表top,2表bottom,3表both,default=3

    -T: 产生HTML格式的输出[T/F],default = F

    -n: 使用MegaBlast搜索[T/F],default = F

    -r : 一个核酸碱基的正确匹配(match)的奖分(只对blastn有效),default = 1

    -M: 所使用的打分矩阵,default = BLOSUM62

-m 比对结果格式选项:

0 = pairwise,显示具体匹配信息(缺省)
1 = query-anchored showing identities,查询-比上区域,显示一致性
2 = query-anchored no identities,查询-比上区域,不显示一致性
3 = flat query-anchored, show identities,查询-比上区域的屏文形式,显示一致性
4 = flat query-anchored, no identities,查询-比上区域的屏文形式,不显示一致性
5 = query-anchored no identities and blunt ends,查询-比上区域,不显示一致性,无突然的结束
6 = flat query-anchored, no identities and blunt ends,查询-比上区域的屏文形式,不显示一致性
7 = XML Blast output,XML格式的输出
8 = tabular,TAB格式的输出
9 =tabular with comment lines,带注释行的TAB格式的输出
10 =ASN, text,文本方式的ASN格式输出
11 =ASN, binary [Integer] default = 0,二进制方式的ASN格式输出

m8格式12列结果:

Query id, Subject id, % identity, alignment length, mismatches, gap openings, q.start, q.end, s.start, s.end, e-value, bit score
第一列为Query(递交序列),
第二列为数据库序列(目标序列subejct),
第三列为: identity
第四列为:比对长度
第五列为:错配数
第六列为:gap数
第七列和第八列为:Query开始碱基位置和结束碱基位置
第九列和第十列为:Subject开始碱基位置和结束碱基位置
第十一列为:期望值
第十二列为:比对得分

Ref: https://blog.csdn.net/g_r_c/article/details/8477924

https://blog.csdn.net/bangemantou/article/details/7726585

2. Blast+

blast+是blast的升级,将blastn,blastx等程序与blastall命令分隔开来,对各个命令的参数定制更为方便。

blast+也是格式化数据库和比对搜索两步,但命令不同。

  • (1)格式化数据库

    makeblastdb -in db.fasta -dbtype prot -parse_seqids -out dbname -title dbtitle -logfile filename

    参数说明:

    -in:待格式化的序列文件

    -dbtype:数据库类型,prot或nucl

    -parse_seqids:解析序列标识(建议加上)

    -out:数据库名

    -title:数据库名(略)

    -logfile:日志文件,默认输出到屏幕

    更多参数 makeblastdb -help

  • (2)blast+比对

    蛋白序列比对蛋白数据库(blastp)

    blastp -query seq.fasta -db dbname -out seq.blast -outfmt 6 -evalue 1e-5 -num_alignments 10 -num_descriptions 10 -num_threads 2

    blastx -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10 -num_threads 2

    参数说明:

    -query: 输入文件路径及文件名

    -out:输出文件路径及文件名

    -db:格式化了的数据库路径及数据库名

    -outfmt:输出文件格式,总共有12种格式,6是tabular格式,对应BLAST的m8格式

    -evalue:设置输出结果的期望值

    -num_alignments 显示比对数Default = 250

    -num_descriptions:单行描述的最大数目 default=500

    -num_threads:线程数

    更多参数 blastp -help

3. diamond

diamond主要4个程序:

makedb

blastp

blastx

view

过程也是建库和 比对两步。

-(1)建库

diamond makedb --in nr.fa -d nr

参数说明

--in : 参考序列(格式:fasta)

-d: 索引的前缀名

-(2)比对

diamond blastp -d nr -q reads.fa -e 1e-5 -f 6 -o out_diamond.m6 -k 10 -p 2

主要参数说明

--db/-d 输入比对数据库

--query/-q 比对序列

--threads/-p 线程数

--out/-o 输出文件

--outfmt/-f 输出文件格式,默认6(表格)

--evalue/-e 比对的最大evalue值(默认0.001)

--max-target-seqs/-k 比对到的最大序列数,默认值是25

其他参数

--top 百分数的形式表示--max-target-seqs

--min-score 最小评分

--id 给出指定百分比的数据

--subject-cover 最小覆盖度

--unal (0,1) 是否输出未比对上的reads(0=no, 1=yes)

--sensitive 建议对齐较长的序列

--more-sensitive 比对准确度更高

--block-size/b,一次处理的十亿碱基的大小,主要控制内存使用,默认为2(预计使用此内存数量的大约六倍,即默认内存使用将到达12G),转录流程使用0.2

--salltitles 将全长标题包含在DAA格式中,默认DAA文件仅包含缩短序列ID(直到第一个空白字符)

转录组流程使用参数

diamond blastx --evalue 1e-05 --threads 3 --outfmt 5 -d /ifs4/BC_PUB/biosoft/db/Pub/nr/RNA/20170924/animal.fa -q allcdnawithnovelcds.fa -o allcdnawithnovelcds.fa.blast.nr --seg no --max-target-seqs 5 --more-sensitive -b 0.2 --salltitles

Ref: https://github.com/bbuchfink/diamond/blob/master/diamond_manual.pdf

diamond输出格式:

0 BLAST pairwise format.
5 BLAST XML format.
6 表格模式 (默认输出格式).
100 DIAMOND
101 SAM format.
102 Taxonomic classification.
103 PAF format.

比对软件Blast,Blast+,Diamond比较的更多相关文章

  1. 【软件】【diamond】-管脚分配

    未用到的引脚设置,浮空引脚设置.可以设置浮空电压

  2. blast | diamond 输出结果选择和解析 | 比对

    之前的文章:构建NCBI本地BLAST数据库 (NR NT等) | blastx/diamond使用方法 | blast构建索引 | makeblastdb 本地运行blast时,需要指定out fo ...

  3. 41、OrthoMCL和mcl软件进行基因家族分析

    转载:http://www.realbio.cn/news/124.html https://blog.csdn.net/seallama/article/details/43820763 http: ...

  4. 从零开始学生信-orthofinder的安装和使用-基因家族分析

    [环境变量]注释掉conda3,source ~/.bashrc conda install orthofinder # 若在上一章之后没有重启的同学请重启后操作. # 由于是刚开始搭建,这里没有给o ...

  5. 生物信息大数据&数据库(NCBI、EBI、UCSC、TCGA)

    想系统的学习生信数据库可以先看一下北大的公开课,有一章专门讲的数据库与软件: -生物信息学:导论与方法 北大\ 生物信息数据库及软件资源 一个优秀的生信开发者能够解决如下问题: 如何鉴定一个重要的且没 ...

  6. 【数据库】本地NR数据库如何按物种拆分?

    目录 1.准备本地数据库文件 1.1 NR库下载 1.2 Taxonomy数据库下载 2.按物种拆分NR库 2.1 第一步:获得Aceesson和分类物种的对应关系 2.2 第二步:获得分类物种的序列 ...

  7. NGINX(七)分段下载

    前言 nginx分段下载通过ngx_http_range_filter_module模块进行处理,关于HTTP分段下载过程,可以参考HTTP分段下载一文,主要分为一次请求一段和一次请求多段 涉及数据结 ...

  8. (java项目)坦克大战 2.0

    这个版本,只能算是一个雏形,把最基本的东西给完成了,不过,后面可添加的也不多.有一点,还是想去实现,那就是敌方坦克自己寻找对手!也就是游戏AI. emmm, 什么时候可以了解一下这个AI.顺便学学py ...

  9. fusion--RNAseq

    融合基因(Fusion gene)是指两个基因的全部或一部分的序列相互融合为一个新的基因的过程.其有可能是染色体易位.中间缺失或染色体倒置所致的结果. 异常的融合基因可以引起恶性血液疾病以及肿瘤.例如 ...

随机推荐

  1. 【二食堂】Alpha - 项目展示

    项目展示 1. 团队介绍 二食堂很难排队 姓名 介绍 职务 刘享 热爱游戏,尤其是RPG和metrovinia类的游戏. 会C/C++, python, java. 后端 左正 一个普通的大学生,Py ...

  2. DDL_Killer Alpha版本 Bug集中反馈处

    本博客用于DDL_Killer Alpha版本的Bug集中反馈. 您可以在本博客的下方评论区处留言,反馈您在使用DDl_Killer的过程中遇到的问题,以帮助我们更好的改进本产品. 我们会尽快修复找到 ...

  3. react 生命周期 个人见解

    初始化/实例期 gitDefaultprops 获取组件的默认props状态 gitInitialstate 类定义方式或是直接在构造函数中挂载state componentWillMount  组件 ...

  4. Python课程笔记(六)

    今天上课补上了上次未学完比较重点的鼠标和键盘事件,同时开始学习运用turtle进行绘图. 本次课程的代码: https://gitee.com/wang_ming_er/python_course_l ...

  5. Java并发:AbstractQueuedSynchronizer(AQS)

    队列同步器 AbstractQueuedSynchronizer 是一个公共抽象类.提供一个同步器框架,用于实现依赖于先进先出(FIFO)等待队列的阻塞锁和相关同步器(信号量,事件等).使用一个 in ...

  6. HTML+CSS基础(HTML篇)

    引言 在日常开发Android中,很多时候会遇到和WebView打交道,对CSS HTML JS不是很清楚的话是完不成一些功能的,本篇开始学习HTML,文章的主要内容是总结了慕课网中,HTML+CSS ...

  7. linux 内核源代码情景分析——linux 内核源代码中的C语言代码

    linux 内核的主体是以GNU的C语言编写的,GNU为此提供了编译工具gcc.GNU对C语言本身作了不少扩充. 1) gcc 从 C++ 语言中吸收了"inline"和" ...

  8. SpringBoot热部署(7)

    1.引入热部署依赖包 <dependency> <groupId>org.springframework.boot</groupId> <artifactId ...

  9. 【java+selenium3】多窗口window切换及句柄handle获取(四)

    一 .页面准备 1.html <html> <head> <title>主页面 1</title> </head> <body> ...

  10. JMeter 5.4 打开测试计划 报错:Unexpected error

    保存测试计划名为: 新增用户.jmx 关闭 JMeter 再次打开JMeter : 双击 jmeter.bat JMeter 启动 打开 新增用户.jmx Unexpected error. 看上图 ...