InterProScan 5.18-57.0 安装和使用,目前最新版的interproscan

引用自 每日一生信--interproscan安装及使用(终结版)原文官网:http://code.google.com/p/interproscan/wiki/Introduction

配置要求:至少2 cores and 4 GB of RAM, 这样才能同时分析5 - 10 sequences .

软件要求:

Linux, 32 bit or 64 bit (64 bit recommended).

Perl (default on most Linux distributions)

Oracle's Java JDK/JRE version 6u4 and higher (which also includes Java 7)

Environment variables set

JAVA_HOME should point to the location of the JVM

$JAVA_HOME/bin should be added to the CLASSPATH

查看我的配置:

[wq@localhost ~]$ uname -a                    

Linux localhost.localdomain 2.6.18-238.el5 #1 SMP Sun Dec 19 14:22:44 EST 2010 x86_64 x86_64 x86_64 GNU/Linux

其中x86_64代表64 Bit

 

[wq@localhost ~]$ java -version

java version "1.6.0_35"
OpenJDK Runtime Environment (IcedTea6 1.13.7) (rhel-1.13.7.1.el5_11-x86_64)
OpenJDK 64-Bit Server VM (build 23.25-b01, mixed mode)

现在仅仅支持 version1.6 or 1.7

如果你的系统式redhat,自带java版本1.4,需要对java进行升级,使用yum就可以升级,yum安装可以查看我的另一篇博客

 

[wq@localhost ~]$perl -version

This is perl, v5.8.8 built for x86_64-linux-thread-multi

Copyright 1987-2006, Larry Wall

Perl may be copied only under the terms of either the Artistic License or the
GNU General Public License, which may be found in the Perl 5 source kit.

Complete documentation for Perl, including FAQ lists, should be found on
this system using "man perl" or "perldoc perl". If you have access to the
Internet, point your browser at http://www.perl.org/, the Perl Home Page.

 

安装interproscan5

1获得InterProScan software(x64)mkdir interproscancd interproscan

wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.18-57.0/interproscan-5.18-57.0-64-bit.tar.gz
wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.18-57.0/interproscan-5.18-57.0-64-bit.tar.gz.md5

# 使用md5保证下载文件的完整性,返回OK才证明完整

md5sum -c interproscan-5.18-57.0-64-bit.tar.gz.md5

2解压缩

tar -pxvzf interproscan-5.18-57.0-64-bit.tar.gz

 

2.安装panther Models

下载Panther Models到刚解压缩的文件的子目录/data下面

cd [InterProScan5 home]/data/

wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/data/panther-data-10.0.tar.gz

wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/data/panther-data-10.0.tar.gz.md5

 

这个文件大小大概为12 GB,下载结束后需要检查一下MD5

md5sum -c panther-data-10.0.tar.gz.md5

出现# This must return *panther-data-10.0.tar.gz: OK*证明下载的没问题,否则重新下载

 

解压缩

tar -pxvzf panther-data-10.0.tar.gz

如果想把这个放在其他的文夹件的话,可以修改[InterProScan5 home]/interproscan.properties 文件,改下面的东西

panther.models.dir.10.0=PATH_TO/panther/10.0/model

 

3. 使用Pre-calculated Match Lookup 网络服务器

The pre-calculated match lookup网页服务器能够提供超过3千万蛋白序列的比对,包括所有的UniProtKB蛋白序列. InterProScan 5使用这个服务器能够加速本地服务器的速度。这是这个版本的特点要想使用这个服务器的话,需要电脑能上网:http://www.ebi.ac.uk

如果你的电脑防火墙阻止访问这个网站,你可以下载本地化的InterProScan 5 lookup service(https://code.google.com/p/interproscan/wiki/LocalLookupService)或者关掉这个功能关掉这个功能的时候,你可以在命令行加入-dp 或者修改interproscan.properties 在前面加一个#注释掉即可

precalculated.match.lookup.service.url=http://www.ebi.ac.uk/interpro/match-lookup

 

 

如何使用interproscan

./interproscan.sh -i /path/to/sequences.fasta  –o /san/  –goterms –iprlookup –pa -f xml

 

可以运行其提供的例子: ./interproscan.sh -i test_proteins.fasta -f  tsv

会得到tsv格式的结果,里面包含了很多数据库Gene3d, PIRSF,PRINTS,PANTHER,SUPERFAMILY,PFAM,TIGERFAM等比对的结果。

如果运行不了,请参考该网页提供的问题解决方案:

https://code.google.com/p/interproscan/wiki/FAQ#3.What_should_I_do_if_one_of_the_binaries_included_with_InterProScan_5_does_not_work_on_my_system?

 

Cd  /interproscan

可以直接在终端输入./interproscan.sh,你会看到用法信息

 

-appl  单独分析,没有这个的话,所有的结果都将呈现  

指定数据库,可以不加数据库的版本 

./interproscan.sh -appl PfamA -i /path/to/sequences.fasta

If you wish to specifically run two or more analyses you can include multiple -appl arguments:

也可以指定多个数据库

./interproscan.sh -appl PfamA-27.0 -appl PRINTS-42.0 -i /path/to/sequences.fasta

or you can use a single -appl option with a comma-separated list of analyses:

或者可以通过,把多个数据放在一起。

./interproscan.sh -appl PfamA,PRINTS -i /path/to/sequences.fasta

A list of all available analyses is in the section "Included Analyses"

 

-b     base output filename指定生成文件路径,跟-o效果一样,如果不加,默认的名字和路径。自动往生成文件名加指定文件后缀。

-d     output directory, 跟-b ,-o互斥,

-dp    关闭precalculated match lookup service,默认的是开启。根据md5值来快速检验这上传的数据是否已经被注释了,如果是已经注释了就直接出结果。节省时间。

-f      输出文件的格式,支持的格式为TSV, XML, GFF3, HTML and SVG。蛋白默认的格式为

TSV, XML 和 GFF3, 核酸的格式之前为GFF3 和XML,现在都可以了哦。

./interproscan.sh -f XML -f HTML -i /path/to/sequences.fasta -b /path/to/output_file

or

./interproscan.sh -f XML, HTML -i /path/to/sequences.fasta -b /path/to/output_file

集中输出格式的区别:https://code.google.com/p/interproscan/wiki/OutputFormats

-i      输入的为fasta格式文件。

-goterms开启GO注释,但前面要加上-iprlookup参数

-iprlookup开启interpro注释

-ms      最小核酸ORF的大小,如果设置的小的话,花的时间会长。

-o       跟前面的-b.-d不能同时出现,如果设置了这个,就必须设置-f

-pa      开启可能的代谢注释

-T       默认的临时文件在/tmp,这个是可以设置临时文件的位置

-t       输入序列的类型。默认的是蛋白, 可以为dna或者为rna

 

涉及到的数据库:

可以直接用的。

TIGRFAM-XX.X : TIGRFAMs 基于隐马尔可夫模型的蛋白家族库

ProDom-XXXX.X: ProDom 是由UniProt Knowledge Database自动生成的蛋白域家族。

Panther-X.X : The PANTHER (Protein ANalysis THrough Evolutionary Relationships)是一个独立的根据功能来分类平台,使用已公布的实验证据和进化关系来预测没有直接实验证据的基因的功能,

SMART-X.X : SMART 可以用来鉴别和分析基于隐马尔可夫模型的域构架        PrositeProfiles-XX.XX :PROSITE 包含描述蛋白域,家族,功能位点和关系的入口文件,用来         

区别这些蛋白的编号。

PrositePatterns-XX.X.XX :同上

SuperFamily-X.XX : SUPERFAMILY可以给核酸和蛋白做功能和结果注释的数据库。                 PRINTS-XX.X : A fingerprint是一个保守的模型用来描述蛋白家族。                 Gene3d-X.X.X :通过使用 CATH域结构数据库来对全基因和基因组进行结构分析

PIRSF-X.XX : The PIRSF是用来但做一个指导把UniProtKB序列进行无重叠和深度分类,来反映他们进化关系                  

PfamA-XX.X : 一大类蛋白家族,每一个代表对序列比对和隐马尔可夫的结果。

HAMAP-XXXXXX.XX : High-quality Automated and Manual Annotation of Microbial Proteomes高质量自动注释和手工注释微生物的蛋白组

Coils-X.X :对蛋白组卷曲螺旋区域的预测

 

无效的分析:

SignalP-GRAM_NEGATIVE-X.X : Analysis SignalP-GRAM_NEGATIVE-X.X is deactivated, because the following parameters are not set in the interproscan.properties file: binary.signalp.X.X.path

SignalP-GRAM_POSITIVE-X.X : Analysis SignalP-GRAM_POSITIVE-X.X is deactivated, because the following parameters are not set in the interproscan.properties file: binary.signalp.X.X.path

SignalP-EUK-X.X : Analysis SignalP-EUK-X.X is deactivated, because the following parameters are not set in the interproscan.properties file: binary.signalp.X.X.path

 Phobius-X.XX : Analysis Phobius-X.XX is deactivated, because the following parameters are not set in the interproscan.properties file: binary.phobius.pl.path.X.XX

TMHMM-X.Xc : Analysis TMHMM-X.Xc is deactivated, because the following parameters are not set in the interproscan.properties file: binary.tmhmm.path

 

核酸序列的扫描

     Emboss getorf.是内嵌在interproscan中的基因预测的软件,如果你想本地安装这个软件的话,必须修改interproscan.sh script

# set environment variables for getorf

export EMBOSS_ACDROOT=bin/nucleotide

export EMBOSS_DATA=bin/nucleotide

如果输入的是核酸序列,在运行命令的时候需要加入-t这个参数

./interproscan.sh -t n -i /path/to/nucleic_acid_sequences.fasta

 

格式转换

可以将xml转化为其他的格式

./interproscan.sh -mode convert -f tsv,gff3,svg -i /path/to/impact.xml -o /path/to/output_file_basename

 

InterProScan 5.17-56.0 安装和使用的更多相关文章

  1. InterProScan 5.25-64.0 安装和使用

    InterProScan 5.25-64.0 安装和使用,目前最新版的interproscan 引用自 每日一生信--interproscan安装及使用(终结版)原文官网:http://code.go ...

  2. centos 7.0 安装vim

    用的最小化 安装 看看跟VI命令有何区别 后面会记录使用经验 [root@localhost conf]# yum -y install vim 已加载插件:fastestmirror base | ...

  3. mysql/mongodb监控之Percona Monitoring and Management (PMM) 2.1.0安装使用

    Percona Monitoring and Management (PMM)是Percona Server一款开源的用于管理和监控MySQL和MongoDB性能的开源平台,通过PMM客户端收集到的D ...

  4. 记:MySQL 5.7.3.0 安装 全程截图

    前言: 下一个班快讲MySQL数据库了,正好把服务器里面的MySQL卸了重装了一下. 截个图,作为笔记.也正好留给需要的朋友们. 目录: 下载软件 运行安装程序 安装程序欢迎界面 许可协议 查找更新 ...

  5. [转]phoneGap3.0安装步骤(以windows下的android环境为例):

    phoneGap3.0安装步骤(以windows下的android环境为例): 环境: WIN系统,JDK,Android,Eclipse,Ant,Git,PhoneGap3.x (Cordova) ...

  6. boost 1.56.0 编译及使用

    boost的编译和使用,经过搜集资料和总结,记录成文.感谢文后所列参考资料的作者. 1 下载 地址:http://sourceforge.net/projects/boost/files/boost/ ...

  7. inux环境PHP7.0安装

    inux环境PHP7.0安装   PHP7和HHVM比较PHP7的在真实场景的性能确实已经和HHVM相当, 在一些场景甚至超过了HHVM.HHVM的运维复杂, 是多线程模型, 这就代表着如果一个线程导 ...

  8. 008. asp.net mvc3.0安装文件及其安装时发生错误的解决方案

    0. 安装步骤: vs2010 → vs2010sp1→ AspNetMVC3Setup.exe→ AspNetMVC3Setup_CHS.exe→ AspNetMVC3ToolsUpdateSetu ...

  9. 对不起,说句粗话——这个太屌了,windows1.0安装程序(附下载)

    今天逛一个软件论坛发现的,仅仅有几百K.遥想当今我刚接触windows的版本号是3.1,当时记得非常清楚哦,进入windows要从dos命令行进入.如今一转眼,变成进入伪dos是执行栏里敲cmd了.唉 ...

随机推荐

  1. Win2008R2 zip格式mysql 安装与配置

    一.百度mysql5.6 ZIP 64位免安装版  下载好后 解压到D盘下 二.可以考虑修改my.ini里面的配置   character-set-server=utf8   这句是编码格式设定   ...

  2. composer autoload

    1.引入autoload 文件 include “vendor/autoload.php” 2.自定义的单文件引入 “autoload”:{ "files":["lib/ ...

  3. textView截取字符串-医生工作台1期

    textfield截取字符串 ios7 会崩溃 解: 之前的写法是这样的 正确的写法:   先判断markedTextRange是否为nil,   markedTextRange这个属性是啥意思呢 表 ...

  4. mina学习(一)

    Mina:是一个帮助用户开发高性能和高伸缩性网络应用程序的框架 学习地址链接:http://www.cnblogs.com/xuekyo/archive/2013/03/06/2945826.html ...

  5. Redis学习笔记(5)-Set

    package cn.com; import java.util.HashMap; import java.util.Map; import java.util.Set; import redis.c ...

  6. 【C51】单片机芯片之——图解74HC595

    第一部部分用于快速查阅使用,详细的使用见文章第二部分 引脚图

  7. IOS证书的申请和使用

    苹果的证书繁锁复杂,制作管理相当麻烦,今天决定重置一个游戏项目中的所有证书,做了这么多次还是感觉很纠结,索性直接记录下来,日后你我他查阅都方便: 关于证书 苹果使用密文签名技术来验证App的合法性,不 ...

  8. mongoDB 安装配置

    1. 配置文件: 建立配置文件 :mongodb.conf dbpath=D:\mongoDb\data\db #配置数据库目录路径,预先手动创建db目录 logpath=D:\mongoDb\dat ...

  9. 根据 字数 确定 UI控件高度

    //字体 textLabel.font = [UIFont systemFontOfSize:13]; CGFloat labelWidth = [UIScreen mainScreen].bound ...

  10. MFC的简单加法器(二)

    创建对话框主要分两大步,第一,创建对话框资源,主要包括创建新的对话框模板.设置对话框属性和为对话框添加各种控件:第二,生成对话框类,主要包括新建对话框类.添加控件变量和控件的消息处理函数等.鸡啄米在本 ...