41、OrthoMCL和mcl软件进行基因家族分析

转载：http://www.realbio.cn/news/124.html

https://blog.csdn.net/seallama/article/details/43820763

http://www.cnblogs.com/huangying78/p/8638506.html

1. 数据库的配置

OrthoMCL的分析需要先行建立mysql账户并建立相应的数据库。关于mysql用户的创建我们不在此进行介绍，我们以已经建立好的账户（账户名user，密码123456）为例进行操作。
A. 在linux环境下输入mysql -uuser -p123456进入mysql界面；
B. 输入create database orthomcl;建立一个名为orthomcl的空数据库用以存放分析时的中间文档；
C. 输入\q退出mysql界面。

2 软件下载
OrthoMCL的分析需要OrthoMCL软件本体和mcl软件。
OrthoMCL软件下载地址为：http://orthomcl.org/common/downloads/software/，解压缩后，其中包含文件夹:bin、config、doc、lib四个文件夹，添加bin路径为环境变量

mcl软件下载地址为：http://www.micans.org/mcl/src/mcl-latest.tar.gz；下载后使用：’./configure && make && make install’安装即可。包含发的文件是bin 、share。

3 配置OrthoMCL软件
进入安装路径下，输入：cp~/orthomclSoftwarev2.0.9/doc/OrthoMCLEngine/Main/orthomcl.config.template ~/example，将~/orthomcl.config.template拷贝到工作目录（以~/example为例）中，该文件为OrthoMCL的配置文件，以使用mysql数据库为例，其中的内容如下：cat orthomcl.config.template

dbVendor=mysql   #使用的数据库为mysql
dbConnectString=dbi:mysql:orthomcl   #使用之前建立的名为orthomcl的数据库
dbLogin=user    #创建的用户名
dbPassword=123 #密码
similarSequencesTable=SimilarSequences #
orthologTable=Ortholog
inParalogTable=InParalog
coOrthologTable=CoOrtholog
interTaxonMatchView=InterTaxonMatch
percentMatchCutoff=50
evalueExponentCutoff=-5
oracleIndexTblSpc=NONE

4 分析过程

4.1 输入文件格式转化

orthomcl的输入文件为fasta格式的基因或蛋白序列，fasta文件的序列名称要求以样品名开头之后接’|’分隔，之后接每个样品的序列名（如例1），而且样品名和序列名不能有重复。

命令：orthomclAdjustFasta程序，将fasta文件转换出兼容orthomcl的fasta文件使用命令：（1）orthomclAdjustFasta A(B,ref) X1(X2,X3).fa 1，结果输出为A(B，ref).fasta。（单个跑完再合并）。本文生成样品A，B和参考序列ref为例，在compliantFasta文件夹中的序列文件名分别为：A.fa,b.fa,ref.fa。

例1：

>A|gene1

ASSRKSKWQFMGARDAGAKDELRQVYGVSERTESDGAANLIHKLRAINYTLAELGQWCAYKVGQSFLSAL

>B|contig1

KDELRQVYGVSERTESD

4.2 输入文件合并过滤

使用命令：orthomclFilterFasta compliantFasta/ 10 20。允许的最短的protein长度是10，stop codons最大比例为20%；生成了两个文件（2）goodProteins.fasta和poorProteins.fasta两个文

4.3 全序列比对

将上一步的goodProteins.fasta序列进行自身的多序列比对，比对使用软件为blast+，输出结果为all.m8.anno。文件太大可以拆分比对，最后合并
/share/nas2/genome/bin//blastall -b 1000 -v 1000 -a 2 -p blastp -e 1e-5 -F F -d goodProteins.fasta -i goodProteins.fasta.div1/goodProteins.fasta.f2.106.seq -o /goodProteins.fasta.div1/goodProteins.fasta.f2.106.seq.blast -m 8

cat goodProteins.fasta.f2.*.seq.blast >（3）all_VS_all.out.tab 还可以去除重复（一列，二列）最后获得（4）all_VS_all.result

4.4 导入比对结果
将比对结果导入mysql数据库，包含以下几个步骤：
A. 将比对结果转化为规定格式，命名为similarSequences.txt，命令为：（5）orthomclBlastParser all_VS_all.result seq > similarSequences.txt
B. 将similarSequences.txt导入到数据库中，命令为：orthomclLoadBlast orthomcl.config.template similarSequences.txt

4.5 寻找paired蛋白
输入为数据库中的表SimilarSequences，和数据库的空表InParalog, Ortholog, CoOrtholog tables；输出为对这些空表的操作，命令为：orthomclPairs orthomcl.config.template orthomcl_pairs.log cleanup=no。

4.6 将数据从mysql导出

生成（6）mcllnput文件和pairs目录。这个目录包含三个文件:
ortholog.txt, coortholog.txt, inparalog.txt。
每一个文件有三列: proteinA, protein B, their normalized score (See the Orthomcl Algorithm Document)。

命令为：orthomclDumpPairsFiles orthomcl.config.template。

4.7 使用mcl对paired蛋白聚类
命令为：mcl mclInput --abc -I 1.5 -o （7） mclOutput。

4.8 对结果编号
命令为：orthomclMclToGroups gf 1 < mclOutput > （8）groups.txt。家族名为gf_1，gf_2，gf_3...，格式如图2 。

41、OrthoMCL和mcl软件进行基因家族分析的更多相关文章

ocky勒索软件恶意样本分析1
locky勒索软件恶意样本分析1 1 locky勒索软件构成概述前些时期爆发的Locky勒索软件病毒这边也拿到了一个样本,简要做如下分析.样本主要包含三个程序: A xx.js文件:Jscript脚 ...
ocky勒索软件恶意样本分析2
locky勒索软件恶意样本分析2 阿尔法实验室陈峰峰.胡进前言随着安全知识的普及,公民安全意识普遍提高了,恶意代码传播已经不局限于exe程序了,Locky敲诈者病毒就是其中之一,Locky敲诈者使 ...
从零开始学生信-orthofinder的安装和使用-基因家族分析
[环境变量]注释掉conda3,source ~/.bashrc conda install orthofinder # 若在上一章之后没有重启的同学请重启后操作. # 由于是刚开始搭建,这里没有给o ...
对魔兽世界、支付宝、Linux三类软件的简单分析
软工第一次作业: 软件有很多种,如工具类软件.游戏类软件.系统类软件,它们的运行方式也各种各样,如以单机方式运行.以网站方式运行或者以APP方式运行在手机端等,请选取三种软件,分析它们各自的特点. 这 ...
Joomla及其类似软件的说明分析
Joomla不单单是一款免费的软件,还是在国外相当知名的及内容管理.web开发及手机应用开发等为一体的一套系统.Joomla是使用PHP语言加上MySQL数据库所开发的软件系统,可以在Linux. W ...
基于web的IM软件通信原理分析
关于IM(InstantMessaging)即时通信类软件(如微信,QQ),大多数都是桌面应用程序或者native应用较为流行,而网上关于原生IM或桌面IM软件类的通信原理介绍也较多,此处不再赘述.而 ...
面向对象的软件project——面向对象分析
为了解决软件危机.一些IT前辈国产软件project这个词汇,软件project它被引入到整个软件开发过程的维护. 软件project从程序的设计角度能够分为两类.一类是面向结构的软件project. ...
软件测试之BUG分析定位概述（QA如何分析定位BUG）
你是否遇到这样的场景? QA发现问题后找到DEV说: 不好了,你的程序出问题了! DEV(追查半小时之后): 唉,是你们测试环境配置的问题唉,是你们数据不一致唉,是你们**程序版本不对唉,是** ...
R软件中文本分析安装包 Rjava 和 Rwordseg 傻瓜式安装方法四部曲
这两天,由于要做一个文本分析的内容,所以搜索了一天R语言中的可以做文本分析的加载包,但是在安装包的过程,真是被虐千百遍,总是安装不成功.特此专门写一篇博文,把整个心塞史畅快的释放一下. ------- ...

随机推荐

CSS设计取消a标签的修饰，转为文本
用法:text-decoration:none;修饰:text-decoration的用法:http://www.runoob.com/cssref/pr-text-text-decoration.h ...
c&c++ datetime
时间函数之间的关系 struct tm { int tm_sec; // 代表目前秒数,正常范围0-59,但允许至61秒: int tm_min; // 代表目前分数,范围为0-59. int tm_ ...
php查询mysql时，报超出内存错误（select count(distinct)）时
学时服务器查询教练所带人数时,使用select count(distinct(u_STRNO))时报超出内存错误.后参考“mysqld-nt: Out of memory解决方法”http://jin ...
npm包的发布
假设该待发布包在你本地的项目为 project1 包的本地安装测试在发布之前往往希望在本地进行安装测试.那么需要一个其他的项目来本地安装待发布项目. 假设该其他项目为project2.假设proje ...
ubuntu下使用code::blocks编译运行一个简单的gtk+2.0项目
在具体的操作之前,首先需要安装一些必要的软件.ubuntu下默认安装了gcc,不过缺少必要的Header file,可以在命令行中输入下面的指令安装build-essential套件:sudo apt ...
深入浅出K-Means算法
在数据挖掘中,K-Means算法是一种cluster analysis的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法. 问题 K-Means算法主要解决的问题如下图所示. ...
常用hash算法及评测[转]
RS hash 算法 unsigned int RSHash(char* str, unsigned int len) { unsigned int b = 378551; un ...
1056 Mice and Rice
题意:略思路:利用queue来模拟一轮一轮的比赛.自己第一遍做的时候完全没有用queue做的意识,代码写的贼烦最后还只得了17分,非常郁闷.通过本题反映出对queue的应用场景季度不熟悉,STL里面 ...
PHP生成唯一固定长度邀请码
function create_invite_code() { $code = 'ABCDEFGHIJKLMNOPQRSTUVWXYZ'; $rand = $code[rand(0,25)] .str ...
Linux学习笔记 -- 磁盘的管理
df df命令参数功能:检查文件系统的磁盘空间占用情况.可以利用该命令来获取硬盘被占用了多少空间,目前还剩下多少空间等信息. 语法: df [-ahikHTm] [目录或文件名] 选项与参数: -a ...

41、OrthoMCL和mcl软件进行基因家族分析

41、OrthoMCL和mcl软件进行基因家族分析的更多相关文章

随机推荐

热门专题