最近帮女朋友做毕业设计的时候用到了 PAML这个软件的codeml功能,发现网上相关的资料很少,于是把自己踩的一些坑分享一下,希望能帮到其他有相同困难的人

一、下载与安装

PAML软件下载地址

http://abacus.gene.ucl.ac.uk/software/paml4.9j.tgz

DAMBE软件下载地址

http://dambe.bio.uottawa.ca/DAMBE/dambe_install_win.aspx

二、使用方法

首先准备好你的fas文件

我们需要将fas文件转换一下格式,方法很多,我这边说两种方法,这两种方法最后得到的文件内容完全相同,只是后缀名不同

方法一:

使用python脚本转换

将你的*.fas文件与脚本放在同一目录下,执行脚本,会生成一个.phy文件

import re
with open('seven.fas', 'r') as fin:
sequences = [(m.group(), ''.join(m.group().split()))
for m in re.finditer(r'(?m)^>([^ \n]+)[^\n]*([^>]*)', fin.read())]
with open('seven.phy', 'w') as fout:
fout.write('%d %d\n' % (len(sequences), len(sequences[][])))
for item in sequences:
fout.write('%-20s %s\n' % item)

方法二:

使用DAMBE软件转换格式

1.打开DAMBE,选择 File -> Open standard sequence file -> 文件类型选择为包含 fas 类型 -> 选择你的fas文件

2.点击 go

3.点击 File -> save or convert sequence format  -> 选择 paml 格式

4.手动修改 *.pml 的后缀名为 *.nuc

通过以上两个方法会得到一份 *.phy 或者 *.nuc 文件

接下来需要去除序列中的终止密码子

 TAG,TAA,TGA

你可以全选文件内容查找替换 将  TAG/TAA/TGA 替换为 ---

也可以使用下面这个python脚本

import re

with open(r'seven.phy', 'r') as f:
content = f.read()
content = content.replace("TAG","---")
content = content.replace("TAA", "---")
content = content.replace("TGA", "---")
# print(content) with open('sevenend.phy', 'w') as f:
f.write(content)

会生成一个去除过终止密码子的文件

现在将这个处理过后的序列文件*.phy与树文件、配置文件codeml.ctl三个放在  \paml4.9j\bin 目录下

配置文件codeml.ctl内容如下可参考 一般修改前面三行即可 按顺序为序列文件名 树文件名 输出文件名

      seqfile = seven.nuc * sequence data filename
treefile = Newick * tree structure file name
outfile = test.txt * main result file name noisy = * ,,,,: how much rubbish on the screen
verbose = * : concise; : detailed, : too much
runmode = - * : user tree; : semi-automatic; : automatic
* : StepwiseAddition; (,):PerturbationNNI; -: pairwise seqtype = * :codons; :AAs; :codons-->AAs
CodonFreq = * :/ each, :F1X4, :F3X4, :codon table * ndata =
clock = * :no clock, :clock; :local clock; :CombinedAnalysis
aaDist = * :equal, +:geometric; -:linear, -:G1974,Miyata,c,p,v,a
aaRatefile = dat/jones.dat * only used for aa seqs with model=empirical(_F)
* dayhoff.dat, jones.dat, wag.dat, mtmam.dat, or your own model =
* models for codons:
* :one, :b, : or more dN/dS ratios for branches
* models for AAs or codon-translated AAs:
* :poisson, :proportional, :Empirical, :Empirical+F
* :FromCodon, :AAClasses, :REVaa_0, :REVaa(nr=) NSsites = * :one w;:neutral;:selection; :discrete;:freqs;
* :gamma;:2gamma;:beta;:beta&w;:betaγ
* :beta&gamma+; :beta&normal>; :&2normal>;
* :3normal> icode = * :universal code; :mammalian mt; -:see below
Mgene =
* codon: :rates, :separate; :diff pi, :diff kapa, :all diff
* AA: :rates, :separate fix_kappa = * : kappa fixed, : kappa to be estimated
kappa = * initial or fixed kappa
fix_omega = * : omega or omega_1 fixed, : estimate
omega = . * initial or fixed omega, for codons or codon-based AAs fix_alpha = * : estimate gamma shape parameter; : fix it at alpha
alpha = . * initial or fixed alpha, :infinity (constant rate)
Malpha = * different alphas for genes
ncatG = * # of categories in dG of NSsites models getSE = * : don't want them, 1: want S.E.s of estimates
RateAncestor = * (,,): rates (alpha>) or ancestral states ( or ) Small_Diff = .5e-
cleandata = * remove sites with ambiguity data (:yes, :no)?
* fix_blength = * : ignore, -: random, : initial, : fixed, : proportional
method = * Optimization method : simultaneous; : one branch a time * Genetic codes: :universal, :mammalian mt., :yeast mt., :mold mt.,
* : invertebrate mt., : ciliate nuclear, : echinoderm mt.,
* : euplotid mt., : alternative yeast nu. : ascidian mt.,
* : blepharisma nu.
* These codes correspond to transl_table to of GENEBANK.

在此目录下打开命令行

输入一下命令即可

codeml

当前目录下就会出现结果文件 test.txt  以及其他文件了

在过程中我遇到过许多报错提供给大家参考一下

67 columns are converted into ??? because of stop codons

这个报错是因为没有去除文件中的终止密码子,可以参考上面的步骤去除

Error: Error in sequence data file: . in 1st seq.?.

Error: check #seqs and tree: perhaps too many '('?.

Make sure to separate the sequence from its name by 2 or more spaces.

以上报错均为你的序列文件内容/格式有问题,麻烦按照上面的步骤重新生成序列文件或者参考其他人的文件格式

通过PAML中的CODEML模块计算dnds的过程以及踩坑的更多相关文章

  1. 在mac版virtual box中安装ubuntu虚拟机的NAT/Host-Only网络配置踩坑记录

    之前用惯了vmware和parallels desktop,网络配置十分智能,基本不用自己配置.由于版权原因,工作电脑上换了免费的virtual box用,四五年都完全在虚拟机里干活的本菜鸡居然在虚拟 ...

  2. 13.在项目中部署redis企业级数据备份方案以及各种踩坑的数据恢复容灾演练

    到这里为止,其实还是停留在简单学习知识的程度,学会了redis的持久化的原理和操作,但是在企业中,持久化到底是怎么去用得呢? 企业级的数据备份和各种灾难下的数据恢复,是怎么做得呢? 1.企业级的持久化 ...

  3. 游戏中VIP会员模块的简单实现

    哈哈  今天周末有时间,再整理一篇博文上来,虽然已经不做游戏老长时间了,但还是要把以前做过的东西总结一下,借此可以回顾以前的东西,也可以分享给大家. 今天说一下游戏中VIP会员模块的实现思路.每款游戏 ...

  4. Python中函数和模块的体验与使用

    函数基础 目标 函数的快速体验 函数的基本使用 函数的参数 函数的返回值 函数的嵌套调用 在模块中定义函数 01. 函数的快速体验 1.1 快速体验 所谓函数,就是把 具有独立功能的代码块 组织为一个 ...

  5. python中的常用模块

    python中常用的模块 time: 1)time.localtime([secs]):将一个时间戳转换为当前时区的struct_time.secs参数未提供,则以当前时间为准. 2)time.gmt ...

  6. 创建多进程之multiprocess包中的process模块

    创建多进程之multiprocess包中的process模块 1.process模块是一个创建进程的模块 Process([group [, target [, name [, args [, kwa ...

  7. python使用datetime模块计算各种时间间隔的方法

    python使用datetime模块计算各种时间间隔的方法 本文实例讲述了python使用datetime模块计算各种时间间隔的方法.分享给大家供大家参考.具体分析如下: python中通过datet ...

  8. 【转帖】一文看懂docker容器技术架构及其中的各个模块

    一文看懂docker容器技术架构及其中的各个模块 原创 波波说运维 2019-09-29 00:01:00 https://www.toutiao.com/a6740234030798602763/ ...

  9. PIL 中的 Image 模块

    转载:http://www.cnblogs.com/way_testlife/archive/2011/04/20/2022997.html   PIL 中的 Image 模块 本文是节选自 PIL ...

随机推荐

  1. BUUOJ [BJDCTF 2nd]elementmaster

    [BJDCTF 2nd]elementmaster 进来就是这样的一个界面,然后就查看源代码 转换之后是Po.php,尝试在URL之后加上看看,出现了一个“.“ ....... 迷惑 然后看了wp 化 ...

  2. 最新VMware虚拟机安装Linux系统-CentOS(详细教程)

    一.前言 最近有网友反应初学Linx不会安装,找了许多教程不是太全面,总会遇到一些要不是启动不了,要不是连不上网,各种问题,为了让大家能够顺利的安装,小乐写了一个非常详细的教程,让大家少入坑. 二.背 ...

  3. webpack之Loader

    我们知道webpack的优点之一就是专注于处理模块化的项目,能做到开箱即用,但同时这也是webpack的缺点,只能用于模块化开发的项目,例如:Vue,React,Angular.Webpack在进行打 ...

  4. 磁盘性能测试工具之fio

    fio是测试磁盘性能的一个非常好的工具,用来对硬件进行压力测试和验证. 注意事项 CentOS 6.5等较老版本的操作系统用fdisk创建分区时,默认为非4KB对齐选择初始磁柱编号,对性能有较大的影响 ...

  5. golang依赖管理

    目录 使用GOPATH管理依赖 临时GOPATH 依赖查找路径 使用GOVENDER管理依赖 使用GO111MODULE管理依赖 Usage 常用命令列表 不常用命令 使用示例 开启GO111MODU ...

  6. gojs去水印

    重点在go.js文件中将这个方法中的代码注释掉即可 搜索关键字 7ca11abfd022028846 然后注释下列代码,注释前先整理JS格式 function ni() { if(th) { var ...

  7. 【JAVA基础】05 Java语言基础:数组

    1. 数组概述和定义格式说明 为什么要有数组(容器) 为了存储同种数据类型的多个值 数组概念 数组是存储同一种数据类型多个元素的集合.也可以看成是一个容器. 数组既可以存储基本数据类型,也可以存储引用 ...

  8. Retrofit的文件上传和进度提示

    2019独角兽企业重金招聘Python工程师标准>>> 1.写一个上传监听的接口: /** * Created by Zzm丶Fiona on 2017/7/31. */ publi ...

  9. C语言入门经典题目及其答案

    写在开始: 我叫风骨散人,名字的意思是我多想可以不低头的自由生活,可现实却不是这样.家境贫寒,总得向这个世界低头,所以我一直在奋斗,想改变我的命运给亲人好的生活,希望同样被生活绑架的你可以通过自己的努 ...

  10. MySQL高级(十三)--- 表锁

    前言:锁是计算机协调多个进程或线程并发访问某一资源的机制.在数据库中,除传统的计算机资源(如CPU.RAM.I/O等)的争用外,数据也是一种供许多用户共享的资源.如何保证数据并发访问的一致性.有效性是 ...