【基因组注释】RepeatMasker和RepeatModeler安装、配置与运行避坑
1.conda安装
conda安装虽然简单,但还是有很多坑,而且很多都是隐形的坑。
# conda install -c bioconda repeatmasker
conda install -c bioconda repeatmodeler
repeatmodeler依赖于repeatmasker,因此其实你只要安装repeatmodeler就好。其中repeatmasker很大,270多Mb,网络不行的话你需要多换几个镜像试试。
安装后,试运行各个程序没毛病,但其实隐藏杀机。
2.配置RepBase
RepBase注册下载需要审核等待,在网上找现成的就好。RepBaseRepeatMaskerEdition-20181026.tar.gz
解压后,将其复制到RepeatMasker/Libraries下面。RepBase解压后主要文件是RMRBSeqs.embl
和README.RMRBSeqs
,如有必要(目前我还没用到,所以这里可不用转化),可以通过以下脚本awk.sh转化为fasta:
/^ID/ {printf(">%s;",$0); next;}
/^(PT|PA)/ {printf(" %s;",$0); next;}
/^\/\// {printf("\n"); next;}
/^ / {printf("\n%s",substr($0,5)); next;}
{
/* ignore default */
}
END {
printf("\n");
}
运行:
awk -f awk.sh RMRBSeqs.embl >raw.fasta
cat raw.fasta | cut -f1-9 -d' '| sed -e 's/ID //g' | sed -e 's/repeatmasker\;//g'| sed -e 's/ //g' > RepBase.fasta
然后在RepeatMasker目录下配置环境:
cd /path/to/share/RepeatMasker
perl ./configure
配置2就好,其他可不用管。所以先键入2,一路回车选中默认后,键入5,即可完成配置。
3.RepeatMasker避坑
具体参数查看帮助,以下列出主要参数,最好根据资源多设几个线程。
RepeatMasker -nolow -no_is -norna -e ncbi -parallel 30 genome.fa
上面是没有指定物种的,结果证明不加物种名,我的重复序列总共只有0.1%,少得可怜。指定后,高达50%!
RepeatMasker -nolow -no_is -norna -e ncbi -parallel 30 -species rice genome.fa
这里对结果也不做说明,请查看官方文档或其他教程。
4.RepeatProteinMask避坑
repeatProteinMask比repeatMasker花费的时间要长得多(屏蔽简单串联重复)。悲哀的是,刚运行无错误,运行到一半时,出现如下错误:
Masking Simple Repeats...
- Tandem Repeats: 204178
Masking Repeat Proteins...
NCBIBlastXSearchEngine::search: Error...compressed subject database (/RepeatPeps.lib) does not exist!
at /biosoft/anaconda3/envs/repeat/share/RepeatMasker/RepeatProteinMask line 371.
找了一圈,GitHub上提了issue:RepeatProteinMask error in LIBDIR location #41
,有位大佬解决了这个问题,那就是将RepeatProteinMask程序的192行中的LIBDIR_DIR
替换为LIBDIR
。
my $LIBDIR = $config->{'LIBDIR_DIR'}->{'value'}
#改为
my $LIBDIR = $config->{'LIBDIR'}->{'value'}
维护人员说已经在新版中修复此bug,很显然conda安装的不是新版。
5.RepeatModeler避坑
RepeatModeler denovo注释的命令很简单:
BuildDatabase -name ricedb genome.fa
RepeatModeler -database ricedb -pa 20 >run.out
但是不会一帆风顺,运行到一半时,又出错:
Number of sequences (bp) added to database: 144 ( 398253226 bp )
Missing /biosoft/anaconda3/envs/repeat/share/RepeatMasker/Libraries/RepeatMasker.lib.nsq!
Please rerun the configure program in the RepeatModeler directory
before running this script.
去RepeatMasker/Libraries目录下看了一下,RepeatMasker.lib文件是空的,没有内容,RepeatMasker.lib.nsq及其他索引文件都没有!
说明RepeatMasker的安装就是有问题的。Libraries下完整的文件应该包含:
Artefacts.embl Dfam.hmm RepeatAnnotationData.pm RepeatMasker.lib.nin RepeatPeps.lib RepeatPeps.lib.psq
CONS-Dfam_3.0 README.meta RepeatMasker.lib RepeatMasker.lib.nsq RepeatPeps.lib.phr RepeatPeps.readme
Dfam.embl RMRBMeta.embl RepeatMasker.lib.nhr RepeatMaskerLib.embl RepeatPeps.lib.pin taxonomy.dat
同样地,Github上也有一个issue:Repeatmodeler package not working #9988
但是内容太泛了,看多了头晕。
最后在另一个地方看到答案解决:How to fix RepeatMasker.lib.nsq missing error when running RepeatModelor?
在Libraries目录下,解决方法:
pushd $CONDA_PREFIX/share/RepeatMasker
./util/buildRMLibFromEMBL.pl Libraries/RepeatMaskerLib.embl > Libraries/RepeatMasker.lib
perl ./configure #同之前配置
echo -e "\n2\n$(dirname $(which rmblastn))\n\n5\n" > tmp && ./configure < tmp
关于最后一条命令的解释,文中也有说明。
RepeatModeler 和RepeatProteinMask一样,也是没有多线程设置的,运行的时间非常漫长。中间出错十分头疼,难道又从头开始?
此时,我的目录下已经有很多临时文件:
网上说,运行到报错这一步,应该是已经注释完,后续是用RepeatClassifier对consensi.fa进行分类,命令如下:
RepeatClassifier -consensi consensi.fa
此时,可以正常运行。但为了保证结果的完整性,我还是决定从头重跑。
重跑开始出现如下错误:
RepeatScout filter-stage-1 failed:
Can't locate File/Which.pm in @INC (you may need to install the File::Which module) (@INC contains:
conda安装的依赖Perl中并没有安装这个模块,需要手动再安装下。或者不用这个Perl。
# 进入你的repeatmodeler环境
conda install perl-file-which
等待漫长的运行过程,最后结果如下:
6.自定义重复序列库
repeatmasker同源注释默认使用的是Dfam和RepBase库(如果你有下载),其实我用这个两个自带库就已经能屏蔽水稻约46%左右的重复序列了,直接拿来用应该没问题。
可能有些物种信息并没有这么全吧,所以要结合其他库,比如repeatmodeler从头预测的库。
我这里试图把homology和denovo库结合起来,将两者的重复序列都进行屏蔽。
首先构建水稻自带库:
/path/to/anaconda3/envs/repeat/share/RepeatMasker/util/queryRepeatDatabase.pl -species rice >rice_repeats.lib
这里千万注意不要直接用queryRepeatDatabase.pl(默认调用的是/path/to/anaconda3/envs/repeat/bin/queryRepeatDatabase.pl),要用share中的程序。否则会报错,别问我怎么知道的,折腾良久,血泪教训。
构建完成显示:
queryRepeatDatabase
===================
RepeatMasker Database: RepeatMaskerLib.embl
RepeatMasker Combined Database: Dfam_3.1, RepBase-20181026
Species: rice ( oryza sativa )
然后将同源注释库和denovo库进行整合:
cat rice_repeats.lib genome_db-families.fa >genome_custom_repeat.lib
最后屏蔽:
RepeatMasker -lib genome_custom_repeat.lib -pa 24 -xsmall genome.fa
后记
建议不要用conda安装,repeatmasker的维护人员也这么建议,有很多乱七八糟的问题没有解决。虽然手动安装比较麻烦,但它靠谱啊。
生物信息太折腾,我要少活很多年。
https://www.jianshu.com/p/2895a5e06b76
https://blog.csdn.net/weixin_33915554/article/details/86399361
https://www.jianshu.com/p/2cfc7638663d
【基因组注释】RepeatMasker和RepeatModeler安装、配置与运行避坑的更多相关文章
- Spark_安装配置_运行模式
一.Spark支持的安装模式: 1.伪分布式(一台机器即可) 2.全分布式(至少需要3台机器) 二.Spark的安装配置 1.准备工作 安装Linux和JDK1.8 配置Linux:关闭防火墙.主机名 ...
- mac下高效安装 homebrew 及完美避坑姿势 (亲测有效)
世上无难事,只要找到 Homebrew 的正确安装方式. Homebrew 是什么 Homebrew是 mac的包管理器,仅需执行相应的命令,就能下载安装需要的软件包,可以省掉自己去下载.解压.拖拽( ...
- 云服务器上安装配置Filezilla Server的坑!
1.Filezilla被动模式配置如下,需要使用比较大号的端口,用1024以内的不行! 2.相应的,IP筛选器放开TCP-50020端口.不是UDP! 3.可以正常访问了.GOOD! 4.注意,服务器 ...
- 一步到位Linux中安装配置MySQL及补坑
Windows上安装MySQL也就不讲了,基本上一路点击下一步就可完成,现在讲讲Linux上布署Mysql,虽然也有很多网友列出了详细的步骤,可能是因为版本过老的问题导致即使按照上面一步步来也还是出现 ...
- winserver2008R2安装配置JDK+tomcat之坑
记一次winserver安装jdk+tomcat 准备软件: jdk-8u241-windows-x64 apache-tomcat-8.5.46-windows-x64 一.安装java 1.安装j ...
- SSD(Single Shot MultiBox Detector)的安装配置和运行
下文图文介绍转自watersink的博文SSD(Single Shot MultiBox Detector)不得不说的那些事. 该方法出自2016年的一篇ECCV的oral paper,SSD: Si ...
- vue-i18n安装配置,运行
需求:根据浏览器语言自动切换语言 1.安装vue-i18n, yarn安装 $ yarn add vue-i18n npm安装 $ npm install vue-i18n 2.导入语言包 src下创 ...
- 在centos阿里云服务器上安装配置php运行环境 安装php7
http://blog.csdn.net/kesixin/article/details/72882469 单独安装php7 http://blog.csdn.net/tang05709/articl ...
- MongoDB Linux 安装配置 后台运行
介绍安装的文档很多,可以参考这篇: http://www.mkyong.com/mongodb/how-to-install-mongodb-on-mac-os-x/ 安装完后你可能会碰到的2个问题. ...
随机推荐
- vue3.x移动端页面基于vue-router的路由切换动画
移动端页面切换一般都具有动画,我们既然要做混合开发,做完之后还是不能看起来就像一个网页,所以我们基于vue-router扩展了一个页面切换push和pop的动画.这是一篇比较硬核的帖子,作者花了不少精 ...
- [软工顶级理解组] Beta阶段项目展示
目录 团队成员 软件介绍 项目简介 预期典型用户 功能描述 预期目标用户数 用户反馈 团队管理 分工协作 项目管理 取舍平衡 代码管理 程序测试 代码规范 文档撰写 继续开发指导性 用户沟通 需求分析 ...
- BUAA-OO-最后单元总结
BUAA-OO-最后单元总结 经过一学期的魔鬼"折磨"后,OO课程终于要结束了!总体来说我对于作业的总体完成情况还是比较满意的,希望最后可以取得一个理想成绩. 一.第四单元架构设计 ...
- SpringBoot整合多个RabbitMQ
一.背景 最近项目中需要用到了RabbitMQ来监听消息队列,监听的消息队列的 虚拟主机(virtualHost)和队列名(queueName)是不一致的,但是接收到的消息格式相同的.而且可能还存 ...
- luogu P2746 [USACO5.3]校园网Network of Schools 题解
前言: 火星题... 但是我调了半天,最后看了题解才明白. Wtcl 解析: 显然先缩个点. 第一问,就是问多少入度为0的点. 第二问,抽象一下就是要添加一些边,让一个DAG变成一个SCC,求最小边数 ...
- Django 开发------django-crontab实现服务端的定时任务
一.需求: 想实现类似 Linux 中crontab 的功能.定时执行计划任务. 二.配置: a.安装插件: # pip3 install django-crontab b.在settings.py ...
- APP自动化之Hybrid自动化解决方案(七)
基于UIAutomator+ChromeDriver模式(UIAutomator安卓原生引擎) 原理:native(原生)部分使用UIAutomator,webview部分使用ChromeDriver ...
- 目录扫描工具 dirsearch 使用详解
介绍 dirsearch 是一个python开发的目录扫描工具.和我们平时使用的dirb.御剑之类的工具一样,就是为了扫描网站的敏感文件和目录从而找到突破口. 特点 多线程 可保持连接 支持多种后缀( ...
- Java学到什么程度能找到一份还不错的工作
我的读者里有很多 Java 新人,新人是指正在学 Java 的.以及工作时间不长的年轻人,他们经常问我一个问题: Java 学到什么程度才能找到一份还不错的工作? 今天我就从我自己面试新人的角度来回答 ...
- CVAT 用户指南
用户指南 计算机视觉标注工具(CVAT)是基于 Web 为计算机视觉算法标注视频和图像的在线工具. 它的灵感来自Vatic免费的.在线的.交互式的视频注释工具. CVAT有许多强大的功能: 在关键帧之 ...