miRNA预测工具miRDeep-P2

之前讲过预测植物miRNA的一款软件miR-PREFER, 今天在介绍一款软件miRDeep-p2, 也叫miRDP2

安装

　　在此之前，应安装一下软件

　　Bowite, Bowtie2, Vienna (RNA二级结构预测软件大礼包)

安装以上软件以后，在mirdp2下载最新版的miRDP2，以及ncRNA_rfam.tar.g

1 tar -xf miRDP2-v1.1.4.tar

2mv 1.1.4 miRDP2-v1.1.4

在TestData下载测试数据集--TestData.tar.gz

miRNA数据处理

（1）去接头，长度选择在18-30 bp，选用cutadapt

(2) 去低质量reads，可以用fastp

（3）将fastq 文件转成fasta文件，并去除冗余序列，每个reads的编号：read0_x29909，x后面表示相同的序列数，最后要保证FASTA中的每个序列都唯一。

可以选用以下脚本（将.fq 放在一个文件夹）：

 1 #!/usr/bin/env python

 2

 3 import os,re

 4 from collections import defaultdict

 5

 6 li = os.listdir(os.getcwd())

 7 oli = filter(lambda x: x.endswith(".fa"),li)

 8 oli.sort()

 9

10

11 for fil in oli:

12     info = defaultdict(int)

13     with open(fil) as f,\

14         open("%s.fa" %fil,"w") as o:

15         while 1:

16             name = f.readline()

17             seq = f.readline()

18             plus = f.readline()

19             qual = f.readline()

20             if name == '':

21                 break

22             info[seq.strip()] +=1

23         count = -1

24         for k,v in info.items():

25             count +=1

26             o.write(">read%s_x%s\n%s\n" %(count,v,k))

运行

再次之前，修改一下miRDP2-v1.1.4_pipeline.bash中的一个参数，因为我的RNAfold跑不通，所以修改

RNAfold --noPS 中的 --noPS参数。为-noPS

新建文件夹，用于存放测试数据

1 mkdir miRDP2_Test

将下载的测试数据以及Rfam文件上传到改文件夹，并压缩

1 tar xf ncRNA_rfam.tar.gz 2 tar xf TestData.tar.gz

建立索引

1 bowtie-build -f ./TestData/TAIR10_genome.fa ./TestData/TAIR10_genome.fa

3 ##为Rfam建立索引，一定得在流程中script/index 下目录下

5 bowtie-build -f ./ncRNA_rfam.fa miRDP2-v1.1.4/scripts/ram_index

其中ncRNA_rfam.fa 为Rfam中非编码RNA (包括rRNA, tRNA,snRNA, and snoRNA), 也可以从Rfam上自行下载所有RNA.fa序列，并根据RNA类型进行分类合并。

运行流程

1 miRDP2-v1.1.4_pipeline.bash -g ./TestData/TAIR10_genome.fa -x ./TestData/TAIR10_genome -f -i ./TestData/GSM2094927.fa -o ./ 

2
3 #-g 基因组序列 
4 #-x 索引 
5 #-f sRNA-seq 为fasta格式 
6 #-i 输入RNA文件，多个文件用逗号隔开 
7 #可选 
8 #-L：reads匹配到最少的位置，默认15， 以防有重复序列 
9 #-M：bowtie 的错配，默认为0

结果：

miRNA预测结果: GSM2094927-15-0-10_filter_P_prediction, 每列的内容分别为，“染色体编号”，“所在链”，“代表性的短读编号”，“前体编号”，“成熟miRNA位置”，“前体位置”，“成熟序列”，“前体序列 ”
日志文件: script_log和 script_err, 在运行出错时用于排除

软件大概步骤

（1）将reads 比对到ncRNA seq，和known miR mature seq得到 rfam_reads.aln, known_miR.aln

利用脚本 preprocess_reads.pl 对上述 rfam_reads.aln, known_miR.aln 过滤reads，得到 *.fa 以及 *-precessed.fa，*.total_reads

（2）mapping filtered reads

将 *-precessed.fa 比对参考基因组，得到 *_processed.aln

用 convert_bowtie_to_blast.pl 将 *_processed.aln --》 *-processed.bst （

用 filter_alignments.pl 过滤掉比对到一定次数以上（默认15）的reads， *-processed.bst ---》 *-processed_filter${len}.bst

（3）根据比对位置，提取上下游一定长度序列作为前提序列，并预测二级结构

利用 excise_candidate.pl ，将 *-processed_filter${len}.bst --》 *_precursors.fa

利用 RNAfold 软件预测2级结构， *_precursors.fa --》 _structures

（4）提取不是ncRNA的reads 作为signature preparation

将 *.fa 比对到参考基因组，得到 *.aln

利用convert_bowtie_to_blast.pl 将 *.aln --》*.bst

用 filter_alignments.pl 过滤掉比对到一定次数以上（默认15）的reads，将 *.bst ---》 *_filter${len}.bst

用 filter_alignments.pl 将 *_filter${len}.bst --》 *_filtered.fa

准备 reads signature file

对 *_precursors.fa 进行bowtie-build 建库

将 *_filtered.fa 比对到 *_precursors.fa，得到 *_precursors.aln

利用convert_bowtie_to_blast.pl 将 **_precursors.aln --》*_precursors.bst

将 *_precursors.bst --〉*_signatures

（5）miRDP core algorithm

利用 mod-miRDP.pl 将 *_signatures， *_structures --》_predictions

------END------

关注下方公众号可获得更多精彩

miRNA预测工具miRDeep-P2的更多相关文章

facebook开源的prophet时间序列预测工具---识别多种周期性、趋势性（线性，logistic）、节假日效应，以及部分异常值
简单使用代码如下这是官网的quickstart的内容,csv文件也可以下到,这个入门以后后面调试加入其它参数就很简单了. import pandas as pd import numpy as n ...
Facebook支持python的开源预测工具Prophet
Facebook 宣布开源一款基于 Python 和 R 语言的数据预测工具――“Prophet”,即“先知”.取名倒是非常直白. Facebook 表示,Prophet 相比现有预测工具更加人性化, ...
七种常见的核酸序列蛋白编码能力预测工具 | ncRNAs | lncRNA
注:这些工具的应用都是受限的,有些本来就是只能用于预测动物,在使用之前务必用ground truth数据来测试一些.我想预测某一个植物的转录本,所以可以拿已经注释得比较好的拟南芥来测试一下.(测试的结 ...
Ensembl突变数据描述之（一）——突变物种数据库及预测工具
以下是对Ensembl突变数据库中储存的数据的描述,对于Ensembl数据库中不同的物种,我们从各种来源(例如,dbSNP数据库)导入突变数据(SNP.CNV.等位基因频率.基因型等),导入的突变数据 ...
5、预测和鉴定miRNA的靶基因
转载:http://www.oebiotech.com/Article/mirnabjyyc.html http://www.ebiotrade.com/newsf/2014-9/2014925941 ...
R+先知︱Facebook大规模时序预测『真』神器——Prophet（遍地代码图）
经统专业看到预测的packages都是很眼馋的.除了之前的forecast包,现在这个prophet功能也很强大.本packages是由机器之心报道之后,抽空在周末试玩几小时.一些基本介绍可见机器之心 ...
DNA sequence open reading frames (ORFs) | DNA序列的开放阅读框ORF预测
常见的ORF预测工具 Open Reading Frame Finder- NCBI ORF Finder - SMS OrfPredictor - YSU 基本概念开放阅读框(英语:Open r ...
植物 miRNA 研究
相比动物miRNA 而言, 植物miRNA 的研究相对较少. 植物miRNA 相比动物miRNA , 有以下特点: 1) 植物miRNA 的长度为 21 nt 左右, 动物miRNA 长度在 22 ~ ...
蛋白质组DIA深度学习之谱图预测
目录 1. 简介 2. 近几年发表的主要工具 1.DeepRT 2.Prosit 3. DIANN 4.DeepDIA 1. 简介基于串联质谱的蛋白质组学大部分是依赖于数据库(database se ...

随机推荐

正则表达式: NFA引擎匹配原理
NFA引擎匹配原理 1 为什么要了解引擎匹配原理一个个音符杂乱无章的组合在一起,弹奏出的或许就是噪音,同样的音符经过作曲家的手,就可以谱出非常动听的乐曲,一个演奏者同样可以照着乐谱奏出动 ...
四万字32图，Kafka知识体系保姆级教程宝典
本文目录: 一.消息队列 Apache Pulsar Pulsar 与 Kafka 对比二.Kafka基础三.Kafka架构及组件四.Kafka集群操作五.Kafka的JavaAPI操作六. ...
Apache Kafka 学习笔记
1. 介绍Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写.Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据. 这种动 ...
决策树机器学习，西瓜书p80 表4.2 使用信息增益生成决策树及后剪枝
使用信息增益构造决策树,完成后剪枝目录使用信息增益构造决策树,完成后剪枝 1 构造决策树 1 根结点的选择色泽信息增益根蒂信息增益敲声信息增益纹理信息增益脐部信息增益触感信 ...
cf16E Fish（状压DP）
题意: N只FISH.每个回合会有一只FISH吃掉另一个FISH.直到池塘里只剩一只FISH. 给出aij:第i只FISH吃掉第J只FISH的概率. 问每一只FISH是最后存活者的概率. Input ...
Jmeter接口数据流测试及持续集成部署：（一）Jmeter环境搭建：安装JDK、安装Jmeter、安装Fiddler、安装ant
Jmeter环境搭建 1.安装JDK 官方下载地址:https://www.oracle.com/java/technologies/downloads/ 安装方法:双击jdk安装包,一直下一步安装即 ...
idea使用git更新代码 : update project（git merge、git rebase）
idea使用git更新代码 : 选中想要更新的项目,右键点击 git => repository => pull 这样使用一次后idea会自动建立选中分支的远程跟踪分支,以后可直接点击下图 ...
Python 官方研讨会：彻底移除 GIL 真的可行么？
作者:Łukasz Langa 译者:豌豆花下猫,来源:Python猫原文:https://lukasz.langa.pl/5d044f91-49c1-4170-aed1-62b6763e6ad0 ...
dotNET开发之MVC中Controller返回值类型ActionResult方法总结
1.返回ViewResult视图结果,将视图呈现给网页 2. 返回PartialViewResult部分视图结果,主要用于返回部分视图内容 3. 返回ContentResult用户定义的内容类型 4. ...
大爽Python入门教程 1-2 数与字符串
大爽Python入门公开课教案点击查看教程总目录 1 整数与浮点数整数大家都知道,比如1, 2, 10, 123, 都是整数int. 浮点数是什么呢? 上一节的除法运算,不知道有没有人注意到,其结 ...

miRNA预测工具miRDeep-P2

安装

miRNA数据处理

运行

软件大概步骤

miRNA预测工具miRDeep-P2的更多相关文章

随机推荐

热门专题