转载:http://fhqdddddd.blog.163.com/blog/static/18699154201241014835362/

http://blog.sina.com.cn/s/blog_4476400f0100iq0x.html

 
EST----
对EST序列进行冗余查找,利用CD_HIT软件聚类,快速批量去除冗余序列
est-trimer(去掉帽子和尾巴,去掉太短而不可信的)
RepeatMaster(去掉转座子等重复)
seqclean(去除载体,线粒体叶绿体等序列)
CAP3(拼接)
 
est-trimmer可以从 http://pgrc.ipk-gatersleben.de/misa/do- wnload/est_trimmer.pl 下载,就是个perl脚本,不用安装。脚本运行参数:
DESCRIPTION: Tool for trimming EST (DNA) sequences
## 
## SYNTAX:   est_trimmer.pl <FASTAfile> [-amb=n,win] [-tr5=(A|C|G|T),n,win]
##                          [-tr3=(A|C|G|T),n,win] [-cut=min,max] [-id=name]
##                          [-help]
## 
##    <FASTAfile>    Single file in FASTA format containing the sequence(s).
##    [-amb=n,win]   Removes distal stretches containing "n" ambiguous bases in
 a
##                   "win" bp sized window.
##    [-tr5=N,n,win] Removes stretches of the given type N={A,C,G,T} from the 5
'
##                   end. Value "n" defines the min. accepted repeat number of 
"N"
##                   in a 5' window of the size "win".
##    [-tr3=N,n,win] according to [-tr5] for the 3' end.
##    [-cut=min,max] Sets min. value for cutoff and max. sequence size.
##    [-id=name]     Optional. Final results are stored in "name".results, wher
eas
##                   processing steps are listed in "name".log. If not used,
##                   extensions are appended to <FASTAfile>.
##    [-help]        Further descriptions. Use "EST_trimmer.pl -help".
## 
##    Arguments can be used plurally and are processed according to their order
.
## 
## EXAMPLE:  est_trimmer.pl ESTs -amb=2,50 -tr5=T,5,50 -tr3=A,5,50 -cut=100,700
## ____________________________________________________________________________
___
## 
 
个人觉得-amb 太恐怖了,还是没有,-cut 删除了太多了 将700设定到最大,我是设定到10000。
我的命令:
perl est_trimmer.pl input  -tr5=T,5,50 -tr3=A,5,50 -cut=100,10000 -id=output
 
 

repeatmasker 下载地址:http://repeatmasker.org/RMDownload.html

repeatmasker 是个比较复杂的软件,参数比较多,此外还必须在本机装过crossmatch或者wu-blast要多看手册根据自己实际情况设定。其软件有个数据库,每年都更新,本地计算的必须要注意。
此外 repeatmasker运行真是慢,最好可以设成几个CPU一起算。
 
我的命令 repeatmasker input -e crossmatch -s
 
seqclean (下载:http://compbio.dfci.harvard.edu/tgi/software/)
我倒是没遇到参数的问题,就是得在NCBI上下载下载体序列ftp://ftp.ncbi.nih.gov/pub/UniVec/ 里面还有个core的,和全的,我的数据反正算的快,就选了比较大的那个文件,将univec用formatdb命令格式化下就可以直接用了
我的命令
 /usr/biosoft/blast-2.2.18/bin/formatdb -i UniVec -p F -o T
 /usr/biosoft/seqclean/seqclean BnE091007.fasta -v UniVec -o BnE_clean.fasta
 
当是我因为程序的权限不够,怎么都用不了。后来用chmod把seqclean程序的文件夹的东西都改了才行。还好最后终于成功了

38、EST序列拼接流程的更多相关文章

  1. 如何下载一个物种的全部EST序列 | NCBI | 表达序列标签

    EST:表达序列标签,expressed sequence tags . 顾名思义,很好理解,就是表达出来的序列,即从基因组DNA上表达出来的RNA,但是我们没法测序RNA,所以我们最终测的是表达序列 ...

  2. Bracket Sequences Concatenation Problem括号序列拼接问题(栈+map+思维)

    A bracket(括号) sequence is a string containing only characters "(" and ")".A regu ...

  3. Est数据库

    Est--编码序列,gene 片段且具有标签 其中,est数据库中是类似测序1.测序2.测序3这样的序列.实验室测得的序列是cDNA,通过上图方法拼接,电脑克隆(dbest).如果有overlap则认 ...

  4. (六)WebGIS中地图瓦片在Canvas上的拼接显示原理

    文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/. 1.前言 在之前的五个章节中,我们在第一章节里介绍了WebGIS的基本 ...

  5. python学习 数据类型之序列

    一.序列(本文使用python3.5)############################################################# 列表.元组 字符窜都是序列#特点:#1 ...

  6. opencv拼接相关1

    这里面都是一些比较杂的东西,没什么实际意义.主要是为了,后面能跑一个程序: Stitcher: 抠细节: http://docs.opencv.org/2.4.2/modules/stitching/ ...

  7. bowtie:短序列比对的新工具

    bowtie:短序列比对的新工具(转) (2014-11-17 22:15:24) 转载▼ 标签: 转载   原文地址:bowtie:短序列比对的新工具(转)作者:玉琪星兆 Bowtie是一个超级快速 ...

  8. 从底层谈WebGIS 原理设计与实现(六):WebGIS中地图瓦片在Canvas上的拼接显示原理

    从底层谈WebGIS 原理设计与实现(六):WebGIS中地图瓦片在Canvas上的拼接显示原理 作者:naaoveGI…    文章来源:naaoveGIS    点击数:1145    更新时间: ...

  9. [golang note] 流程控制

    流程控制 • 流程控制语句作用 ▪ 选择:根据条件跳转到不同的执行序列. ▪ 循环:根据条件反复执行某个序列. ▪ 跳转:据条件返回到某执行序列. • 流程控制语句类型 ▪ 条件语句:关键字为if.e ...

随机推荐

  1. Data Structure Linked List: Flattening a Linked List

    http://www.geeksforgeeks.org/flattening-a-linked-list/ #include <iostream> #include <vector ...

  2. FOJ 2213 简单几何

    题意:给你两个圆的圆心坐标和半径,判断两个圆公切线数目. 思路:考虑两个圆间公切线的情况,两个圆的位置关系分为相离,相交,外切,内切,内含,重合,公切线数分别为4,2,3,1,0,-1. #inclu ...

  3. HTTPSQS(HTTP Simple Queue Service)消息队列

    HTTPSQS(HTTP Simple Queue Service)是一款基于 HTTP GET/POST 协议的轻量级开源简单消息队列服务,使用 Tokyo Cabinet 的 B+Tree Key ...

  4. 使用button的:after伪类选择器内容的跳动

    按钮的css样式,想要作个美观一点的按钮,使用:after伪类选择器在按钮后跟随"!!"的符号,但点击按钮时按钮的值内容动,但跟随的"!!"符合不动,这样看起来 ...

  5. Windows- 改变cmd控制台默认显示编码

    在中国的电脑会要求兼容gbk编码,所以微软进入中国市场也顺应中国的要求,其中最明显的就是在cmd上默认的显示就是GBK .当开发人员在运行一些有打印中文的程序时,由于编码采用国际兼容版本的utf_8等 ...

  6. Linux下c++11多线程聊天室

    刚看的c++11多线程,写个聊天室试试编译的时候加上 c++11 和 多线程库g++ -Wall -std=c++0x -pthread -o server server.cppserver 和cli ...

  7. UTF-8 delphi 函数

    unit util_utf8;    interface    uses Windows;    type   UTF8String = AnsiString;      function AnsiT ...

  8. 自定义响应结构 AjaxResult()

    package com.dsj.gdbd.utils.ajax; import com.fasterxml.jackson.databind.JsonNode; import com.fasterxm ...

  9. PHP基于单例模式编写PDO类的方法

    一.单例模式简介 简单的说,一个对象(在学习设计模式之前,需要比较了解面向对象思想)只负责一个特定的任务: 二.为什么要使用PHP单例模式? 1.php的应用主要在于数据库应用, 所以一个应用中会存在 ...

  10. Javascript-- jQuery样式篇(二)

    jQuery的属性与样式 .attr()与.removeAttr() 每个元素都有一个或者多个特性,这些特性的用途就是给出相应元素或者其内容的附加信息.如:在img元素中,src就是元素的特性,用来标 ...