MEME(Motif-based sequence analysis tools)使用说明

MEME是用于从一堆序列中搜索功能结构域的工具。比如说当你拿到了许多CHIP-chip或者CHIP-seq的数据,当分析出峰所处的位置之后可以得到一些这些峰所代表的序列,这就是蛋白质与DNA相到作用所保护下来的片段。所以使用MEME搜索其中非常相似的序列片段就可能是有一定功能的结构域。

所以,MEME的输入必须至少有一个Pearson/FASTA格式的序列文件。

命令:meme <dataset> [optional arguments]

这里的<dataset>就是那个序列文件,必须是Pearson/FASTA格式,文件格式示例:

          >ICYA_MANSE INSECTICYANIN A FORM (BLUE BILIPROTEIN)
GDIFYPGYCPDVKPVNDFDLSAFAGAWHEIAK
LPLENENQGKCTIAEYKYDGKKASVYNSFVSNGVKEYMEGDLEIAPDA
>LACB_BOVIN BETA-LACTOGLOBULIN PRECURSOR (BETA-LG)
MKCLLLALALTCGAQALIVTQTMKGLDI
QKVAGTWYSLAMAASDISLLDAQSAPLRVYVEELKPTPEGDLEILLQKW

FASTA文件使用 “>”来进行注释,其后第一个单词为序列名,其后是一些说明性的文字。而后另起一行为序列,直到下一个注释符号截止。

MEME可以读取FASTA文件当中的权重。权重为单独的一行注释,以>WEIGHT这一注释符号开始,注意WEIGHT必须全部大写。其后是介于0~1的数字。这些数字按照序列的排序排布。

          >WEIGHTS 0.5 .5 1.0
>seq1
GDIFYPGYCPDVKPVNDFDLSAFAGAWHEIAK
>seq2
GDMFCPGYCPDVKPVGDFDLSAFAGAWHELAK
>seq3
QKVAGTWYSLAMAASDISLLDAQSAPLRVYVEELKPTPEGDLEILLQKW

下面就是meme的相关参数的说明:

输出位置:

默认值为 meme_out/目录。如果这个目录不存在,会新建一个。输出的文件会有meme.html,meme.xml, meme.txt, meme.xsl以及一些LOGO图片。当然你也可以设置输出的位置。

  • -o <output dir> 输出目录名;如果已经存在的话覆盖该目录;
  • -oc <output dir> 输出目录名;如果已经存在的话覆盖该目录;
  • -text 只输出meme.txt文件。

DNA还是蛋白质:

MEME可以处理DNA序列和蛋白质序列文件,但是不能同时处理这两种不同格式的序列。所以必须指定是dna还是protein。MEME默认值为蛋白质。

对于DNA序列来说,可以包含ACGT,以及BDHKMNRSUVWY*-

对于蛋白质序列来说,可以包含ACDEFGHIKLMNPQRSTVWY,以及BUXZ*-

而其它的字符,MEME全部会转换为X(未知)。

  • -dna 序列为DNA序列
  • -protein 序列为蛋白质序列

功能域分布

一般来讲,你必须对功能域可能的分布有一定概念。默认值认为每一个功能域在每段序列中至多只能出现一次,要不就不出现。

 
  • -mod <string> 分布类型

    • oops 每个功能域在每一段序列中都会出现一次,而且只出现一次。这种模式是运算速度最快,而且最为敏感的。但是如果并不是每个序列都包含功能域,那就可能会有不正确的结果。
    • zoops 每个功能域在每一段序列中至多只出现一次,可能不出现。这种模式运算速度较快,敏感性稍弱。
    • anr 每个功能域在每一段序列中出现的次数不定。这种模式运算速度最慢,可能会多花十倍以上的时间。但是对于功能分布的情况完全未知的情况下,这一参数可能会有帮助。

与之关联的一个参数是

  • -maxsites

,这个后面会讲到。

搜索选项:

log likelihood ration (LLR) 以及 E-value是MEME用于搜索功能域排序的两个重要的依据。llr = log ( Pr ( sites | motif ) / Pr (sites | back ) )。其中,Pr ( sites | motif ) 是功能域序列每个残基出现的可能性,集合起来,就是一个距阵,被称为position-specific probability matrix (PSPM)。而Pr(sites|back)则是功能域在背景序列中出现的可能性,如果你提供了背景序列文件的话,与参数

  • -bfile

相关。

搜索选项分别为:

    1. 功能域数

      • -nmotifs <n> 一共搜索多少个功能域就停止。默认值为1。
      • -evt <p> 如果E-value大于<p>时,就停止搜索。默认值为无穷大。
    2. 功能域出现的次数
      • -nsites <n>
        -minsites <n>
        -maxsites <n>
        nsites设定之后,MEME搜索到一个功能域出现n次之后就停止该功能域的搜索并进入下一个功能域搜索。而出现次数的最小值和最大值由minsites和maxsites来设定。默认值为-minsites:2,-maxsites: zoops: 序列总数,anr:5倍序列总数或者50之间的最小值。而对于oops,这两参数不起作用。对于anr,如果你不设定,那MEME会至多搜索50次功能域。
      • -wnsites <n> 每次搜索到功能域时的权重设置,介于0~1之间 [0..1)。默认值为0.8。
    3. 功能域长度
      • -w <n>
        -minw <n>
        -maxw <n>
        功能域长度值。如果-w指定,那么只尝试指定长度的功能域。要不就设定最大值和最小值。默认值为 -minw 8, -maxw 50
      • -nomatrim
        -wg <a>
        -ws <a>
        -noendgaps
        序列比对相关的参数,-wg gap扣分 -ws 空隔扣分 -noendgaps 不扣分
    4. 背景模型
      • -bfile <bfile>
    5. 优先模型
      • -psp <pspfile>
        背景模型及优先模型可以使用MEME Suite的psp-gen工具来生成。
    6. DNA序列正反义及回文可能性
      • -revcomp 是否搜索互补链,默认不搜索,加上这个参数后就变成为搜索
      • -pal 是否优先回文结构,默认不搜索。
    7. Expectation Maximization (EM)算法
    8. Expectation Maximization (EM)初始化
    9. Expectation Maximization (EM)分枝搜索
      以上三组因为都比较复杂,就不讲述了。

MEME(Motif-based sequence analysis tools)使用说明的更多相关文章

  1. Predicting effects of noncoding variants with deep learning–based sequence model | 基于深度学习的序列模型预测非编码区变异的影响

    Predicting effects of noncoding variants with deep learning–based sequence model PDF Interpreting no ...

  2. Top 40 Static Code Analysis Tools

    https://www.softwaretestinghelp.com/tools/top-40-static-code-analysis-tools/ In this article, I have ...

  3. SGU 455 Sequence analysis(Cycle detection,floyd判圈算法)

    题目链接:http://acm.sgu.ru/problem.php?contest=0&problem=455 Due to the slow 'mod' and 'div' operati ...

  4. TCP/IP capture/analysis tools in Unix/Linux

    There are some useful tools in Unix/Linux to check out how the system is going on. Here is a short s ...

  5. Pure C static coding analysis tools

    Cppcheck - A tool for static C/C++ code analysiscppcheck.sourceforge.netCppcheck is a static analysi ...

  6. Comparison of Static Code Analysis Tools for Java

    http://www.sw-engineering-candies.com/blog-1/comparison-of-findbugs-pmd-and-checkstyle https://stack ...

  7. [SLAM] ***AR Tracking based on which tools?

    SLAM虽然小复杂,但对于开发者而言,ar sdk通常会解决这个问题. 所以相对于识别,跟踪是个看上去高大上但实则不需要关注细节的部分. 识别,要技术深耕:跟踪,需行业深耕. 在此了解下常见的ar s ...

  8. Analysis Tools(分析工具)

    分析工具 1.叠加分析 # Process: 交集取反 arcpy.SymDiff_analysis("", "", 输出要素类, "ALL" ...

  9. Open source and free log analysis and log management tools.

    Open source and free log analysis and log management tools. Maintained by Dr. Anton Chuvakin Version ...

随机推荐

  1. 搭建pyspider爬虫服务

    1. 环境准备 首先yum更新 yum update -y 安装开发编译工具 yum install gcc gcc-c++ -y 安装依赖库 yum install python-pip pytho ...

  2. 在 mvc 4 中使用 unity 进行依赖注入

    在 mvc 4 中使用 unity 进行依赖注入 关于依赖注入的概念,这里就不再叙述了,我们用 mvc 4 结合 unity,使用构造函数来进行依 赖注入.具体步骤如下: 1. 首先建立 一个 mvc ...

  3. C中运算符

    01,条件表达式, int a = (b>118)?118:a = b; printf("%d\n",a);//指如果b的值是118,则就设置a的值为118,不然就将b的值赋 ...

  4. leetcode504

    public class Solution { public string ConvertToBase7(int num) { ? "" : "-"; var ...

  5. 8.tomcat认证访问

    转自:https://wenku.baidu.com/view/84fa86ae360cba1aa911da02.html 接上例:namespce的作用除了在前面提到的避免协同开发名字冲突外,还为认 ...

  6. 相对固定位置 relative absolute

    <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

  7. as3 typeof 对象类型与返回结果对照表 is as

    is 和as 运算符使用很广泛.is 用来判断一个对象是否属于一种类型,返回布尔值,true 代表属于,false 表示不属于.使用格式如下:trace (9 is Number); //输出:tru ...

  8. 在eclipse中创建maven项目,亲测有效,详细步骤

    一.想要使用maven,首先要配置本地maven的环境 1.在http://maven.apache.org/download.cgi中去下载maven 2. 3.下载完毕后将压缩包解压到自己记住的位 ...

  9. Data Guard 介绍

  10. js获取或判断任意数据类类型的通用方法(getDataType)和将NodeList转为数组(NodeListToArray)

    function getDataType(any){ /* (1) Object.prototype.toString.call 方法判断类型: 优点:通用,返回"[object Strin ...