mothur summary.seqs 统计fasta文件中每条序列的长度
在介绍summary.seqs的用法之前,我们首先需要搞清楚两个概念:
1)ambiguous bases
中文叫做模糊碱基,对于DNA序列来说,只有ATCG 4种碱基,在IUPAC定义的碱基标准中,出了上述4种碱基之外,还包括其他的碱基,可以代表不同类型的碱基
代码 | 英文含义 | 中文含义 | |
G | Guanine | 鸟嘌啉 | |
A | Adenine | 腺嘌啉 | |
T | (U) | Thymine (Uracil) | 胸腺嘧啶 (尿嘧啶) |
C | Cytosine | 胞嘧啶 | |
R | (A or G) | PuRine | 嘌啉 |
Y | (C or T or U) | Pyrimidine | 嘧啶 |
M | (A or C) | Amino | 腺嘌啉或胞嘧啶(氨基) |
K | (G or T) | Ketone | 鸟嘌啉或胸腺嘧啶(酮基) |
S | (C or G) | Strong interaction | 强相互作用碱基 |
W | (A or T) | Weak interaction | 弱相互作用碱基 |
H | (A or C or T) | Not-G (H after G) | 非鸟嘌啉 |
B | (C or G or T) | Not-A (B after A) | 非腺嘌啉 |
V | (A or C or G) | Not-T/U (V after U) | 非胸腺嘧啶 |
D | (A or G or T) | Not-C (D after C) | 非胞嘧啶 |
N | (A or C or G or T) | Any | 不确定 |
模糊碱基实际上就是除了A T C G 这4种碱基之外的其他碱基
2)homopolymer base
由1个碱基重复多次的序列,比如GCAGAAAAAAA 序列中,末端的一串A就是 homopolymer base
summary.seqs的基本用法:
mothur "#summary.seqs(fasta = "input.fasta")"
运行成功之后,会生成input.summary 文件,内容如下:
seqname start end nbases ambigs polymer numSeqs
1 1 24 24 0 2 1
2 1 25 25 10 10 1
3 1 25 25 2 1 1
4 1 24 24 0 18 1
5 1 24 24 0 2 1
6 1 24 24 0 1 1
7 1 24 24 0 1 1
8 1 25 25 0 2 1
共7列,每列表头含义如下:
seqname : 序列标识符
start : 起始位置,从1开始
end : 终止位置,
nbases : 总碱基数,可以看做序列长度
ambigs : ambiguous bases 模糊碱基的数目
polymer : homopolymer 碱基的最大长度
numSeqs : 序列数,对于每条序列来说,其值总是为1
除了上述的基本用法外,summary.seqs 还有很多的参数;
processors : CPU个数,mothur 是支持并行的,通过设置processors 参数可以并行执行程序,用法如下:
mothur "#summary.seqs(fasta = "input.fasta", processors = 10)"
mothur summary.seqs 统计fasta文件中每条序列的长度的更多相关文章
- 使用python脚本实现统计日志文件中的ip访问次数
使用python脚本实现统计日志文件中的ip访问次数,注意此脚本只适用ip在每行开头的日志文件,需要的朋友可以参考下 适用的日志格式: 106.45.185.214 - - [06/Aug/2014: ...
- 统计一个文件中出现字符'a'的次数
# -*- coding: utf-8 -*- #python 27 #xiaodeng #统计一个文件中出现字符'a'的次数 #http://www.cnblogs.com/hongten/p/ho ...
- [linux] shell脚本编程-统计日志文件中的设备号发通知邮件
1.日志文件列表 比如:/data1/logs/2019/08/15/ 10.1.1.1.log.gz 10.1.1.2.log.gz 2.统计日志中的某关键字shell脚本 zcat *.gz|gr ...
- c语言统计一个文件中的单词,字符和行数
body, table{font-family: 微软雅黑; font-size: 10pt} table{border-collapse: collapse; border: solid gray; ...
- 统计python文件中的代码,注释,空白对应的行数
其实代码和空白行很好统计,难点是注释行 python中的注释分为以#开头的单行注释 或者以'''开头以'''结尾 或以"""开头以"""结尾 ...
- 根据位置信息提取 fasta 文件中的序列 -- extract fasta sequence by their position
#!/usr/bin/env python # usages: python extract_seq_by_pos.py input.fasta id_start_end > result.fa ...
- 统计py文件中的代码行
希望是输入一个合法的文件夹的路径,然后代码自动读取该文件夹下的每个py结尾的文件内的代码行数,最后汇总一个数,但现在只是有思路,却没时间写,这是能读取同级文件下的某个文件, with open('te ...
- 用 perl 统计 fasta 文件序列的总长
#!/usr/bin/perl -w use strict; die "Usage: $0 <file>\n" unless (@ARGV == 1); my $lin ...
- java简单统计.java文件中的有效代码行,空行,注释行
package regxdemo; import java.io.BufferedReader; import java.io.File; import java.io.FileNotFoundExc ...
随机推荐
- 【内核】linux2.6版本内核编译配置选项(一)
Linux 2.6.19.x 内核编译配置选项简介 作者:金步国 版权声明 本文作者是一位自由软件爱好者,所以本文虽然不是软件,但是本着 GPL 的精神发布.任何人都可以自由使用.转载.复制和再分发, ...
- windows下IntelliJ IDEA搭建kafka源码环境
于kafka核心原理的资料,网上有很多,但是如果不自己研究其源码,永远是知其然而不知所以然.下面就来演示如何在windows环境下来编译kafka源码,并通过IntelliJ IDEA开发工具搭建ka ...
- 【转】31个实用的find命令
find . -name "*.sql" -exec md5sum {} \; 一.主要内容 ====================================== . 用文 ...
- 服务端测试环境hosts配置检查脚本
[本文出自天外归云的博客园] 问题 由于A测试环境和B测试环境相互耦合,B测试环境切换导致我方测试环境需要更改后台服务器的响应配置.若多台服务器中有一台服务器没有更改配置,则在测试过程中将会出现问题. ...
- django配置超级管理员
Admin站点管理: 概述: 内容发布:负责添加,修改,删除内容的 公告访问 配置Admin应用: 在settings.py文件中的INSTALLED_APPS中添加'django.contrib.a ...
- ubuntu18安装ubuntu kylin软件中心
Install ubuntu-kylin-software-center Installing ubuntu-kylin-software-center package on Ubuntu 14.04 ...
- python matplotlib 画图
import numpy as np import matplotlib.pyplot as plt from pylab import * numpy 常用来组织源数据: 使用 plot 函数直接绘 ...
- JD 题目1040:Prime Number (筛法求素数)
OJ题目:click here~~ 题目分析:输出第k个素数 贴这么简单的题目,目的不清纯 用筛法求素数的基本思想是:把从1開始的.某一范围内的正整数从小到大顺序排列, 1不是素数,首先把它筛掉.剩下 ...
- nginx封ip,禁用IP段的设置说明
nginx的ngx_http_access_module 模块可以封配置内的ip或者ip段,语法如下: deny IP; deny subnet; allow IP; allow subnet; # ...
- [net]netcat 做网络端口监听
nc命令说明:https://www.cnblogs.com/nmap/p/6148306.html 如下: nc -vz -w domain/ip &> /dev/null & ...