文件格式——fasta格式

fasta格式

在生物信息学中，FASTA格式（又称为Pearson格式），是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码，且允许在序列前添加序列名及注释。

格式

序列文件的第一行是由大于号">"或分号";"打头的任意文字说明（习惯常用">"作为起始），用于序列标记。从第二行开始为序列本身，只允许使用既定的核苷酸或氨基酸编码符号（参见下表）。通常核苷酸符号大小写均可，而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。文件每行的字母一般不应超过80个字符。

下面是FASTA格式的氨基酸序列实例：

>MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA DIDGDGQVNYEEFVQMMTAK*

FASTA格式支持的核苷酸代码如下：

核苷酸代码	意义
A	Adenosine
C	Cytosine
G	Guanine
T	Thymidine
U	Uracil
R	G A (puRine)
Y	T C (pYrimidine)
K	G T (Ketone)
M	A C (aMino group)
S	G C (Strong interaction)
W	A T (Weak interaction)
B	G T C (not A) (B comes after A)
D	G A T (not C) (D comes after C)
H	A C T (not G) (H comes after G)
V	G C A (not T, not U) (V comes after U)
N	A G C T (aNy)
X	masked
-	gap of indeterminate length

FASTA格式支持的氨基酸代码如下：

氨基酸代码	意义
A	Alanine
B	Aspartic acid or Asparagine
C	Cysteine
D	Aspartic acid
E	Glutamic acid
F	Phenylalanine
G	Glycine
H	Histidine
I	Isoleucine
K	Lysine
L	Leucine
M	Methionine
N	Asparagine
O	Pyrrolysine
P	Proline
Q	Glutamine
R	Arginine
S	Serine
T	Threonine
U	Selenocysteine
V	Valine
W	Tryptophan
Y	Tyrosine
Z	Glutamic acid or Glutamine
X	any
*	translation stop
-	gap of indeterminate length

最常见的FASTA格式

Fasta格式首先以大于号“>”开头，接着是序列的标识符“gi|187608668|ref|NM_001043364.2|”，然后是序列的描述信息。换行后是序列信息，序列中允许空格，换行，空行，直到下一个大于号，表示该序列的结束？？？。

所有来源于NCBI的序列都有一个gi号“gi|gi_identifier”，gi号类似与数据库中的流水号，由数字组成，具有绝对唯一性。一条核酸或者蛋白质改变了，将赋予一个新的gi号（这时序列的接收号可能不变）。

gi号后面是序列的标识符，下表是来源于不同数据库的标识符的说明。标识符由序列来源标识、序列标识（如接收号、名称等）等几部分组成，他们之间用“|”隔开，如果某项缺失，可以留空但是“|”不能省略。如上例中标识符为“ref|NM_001043364.2|”，表示序列来源于NCBI的参考序列库，接收号为“NM_001043364.2”。

文件中和每一行都不要超过80个字符（通常60个字符）。

对于核酸序列，除了为大家所熟知的A、C、G、T、U外，R代表G或A（嘌呤）；Y代表T或C（嘧啶）；K代表G或T（带酮基）；M代表A或C（带氨基）；S代表G 或C（强）；W代表A或T（弱）；B代表G、T或C；D代表G、A或T；H代表A、C或T；V代表G、C或A；N代表A、G、C、T中任意一种。

Database Name数据库名称	Identifier Syntax 标识符
GenBank	gb\|accession\|locus
EMBL Data Library	emb\|accession\|locus
DDBJ, DNA Database of Japan	dbj\|accession\|locus
NBRF PIR	pir\|\|entry
Protein Research Foundation	prf\|\|name
SWISS-PROT	sp\|accession\|entry name
Brookhaven Protein Data Bank	pdb\|entry\|chain
Patents	pat\|country\|number
GenInfo Backbone Id	bbs\|number
General database identifier	gnl\|database\|identifier
NCBI Reference Sequence	ref\|accession\|locus
Local Sequence identifier

表：序列来源的数据库与对应的标识符

数据库的冗余(redundancy)

DNA和蛋白质数据库中的很多记录是属于同一基因和蛋白质家族，或在不同生物体上发现的同源基因。不同的研究机构可能向数据库发送了相同的序列数据，如果没有被检查出来，则这些记录或多或少地紧密相关。当然，这些记录如果的确非常相近，可以被认定为它们是相同序列，但一些显著的差异可能是由于基因组多样性的结果。

冗余数据至少可能导致以下3个潜在的错误

一是如果一组DNA或氨基酸序列包含了大量非常相关序列族，则相应的统计分析将偏向这些族，在分析结果中，这些族的特性被夸大。

二是序列间不同部分的显著相关可能是在数据样本抽样时是有偏的和不正确的。

三是如果这些数据是被用于预测，则这些序列将使预测方法—如人工智能方法—发生偏离。

非冗余(non-redundant, nr)

生物数据非常复杂，它远非“冗余”二字可以准备描述。例如，同一位点上的2个等位基因是不是冗余的？同一生物体内的2个同功酶是否冗余？因此，过于苛刻地去除“太过于相似的序列”可能导致一些有价值的信息被删除，应在数据规模和非冗余之间找到一个合理的平衡点。

序列数据的偏差或人为假象(artifacts) 主要来自实验过程，这与其它科学数据的情况相同。这些人为假象主要来自以下几个方面：

(1) 载体序列污染：在测定序列等实验过程中，载体序列可能造成污染，致使序列记录数据中包含了载体序列。

(2) 异源(heterologous)序列污染：有研究表明一些人类cDNA测序结果在实验过程中被酵母和细菌序列污染。

(3) 序列的重排和缺失。

(4) 重复因子污染：cDNA克隆方法有时会受到逆转录因子(如Alus)的影响。

(5) 测序误差和自然多态性：测序过程存在一定的误差概率。

文件格式——fasta格式的更多相关文章

文件格式——gff格式
Gff文件格式 gff格式是Sanger研究所定义,是一种简单的.方便的对于DNA.RNA以及蛋白质序列的特征进行描述的一种数据格式,已经成为序列注释的通用格式,比如基因组的基因预测,许多软件都支持输 ...
文件格式——fastq格式
fastQ格式 FASTQ是一种存储了生物序列(通常是核酸序列)以及相应的质量评价的文本格式. 他们都是以ASCII编码的.现在几乎是高通量测序的标准格式.NCBI Short Read Archiv ...
perl练习——FASTA格式文件中序列GC含量计算&perl数组排序如何获得下标或者键
一.关于程序: FUN:计算FASTA文件中每条序列中G和C的含量百分比,输出最大值及其id INPUT:FASTA格式文件 >seq1 CGCCGAGCGCTTGACCTCCAGCAAGACG ...
fasta/fastq格式解读
1)知识简介--------------------------------------------------------1.1)测序质量值首先在了解fastq,fasta之前,了解一下什么是质量 ...
FASTQ格式
FASQT格式是用于存储生物序列(通常是核苷酸序列)及其相应的碱基质量分数的一种文本格式.为简洁起见,序列字母和质量分数均使用单个ASCII字符进行编码.最初由Wellcome Trust Sange ...
dex文件格式一
一.生成dex文件我们可以通过java文件来生成一个简单的dex文件编译过程: 首先编写java代码如下: (1) 编译成 java class 文件执行命令 : javac Hello.jav ...
Android加入新的视频格式－－媒体库扫描
需求:在mediaprovider数据库中加入.mov后缀格式的视频文件能够使用工具MediaInfo_GUI_0.7.67_Windows.3243836749.exe 查看mov文件编码格式类型 ...
dos与unix文件格式之间的转换
1. VI编辑器中转换在VI中使用命令 set ff?(fileformat)可以查看文件的格式,使用set ff=dos(unix)可以设置文件的格式 2.使用sed处理(来至http://www ...
dex文件格式学习
一.dex文件的生成我们可以通过java文件来生成一个简单的dex文件编译过程: 首先编写java代码如下: (1) 编译成 java class 文件执行命令 : javac Hello.ja ...

随机推荐

FHQ_treap
上个月还在舔\(splay\):\(FHQ-treap\)太好打了吧真香前言还是建议先把\(splay\)学好再看,讲得会比较粗略(但该有的不会少),或者左转其他文章 \(FHQ-treap\)是 ...
POJ 之2386 Lake Counting
Lake Counting Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 20003 Accepted: 10063 D ...
十八 Django框架，生成二维码
用Python来生成二维码,需要qrcode模块,qrcode模块依赖Image 模块,所以首先安装这两个模块生成二维码保存图片在本地 import qrcode img = qrcode.make ...
C# 多线程线程池(ThreadPool) 2 如何控制线程池？
线程池启动了,但是没有方法去控制线程池,如果子线程出现了问题,难道线程池就死了吗? 我们可以设置线程池的线程数量,进行加入任务,线程池会自动分配并且合理的执行,但是控制不了又有啥意思呢. 线程池里线程 ...
Git_学习_00_资源帖
1.廖雪峰: (1)Git教程 2.阮一峰: (1)Git分支管理策略 (2)Git远程操作详解 (3)Git 使用规范流程 (4)Github 的清点对象算法 (5)常用 Git 命令清单 (6)G ...
C++ template 声明与定义
今天编码的时候,发现了一个错误,就是模板代码在链接的时候找不到方法. 情况大概如下: 在 "Manager.h" 中 class Manager { public: templat ...
I.MX6 Android 永不休眠
/************************************************************************* * I.MX6 Android 永不休眠 * 说明 ...
buildroot mysql mysql.mk hacking
/*********************************************************************** * buildroot mysql mysql.mk ...
设置Suse linux 用户远程登录超时时间
执行 # echo "export TMOUT=900" >> /etc/profile 查询设置结果: # cat /etc/profile|grep TMOU ...
hdu 5269 ZYB loves Xor I 分治 || Trie
题目大意: 长度为\(n\)的数组A.求对于所有数对\((i,j)(i \in [1,n],j \in [1,n])\),\(lowbit(A_i xor A_j)\)之和.答案对998244353取 ...

文件格式——fasta格式

文件格式——fasta格式的更多相关文章

随机推荐

热门专题