文件格式——fastq格式

fastQ格式

FASTQ是一种存储了生物序列（通常是核酸序列）以及相应的质量评价的文本格式.

他们都是以ASCII编码的。现在几乎是高通量测序的标准格式。NCBI Short Read Archive也是这格式，多了一些描述性词汇而已。

基本格式

包含四行，第一行由'@'开始，后面跟着序列的描述信息，这点跟FASTA格式是一样的；

第二行是序列；

第三行由'+'开始，后面也可以跟着序列的描述信息；

第四行是第二行序列的质量评价（quality values，注：应该是测序的质量评价），字符数跟第二行的序列是相等且对应的。

举例子

第一行以@开头，后面是reads的ID以及其他信息，例如上例中 HWUSI-EAS100R代表Illmina设备名称，6代表flowcell中的第六个lane，73代表第六个lane中的第73个tile，941:1973代表该read在该tile中的x：y坐标信息；#0，若为多样本的混合作为输入样本，则该标志代表样本的编号，用来区分个样本中的reads；/1代表paired end中的前一个read。

第二行为read的序列。

第三行以“+”开头，跟随者该read的名称（一般于@后面的内容相同），但有时可以省略，但“+”一定不能省。

第四行代表reads的质量。这一行可以详细说一下！

Q值得计算

Illumina测序仪是按照荧光信号来判断所测序的碱基是哪一种的，例如红黄蓝绿分别对应ATCG，那么一旦出现一个紫色的信号该怎么判断呢，因此对每个结果都有一个概率的问题。起初sanger中心用Phred quality score来衡量该read中每个碱基的质量，既-10lgP ，其中P代表该碱基被测序错误的概率，如果该碱基测序出错的概率为0.001，则Q应该为30，那么30+33=63，那么63对应的ASCii码为“？”，则在第四行中该碱基对应的质量代表值即为“？”，ASCii参考如图2

P=0.001时，Q=30;P=0.01时，Q=20;P=0.1时，Q=10。

图2

格式转换

FASTQ格式与Fasta格式、GenBank等格式可以相互转换。格式转换器如下：

Biopython version 1.51 onwards (interconverts Sanger, Solexa and Illumina 1.3+)

EMBOSS version 6.1.0 patch 1 onwards (interconverts Sanger, Solexa and Illumina 1.3+)

BioPerl version 1.6.1 onwards (interconverts Sanger, Solexa and Illumina 1.3+)

BioRuby version 1.4.0 onwards (interconverts Sanger, Solexa and Illumina 1.3+)

BioJava version 1.7.1 to 1.8.x (interconverts Sanger, Solexa and Illumina 1.3+)

MAQ can convert from Solexa to Sanger (use this patch to support Illumina 1.3+ files).

fastx_toolkit The included fastq_quality_converter program can convert Illumina to Sanger

Illumina中应用

Illmina有多种测序仪，从早期的GA、Hiseq2000、Hiseq2500以及Hiseq X, Hiseq2000一个flowcell中包含8个lane，每个lane可以测一个文库或多样本的混合文库，多样本混合文库如果需要后期区分则每个文库需要一个独特的标签，即Index。其中一个lane包含3列(3个Swath)，每一列又包含8个tile，每一个tile又会种下不同的cluster，如图1所示为Hiseq2500的FlowCell的一个表面。图3

图3

文件格式——fastq格式的更多相关文章

FASTQ格式
FASQT格式是用于存储生物序列(通常是核苷酸序列)及其相应的碱基质量分数的一种文本格式.为简洁起见,序列字母和质量分数均使用单个ASCII字符进行编码.最初由Wellcome Trust Sange ...
fasta/fastq格式解读
1)知识简介--------------------------------------------------------1.1)测序质量值首先在了解fastq,fasta之前,了解一下什么是质量 ...
文件格式——gff格式
Gff文件格式 gff格式是Sanger研究所定义,是一种简单的.方便的对于DNA.RNA以及蛋白质序列的特征进行描述的一种数据格式,已经成为序列注释的通用格式,比如基因组的基因预测,许多软件都支持输 ...
Spark直接读入fastq格式的数据
输入文件: fastq格式输出结果: kmer的频数和对应的kmer类型系统环境Ubuntu单机版17.01 spark版本2.7 此次测试主要用到了RDD的函数foreach和zipWithIn ...
文件格式——fasta格式
fasta格式在生物信息学中,FASTA格式(又称为Pearson格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式.在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注 ...
【转录组入门】3：了解fastq测序数据
操作:需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文件,并且用fastqc软件测试测序文件的质量作业:理解测序reads,GC含量,质量值,接头,index,fastqc ...
HDF5 文件格式简介
三代测序下机的原始数据不再是fastq格式了,而是换成了hdf5 格式,在做三代数据的分析之前,有必要先搞清楚hdf5 这种文件格式; 官网的链接如下:https://support.hdfgroup ...
26、HDF5 文件格式简介
转载:庐州月光 http://www.cnblogs.com/xudongliang/p/6907733.html 三代测序下机的原始数据不再是fastq格式了,而是换成了hdf5 格式,在做三代数据 ...
17、SAM文件格式说明（转载迷宫中的将军）
1. SAM格式说明 SAM代表Sequence Alignment/Map格式,是一种制表符分隔的文本格式,包含一个可选的头部分(header section,有人称之为“注释部分”),和一个比对部 ...

随机推荐

深入理解ES6之迭代器与生成器
迭代器迭代器 iterator,在 Javascript 中,迭代器是一个对象(也可称作为迭代器对象),它提供了一个 next() 方法,用来返回迭代序列中的下一项. next 方法的定义,next ...
server.xml笔记
本文总结自: http://www.importnew.com/26156.html 核心元素: 顶层元素: server service 连接器: connector 容器: engine > ...
django配置文件环境分离后celery的启动方式整理
django项目中,当配置文件分离时: 启动方式1: 硬编码写死在manage.py中: os.environ.setdefault("DJANGO_SETTINGS_MODULE" ...
查询速度优化用not EXISTS 代替 not in
1,not in 速度奇慢,要用 not EXISTS ,速度奇快! 大表效果尤其明显 sql中exists,not exists的用法 exists()后面的子查询被称做相关子查询,他是不返回列表的 ...
centos虚拟机启用网卡
CentOS虚拟机安装成功后,默认开机未启用网关,通过修改配置文件,启用网卡编辑系统配置文件,虚拟机完成后,系统安装了一个默认的网卡,即eth0,其配置文件的路径为/etc/sysconfig/ne ...
Python基础-list，tuple，dict，set常用方法及区别
1,列表list 列表定义方式 lis1=[1,2,3,4]#一维数组 lis2=[1,2,3,[4,5,6]]#二维数组依次多有多维数据,套几层就是几维数组列表的取值可以通过下标来,下标都是从0 ...
JavaUtil_08_StringUtil_commons-lang3 之 StringUtils
二.参考资料 1.[commons]字符串工具类——commons-lang3之StringUtils
python中的yield关键字
yield关键字一直困扰了我很久,一直也没有弄明白,现在将暂时理解的yield记录如下,供参考: 关键词:可迭代对象,生成器,迭代器一.可迭代对象: 可迭代对象:可迭代对象是一个泛称,只要可以用fo ...
转载解决Android与服务器交互大容量数据问题
对于目前的状况来说,移动终端的网络状况没有PC网络状况那么理想.在一个Android应用中,如果需要接收来自服务器的大容量数据,那么就不得不考虑客户的流量问题.本文根据笔者的一个项目实战经验出发,解决 ...
Execl to HTML
/************************************************************************* * Execl to HTML * 说明: * 这 ...

文件格式——fastq格式

文件格式——fastq格式的更多相关文章

随机推荐

热门专题