转载:http://www.cnblogs.com/jinhh/p/8328818.html

三代测序的下机数据都有哪些,以及他们具体的格式是怎么样的(以sequel 平台为主)。

测序过程

SMRTbell

A adapter通用接头,两端的接头可以一样也可以不一样
    B barcode(客户自己设计)
    I insert 插入片段,即我们测序的目的片段
    由于SMRTbell是环状的,测序过程是边合成边测序,因此可以沿着新链合成的方向不停地读取序列,读取一圈又一圈,直到聚合酶累趴下了…

测序结果

根据SMRTbell的形状以及测序的过程,我们容易知道,测序出来的reads如上图所示,由接头序列, 条码序列, 插入序列间隔线性分布,即ABIB-ABIB—ABIB-ABIB—…(A: adapter, B: barcode, I: insert)
    ZMW read 是测序出来的完整结果,也即是polymerase read,聚合酶合成过的所有的序列。
    PostPrimary 分析后输出HQ region,由ZMW read 去除两端低质量区域得到。

收到的测序文件

RS II

Sequel

在下机文件中,主要有三类文件,bam 文件,bam.pbi 文件,以及xml文件。
    当我们习惯性的去寻找熟悉的fastq格式文件做分析时,忽然发现找不到了,因为在sequel平台中bam 文件成为了它的替代者,因为其更节约储存空间。这是文件格式的一个重大更新。
    用于后续分析的文件一般是.subreads.bam,这等同于RS II 中的.subreads.fastq
    下面仔细聊聊三类主要文件的具体格式,以及他们分别干什么活的。

Pacbio 的BAM 文件格式

我们平常见到的bam文件大多是比对结果文件,例如用重测序分析中BWA生成的bam文件就是reads与基因组的比对文件。但pacbio的下机文件是没有与基因组进行过比对过的,其主要作用就是储存序列。
    Bam文件主要分为两个部分,头一部分是Header,储存测序的相关信息,另一部分也即是文件的主要部分是records,这里头保存了我们的序列信息。我们这里就以subreads.bam文件为例,分析下bam文件的具体格式。
    可以用samtools view 命令查看bam文件

    第一列:reads信息
{movieName}/{holeNumber}/{qStart}_{qEnd}
[对于CCS:{movieName}/{holeNumber}/ccs]
MovieName 是cell的名字,holeNumer是ZMW孔的编号,qStart和qEnd是subreads相对于ZMW reads的位置。
    第二列 (sum of flags):比对信息 均为4 代表没有比对上,也表明了bam文件只储存了序列信息,而没有比对信息。
    第三列 (RNAM):参考序列 值为 ,代表无参考序列
    第四列 (position) : 比对上的第一个碱基位置 0
    第五列 (Mapping quality) : 比对质量分数 255
    第六列 (CIGAR值) : 比对的具体情况 
    第七列 (MRNM, ) : mate 对应的染色体 
    第八列 (mate position) : mate对应的位置 0
    第九列 (ISIZE, Inferred fragment size) : 推断的插入片段大小 0
    第十列 (Sequence) : 序列信息 具体的ATCG
    第十一列 (ASCII码) : 碱基质量分数 ASCII+33
    第十二列 : 可选区域 记录Reads 的总体属性包括信号长度,信号强度等信息。

BAM 文件分别都是些什么?

  1. zmws.bam 以及ccs.bam似乎公司并不一定会提供

  2. 经过检查,一条zmw reads 可以产生多条 subreads,也就是说subreads.bam 中,序列只是被剪下来了。

  3. scraps.bam 格式保存的是获取subreads时废弃的序列,包括adapter,以及一些低质量的序列

  4. CCS.bam保存的是矫正后的一致性序列。

BAM.pbi 文件

是bam文件的索引文件(PacBio BAM index),与上一个版本(RS II)的*cmp.h5文件兼容,其格式类似于HDF5, 通过BGZF格式压缩。
    其存在主要有两个作用

随机访问

通过参考序列,基因组区域
    通过read 组别
    通过qurey name
    通过ZMW
    通过barcode
    其他

在无需完全访问BAM文件的情况下,获取信息

获取统计信息

通过提供index访问记录信息

XML 文件

MetaData, 储存数据描述。可用于filter 或者subset等功能。

sts.xml 储存数据的统计信息。

SMRT Link CL tools in 5.0.0 dataset命令可以进行方便的操作。

参考资料
http://pacbiofileformats.readthedocs.io/en/5.0/

3、PACBIO下机数据如何看的更多相关文章

  1. PacBio下机数据如何看?

    一开始拿到三代测序的下机数据时,蒙了,readme ?三代测序的下机数据都有哪些,以及他们具体的格式是怎么样的(以sequel 平台为主). 测序过程 SMRTbell A adapter通用接头,两 ...

  2. PacBio下机数据解读

    今天被人问起如何看懂三代的下机数据,虽然解决了别人的问题,但感觉自己还是没有搞透. 基本的目录结构: |-- HG002new_O1l_BP_P6_021315b_MB_100pM | |-- D01 ...

  3. pacbio 原始下机数据h5 文件简介

    pacbio 采用hdf5文件格式保存原始的下机数据,对于RS 测序系统而言,会产生一个 bas.h5 的文件; 以bas.h5 文件为例,看一下有下机数据中保存了那些信息 h5dump 工具可以用来 ...

  4. 转载:推荐给每个“数据分析师”看的PPT——关于开会的那点事

    推荐给每个“数据分析师”看的PPT——关于开会的那点事 经常对开会“深恶痛绝”,大概的原因有两个,其一,开会之前的准备,各种指标.各种分析.各种PPT,其二,开会中的板凳.废话,尤其是走形式的会议,战 ...

  5. 深度挖坑:从数据角度看人脸识别中Feature Normalization,Weight Normalization以及Triplet的作用

    深度挖坑:从数据角度看人脸识别中Feature Normalization,Weight Normalization以及Triplet的作用 周翼南 北京大学 工学硕士 373 人赞同了该文章 基于深 ...

  6. Java 并发专题 :FutureTask 实现预加载数据 在线看电子书、浏览器浏览网页等

    继续并发专题~ FutureTask 有点类似Runnable,都可以通过Thread来启动,不过FutureTask可以返回执行完毕的数据,并且FutureTask的get方法支持阻塞. 由于:Fu ...

  7. Python爬取6271家死亡公司数据,看十年创业公司消亡史

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 朱小五 凹凸玩数据 PS:如有需要Python学习资料的小伙伴可以加 ...

  8. 数据人看Feed流-架构实践

    背景 Feed流:可以理解为信息流,解决的是信息生产者与信息消费者之间的信息传递问题.我们常见的Feed流场景有:1 手淘,微淘提供给消费者的首页商品信息,用户关注店铺的新消息等2 微信朋友圈,及时获 ...

  9. MySQL45讲笔记-事务隔离级别,为什么你改了数据我看不见

    简单来说,事务就是要保证一组数据库操作,要么全部成功,要么全部失败.在MySQL中,事务至此是在引擎层实现的,但并不是所有的MySQL引擎都支持事务,这也是MyISAM被InnoDB取代的原因之一. ...

随机推荐

  1. ICE 的回调

    使用分布式计算中间件ICE到现在已经有一年多了,在这一年里里面对ICE的理解.应用比较熟悉. 使用ICE写分布式软件,确实是很方便:ICE比较稳定.可靠,调用返回速度低延迟,使用简单,学习曲线不是很陡 ...

  2. FAT-fs (mmcblk0p1): Volume was not properly unmounted. Some data may be corrupt. Please run fsck.

    /******************************************************************************** * FAT-fs (mmcblk0p ...

  3. .net core结合Consul集群&Docker实现服务治理

    实战中的asp.net core结合Consul集群&Docker实现服务治理 https://www.cnblogs.com/guolianyu/p/9614050.html 0.目录 整体 ...

  4. Storm实时计算:流操作入门编程实践

    转自:http://shiyanjun.cn/archives/977.html Storm实时计算:流操作入门编程实践   Storm是一个分布式是实时计算系统,它设计了一种对流和计算的抽象,概念比 ...

  5. 四、Jmeter--参数化

    一.CSV 参数化 1.我们做性能测试需要并发多个用户,为了真实模拟用户行为,我们需要模拟多个不同的用户登录,这是我们就需要进行参数化.这里我们选择比较常用的参数化方法-CSV Data Set Co ...

  6. asp.net自动将页面中的所有空间置为不可用以及将所有文本框置空

    /// <summary> /// 遍历页面上所有控件 /// </summary> /// <param name="page">指定的Pag ...

  7. ps命令,性能监控,grep命令

    Linux中的ps命令是Process Status的缩写.ps命令用来列出系统中当前运行的那些进程.ps命令列出的是当前那些进程的快照,就是执行ps命令的那个时刻的那些进程,如果想要动态的显示进程信 ...

  8. L2-005. 集合相似度(set使用)

    L2-005. 集合相似度 时间限制 400 ms 内存限制 65536 kB 代码长度限制 8000 B 判题程序 Standard 作者 陈越 给定两个整数集合,它们的相似度定义为:Nc/Nt*1 ...

  9. 创建,查看,删除pool,查看,修改pool参数命令总结

    标签(空格分隔): ceph,ceph运维,pool 1. 创建pool命令: ceph的pool有两种类型,一种是副本池,一种是ec池,创建时也有所区别 1.1 创建副本池: $ sudo ceph ...

  10. C Primer Plus学习笔记(八)- 函数

    函数简介 函数(function)是完成特定任务的独立程序代码单元 使用函数可以省去编写重复代码的苦差,函数能让程序更加模块化,提高程序代码的可读性,更方便后期修改.完善 #include <s ...