参考资料:

这个学习急不来,而且比对非常重要,先把上面的官方SAM/BAM格式说明文件看透`Sequence Alignment/Map Format Specification`

SAMtools解决的问题

  • 非常多序列(read),mapping到多个参考基因组(reference)上;
  • 同一条序列,分多段(segment)比对到参考基因组上;
  • 无限量的,结构化信息表示,包括错配、删除、插入等比对信息;

samtools 格式详解

@SQ    SN:Supercontig_6    LN:4218384
SRR1216519.3960650 73 Supercontig_6 5 0 67M13S = 5 0 CTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCAACCCCAACCCCACACCCCACACC EEEEED?CEEFFDFFFDBFEEEDEAB=EBC@-?@?BE=EB?-B?#################################### NM:i:2 AS:i:57 XS:i:57
#R498-三代组装比对信息
@SQ SN:tig00000000 LN:110432
@SQ SN:tig00000001 LN:42601
@SQ SN:tig00000002 LN:14821
@PG ID:bwa PN:bwa VN:0.7.10-r789 CL:/public/software/bwa-0.7.10/bwa mem -e breakpoint.contigs breakpoint.contigs.fasta
tig00000000    0    tig00000002    6796    60    99995S62M1D17M2I2    *    0    0    TGAAAACACCAGTCGGTGGTCGGC    *    NM:i:228    MD:Z:7G16G34T2    AS:i:840    XS:i:0    SA:Z:tig00000001,41895,+,

SAM格式,即序列比对文件格式,由头部区(@开头)和 主体区组成,均以tab分列。

  • 头部区:体现比对的总体信息,如SAM格式版本,参考序列,使用软件。
  • 主体区:比对结果,每一列都是一个比对结果,有11个主列 和 1个可选列。

以上:

@SQ行:SN是参考序列名;LN是参考序列长度。

下一行分别是:

  1. QNAME(比对序列名);
  2. FLAG(比对类型,由2的次方的累加,如73=64+8+1);
  3. RNAME(比对上的参考序列名字)
  4. POS(比对上的序列最左边的碱基的位置)
  5. MAPQ(比对质量,BWA算出来的)
  6. CIGAR(比对结果信息,简写)
  7. MENM(pair序列比对在参考基因组上的名字,同上RNAME)
  8. MPOS(pair比对位置,同上POS)
  9. ISIZE(插入片段长度)
  10. SEQ(序列信息,来自fastQ)
  11. QUAL(质量信息,来自fastQ)
  12. 可选列(格式为TAG:TYPE:VALUE,提供额外信息)

 

局部组装常用命令及其参数

$samtoolsdir/samtools view -@ $NP -Sb $out/bwamem_$sample.sam -o $out/bwamem_$sample.bam
-@ 硬件参数
-S 输入为SAM文件
-b 输出为BAM文件
-o 指定输出文件
$samtoolsdir/samtools sort -@ $NP $out/bwamem_$sample.bam -o $out/bwamem_$sample.sorted.bam $samtoolsdir/samtools index $out/bwamem_$sample.sorted.bam

 

注意:目前使用的参数中均没有影响结果的参数

SAM格式 及 比对工具之 samtools 使用方法的更多相关文章

  1. 解读sam格式文件

    1,SAM文件格式介绍 SAM(The Sequence Alignment / Map format)格式,即序列比对文件的格式,详细介绍文档:http://samtools.github.io/h ...

  2. sam格式详细说明

    原文链接 https://www.jianshu.com/p/386f520e5de1 The SAM Format Specification(sam格式说明) 1 The SAM Format S ...

  3. BAM/SAM格式

    本质上就是二进制压缩的SAM文件,大部分生物信息学流程都需要这个格式,为了节省存储空间以及方便索引. # BiocInstaller::biocLite('Rsamtools') library(Rs ...

  4. 可视化工具之 IGV 使用方法

    整合基因组浏览器(IGV)是一种高性能的可视化工具,用来交互式地探索大型综合基因组数据.它支持各种数据类型,包括array-based的和下一代测序的数据和基因注释. IGV这个工具很牛,发了NB: ...

  5. Java 使用Redis缓存工具的图文详细方法

    开始在 Java 中使用 Redis 前, 我们需要确保已经安装了 redis 服务及 Java redis 驱动,且你的机器上能正常使用 Java. (1)Java的安装配置可以参考我们的 Java ...

  6. Java基础知识强化之集合框架笔记33:Arrays工具类中asList()方法的使用

    1. Arrays工具类中asList()方法的使用 public static <T> List<T> asList(T... a): 把数组转成集合 注意事项: 虽然可以把 ...

  7. Linux性能分析工具与图形化方法

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~. 作者:赵坤|腾讯魔王工作室后台开发工程师 在项目开发中,经常会遇到程序启动时间过长.CPU使用率过高等问题,这个时候需要依靠性能分析工具来 ...

  8. Hutool工具里,POST方法,body中传参的几种调用方法

    接口说明: POSTMAN测试: JAVA代码: package com.provy.guard.api; import java.util.HashMap; import java.util.Map ...

  9. WQL语言简介和WQL测试工具wbemtest.exe使用方法详细介绍

    这篇文章主要介绍了WQL语言简介和WQL测试工具wbemtest.exe使用方法详细介绍,WQL是指Windows管理规范查询语言,需要的朋友可以参考下 WQL就是WMI中的查询语言,WQL的全称是W ...

随机推荐

  1. sql server 添加字段并且赋默认值和说明

    select soct.Captcha,CreateOn,* from SceneryOrderCheckTicket soctright join (SELECT Captcha,convert(c ...

  2. Java中的内部类与匿名内部类总结

    内部类 内部类不是很好理解,但说白了其实也就是一个类中还包含着另外一个类 如同一个人是由大脑.肢体.器官等身体结果组成,而内部类相当于其中的某个器官之一,例如心脏:它也有自己的属性和行为(血液.跳动) ...

  3. centOS6.5安装SUN-jdk7

    一.下载SUN-JDK1.7.tar.gz文件他 地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1 ...

  4. C89标准库函数手册(待整理)

    http://zh.cppreference.com/w/c 前言 ANSI C(C89)标准库函数共有15个头文件.这15个头文件分别为: 1.<assert.h>            ...

  5. C#与C++(结构体内对象指定大小)

    C++结构体:struct DATAAREA { // 报警协议数据区结构 char szAlarmNo[20]; // 报警编号(必填) char szUserNo[10]; // 用户编号(必填) ...

  6. ruby学习总结02

    1.条件判断(nil或alse为假,其他值均为真) 1.if语句  if/elsif/else/end     条件成立时执行相关操作 2.unless语句   unless/else/end  条件 ...

  7. UVA 10453 十七 Make Palindrome

    Make Palindrome Time Limit:3000MS     Memory Limit:0KB     64bit IO Format:%lld & %llu Submit St ...

  8. Cheatsheet: 2014 04.01 ~ 04.30

    Java 115 Java Interview Questions and Answers – The ULTIMATE List 3 Good Reasons to Avoid Arrays in ...

  9. Cheatsheet: 2013 06.01 ~ 06.22

    .NET Git for Visual Studio and .NET developers How to download multiple files concurrently using Web ...

  10. Linux 在一个命令行上执行多个命令

    Linux 在一个命令行上执行多个命令 1. [ ; ] 如果被分号(;)所分隔的命令会连续的执行下去,就算是错误的命令也会继续执行后面的命令. 2. [ && ] 如果命令被 &am ...