Pysam 处理bam文件

Pysam可用来处理bam文件

安装：

用 pip 或者 conda即可

使用：

Pysam的函数有很多，主要的读取函数有：

AlignmentFile：读取BAM/CRAM/SAM文件
VariantFile：读取变异数据（VCF或者BCF）
TabixFile：读取由tabix索引的文件；
FastaFile：读取fasta序列文件；
FastqFile：读取fastq测序序列文件

一般常用的是第一个和第二个。

例子：

1 import pysam

2

3 bf = pysam.AlignmentFile("in.bam","rb");  其中r = read， b：binary.  二进制文件。   bam文件index

bf是一个迭代器，可以next（）或者for读取

1  for i in bf:

2     print i.reference_name,i.pos,i.mapq,i.isize

结果：

1 ctg000331_np121 144935 27 -284

2 ctg000331_np121 144940 48 291

3 ctg000331_np121 144941 48 309

4 ctg000331_np121 144944 48 255

5 ctg000331_np121 144946 27 -370

6 ctg000331_np121 144947 27 -346

i.reference_name代表read比对到的参考序列染色体id；
i.flag bam的flag值
i.pos代表read比对的位置；
i.mapq代表read的比对质量值；
i.isize代表PE read直接的插入片段长度，有时也称Fragment长度；

很多功能见下图：

** pysam中的坐标位点是0开始，染色体起始位置为0，不是1

 1 ## sam 文件依次对应的12列

 2 r.qname:  reads 名

 3 r.flag ：Flag

 4 r.reference_name: 比对到的染色体

 5 r.pos+1： 比对位置，必须得加一

 6 r.mapq： 比对质量

 7 r.cigarstring： CIGAR

 8 r.next_reference_name：另外一条reads比对的参考基因组，若和第一条相同，则输出=

 9 r.mpos+1： 比对的位置，必须得加1

10 r.isize： 插入片段长度

11 r.seq：reads seq

12 r.qual： reads 质量

一些功能：

check_index()

检测index文件是否存在存在即为true

1 bf.check_index()

2 True

close（）

用完记得关闭

1 bf.close()

count(self，contig=None, start=None, stop=None, region=None, until_eof=False, read_callback='nofilter', reference=None，end=None)

计算目标区域内比对上的reads数目

1 bf.count(contig="ctg000331_np121", start=1, stop=6000)

2 24

count_coverage(self, contig=None, start=None, stop=None, region=None, quality_threshold=15, read_callback='all', reference=None, end=None)

计算目标区域内的覆盖度。返回1个4维的array，代表ACGT的覆盖度，而每个维度的array长度为100，里面的数字代表该碱基在各个位置上的覆盖度。

1   bf.count_coverage(contig="ctg000331_np121",start=1,stop=100)

fetch(self, contig=None, start=None, stop=None, region=None, tid=None, until_eof=False, multiple_iterators=False, reference=None, end=None)

提取出比对到目标区域内的全部reads。返回的是一个迭代器，可以通过for循环或者next函数从中取出reads，我们使用next()函数取出第一条reads，reads是用 AlignedSegment对象表示，可以通过该对象的内置方法再对这条reads进行一些查询操作。

1 allreads=bf.fetch(contig="ctg000331_np121",start=1,stop=10000)

2 是一个迭代器，可以用for循环获得

get_index_statistics(self)
通过index统计该BAM文件中在各个染色体上mapped/unmapped的reads个数

1 bf.get_index_statistics()

fetch函数定位特定区域

有时候我们并不需要遍历整一份BAM文件，我们可能只想获得区中的某一个区域（比如chr1中301-310中的信息），那么这个时候可以用Alignmen模块中的fetch函数：

bam文件必须要index

1 for r in bf.fetch('chr1', 300, 310)：

2     print r

3 bf.close()

关注下方公众号可获得更多精彩

参考

1、如何使用Pysam处理BAM

2、使用Pysam操作BAM文件

Pysam 处理bam文件的更多相关文章

pysam操作sam文件
pysam模块因为要分析sam文件中序列的情况,因此要对reads进行细分,所以之前想用数据库将sam文件信息存储,然后用sql语句进行分类.后来发现很麻烦,pysam就是一个高效读取存储在SAM ...
SAM/BAM文件处理
当测序得到的fastq文件map到基因组之后,我们通常会得到一个sam或者bam为扩展名的文件.SAM的全称是sequence alignment/map format.而BAM就是SAM的二进制文件 ...
bam文件softclip ， hardclip ，markduplicate的探究
测序产生的bam文件,有一些reads在cigar值里显示存在softclip,有一些存在hardclip,究竟softclip和hardclip是怎么判断出来的,还有是怎么标记duplicate ...
C++使用htslib库读入和写出bam文件
有时候我们需要使用C++处理bam文件,比如取出read1或者read2等符合特定条件的序列,根据cigar值对序列指定位置的碱基进行统计或者对序列进行处理并输出等,这时我们可以使用htslib库 ...
SAMTOOLS使用 SAM BAM文件处理
[怪毛匠子整理] samtools学习及使用范例,以及官方文档详解 #第一步:把sam文件转换成bam文件,我们得到map.bam文件 system"samtools view -bS m ...
bam文件测序深度统计-bamdst
最近接触的数据都是靶向测序,或者全外测序的数据.对数据的覆盖深度及靶向捕获效率的评估成为了数据质量监控中必不可少的一环. 以前都是用samtools depth 算出单碱基的深度后,用perl来进行深 ...
文件格式——Sam&bam文件
Sam&bam文件 SAM是一种序列比对格式标准, 由sanger制定,是以TAB为分割符的文本格式.主要应用于测序序列mapping到基因组上的结果表示,当然也可以表示任意的多重比对结果.当 ...
推荐一个SAM文件或者bam文件中flag含义解释工具
SAM是Sequence Alignment/Map 的缩写.像bwa等软件序列比对结果都会输出这样的文件.samtools网站上有专门的文档介绍SAM文件.具体地址:http://samtools. ...
怎么从bam文件中提取出比对OR没比对上的paired reads | bamToFastq | STAR
折腾这么多都是白瞎,STAR就有输出没有别对上的pair-end reads的功能参见:How To Filter Mapped Reads With Samtools I had the same ...

随机推荐

vue3.x异步组件
在大型应用中,我们可能需要将应用分割成小一些的代码块,并且只在需要的时候才从服务器加载一个模块 vue2.x 曾经简单的异步组件 components: { AsyncComponent: () =& ...
[no code][scrum meeting] Alpha 4
项目内容会议时间 2020-04-09 会议主题 OCR相关的技术展示与讨论会议时长 30min 参会人员全体成员 $( "#cnblogs_post_body" ).ca ...
Shell脚本学习笔记之（自动填充函数模板）
其实,vii 就是写的一个脚本,跟 vi 没半毛钱关系,只不过借用一下这个名字而已.那这个脚本长什么样呢?look: 下面来详细的解析上面的代码,来看第1行: #!/bin/bash 这是Shell脚 ...
Spring---IoC（控制反转）原理学习笔记【全】
1.IoC创建对象的方式使用无参构造创建对象假如要使用有参构造创建: 下标赋值constructor-arg  <bean id="User" ...
学会python永不加班系列之操作excel
python作为一种解释性语言,简单高效的模式逐渐火爆.同时存在多种扩展性. 永不加班系列 python正确操作excel 实验环境: 系统:win10 语言:python3.8 承载软件:pycha ...
关于iview、element-ui重置表单并清除校验的方法
平时在使用iview或者vue重置表单是时,我会习惯使用 this.$refs[formData].resetFields(); 但是直接这样写上去方法是不起作用的, 内容必须要在每个form-ite ...
五分钟，让你明白MySQL是怎么选择索引《死磕MySQL系列六》
系列文章二.一生挚友redo log.binlog<死磕MySQL系列二> 三.MySQL强人"锁"难<死磕MySQL系列三> 四.S 锁与 X 锁的 ...
ELK集群之kafka（7）
原理待补充: kafka依赖于zookeeper集群. 都是基于java 由于源码安装jdk 未声明bin下java 在各自server配置文件中声明 JAVA_HOME=/usr/local/jdk ...
AliRTC 开启视频互动 “零计算” 时代
在 2021 云栖大会<产业视频化创新与最佳实践>视频云主题论坛中,阿里云智能高级技术专家在<AliRTC 开启视频互动 "零处理" 时代>的主题演讲中,发 ...
Vuex状态管理——任意组件间通信
核心概念在Vue中实现集中式状态(数据)管理的一个Vue插件,对vue应用中多个组件的共享状态进行集中式的管理(读/写),也是一种组件间通信的方式,且适用于任意组件间通信. 每一个 Vuex 应用的 ...

Pysam 处理bam文件

Pysam 处理bam文件的更多相关文章

随机推荐

热门专题