bam文件测序深度统计-bamdst】的更多相关文章

最近接触的数据都是靶向测序,或者全外测序的数据.对数据的覆盖深度及靶向捕获效率的评估成为了数据质量监控中必不可少的一环. 以前都是用samtools depth 算出单碱基的深度后,用perl来进行深度及捕获效率的计算.今天无意中看到了bamdst(https://github.com/shiquan/bamdst)这个软件,用起来也很方便,参考GitHub,在此记录使用方法. 下载并安装:下载安装包并解压后, cd ./bamdst-master make 安装好后,需要准备.bed文件及.b…
[怪毛匠子 整理] samtools学习及使用范例,以及官方文档详解 #第一步:把sam文件转换成bam文件,我们得到map.bam文件 system"samtools view -bS map.sam > map.bam"; #第二步:sort 一下 BAM 文件,得到map.sorted.bam system"samtools sort map.b/am map.sorted"; #第三步:创建一个关于bam的索引文件,我们得到一个map.sorted.b…
Pysam可用来处理bam文件 安装: 用 pip 或者 conda即可 使用: Pysam的函数有很多,主要的读取函数有: AlignmentFile:读取BAM/CRAM/SAM文件 VariantFile:读取变异数据(VCF或者BCF) TabixFile:读取由tabix索引的文件: FastaFile:读取fasta序列文件: FastqFile:读取fastq测序序列文件 一般常用的是第一个和第二个. 例子: 1 import pysam 2 3 bf = pysam.Alignm…
当测序得到的fastq文件map到基因组之后,我们通常会得到一个sam或者bam为扩展名的文件.SAM的全称是sequence alignment/map format.而BAM就是SAM的二进制文件(B取自binary). 那么SAM文件的格式是什么样子的呢?如果你想真实地了解SAM文件,可以查看它的说明文档.SAM由头文件和map结果组成.头文件由一行行以@起始的注释构成.而map结果是类似下面的东西: HWI-ST1001:137:C12FPACXX:7:1115:14131:66670…
  测序产生的bam文件,有一些reads在cigar值里显示存在softclip,有一些存在hardclip,究竟softclip和hardclip是怎么判断出来的,还有是怎么标记duplicate的reads的,我怀着这些问题进行了探究. 测试步骤 编辑两个bed文件,分别含有我们需要的read1和read2位置,这里每个文件包含两条read1或者两条read2,read1.read2一对作为原始的reads(序列名primer_pri),另一对作为截取的材料(这里取序列名为other) 使…
  有时候我们需要使用C++处理bam文件,比如取出read1或者read2等符合特定条件的序列,根据cigar值对序列指定位置的碱基进行统计或者对序列进行处理并输出等,这时我们可以使用htslib库.htslib可以用来处理SAM, BAM,CRAM 和VCF文件,是samtools.bcftools的核心库. #include <stdio.h> #include <stdlib.h> #include <htslib/sam.h> using namespace…
Sam&bam文件 SAM是一种序列比对格式标准, 由sanger制定,是以TAB为分割符的文本格式.主要应用于测序序列mapping到基因组上的结果表示,当然也可以表示任意的多重比对结果.当测序得到的fastq文件map到基因组之后,我们通常会得到一个sam或者bam为扩展名的文件.SAM的全称是sequence alignment/map format.而BAM就是SAM的二进制文件(B取自binary). SAM由头文件和map结果组成.头文件由一行行以@起始的注释构成:而map结果是类似…
总是跑数据,却对数据一无所知,这说不过去吧. 看几篇文章吧 Sequencing depth and coverage: key considerations in genomic analyses(只讲二代) Assembly of large genomes using second-generation sequencing(参考文献) Identification of optimum sequencing depth especially for de novo genome asse…
package cn.it.zuoye5; import java.io.File;import java.util.HashMap;import java.util.Iterator;import java.util.Map;import java.util.Scanner;import java.util.Set; /** 键盘录入一个文件夹路径,统计该文件夹(包含子文件夹)中每种类型的文件及个数,注意:用文件类型(后缀名,不包含.(点),如:"java","txt&qu…
package com.swift.kuozhan; import java.io.File; import java.io.FileFilter; /*使用文件过滤器筛选将指定文件夹下的小于200K的小文件获取并打印(包括所有子文件夹的文件).*/ public class kuaozhan1 { public static void main(String[] args) { File dir = new File("c:/"); if(!dir.exists()) { throw…
文/朱季谦 我最近使用四台Centos虚拟机搭建了一套分布式hadoop环境,简单模拟了线上上的hadoop真实分布式集群,主要用于业余学习大数据相关体系. 其中,一台服务器作为NameNode,一台作为Secondary NameNode,剩下两台当做DataNodes节点服务器,类似下面这样一个架构-- NameNode Secondary NameNode DataNodes master1(192.168.200.111) √ master2(192.168.200.112) √ sla…
<?php //定义一个函数 统计目录大小函数 function dirSize($dirName) { //判断目录是否存在 if (!file_exists($dirName)) { die('目录不存在!'); } //判断是否是目录 if (!is_dir($dirName)) { die('您所遍历的不是目录!'); } //打开目录 $d = opendir($dirName); //判断打开目录是否成功 if (!$d) { die('打开目录失败!'); } //读取目录 whi…
需求分析: 程序处理用户需求的模式为: wc.exe [parameter][filename] 在[parameter]中,用户通过输入参数与程序交互,需实现的功能如下: 1.基本功能 支持 -c  统计文件字符数 支持 -w 统计文件单词数 支持 -l  统计文件总行数 2.拓展功能 支持 -a 返回高级选项(代码行 空行 注释行) [filename] 是待处理文件名. 能力有限,没有写出来-s:递归处理目录下符合条件的文件的功能,高级功能-x. 基本功能的实现: 这次写的程序条理还比较清…
监控指定文件夹,读取文件(新文件动态读取)里的内容,统计单词的数量. FileSpout.java,监控文件夹,读取新文件内容 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65…
完善了下 文件中的文件及文件夹中的复制!如果有更优解决方案请不吝指教 protected void FileDepthCopy(string source, string target){ if (Directory.Exists(source))//判断源文件是否存在 { if (!Directory.Exists(target))//判断要复制的文件夹是否存在 { Directory.CreateDirectory(target);//不存在则创建 } var files = Directo…
java 实现单词计数.top N 思路 先统计每个单词出现的个数 利用 TreeSet 的自动排序的功能 上代码 wordcount public void wordCount() { String route = "青岛路 青岛路 济阳路口东 济南路 宴坡路 "; Map<String, Integer> map = new HashMap<String, Integer>(); StringTokenizer st = new StringTokenize…
文件操作 (day7内容扩展) 1 文件基本操作 obj = open('路径',mode='模式',encoding='编码')obj.write()obj.read()obj.close() 2 打开模式 基本模式#打开文件f=open('要打开文件路径',mode='r/w/a/',encoding='文件原来编码') #f为接收变量#操作文件data = f.()  # 读取文件内部全部内容,data为接收内容f.write('要写内容')#关闭文件f.close() #文件打开新操作,…
SAM是Sequence Alignment/Map 的缩写.像bwa等软件序列比对结果都会输出这样的文件.samtools网站上有专门的文档介绍SAM文件.具体地址:http://samtools.sourceforge.net/SAM1.pdf 很多人困惑SAM文件中的第二列FLAG值是什么意思.根据文档介绍我们可以计算,但是为了方便大家,下面给大家提供一个脚本工具,大家直接输入flag值就可以知道它代表的含义了. 该脚本的使用方法如下截图所示: 脚本工具的使用方法: 将下面的代码保存在记事…
折腾这么多都是白瞎,STAR就有输出没有别对上的pair-end reads的功能 参见:How To Filter Mapped Reads With Samtools I had the same issue but with Paired End Reads, and I solved using samtools and bamToFastq. You can find bamToFastq here: https://code.google.com/p/hydra-sv/ If you…
我们发现这张xls表格是没有学生总分的,在xls文件中计算学生总分嫌麻烦时,可以考虑在R Studio中自定义R Script脚本来解决实际问题(计算每个学生的总成绩) .xls数据表中的数据(关键信息姓名已进行涂鸦) (读取xls文件方法及出现乱码解决方法 传送门) 实现过程 读取.xls文件,先找到要读取的"综合成绩.xls"文件目录 (读取xls文件方法及出现乱码解决方法 传送门) dat[i,]表示第i列数据 dat[,j]表示第j列数据 那么我们可以自己定义一个R Scrip…
1.jps -lvm  查出pid 2.jstack  pid >1.dump 3.grep java.lang.Thread.State 1.dump| awk '{print $2$3$4$5}' | sort | uniq -c…
首先感谢czbk的老师,录制的视频,让我们有这么好的学习资料.……—— 统计文件夹java文件的行数,首先想到的肯定是用递归的方法,因为文件夹下面可能包含文件夹,用递归的方法,代码容易写.(这和写简单的网络爬虫很像,一级页面下包含有二级页面的链接,二级页面又包含下一级的超链接)但是,用递归的方式有以下缺点: 如果文件夹层次很多,进而递归深度太大,容易栈溢出 用递归的方式,只能单线程执行,因为这一次的递归依赖于上一次的递归执行的结果 递归方式代码比较简单,如下: public class Line…
命令:os 用到的:os.walk   os.listdir 写的爬虫爬的数据,但是又不知道进行到哪了,于是就写了个脚本来统计文件的个数 #统计 /home/dir/ 下的文件夹个数 import os path ="home/dir" count = 0 for fn in os.listdir(path): #fn 表示的是文件名 count = count+1 print count 获取文件夹下的文件的个数: import os path = os.getcwd() #获取当前…
在Windows下面怎样通过命令行统计一个目录中文件的数量,或者说,如果在一个.bat文件中,统计一个目录中的文件数量? 我原来以为是不可能的,要编一个vbs程序什么的,后来到网上找了下,发现还真是可以的. dir /b 文件夹路径 | find /v /c "::" 当然,这种用法速度并不快,临时将就一下是可以的.毕竟是Windows,命令行的功能本来就很烂. 另外,上述命令把目录中的文件夹和文件都统计在内,如果只想统计文件,而忽略文件夹,可以加上“/a-d”选项. dir /b /…
统计当前文件夹里面有多少文件,即统计文件个数 ls -l |grep "^-"|wc -l 统计当前文件夹里面有多少文件夹,即统计文件夹个数 ls -l |grep "^d"|wc -l 统计文件夹下子文件夹内有多少文件个数 ls -lR|grep "^-"|wc -l 统计文件夹下目录个数包含子文件夹的 ls -lR|grep "^d"|wc -l…
<?php  #循环遍历目录中所有的文件,并统计目录和文件的大小  $dirName="phpMyAdmin";  $dir=opendir($dirName);  #返回一个资源类型  while($fileName=readdir($dir)){   $file=$dirName."/".$fileName;   if($fileName!="." && $fileName!=".."){    if…
先简单介绍 wc(Word Count)命令的功能为统计指定文件中的字节数.字数.行数,并将统计结果显示输出 格式:wc file 命令参数: -c 统计Bytes数(字节数),并显示文件名 -l 统计行数:使用换行符'\n'作为行结束标志,实际是统计换行符个数 -m 统计字符数.这个标志不能与 -c标志一起使用. -w 统计字数.一个字被定义为由空白.跳格或换行字符分隔的字符串. -L 打印最长行的长度. -help 显示帮助信息 --version 显示版本信息 实例: wc test.tx…
我想做到,按照voronoi多边形分割地图土地利用类型文件,统计每个多边形内不同地物的种类和数量.-----如图: 我的第一个想法是:首先用上层多边形将下层栅格图切割开来,然后就可以分别统计栅格内的地物总数了. 矢量分割栅格目前可能有三种方法: 方法1:data management ----raster----split raster 按多边形分割栅格数据--我的电脑并不能出结果,统一坐标系也不能,无解,,, 方法2:先用split将voronoi多边形矢量文件的多边形全部切分开成一个一个的多…
先给出github上的代码链接以及项目需求 1.项目概述 这个项目的需求可以概括为:对记事本(txt)文件进行单词的词频统计和排序,排序结果以指定格式输出到默认文件中,并要求能够快速地完成整个统计和结果输出功能.乍一看,这个功能实现起来十分简单,基本上就是遍历一遍文件,对提取出来的单词按照词频排个序就搞定了.但是要是考虑到性能问题,那还需要多动动脑筋.下面附上这项目的PSP表格. PSP2.1 PSP阶段 预估耗时(分钟) 实际耗时(分钟) PSP2.1 PSP阶段 预估耗时(分钟) 实际耗时(…
本次主要为满足应用方核对上传到ftp服务器的文件是否缺漏. 主要要求:指定目录下,文件夹数目/文件数目/所有文件大小,类似Windows如下功能: 模块介绍: from ftplib import FTP ftp = FTP() #设置变量 ftp.set_debuglevel(2) #打开调试级别2 显示详细信息 ftp.connect("IP", "port") #连接ftp, IP和端口 ftp.log("user", "pass…